[Kindle英英詞典] Microsoft Encarta Dictionary

? ? 由MDX格式轉(zhuǎn)制而來(lái),個(gè)人非常喜歡的一本英英詞典,兩年前曾嘗試過(guò),后來(lái)發(fā)現(xiàn)標(biāo)簽太復(fù)雜就放棄了。這次重新看了下,發(fā)現(xiàn)是xml標(biāo)簽,且都比較齊備,用beautifulsoup試了下,可以完整提取,便制作了此詞典。

? ? 一共300行代碼,寫(xiě)到最后頭有點(diǎn)暈。不過(guò)沒(méi)想到調(diào)試幾次就成了,且最后零異常跑完,淚目...

? ? 由于這次能接觸到原始數(shù)據(jù),結(jié)合我對(duì)Kindle查詞界面渲染機(jī)制的理解,重寫(xiě)了HTML,使其能以最佳狀態(tài)顯示。
修改內(nèi)容:
? ? 1. 提取除例句外所有內(nèi)容,跳了各種詞以收集特殊標(biāo)簽,不過(guò)不排除有漏網(wǎng)之魚(yú)。例句時(shí)我刻意不提去的,至于原因,長(zhǎng)時(shí)間使用過(guò)Kindle的人應(yīng)該明白。
? ? 2. 剔除Kindle無(wú)法查詢(xún)的102條詞條。
? ? 3. 為每個(gè)詞條獨(dú)立添加變形詞,優(yōu)點(diǎn)是可以繞過(guò)Kindle對(duì)變形詞標(biāo)簽總長(zhǎng)255字節(jié)的限制,以使絕大部分變形詞 及 大部分以動(dòng)詞開(kāi)頭的短語(yǔ)動(dòng)詞如looked out等都能查詢(xún),缺點(diǎn)是文件會(huì)變大3-4倍。
詞典生成后上機(jī)測(cè)試時(shí)發(fā)現(xiàn)單詞的各種時(shí)態(tài)及變形有點(diǎn)影響查詞,比如go詞條:

像變形詞多到這個(gè)程度的詞應(yīng)該不多,所以不作進(jìn)一步處理了。
以下是樣圖:



鏈接: https://pan.baidu.com/s/1n2tV_mP8AoTeNEZpE8UkZA 提取碼: v4s9