自制mdx格式蒙古語(yǔ)詞典
最新版:https://forum.freemdict.com/tag/%E8%92%99%E5%8F%A4%E8%AF%AD
專(zhuān)欄不方便編輯,后續(xù)的發(fā)布和更新也移到那里了。



雖然現(xiàn)在有許多優(yōu)秀的蒙古語(yǔ)在線(xiàn)詞典,但地址分散,不能屏幕取詞或詞條內(nèi)跳轉(zhuǎn),所以UP就進(jìn)行了集中抓取并各自制成了mdx+mdd格式詞典。
mdx詞典是通用的離線(xiàn)詞典形式,可在諸多軟件上使用,最有名的三個(gè)是GoldenDict、MDICT和歐路詞典。歐路詞典免費(fèi)版有功能限制。電腦端UP推薦GoldenDict(屏幕取詞、詞條內(nèi)點(diǎn)擊跳轉(zhuǎn)等很多功能),移動(dòng)端MDICT AD(屏幕取詞等),都是免費(fèi)的。很多人認(rèn)為移動(dòng)版歐路詞典最好用,但免費(fèi)版我的體驗(yàn)很差,指定目錄的詞典無(wú)法讀取。
mdx+mdd是html+css+javascript的架構(gòu)。mdx內(nèi)是詞典的內(nèi)容,而mdd內(nèi)存放的格式文件、字體、圖片、音頻等等。二者需要放在同一目錄下,使用同一名稱(chēng)。如果只有mdx文件,詞典的文字內(nèi)容可以正常使用。因?yàn)橐纛l文件比較大,且在移動(dòng)端不一定能播放,所以UP采用單獨(dú)打包的方式。例如,BolorToli附有音頻,文件BolorToli.mdx是詞典文字內(nèi)容,BolorToli.mdd是字體和格式文件,BolorToli.1.mdd是音頻。電腦端三者都下載,可以播放音頻(僅測(cè)試過(guò)GoldenDict),移動(dòng)端為了節(jié)約空間,可僅下載BolorToli.mdx和BolorToli.mdd。移動(dòng)端的音頻播放問(wèn)題比較復(fù)雜,UP自己本身沒(méi)有需求,還望有興趣的高手可以聯(lián)系UP解決這個(gè)問(wèn)題。

1、蒙漢詞典
①《蒙漢詞典》(增訂本)內(nèi)蒙古大學(xué)出版社 1999
電子版來(lái)源:http://hkuri.cneas.tohoku.ac.jp/ 在線(xiàn)詞典,使用說(shuō)明 http://hkuri.cneas.tohoku.ac.jp/guide/p01/menghan_dic_guide_chinese.pdf
注:在線(xiàn)詞典配有發(fā)音,但不是母語(yǔ)者錄的,質(zhì)量不高,故沒(méi)有收錄。在線(xiàn)詞典和原書(shū)相比:增添了對(duì)應(yīng)的西里爾文,修改了羅馬字轉(zhuǎn)寫(xiě)方案。在線(xiàn)詞典的羅馬字轉(zhuǎn)寫(xiě)方案參見(jiàn)上述使用說(shuō)明。
第一行:西里爾文、書(shū)面讀音(拉丁轉(zhuǎn)寫(xiě))、IPA、傳統(tǒng)蒙古文Unicode編碼名稱(chēng)。
支持檢索:蒙古文、西里爾文、拉丁轉(zhuǎn)寫(xiě)
PC版Goldendict演示:

詞典文件名稱(chēng)就是圖片中顯示的詞典名稱(chēng)。文件名稱(chēng)可自行修改,但mdx和mdd文件名必須一致。
豎排的兼容性比橫排差,受平臺(tái)和軟件的影響大,可能會(huì)顯示成橫排。
②《新蒙漢詞典》商務(wù)印書(shū)館1999
電子版來(lái)源:http://hkuri.cneas.tohoku.ac.jp/ 在線(xiàn)詞典
注:相比于原書(shū),在線(xiàn)詞典增添了羅馬字轉(zhuǎn)寫(xiě),但極少部分詞條沒(méi)有精校,存在明顯的亂碼。MDX版使用過(guò)程中,若UP發(fā)現(xiàn)了亂碼,會(huì)進(jìn)行精校。
支持檢索:蒙古文、西里爾文、拉丁轉(zhuǎn)寫(xiě)
PC版Goldendict演示:

2、蒙英詞典
③Bolor Toli
來(lái)源:http://www.bolor-toli.com/ 在線(xiàn)詞典
支持檢索:蒙古文(新增)、西里爾文
注:只抓取了蒙英部分。點(diǎn)擊藍(lán)色的BT按鈕可以發(fā)音。目前可能存在一些遺漏和重復(fù)。

④Bawden
Charles Bawden, mongolian-English Dictionary, Kegan Paul International, 1997
電子版來(lái)源:http://hkuri.cneas.tohoku.ac.jp/ 在線(xiàn)詞典
注:比較有名的蒙英詞典,收詞多。

3、蒙蒙詞典
⑤Mongol Toli
來(lái)源:https://mongoltoli.mn/
注:附有音頻,點(diǎn)擊藍(lán)色的MT按鈕可發(fā)音。
支持檢索:蒙古文、西里爾文

⑥Toli Query
來(lái)源:https://toli.query.mn/files
注:用的是網(wǎng)站提供的csv文件,不清楚是不是包含了在線(xiàn)查詢(xún)的所有詞條。原網(wǎng)站的蒙古文顯示有一點(diǎn)問(wèn)題。


二、專(zhuān)業(yè)詞典
1、西里爾文正字法詞典
⑦МОНГОЛ КИРИЛ БИЧГИЙН З?В БИЧИХЗ?ЙН ТОЛЬ. МОНСУДАР, 2011
電子版來(lái)源:http://hkuri.cneas.tohoku.ac.jp 在線(xiàn)詞典
注:UP沒(méi)有原書(shū),有些詞條中的符號(hào)不知道是什么意思。

⑧З?в Бичих Д?рмийн Журамласан Толь 2018
原書(shū):https://president.mn/wp-content/uploads/2018/06/HBUZ-Toli-2018-06-14-1.pdf
電子版來(lái)源:http://hkuri.cneas.tohoku.ac.jp 在線(xiàn)詞典
注:權(quán)威新蒙文正字法詞典。官網(wǎng)是http://toli.gov.mn/,帶有infelectional suffixes的詞可以查到拆分,這是pdf、mdx版沒(méi)有的。


2、外來(lái)詞詞典
⑨МОНГОЛ ХЭЛНИЙ ХАРЬ ?ГИЙН ТОЛЬ 1999
電子版來(lái)源:http://hkuri.cneas.tohoku.ac.jp 在線(xiàn)詞典

3、詞源詞典
⑩mongolian Etymology - starlingdb
來(lái)源:https://starlingdb.org/
注:收詞有限,基本都是阿爾泰語(yǔ)族詞匯。抓取的時(shí)候Nostratic并沒(méi)有展開(kāi),下一版本會(huì)糾正。

4、縮寫(xiě)詞典
?蒙古語(yǔ)縮寫(xiě)
直接來(lái)源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/mongolian_abbreviations.csv
注:最終來(lái)源不明。

5、國(guó)家、首都名詞典
?Countries-Capital
直接來(lái)源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/countries.csv
注:最終來(lái)源不明。
支持檢索:國(guó)家名、國(guó)家名全稱(chēng)、首都

6、人名庫(kù)
?Улсын Б?ртгэлийн Ер?нхий Газар - Нэрийн Сан - Нэр
直接來(lái)源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/mongolian_personal_names.csv.gz
最終來(lái)源:http://opendata.burtgel.gov.mn/civil 蒙古國(guó)國(guó)家統(tǒng)計(jì)局
注:直接來(lái)源并沒(méi)有涵蓋官網(wǎng)的最新數(shù)據(jù)

7、姓氏庫(kù)
?Улсын Б?ртгэлийн Ер?нхий Газар - Нэрийн Сан - Ургийн Овог
直接來(lái)源:https://github.com/tugstugi/mongolian-nlp/blob/master/datasets/mongolian_personal_names.csv.gz
最終來(lái)源:http://opendata.burtgel.gov.mn/civil 蒙古國(guó)國(guó)家統(tǒng)計(jì)局
注:直接來(lái)源并沒(méi)有涵蓋官網(wǎng)的最新數(shù)據(jù)


各個(gè)在線(xiàn)詞典傳統(tǒng)蒙古文的編碼并不一致,現(xiàn)階段并沒(méi)有進(jìn)行統(tǒng)一,僅僅是采用原網(wǎng)頁(yè)的蒙古文字體,達(dá)到和原網(wǎng)頁(yè)相同的文字顯示的正確率。
后續(xù)更新和優(yōu)化,新詞典的補(bǔ)充會(huì)在本文章進(jìn)行更新。
有問(wèn)題的話(huà)可以在這里反饋。
鏈接: https://pan.baidu.com/s/1kX4smM13l4v3k-SwwD5D8A 提取碼: yyft 復(fù)制這段內(nèi)容后打開(kāi)百度網(wǎng)盤(pán)手機(jī)App,操作更方便哦
--來(lái)自百度網(wǎng)盤(pán)超級(jí)會(huì)員v8的分享

更新日志
2022-7-3
《蒙漢詞典》:
修復(fù)拉丁索引,每個(gè)詞條單詞成索引
《新蒙漢詞典》
個(gè)別詞條精校
設(shè)置傳統(tǒng)蒙古文為索引,拉丁文、西里爾文跳轉(zhuǎn)
刪除拉丁文詞頭中的符號(hào)
MongolToli
無(wú)損地統(tǒng)一音量
BolorToli
增加第二輪遍歷的搜索結(jié)果
增加傳統(tǒng)蒙古文索引,修正西里爾文索引
修改排版,索引為西里爾文時(shí)傳統(tǒng)蒙古文橫排,為傳統(tǒng)蒙古文時(shí)豎排,并且避免重復(fù)顯示
去除重復(fù)詞條
優(yōu)化音頻文件結(jié)構(gòu),去除重復(fù)音頻,修正空白音頻
無(wú)損地統(tǒng)一音量
2022-8-16
新增詞典
1、wordNet (derivational suffix 構(gòu)詞拆分)

2、蒙英詞典 БАТ-ИРЭЭД?Й, БААСАНБАТ, Монгол-англи сурагчийн толь 2005

3、蒙蒙詞典 Цэвэл, МОНГОЛ ХЭЛНИЙ ТОВЧ ТАЙЛБАР ТОЛЬ 1966

更新詞典
BolorToli
添加第三輪、第四輪遍歷的結(jié)果,擴(kuò)充收詞量
Unicode名稱(chēng)縮短,并且僅在含有控制符時(shí)顯示
修正雙擊同時(shí)選中蒙古文和Unicode名稱(chēng)的錯(cuò)誤
傳統(tǒng)蒙古文字母kh改為k
精校
排版:以傳統(tǒng)蒙古文分段,只顯示一次傳統(tǒng)蒙古文,并改為豎排
補(bǔ)充缺乏的傳統(tǒng)蒙古文(西里爾文對(duì)傳統(tǒng)蒙古文1對(duì)1的情況)
處理缺乏西里爾文的詞條
添加拉丁索引,實(shí)現(xiàn)用拉丁轉(zhuǎn)寫(xiě)查詞
去除重復(fù)詞義
按內(nèi)蒙正字法校正傳統(tǒng)蒙古文拼寫(xiě)
改為Universal Mongolian White字體(Unicode,標(biāo)準(zhǔn)2010)

MongolToli
Unicode名稱(chēng)縮短,并且僅在含有控制符時(shí)顯示
按內(nèi)蒙正字法校正傳統(tǒng)蒙古文拼寫(xiě)
空格 Ugei → NNBSP Ugei
傳統(tǒng)蒙古文字母kh改為k
精校
補(bǔ)充缺乏的傳統(tǒng)蒙古文(西里爾文對(duì)傳統(tǒng)蒙古文1對(duì)1的情況)
處理缺乏西里爾文的詞條
修正多詞義詞條無(wú)音頻的問(wèn)題(目前存在大量重復(fù)音頻,導(dǎo)致mdd文件較大)
改為Universal Mongolian White字體(Unicode,標(biāo)準(zhǔn)2010)
З?в Бичих Д?рмийн Журамласан Толь 2018
從官網(wǎng)添加外來(lái)詞
原詞條僅提供單詞的變位、變格分類(lèi)以及每類(lèi)的變化規(guī)則,這里補(bǔ)充涉及到的每個(gè)單詞的變形形式
將變形后的形式添加到索引,比如搜索унтаазай,會(huì)自動(dòng)跳轉(zhuǎn)到унтах詞條


蒙漢詞典
Unicode名稱(chēng)縮短,并且僅在含有控制符時(shí)顯示
空格 Ugei → NNBSP Ugei
精校
拉丁文-改為=
補(bǔ)充缺乏的拉丁撰寫(xiě)
補(bǔ)充缺乏的西里爾蒙古文(老對(duì)新1對(duì)1的情況)
新蒙漢詞典
Unicode名稱(chēng)縮短,并且僅在含有控制符時(shí)顯示
按內(nèi)蒙正字法校正傳統(tǒng)蒙古文拼寫(xiě)
空格 Ugei → NNBSP Ugei
精校
拉丁文-改為=
補(bǔ)充缺乏的拉丁撰寫(xiě)
補(bǔ)充缺乏的傳統(tǒng)蒙古文(新對(duì)老1對(duì)1的情況)
校正詞義中~替換為詞頭的拼寫(xiě)錯(cuò)誤
ToliQuery
Unicode名稱(chēng)縮短,并且僅在含有控制符時(shí)顯示
A I I → A I,?? Y Y FVS1 → Y I
空格 Ugei → NNBSP Ugei
精校