一篇文章教你如何建立自己的語(yǔ)料庫(kù)
無(wú)論是在平常的翻譯練習(xí)還是在學(xué)術(shù)研究中,語(yǔ)料庫(kù)作為學(xué)習(xí)工具或是研究方法都不可或缺。那么,在做基于語(yǔ)料庫(kù)方法的研究時(shí)應(yīng)該如何建立自己的語(yǔ)料庫(kù)呢?看完這篇,一定能對(duì)你有所啟發(fā)!
一、語(yǔ)料庫(kù)是什么
語(yǔ)料庫(kù)一詞譯自英文“corpus(復(fù)數(shù)常用corpora)。
語(yǔ)料庫(kù)語(yǔ)言學(xué)家辛克萊將其定義為“按照一定的采樣標(biāo)準(zhǔn)采集而來(lái)的、能夠代表一種語(yǔ)言或某語(yǔ)言的一種變體或文類的電子文本”。
二、 如何建立語(yǔ)料庫(kù)
1.語(yǔ)料收集整理
語(yǔ)料通常都會(huì)以txt格式保存。
如果是書(shū)面語(yǔ)料,需要先掃描將其轉(zhuǎn)成電子版,然后通過(guò)OCR識(shí)別,再自行校對(duì)和格式轉(zhuǎn)換;
如果是語(yǔ)音語(yǔ)料,則需要首先進(jìn)行轉(zhuǎn)寫(xiě),再進(jìn)行后續(xù)步驟;
而如果已經(jīng)是電子語(yǔ)料(如pdf,mobi,html等)則直接進(jìn)行格式轉(zhuǎn)換即可。
OCR識(shí)別工具推薦:ABBYYFineReader2,天若文字識(shí)別,Adobe Acrobat Pro DC等。
格式轉(zhuǎn)換工具推薦:Adobe Acrobat Pro DC,或網(wǎng)站Aconvert,iLovePDF,Convertio等。
2.語(yǔ)料清洗
接下來(lái)就是語(yǔ)料的預(yù)處理,對(duì)語(yǔ)料進(jìn)行校對(duì)降噪。
在這個(gè)過(guò)程中,我們需要把整理好的文本中多余的空格、空行、回車、亂碼、錯(cuò)別字、以及其他不需要的信息(包括附錄,表格,前言等)都去除掉。
推薦工具:MS Word和EmEditor(網(wǎng)址https://www.emeditor.com/)
P.S.在語(yǔ)料清洗的過(guò)程中,正則表達(dá)式是一個(gè)好幫手,在一些語(yǔ)料清洗工具中也提供了快捷鍵,不需要手動(dòng)輸入正則表達(dá)式,且能滿足不少讀者的需要。小編在這里附上示例表:
感興趣的小伙伴可以在網(wǎng)址https://www.runoob.com/regexp/regexp-tutorial.html進(jìn)行了解和學(xué)習(xí)~
3.分詞標(biāo)注
首先請(qǐng)大家了解一下:
分詞(tokenization)是指將一串字符轉(zhuǎn)換成可以分析,容易識(shí)別的形符(token)——也就是詞語(yǔ)——的過(guò)程;
標(biāo)注(annotation)是指將文本中的詞語(yǔ)按照各種屬性(part of speech)進(jìn)行標(biāo)注;
但是請(qǐng)注意,對(duì)于漢語(yǔ)來(lái)說(shuō),分詞是必須的,因?yàn)闈h語(yǔ)的詞語(yǔ)之間沒(méi)有明顯分隔,不進(jìn)行分詞的話難以識(shí)別分析;而標(biāo)注不是必需步驟,在有需要時(shí)進(jìn)行即可。
舉個(gè)例子:
分詞前
分詞后
標(biāo)注后
分詞標(biāo)注工具推薦:TreeTagger,CorpuswordParser(漢語(yǔ)),StanfordParser(英漢)等
以上工具都可以在http://corpus.bfsu.edu.cn/TOOLS.htm進(jìn)行下載
4.平行對(duì)齊
截止以上前三步,語(yǔ)料的加工基本已經(jīng)完成,但如果你的語(yǔ)料是雙語(yǔ)或多語(yǔ),則需要對(duì)其進(jìn)行對(duì)齊處理。
對(duì)齊是指將多語(yǔ)言語(yǔ)料實(shí)現(xiàn)句子的一一對(duì)應(yīng),也可以實(shí)現(xiàn)段落的一一對(duì)應(yīng),以形成規(guī)范的語(yǔ)對(duì)。
對(duì)齊推薦工具:memoQ,Tmxmall等
對(duì)齊完成后如圖:
此圖出自于上海外國(guó)語(yǔ)大學(xué)語(yǔ)料庫(kù)研究院的《習(xí)近平談治國(guó)理政》多語(yǔ)數(shù)據(jù)庫(kù)綜合平臺(tái)
完成以上步驟就完成了對(duì)語(yǔ)料的處理和加工,成功建立了語(yǔ)料庫(kù)!
三、 一些推薦
語(yǔ)料庫(kù)建成后,小編在這里推薦兩個(gè)常用的語(yǔ)料庫(kù)檢索分析工具:Antconc和Wordsmith。這兩個(gè)軟件可以幫助大家更好地對(duì)語(yǔ)料進(jìn)行檢索,生成詞表等,是語(yǔ)料庫(kù)人不離手的好工具!
此外,除了自建語(yǔ)料庫(kù),大家也要利用好現(xiàn)有的語(yǔ)料庫(kù),如:
英國(guó)國(guó)家語(yǔ)料庫(kù)(British National Corpus,簡(jiǎn)稱BNC)
http://www.natcorp.ox.ac.uk/
美國(guó)當(dāng)代英語(yǔ)語(yǔ)料庫(kù)(Corpus of Contemporary American English,簡(jiǎn)稱COCA)
https://www.english-corpora.org/
SketchEngine
https://www.sketchengine.co.uk/
… …
以上就是本期全部?jī)?nèi)容啦,希望這篇文章可以在你探索語(yǔ)料庫(kù)建立的途中提供一些幫助~
實(shí)踐出真知,快去動(dòng)手試試吧~
特別說(shuō)明:本文僅供學(xué)習(xí)交流,如有不妥歡迎后臺(tái)聯(lián)系小編。
- END -
翻譯圈公眾號(hào)旨在為讀者提供名師和專家對(duì)口筆譯的真知灼見(jiàn),CATTI考試和MTI入學(xué)考試信息,翻譯等語(yǔ)言服務(wù)就業(yè)資訊,以及口筆譯學(xué)習(xí)資源和知識(shí),希望在翻譯之路上,為大家助上一臂之力。歡迎大家積極留言,為我們提供建設(shè)性意見(jiàn),我們共同進(jìn)步!
原文作者:張一孟
推文編輯:張子明