最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

一篇文章教你如何建立自己的語(yǔ)料庫(kù)

2023-08-18 19:00 作者:翻譯技術(shù)點(diǎn)津  | 我要投稿




無(wú)論是在平常的翻譯練習(xí)還是在學(xué)術(shù)研究中,語(yǔ)料庫(kù)作為學(xué)習(xí)工具或是研究方法都不可或缺。那么,在做基于語(yǔ)料庫(kù)方法的研究時(shí)應(yīng)該如何建立自己的語(yǔ)料庫(kù)呢?看完這篇,一定能對(duì)你有所啟發(fā)!


一、語(yǔ)料庫(kù)是什么

語(yǔ)料庫(kù)一詞譯自英文“corpus(復(fù)數(shù)常用corpora)。

語(yǔ)料庫(kù)語(yǔ)言學(xué)家辛克萊將其定義為“按照一定的采樣標(biāo)準(zhǔn)采集而來(lái)的、能夠代表一種語(yǔ)言或某語(yǔ)言的一種變體或文類的電子文本”。


二、 如何建立語(yǔ)料庫(kù)

1.語(yǔ)料收集整理

語(yǔ)料通常都會(huì)以txt格式保存。

如果是書(shū)面語(yǔ)料,需要先掃描將其轉(zhuǎn)成電子版,然后通過(guò)OCR識(shí)別,再自行校對(duì)和格式轉(zhuǎn)換;

如果是語(yǔ)音語(yǔ)料,則需要首先進(jìn)行轉(zhuǎn)寫(xiě),再進(jìn)行后續(xù)步驟;

而如果已經(jīng)是電子語(yǔ)料(如pdf,mobi,html等)則直接進(jìn)行格式轉(zhuǎn)換即可。

OCR識(shí)別工具推薦:ABBYYFineReader2,天若文字識(shí)別,Adobe Acrobat Pro DC等。

格式轉(zhuǎn)換工具推薦:Adobe Acrobat Pro DC,或網(wǎng)站Aconvert,iLovePDF,Convertio等。



2.語(yǔ)料清洗

接下來(lái)就是語(yǔ)料的預(yù)處理,對(duì)語(yǔ)料進(jìn)行校對(duì)降噪。

在這個(gè)過(guò)程中,我們需要把整理好的文本中多余的空格、空行、回車、亂碼、錯(cuò)別字、以及其他不需要的信息(包括附錄,表格,前言等)都去除掉。

推薦工具:MS Word和EmEditor(網(wǎng)址https://www.emeditor.com/)

P.S.在語(yǔ)料清洗的過(guò)程中,正則表達(dá)式是一個(gè)好幫手,在一些語(yǔ)料清洗工具中也提供了快捷鍵,不需要手動(dòng)輸入正則表達(dá)式,且能滿足不少讀者的需要。小編在這里附上示例表:



感興趣的小伙伴可以在網(wǎng)址https://www.runoob.com/regexp/regexp-tutorial.html進(jìn)行了解和學(xué)習(xí)~


3.分詞標(biāo)注

首先請(qǐng)大家了解一下:

分詞(tokenization)是指將一串字符轉(zhuǎn)換成可以分析,容易識(shí)別的形符(token)——也就是詞語(yǔ)——的過(guò)程;

標(biāo)注(annotation)是指將文本中的詞語(yǔ)按照各種屬性(part of speech)進(jìn)行標(biāo)注;

但是請(qǐng)注意,對(duì)于漢語(yǔ)來(lái)說(shuō),分詞是必須的,因?yàn)闈h語(yǔ)的詞語(yǔ)之間沒(méi)有明顯分隔,不進(jìn)行分詞的話難以識(shí)別分析;而標(biāo)注不是必需步驟,在有需要時(shí)進(jìn)行即可。

舉個(gè)例子:

分詞前


分詞后


標(biāo)注后



分詞標(biāo)注工具推薦:TreeTagger,CorpuswordParser(漢語(yǔ)),StanfordParser(英漢)等

以上工具都可以在http://corpus.bfsu.edu.cn/TOOLS.htm進(jìn)行下載



4.平行對(duì)齊

截止以上前三步,語(yǔ)料的加工基本已經(jīng)完成,但如果你的語(yǔ)料是雙語(yǔ)或多語(yǔ),則需要對(duì)其進(jìn)行對(duì)齊處理。

對(duì)齊是指將多語(yǔ)言語(yǔ)料實(shí)現(xiàn)句子的一一對(duì)應(yīng),也可以實(shí)現(xiàn)段落的一一對(duì)應(yīng),以形成規(guī)范的語(yǔ)對(duì)。

對(duì)齊推薦工具:memoQ,Tmxmall等

對(duì)齊完成后如圖:


此圖出自于上海外國(guó)語(yǔ)大學(xué)語(yǔ)料庫(kù)研究院的《習(xí)近平談治國(guó)理政》多語(yǔ)數(shù)據(jù)庫(kù)綜合平臺(tái)

完成以上步驟就完成了對(duì)語(yǔ)料的處理和加工,成功建立了語(yǔ)料庫(kù)!


三、 一些推薦

語(yǔ)料庫(kù)建成后,小編在這里推薦兩個(gè)常用的語(yǔ)料庫(kù)檢索分析工具:AntconcWordsmith。這兩個(gè)軟件可以幫助大家更好地對(duì)語(yǔ)料進(jìn)行檢索,生成詞表等,是語(yǔ)料庫(kù)人不離手的好工具!

此外,除了自建語(yǔ)料庫(kù),大家也要利用好現(xiàn)有的語(yǔ)料庫(kù),如:

英國(guó)國(guó)家語(yǔ)料庫(kù)(British National Corpus,簡(jiǎn)稱BNC)

http://www.natcorp.ox.ac.uk/

美國(guó)當(dāng)代英語(yǔ)語(yǔ)料庫(kù)(Corpus of Contemporary American English,簡(jiǎn)稱COCA)

https://www.english-corpora.org/

SketchEngine

https://www.sketchengine.co.uk/

… …

以上就是本期全部?jī)?nèi)容啦,希望這篇文章可以在你探索語(yǔ)料庫(kù)建立的途中提供一些幫助~

實(shí)踐出真知,快去動(dòng)手試試吧~

特別說(shuō)明:本文僅供學(xué)習(xí)交流,如有不妥歡迎后臺(tái)聯(lián)系小編。

- END -


翻譯圈公眾號(hào)旨在為讀者提供名師和專家對(duì)口筆譯的真知灼見(jiàn),CATTI考試和MTI入學(xué)考試信息,翻譯等語(yǔ)言服務(wù)就業(yè)資訊,以及口筆譯學(xué)習(xí)資源和知識(shí),希望在翻譯之路上,為大家助上一臂之力。歡迎大家積極留言,為我們提供建設(shè)性意見(jiàn),我們共同進(jìn)步!

原文作者:張一孟

推文編輯:張子明

一篇文章教你如何建立自己的語(yǔ)料庫(kù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
彭山县| 麻城市| 桐乡市| 茂名市| 石屏县| 高邮市| 易门县| 葫芦岛市| 嘉兴市| 鄂伦春自治旗| 通城县| 阳春市| 若羌县| 明光市| 沙坪坝区| 丰宁| 双鸭山市| 福州市| 澄江县| 体育| 黄骅市| 七台河市| 塘沽区| 阿荣旗| 肇东市| 靖江市| 淳化县| 盐池县| 会泽县| 扶风县| 如东县| 聂拉木县| 宁都县| 黑河市| 雅安市| 新邵县| 邯郸市| 前郭尔| 潜山县| 垣曲县| 德钦县|