三分鐘科普|語料庫初探(二)
讀者朋友們大家好??
在上期語料庫系列推送中,我們帶大家一起了解了語料庫的具體內(nèi)涵、發(fā)展歷史和分類,對語料庫形成了初步認識。
隨著計算機技術(shù)的跨越式進步,語料庫也從單一純文本發(fā)展到聚合音視頻、圖像等多模態(tài)語料庫,不僅規(guī)模從百萬級發(fā)展到千萬級再到億級和萬億級,加工深度越來越深,應用范圍也越來越廣。
語言學家借助語料庫觀察、研究語言發(fā)展規(guī)律;詞典編纂者使用語料庫編纂各類用途的詞典;社會學家通過語料庫研究社會變遷;機器翻譯研發(fā)團隊也需要借助語料庫來訓練高質(zhì)量的機器翻譯引擎。此外,對我們的語言學習者、翻譯研究者和翻譯實踐者來說,語料庫也發(fā)揮著不可忽視的作用。
本期推文將從以下幾個方面帶大家進一步了解語料庫
(1)翻譯學習必備語料庫
(2)語料庫常見用途一覽
(3)語料庫的優(yōu)點與不足
一、翻譯學習必備語料庫
1
單語語料庫
漢語語料庫
1?? BCC 語料庫
BCC 語料庫是以漢語為主、兼有其他語種的在線語料庫,總規(guī)模達數(shù)百億字,主要包括多語種單語語料庫、雙語對齊語料庫和深加工的樹庫。BCC 檢索式由字、詞和語法標記等單元組成,并且支持通配符和離合查詢。
▲BCC 語料庫
http://bcc.blcu.edu.cn/
2?? 北京大學 CCL 語料庫
北京大學 CCL 語料庫包括現(xiàn)代漢語、古代漢語和漢英句對齊平行語料,規(guī)模超過 7 億漢字,語料選取的時間跨度從公元前 11 世紀延續(xù)至當代。CCL 語料庫檢索系統(tǒng)以包括漢字、字母、標點等在內(nèi)的字符為基本索引單位,提供普通查詢、批量查詢、模式查詢等多種檢索方式。
CCL 語料庫的分類檢索功能十分詳細,按照時間、體裁、作者、作品進行了具體分類,在高級查詢下,使用者可以從特定時期某個作者的一部具體作品中進行檢索。此外,在批量查詢下,使用者可以上傳個人語料進行檢索。
▲北京大學 CCL 語料庫
http://ccl.pku.edu.cn:8080/ccl_corpus
3??語料庫在線
語料庫在線是一個非營利性學術(shù)網(wǎng)站,提供現(xiàn)代漢語和古代漢語語料庫檢索和語料庫分析處理功能,包括分詞和詞性標注、漢語拼音標注、字詞頻率統(tǒng)計等功能。
▲語料庫在線
http://corpus.zhonghuayuwen.org/
英語語料庫
1?? 美國當代英語語料庫(COCA)
COCA——美國當代英語語料庫是由美國 Brigham Young University 的 Mark Davies 教授開發(fā)的高達 3.6 億詞匯的美國最新當代英語語料庫,是當今世界上最大的英語平衡語料庫。與其它語料庫不同的是它是免費在線供大家使用,給全世界英語學習者帶來了福音,是不可多得的一個英語學習寶庫,也是觀察美國英語使用和變化的一個絕佳窗口。
演示??
▲左右滑動查看更多功能演示(COCA)
https://www.english-corpora.org//coca/
2?? 英國國家語料庫(BNC)
英國國家語料庫(British National Corpus)是目前世界上非常有代表性的當代英語語料庫之一,由英國牛津出版社、朗文出版公司、牛津大學計算機服務中心、蘭卡斯特大學英語計算機中心以及大英圖書館等聯(lián)合開發(fā)建立。以來源廣泛的書面語和口語為樣本,呈現(xiàn)了 20 世紀后期以來的英式英語。其中詞容量超過一億,書面語占 90%,口語占 10%。
注:BYU語料庫系列,操作界面相似,但語料不同。
3?? 世界網(wǎng)絡(luò)英語語料庫(GloWbE)
Mark Davies 提供的另一個語料庫。它的語料來自 20 個英語國家的 180 萬個網(wǎng)頁,共有 19 億個單詞組成,其中既包括英語為母語的核心國家(如英國、美國),也包括英語為母語的其他國家(如印度、新加坡)。
▲左右滑動查看更多功能演示(GloWbE)
https://www.english-corpora.org/glowbe/
1?? Glosbe
Glosbe 是一款面向國際社區(qū)的詞典,號稱支持世界上所有語言,并提供多國語言的雙語例句,可供譯者翻譯時參考。該網(wǎng)頁的例句來自聯(lián)合國公開語料、字幕網(wǎng)站語料,或者由獲得官方授權(quán)資質(zhì)的用戶上傳。Glosbe 提供基于自身語料庫研發(fā)的 Glosbe Translate,可以進行免費的文檔翻譯。
2?? Linguee
Linguee 與 Glosbe 類似,是一款提供多語查詢的詞典,目前支持 28 種語言互譯,并提供豐富的雙語例句?;?Linguee 的語料庫研發(fā)的機器翻譯引擎 DeepL Translate 近年來備受關(guān)注,提供文本翻譯和文件翻譯,譯文質(zhì)量很高。
OPUS
OPUS 是一個開源平行語料庫,提供多種語言的平行語料庫文件格式下載,包括 TMX 文件、已標注的語料庫文件和純文本文件。
▲ 下載界面預覽
OPUS 語料庫由 70 多個不同領(lǐng)域和類型的子語料庫可供用戶下載,其中包括 The United Nations Parallel Corpus、TED Talks 2020、Wikipedia 等,語料資源仍在不斷更新。
▲OPUS 子語料庫https://opus.nlpl.eu/index.php
1?? WantWords
2?? Netspeak
3?? Reverso
語料庫種類、數(shù)量繁多,小編不再一一列舉,僅根據(jù)分類介紹幾款常用的語料庫網(wǎng)站。大部分語料庫網(wǎng)站提供使用說明,讀者朋友們可以親自去探索,每種類型的語料庫只需掌握一兩個,便足以滿足一般翻譯實踐中的大部分需求。篇幅所限,垂直領(lǐng)域的語料庫便不再贅述。
二、語料庫常見用途一覽
2?? 英語教學者的第二素材庫。翻譯是實踐的職業(yè),翻譯教學也類似。理論的教學需輔以大量的實踐引導學生理解,大量實踐又需大量實例予以支撐,要想獲得原汁原味、與時俱進的例句素材,在線語料庫是教學者的不二選擇。教學者可通過關(guān)鍵詞檢索,快速獲得所需例句,充實教學。
3?? 翻譯研究者的第二論據(jù)。翻譯研究者可根據(jù)自己的研究目的,建立以真實語料為主的個性化語料庫。研究者可將多個語篇或同一語篇的多個平行譯文儲存于語料庫,利用語料庫標注工具對其進行標注、分析,將大量數(shù)據(jù)系統(tǒng)化、科學化,有利于后期的檢索調(diào)用。
4?? 譯員的第二詞典庫。語料庫有助于譯員譯前理解和譯中表達,用好語料庫能夠大大提升譯者工作效率。語料庫可以作為詞典使用,包含紙質(zhì)詞典沒有的用法和義項。在基于語料庫編撰的詞典中,義項的順序是根據(jù)其使用頻率安排的,因此往往比常規(guī)詞典更容易找到所需含義。在翻譯過程中,可以查詢?nèi)绾芜x擇用詞、詞語如何搭配,表達是否地道。
5?? 新聞記者的第二儲存。新聞工作者撰寫新聞稿時,輔以語料庫,即可對相似新聞進行檢索以及預處理,一方面可確保新聞的及時性,另一方面也為新聞工作者節(jié)省大量時間和精力,高效避免了部分重復工作。這點在實時新聞中應用廣泛,如實時報道火山爆發(fā)、地震災害等,可直接引用通用內(nèi)容,再加以修改。
三、語料庫的優(yōu)點和不足
優(yōu)點
客觀性:語料庫讓人們可以更好地掌握語言發(fā)展規(guī)律。人們一般根據(jù)某個語言現(xiàn)象出現(xiàn)的頻率是否達到特定數(shù)值來判定該現(xiàn)象是否符合規(guī)律。進入計算機時代,人們可以借助語料庫對語言進行更大規(guī)模的抽樣,這樣計算出來的頻率準確性自然會更高。
科學性:語料庫天生具有的定量特性使基于語料庫的研究更具科學性。
通用性:語料庫本身是一種研究方法,可以對任何語言進行抽樣。可以使用合理的抽樣方法,對某個時期某一個人的語言、同一時期所有人的語言、某個人在所有歷史時期的語言進行抽樣。研究目的決定我們的抽樣方法,而抽樣之后,語料庫的統(tǒng)計處理方法大致相同。
不足
語言是動態(tài)的、向前發(fā)展的,而大部分語料庫一旦建成,便會凝固不動(動態(tài)更新的監(jiān)控語料庫除外),一段時間后便無法追蹤語言發(fā)展的最新動向。
語料庫通過對語言抽樣反映其發(fā)展規(guī)律,但是語料庫并非語言本身,在多大程度上進行抽樣的語料庫才能夠準確反映語言發(fā)展呢?在全體語言和抽樣的語料庫之間需要達到一個平衡點,而動態(tài)發(fā)展的語言和靜態(tài)的語料庫之間不會永遠存在這樣一個平衡點。
總而言之,語料庫既有優(yōu)點也有缺點, 趨利避害才是我們在語言學習、翻譯實踐和研究中應該要秉承的原則。
//
未完待續(xù)
下期推送將帶大家走進語料庫在翻譯實踐中的具體運用,敬請期待。
1. Nancy,“翻譯領(lǐng)域資源與工具合集”,https://fanyi.news/resource#toc_12. 汪興富,Mark Davies,劉國輝,“美國當代英語語料庫(COCA) ———英語教學與研究的良好平臺”3. 王華樹,“翻譯技術(shù)學習資源”,https://ttv.cn/archives/105924. 荀恩東等,“大數(shù)據(jù)背景下BCC語料庫的研制”,語料庫語言學5. 俞敬松,“語料庫的優(yōu)缺點”,計算機輔助翻譯原理與實踐6. 詹衛(wèi)東等,“北京大學CCL語料庫的研制”,語料庫語言學
- END -
編輯:張啟雯 王琳
關(guān)注VX公眾號“翻譯技術(shù)教育與研究”、“語言服務行業(yè)”,了解更多語言服務行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~