最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

三分鐘科普|語料庫初探(二)

2022-08-13 15:06 作者:翻譯技術(shù)點津  | 我要投稿



讀者朋友們大家好??


在上期語料庫系列推送中,我們帶大家一起了解了語料庫的具體內(nèi)涵、發(fā)展歷史和分類,對語料庫形成了初步認識。


隨著計算機技術(shù)的跨越式進步,語料庫也從單一純文本發(fā)展到聚合音視頻、圖像等多模態(tài)語料庫,不僅規(guī)模從百萬級發(fā)展到千萬級再到億級和萬億級,加工深度越來越深,應用范圍也越來越廣。


語言學家借助語料庫觀察、研究語言發(fā)展規(guī)律;詞典編纂者使用語料庫編纂各類用途的詞典;社會學家通過語料庫研究社會變遷;機器翻譯研發(fā)團隊也需要借助語料庫來訓練高質(zhì)量的機器翻譯引擎。此外,對我們的語言學習者、翻譯研究者和翻譯實踐者來說,語料庫也發(fā)揮著不可忽視的作用。


本期推文將從以下幾個方面帶大家進一步了解語料庫


(1)翻譯學習必備語料庫

(2)語料庫常見用途一覽

(3)語料庫的優(yōu)點與不足


一、翻譯學習必備語料庫



1

單語語料庫


漢語語料庫



1?? BCC 語料庫


BCC 語料庫是以漢語為主、兼有其他語種的在線語料庫,總規(guī)模達數(shù)百億字,主要包括多語種單語語料庫、雙語對齊語料庫深加工的樹庫。BCC 檢索式由字、詞和語法標記等單元組成,并且支持通配符和離合查詢。



▲BCC 語料庫

http://bcc.blcu.edu.cn/


2?? 北京大學 CCL 語料庫


北京大學 CCL 語料庫包括現(xiàn)代漢語、古代漢語漢英句對齊平行語料,規(guī)模超過 7 億漢字,語料選取的時間跨度從公元前 11 世紀延續(xù)至當代。CCL 語料庫檢索系統(tǒng)以包括漢字、字母、標點等在內(nèi)的字符為基本索引單位,提供普通查詢、批量查詢模式查詢等多種檢索方式。


CCL 語料庫的分類檢索功能十分詳細,按照時間、體裁、作者、作品進行了具體分類,在高級查詢下,使用者可以從特定時期某個作者的一部具體作品中進行檢索。此外,在批量查詢下,使用者可以上傳個人語料進行檢索。




▲北京大學 CCL 語料庫

http://ccl.pku.edu.cn:8080/ccl_corpus


3??語料庫在線


語料庫在線是一個非營利性學術(shù)網(wǎng)站,提供現(xiàn)代漢語和古代漢語語料庫檢索和語料庫分析處理功能,包括分詞和詞性標注、漢語拼音標注、字詞頻率統(tǒng)計等功能。



▲語料庫在線

http://corpus.zhonghuayuwen.org/


英語語料庫




1?? 美國當代英語語料庫(COCA)


COCA——美國當代英語語料庫是由美國 Brigham Young University 的 Mark Davies 教授開發(fā)的高達 3.6 億詞匯的美國最新當代英語語料庫,是當今世界上最大的英語平衡語料庫。與其它語料庫不同的是它是免費在線供大家使用,給全世界英語學習者帶來了福音,是不可多得的一個英語學習寶庫,也是觀察美國英語使用變化的一個絕佳窗口。


演示??







▲左右滑動查看更多功能演示(COCA)

https://www.english-corpora.org//coca/


2?? 英國國家語料庫(BNC)


英國國家語料庫(British National Corpus)是目前世界上非常有代表性的當代英語語料庫之一,由英國牛津出版社、朗文出版公司、牛津大學計算機服務中心、蘭卡斯特大學英語計算機中心以及大英圖書館等聯(lián)合開發(fā)建立。以來源廣泛的書面語和口語為樣本,呈現(xiàn)了 20 世紀后期以來的英式英語。其中詞容量超過一億,書面語90%口語10%。



▲英國國家語料庫(BNC)https://www.english-corpora.org/bnc/

注:BYU語料庫系列,操作界面相似,但語料不同。


3?? 世界網(wǎng)絡(luò)英語語料庫(GloWbE)

Mark Davies 提供的另一個語料庫。它的語料來自 20 個英語國家180 萬個網(wǎng)頁,共有 19 億個單詞組成,其中既包括英語為母語的核心國家(如英國、美國),也包括英語為母語的其他國家(如印度、新加坡)。





▲左右滑動查看更多功能演示(GloWbE)

https://www.english-corpora.org/glowbe/



2雙語/多語語料庫


1?? Glosbe


Glosbe 是一款面向國際社區(qū)的詞典,號稱支持世界上所有語言,并提供多國語言的雙語例句,可供譯者翻譯時參考。該網(wǎng)頁的例句來自聯(lián)合國公開語料、字幕網(wǎng)站語料,或者由獲得官方授權(quán)資質(zhì)的用戶上傳。Glosbe 提供基于自身語料庫研發(fā)的 Glosbe Translate,可以進行免費的文檔翻譯。



▲Glosbehttp://glosbe.com


2?? Linguee


Linguee 與 Glosbe 類似,是一款提供多語查詢的詞典,目前支持 28 種語言互譯,并提供豐富的雙語例句?;?Linguee 的語料庫研發(fā)的機器翻譯引擎 DeepL Translate 近年來備受關(guān)注,提供文本翻譯和文件翻譯,譯文質(zhì)量很高。



▲Lingueehttps://www.linguee.com/


3語料庫資源網(wǎng)站

OPUS


OPUS 是一個開源平行語料庫,提供多種語言的平行語料庫文件格式下載,包括 TMX 文件、已標注的語料庫文件和純文本文件。




▲ 下載界面預覽

OPUS 語料庫由 70 多個不同領(lǐng)域和類型的子語料庫可供用戶下載,其中包括 The United Nations Parallel Corpus、TED Talks 2020、Wikipedia 等,語料資源仍在不斷更新。




▲OPUS 子語料庫https://opus.nlpl.eu/index.php



4 基于語料庫的查詢網(wǎng)站


1?? WantWords


WantWords 反向詞典由清華大學計算機系自然語言處理實驗室(THUNLP)的 WantWords 研發(fā)團隊開發(fā),是一款開源在線的反向查詞詞典。用戶可以通過輸入描述來查找符合相關(guān)描述的詞語、成語或習語。


2?? Netspeak


Netspeak 是一個簡單、高效的在線工具,能夠通過數(shù)據(jù)直觀展示各種詞條搭配、單詞組合甚至近義詞替換,幫助使用者快速選取最地道、最常用的表達。


3?? Reverso


Reverso,一款專業(yè)的在線翻譯工具,目前包括 18 種語言的翻譯功能,且支持語種仍在不斷擴大。除語種豐富外,Reverso 的功能也十分多樣,支持篇章及文檔翻譯、語法檢查、拼寫檢查、詞典檢索、協(xié)作字典、常用法檢索、近義詞查詢、詞形變化查詢等。基于大數(shù)據(jù)、技術(shù)算法等科技,Reverso 整合了大量語料,為用戶的搜索結(jié)果保駕護航,為使用者提供最常見、最地道的翻譯建議。


語料庫種類、數(shù)量繁多,小編不再一一列舉,僅根據(jù)分類介紹幾款常用的語料庫網(wǎng)站。大部分語料庫網(wǎng)站提供使用說明,讀者朋友們可以親自去探索,每種類型的語料庫只需掌握一兩個,便足以滿足一般翻譯實踐中的大部分需求。篇幅所限,垂直領(lǐng)域的語料庫便不再贅述。


二、語料庫常見用途一覽


1?? 英語學習者的第二大腦。練習寫作、口語時,檢索在線語料庫,可直接獲取某個詞、短語、句子出現(xiàn)的頻率、語境及搭配,方便逐字逐句地修改文章、說話細節(jié),進一步提高自身寫作、口語水平。閱讀時,我們還可借助語料庫檢索工具(如 AntConc)對文本進行預分析,快速判斷文章主題、寫作風格、自己是否感興趣等。
2?? 英語教學者的第二素材庫。翻譯是實踐的職業(yè),翻譯教學也類似。理論的教學需輔以大量的實踐引導學生理解,大量實踐又需大量實例予以支撐,要想獲得原汁原味、與時俱進的例句素材,在線語料庫是教學者的不二選擇。教學者可通過關(guān)鍵詞檢索,快速獲得所需例句,充實教學。
3?? 翻譯研究者的第二論據(jù)。翻譯研究者可根據(jù)自己的研究目的,建立以真實語料為主的個性化語料庫。研究者可將多個語篇或同一語篇的多個平行譯文儲存于語料庫,利用語料庫標注工具對其進行標注、分析,將大量數(shù)據(jù)系統(tǒng)化、科學化,有利于后期的檢索調(diào)用。
4?? 譯員的第二詞典庫。語料庫有助于譯員譯前理解和譯中表達,用好語料庫能夠大大提升譯者工作效率。語料庫可以作為詞典使用,包含紙質(zhì)詞典沒有的用法和義項。在基于語料庫編撰的詞典中,義項的順序是根據(jù)其使用頻率安排的,因此往往比常規(guī)詞典更容易找到所需含義。在翻譯過程中,可以查詢?nèi)绾芜x擇用詞、詞語如何搭配,表達是否地道。
5?? 新聞記者的第二儲存。新聞工作者撰寫新聞稿時,輔以語料庫,即可對相似新聞進行檢索以及預處理,一方面可確保新聞的及時性,另一方面也為新聞工作者節(jié)省大量時間和精力,高效避免了部分重復工作。這點在實時新聞中應用廣泛,如實時報道火山爆發(fā)、地震災害等,可直接引用通用內(nèi)容,再加以修改。



三、語料庫的優(yōu)點和不足


優(yōu)點


客觀性:語料庫讓人們可以更好地掌握語言發(fā)展規(guī)律。人們一般根據(jù)某個語言現(xiàn)象出現(xiàn)的頻率是否達到特定數(shù)值來判定該現(xiàn)象是否符合規(guī)律。進入計算機時代,人們可以借助語料庫對語言進行更大規(guī)模的抽樣,這樣計算出來的頻率準確性自然會更高。


科學性:語料庫天生具有的定量特性使基于語料庫的研究更具科學性。


通用性:語料庫本身是一種研究方法,可以對任何語言進行抽樣。可以使用合理的抽樣方法,對某個時期某一個人的語言、同一時期所有人的語言、某個人在所有歷史時期的語言進行抽樣。研究目的決定我們的抽樣方法,而抽樣之后,語料庫的統(tǒng)計處理方法大致相同。


不足


語言是動態(tài)的、向前發(fā)展的,而大部分語料庫一旦建成,便會凝固不動(動態(tài)更新的監(jiān)控語料庫除外),一段時間后便無法追蹤語言發(fā)展的最新動向。


語料庫通過對語言抽樣反映其發(fā)展規(guī)律,但是語料庫并非語言本身,在多大程度上進行抽樣的語料庫才能夠準確反映語言發(fā)展呢?在全體語言和抽樣的語料庫之間需要達到一個平衡點,而動態(tài)發(fā)展的語言和靜態(tài)的語料庫之間不會永遠存在這樣一個平衡點。


總而言之,語料庫既有優(yōu)點也有缺點, 趨利避害才是我們在語言學習、翻譯實踐和研究中應該要秉承的原則。


//


未完待續(xù)



下期推送將帶大家走進語料庫在翻譯實踐中的具體運用,敬請期待。


主要參考文獻

1. Nancy,“翻譯領(lǐng)域資源與工具合集”,https://fanyi.news/resource#toc_12. 汪興富,Mark Davies,劉國輝,“美國當代英語語料庫(COCA) ———英語教學與研究的良好平臺3. 王華樹,“翻譯技術(shù)學習資源”,https://ttv.cn/archives/105924. 荀恩東等,“大數(shù)據(jù)背景下BCC語料庫的研制”,語料庫語言學5. 俞敬松,“語料庫的優(yōu)缺點”,計算機輔助翻譯原理與實踐6. 詹衛(wèi)東等,“北京大學CCL語料庫的研制”,語料庫語言學


- END -


編輯:張啟雯 王琳

關(guān)注VX公眾號“翻譯技術(shù)教育與研究”、“語言服務行業(yè)”,了解更多語言服務行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~

三分鐘科普|語料庫初探(二)的評論 (共 條)

分享到微博請遵守國家法律
澜沧| 集安市| 喜德县| 威远县| 临澧县| 迁安市| 威宁| 商都县| 仲巴县| 合江县| 光山县| 伊金霍洛旗| 壶关县| 台安县| 平昌县| 义乌市| 禹城市| 城市| 湾仔区| 德令哈市| 温宿县| 镇康县| 郎溪县| 菏泽市| 布尔津县| 普安县| 永平县| 苏州市| 岢岚县| 张掖市| 贵州省| 乡城县| 巨鹿县| 德令哈市| 湟源县| 电白县| 曲水县| 邯郸县| 巴马| 新安县| 南澳县|