【活動回顧】韓林濤:雙語語料系統(tǒng)搭建與應用
人工智能時代翻譯技術第四講,北京語言大學韓林濤老師講解了【雙語語料系統(tǒng)搭建與應用】,本次活動韓老師為大家詳細地介紹了如何搭建一個在線雙語平行語料庫,跟隨小編一起回顧下本節(jié)課程的精彩內(nèi)容吧~
本節(jié)課程主要內(nèi)容包括:
1、語料數(shù)據(jù)加工技術和建設
2、BiCorpus語料庫搭建
3、如何采集和對齊語料
Q何謂“在線”雙語平行語料庫?A: 我們來看這樣一個場景:新冠肺炎疫情到來時,許多單位都開始翻譯大量的與疫情相關的資料,大家夜以繼日的翻譯,花費了很多時間,但畢竟是一個新的領域,涉及許多新的術語和表述,所以這些單位可能會各自為戰(zhàn),在這些新內(nèi)容的翻譯上投入大量的精力,但實際上,假如能夠有一個在線的公開的網(wǎng)站允許大家上傳自己已經(jīng)翻譯完成的雙語資料,那么這些單位就可以共享手中寶貴的雙語數(shù)據(jù),減少重復勞動。
一、語料數(shù)據(jù)加工技術和建設
首先,韓老師通過演示為大家講解了數(shù)據(jù)庫的增刪改查功能是如何實現(xiàn)的,這里引入了一個新的概念:SQL。那么,何為SQL呢?SQL ,全稱Structured Query Language,中文解釋為結(jié)構(gòu)化查詢語言 是用于管理關系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。SQL 讓您可以訪問和處理數(shù)據(jù)庫,包括數(shù)據(jù)插入、查詢、更新和刪除。接著韓老師還細致地講解了雙語預料庫使用怎樣的方式儲存?雙語語料庫如何加工?通過以上知識我們知道,我們可以把語料存儲到XML中,平行語料可以存儲到TMX中,然后再上傳至關系型數(shù)據(jù)庫進行增刪改查。市面上有很多工具可以做到這一點,有桌面端的,也可以網(wǎng)頁端,有收費的,也有開源的。
二、BiCorpus 語料庫搭建
接著上一個話題,韓老師介紹了BiCorpus。BiCorpus是一款開源語言資產(chǎn)管理平臺,一個可用于搭建在線平行句庫的開源工具,致力于讓每一位譯者擁有自己的在線語料庫。韓老師形象生動地為學員解釋了BiCorpus工作原理,讓師友們更好地理解其功能。通過老師的講解答疑,學員們了解到如何運用BiCorpus自建語料庫,極大提高了未來翻譯實踐和翻譯研究的工作效率。
接下來韓老師就【如何采集和對齊語料】這個問題進行了詳細地解答,韓老師表示,目前國內(nèi)外的各種對齊工具里,Abbyy Aligner和TMXmall Aligner是最值得選用的。BiCorpus對語種代碼非常在意,上面兩種對齊工具生成的翻譯記憶文件內(nèi)含的語種代碼與BiCorpus 是一致的。有許多工具都可以支持本地的語料管理,BiCorpus最大的不同就是在線管理,而且如果學會一些編程技巧的話,還可以實現(xiàn)定制。
以上就是“人工智能時代翻譯技術寒假集訓營”第四講的干貨啦,希望大家收獲滿滿!