劉世界:語(yǔ)料庫(kù)與術(shù)語(yǔ)庫(kù)建設(shè)與應(yīng)用
2023暑期翻譯技術(shù)實(shí)踐研修班第五講來(lái)啦!我們有幸邀請(qǐng)到上海海事大學(xué)的劉世界博士幫助大家從零到一掌握語(yǔ)料庫(kù)、術(shù)語(yǔ)庫(kù)創(chuàng)建與應(yīng)用全流程。整個(gè)課程以案例實(shí)操演練為主,流程介紹為輔。通過(guò)本次學(xué)習(xí),能夠讓大家動(dòng)手搭建研究/實(shí)踐所需的垂直領(lǐng)域語(yǔ)料庫(kù)、術(shù)語(yǔ)庫(kù),熟練掌握語(yǔ)料數(shù)據(jù)的處理技巧、主流語(yǔ)料檢索工具/方法,助力大家借助語(yǔ)料數(shù)據(jù)開(kāi)展教學(xué)、研究及實(shí)踐工作。
本期課程主要內(nèi)容包括:
術(shù)語(yǔ)技術(shù)與翻譯實(shí)踐
語(yǔ)料技術(shù)與翻譯實(shí)踐
術(shù)語(yǔ)庫(kù)建設(shè)方法與應(yīng)用
語(yǔ)料庫(kù)建設(shè)方法與應(yīng)用
語(yǔ)料庫(kù)與術(shù)語(yǔ)庫(kù)應(yīng)用實(shí)訓(xùn)
語(yǔ)料庫(kù)建設(shè)方法與應(yīng)用
首先,世界博士介紹了語(yǔ)料庫(kù)建設(shè)與應(yīng)用的完整流程,包括語(yǔ)料采集、語(yǔ)料加工和檢索應(yīng)用三個(gè)大的方面。在語(yǔ)料采集方面,世界博士主要介紹了自動(dòng)化采集語(yǔ)料與人工采集語(yǔ)料,并分享了自動(dòng)化采集語(yǔ)料的各種實(shí)用工具。在語(yǔ)料加工方面,世界博士主要從語(yǔ)料預(yù)處理、語(yǔ)料對(duì)齊、格式轉(zhuǎn)換、分詞賦碼等方面進(jìn)行了介紹并分享了對(duì)應(yīng)的工具使用方法。在檢索應(yīng)用方面,世界博士主要介紹了語(yǔ)料技術(shù)與翻譯實(shí)踐、語(yǔ)料技術(shù)與翻譯/語(yǔ)言研究。
01、語(yǔ)料采集
在語(yǔ)料采集方面,世界博士介紹了八爪魚(yú)采集器、Teleport Ultra、TextForever、火車(chē)頭采集器、Python等自動(dòng)化語(yǔ)料采集工具以及人工采集語(yǔ)料的方法。
02、語(yǔ)料加工
本部分中,世界博士首先介紹了語(yǔ)料清洗/預(yù)處理、語(yǔ)料對(duì)齊、格式轉(zhuǎn)換、分詞賦碼等基本操作流程及可用到的主要工具。接著,世界博士演示了如何在word中批量清洗語(yǔ)料以及如何使用庫(kù)酷進(jìn)行語(yǔ)料批量預(yù)處理等內(nèi)容。接著,世界博士介紹了Déjà Vu、RWS Trados、Transmate等集成式語(yǔ)料對(duì)齊工具以及LanguageX、ABBYY Aligner 2.0、Tmxmall等獨(dú)立式對(duì)齊工具/平臺(tái)的應(yīng)用。為了使學(xué)員們進(jìn)一步掌握這些工具的使用,世界博士以L(fǎng)anguageX為例向大家演示了如何進(jìn)行語(yǔ)料對(duì)齊。最后,世界博士講解并演示了如何利用Heartsome TMX Editor (tmx-word-txt) 完成格式轉(zhuǎn)換以及利用現(xiàn)有工具進(jìn)行分詞/賦碼。
03、語(yǔ)料檢索應(yīng)用
在語(yǔ)料技術(shù)與翻譯實(shí)踐方面,世界博士講解并帶領(lǐng)大家實(shí)操BFSU ParaConc、CUC_ParaConc、Search and Replace等自建語(yǔ)料庫(kù)輔助翻譯實(shí)踐/詞典編纂的工具。
對(duì)于自建語(yǔ)料庫(kù)輔助語(yǔ)料庫(kù)語(yǔ)言學(xué)/翻譯學(xué)研究,世界博士講解并帶領(lǐng)大家實(shí)操AntConc、WordSmith Tools 7.0、LancsBox等語(yǔ)料分析工具,詳細(xì)介紹了如形符、類(lèi)符、TTR、STTR等語(yǔ)料庫(kù)研究基本概念,明確區(qū)分了Wordlist與Key Wordlist。
世界博士以案例驅(qū)動(dòng)的方式重點(diǎn)介紹并帶領(lǐng)大家學(xué)習(xí)如何使用LancsBox,包括主題詞索引(KWIC)、搭配圖解(GraphColl)、詞匯模塊(Words)、檢索詞分布(Whelk)和N元結(jié)構(gòu)(N-Grams)等內(nèi)容。
術(shù)語(yǔ)庫(kù)建設(shè)方法與應(yīng)用
本部分中,世界博士首先對(duì)術(shù)語(yǔ)庫(kù)常見(jiàn)格式類(lèi)型進(jìn)行了講解,包括CSV格式、XML格式、TBX格式、JSON文件等;并分享了術(shù)語(yǔ)庫(kù)建設(shè)常見(jiàn)的兩種路線(xiàn)。
路線(xiàn)1:術(shù)語(yǔ)提取/抽?。ㄆ脚_(tái)/工具)——SDL MultiTerm 2021 Desktop(創(chuàng)建術(shù)語(yǔ)庫(kù))——SDL MultiTerm 2021 Convert(轉(zhuǎn)換術(shù)語(yǔ)文件xlxs——xml)——導(dǎo)入術(shù)語(yǔ)庫(kù);
路線(xiàn)2:Glossary Converter(一步到位)。
世界博士就上述兩種常見(jiàn)方式演示了如何利用SDL MultiTerm 2021 Desktop、SDL Multiterm 2021 Convert、Glossary Converter等軟件進(jìn)行術(shù)語(yǔ)文件轉(zhuǎn)換。
在實(shí)訓(xùn)環(huán)節(jié),世界博士結(jié)合研修內(nèi)容,提供了兩個(gè)實(shí)操案例,讓大家動(dòng)手進(jìn)行實(shí)操,在研修的最后一天集中答疑。最后,世界博士提供了一個(gè)隨堂測(cè)驗(yàn),檢驗(yàn)大家對(duì)語(yǔ)料庫(kù)、術(shù)語(yǔ)庫(kù)相關(guān)知識(shí)的掌握程度,感興趣的小伙伴可以?huà)呙柘路蕉S碼進(jìn)行測(cè)試哦~
https://mp.weixin.qq.com/s/1rJGojGq5apzPwQZZ5uVQg
(二維碼:點(diǎn)擊鏈接下拉文章至此處)
好啦,以上就是本期課程的全部干貨啦~
特別說(shuō)明:本文僅用于學(xué)術(shù)交流,如有侵權(quán)請(qǐng)后臺(tái)聯(lián)系小編刪除。
- END -
轉(zhuǎn)載來(lái)源:語(yǔ)言服務(wù)行業(yè)
轉(zhuǎn)載編輯:趙恩婷