技術(shù)與工具|國內(nèi)外常見語料工具一覽
本文來源于:翻譯技術(shù)教育與研究公眾號

? ? ? ? 語料庫是語料構(gòu)成的集合,要進(jìn)行語料庫的處理和應(yīng)用離不開語料工具。接下來,小編為大家介紹一下語料處理步驟中所需的幾類常用工具。
1、語料采集工具
? ? ? ??我們建語料庫所需的語料可能有多種來源,如:網(wǎng)頁、電子文檔、紙質(zhì)材料等。因此在采集不同來源的語料時我們需要使用不同的工具。 ? ? 其中,ABBYY FineReader、天若OCR文字識別等OCR識別軟件可用于處理紙質(zhì)材料或其他不可編輯的材料;Teleport Ultra, TextForever等軟件常用于處理網(wǎng)頁材料。
1)ABBYY FineReader
? ? ? ??ABBYY FineReader是一款專業(yè)OCR軟件,可以進(jìn)行文件識別、自動保留排版格式,后臺批處理識別等功能。用戶可以利用ABBYY FineReader進(jìn)行對不可編輯文本的掃描,如圖像、PDF等格式的語料(如下圖所示),以獲取Microsoft Word等格式的可編輯的文檔。官方下載地址:https://abbyy.store/


2)天若OCR文字識別
? ? ? ??天若OCR文字識別是一款界面簡潔、功能強(qiáng)大的OCR識別軟件,可將圖片中的文本轉(zhuǎn)換成可編輯文本,將表格識別后轉(zhuǎn)換成可編輯表格,進(jìn)行識別翻譯、截圖及截圖標(biāo)注等,處理圖像或PDF等格式語料極為方便,基本操作如下圖所示。官網(wǎng)軟件下載:https://ocr.tianruo.net/


3)Teleport Ultra
? ? ? ??Teleport Ultra擁有直觀的界面,可以在一個項目中處理多個服務(wù)器,使用正則表達(dá)式指定要爬行的包含區(qū)域和排除區(qū)域,批量獲取網(wǎng)頁數(shù)據(jù)信息。在語料搜集過程中,我們可以利用Teleport Ultra軟件搜集網(wǎng)站中語料資源,根據(jù)軟件向?qū)У奶崾?,?jīng)過簡單的操作,便可以迅速獲取大量資料。官網(wǎng)軟件下載:https://www.tenmax.com/company/downloads.htm


4)TextForever
? ? ? ??TextForever可以用來進(jìn)行文本HTML到TXT 的轉(zhuǎn)換、文件切分、文檔合并、文本提取、TXT 文件分行、HTML 代碼整理等功能。在使用Teleport Ultra軟件提取網(wǎng)頁中的語料后,我們可以使用TextForever軟件對所獲取的語料進(jìn)行格式處理,搜集所需格式的語料,兩個軟件的搭配使用使得語料搜集過程更加方便快捷。下載途徑參考:https://pc.qq.com/detail/8/detail_3448.html


2、語料清洗工具
? ? ? ??語料清洗指去除語料中的噪音,包括不符合規(guī)范的格式、符號、內(nèi)容等。北京外國語大學(xué)中國外語教育研究中心專職研究員許家金博士,將格式清洗錯誤分為文字符號類、空格段落類、標(biāo)點符號類。 語料清洗過程中可涉及的軟件有Microsoft Word、EmEditor、Notepad++、文本整理器、庫酷、斑斕科技小助手等。
1) Microsoft Word
? ? ? ??微軟Word是微軟公司開發(fā)的一款文字處理軟件。相信大家日常辦公都會或多或少用到它,其實它還有許多隱藏技能,今天為大家介紹其中之一——語料清洗。 具體來說,利用Ctrl+H快捷鍵調(diào)出查找與替換對話框(如下圖所示),點擊“更多”,單擊勾選“通配符”,借助通配符快速清洗語料。
Word通配符學(xué)習(xí)參考:https://www.zhihu.com/question/334555512/answer/748239801

2) EmEditor
? ? ? ??EmEditor是一個輕量級、可擴(kuò)展、易于使用的Windows文本編輯器,適用于Windows系統(tǒng)。EmEditor在64位和32位版本中都可用。我們可以在EmEditor軟件中利用正則表達(dá)式快速清洗語料,具體操作是導(dǎo)入文本后,點擊“搜索”,單擊“替換”,再勾選“正則表達(dá)式”(如下圖所示),利用正則表達(dá)式清洗語料。
正則表達(dá)式學(xué)習(xí)參考:https://www.runoob.com/regexp/regexp-tutorial.html
在線正則表達(dá)式測試平臺:https://tool.oschina.net/regex


3) Notepad++
? ? ? ??Notepad++是一款與EmEditor類似的軟件,Notepad++是Windows操作系統(tǒng)下的一套免費的文本編輯器,有完整的中文化接口及支持多國語言編寫的功能(UTF8技術(shù))。同樣,我們也可以借助它,并利用正則表達(dá)式清洗語料,操作與EmEditor類似。官網(wǎng)軟件下載:https://notepad-plus-plus.org/downloads/


4)文檔整理器
? ? ? ??文檔整理器是一款使用方便的語料清洗軟件,內(nèi)含多種快捷鍵(如下圖所示),不需要手動輸入正則表達(dá)式或通配符進(jìn)行語料清洗,功能豐富,操作簡單,是一款較好語料清洗工具。


5)庫酷
? ? ? ??庫酷是一款功能豐富的語料清洗軟件,含多種快捷鍵(如下圖所示),用戶只需要根據(jù)自身需求點擊對應(yīng)快捷鍵即可,清洗語料速度快,也是一款不錯的語料清洗軟件,值得推薦。


6)斑斕科技小助手
? ? ? ??斑斕科技小助手是一款基于VBA的Word小工具,與庫酷和文檔整理器不同的是,它可以直接在word中使用,功能豐富,提供各種快捷鍵(如下圖所示),操作簡單方便,為語料處理提供極大的幫助。
官方軟件下載:http://edu.bon-lion.com/bon-lion-helper/

3、語料對齊工具
? ? ? ??語料對齊一般指的是雙語或多語文本的平行對齊,一般以“一對一”對齊為主,也存在“一對二”或“一對多”平行文本的對齊,目前應(yīng)用最為廣泛的語料對齊是句級語料對齊。
? ? ? ??常見的語料對齊工具包含兩類:一類是CAT軟件自帶的工具,包括Trados的對齊文檔、memoQ的Livedocs等,另一類是獨立的工具,包括ABBYY Aligner、Tmxmall等。一般來說,CAT自帶的語料工具有些局限,這里主要介紹獨立的語料對齊工具。
1)ABBYY Aligner
? ? ? ??ABBYY Aligner 2.0是一個專業(yè)的工具對齊并行文本和創(chuàng)建翻譯記憶數(shù)據(jù)庫,提供了編輯對齊結(jié)果的功能,并可以保存為TMX格式,以便在CAT工具中進(jìn)一步使用,可以提高工作效率。


2)Tmxmall
? ? ? ??Tmxmall是一款在線語料對齊工具,語料對齊方便用戶調(diào)整對齊結(jié)果,其自主研發(fā)的智能對齊算法可以自動對齊原文,支持46種語言,2070種語言對,極大提高語料對齊效率。官方下載地址:https://www.tmxmall.com/


4、語料檢索工具
? ? ? ??語料檢索指的是對語料中的詞、句或結(jié)構(gòu)進(jìn)行檢索,可以獲得詞頻、詞密度、詞表、搭配、關(guān)鍵詞單等,以便對語料進(jìn)行分析研究。在此過程中有AntConc, ParaConc等可供使用。
1)AntConc
? ? ? ??AntConc是一款免費的單語語料檢索工具,支持Windows, MacOS等系統(tǒng),具有索引、索引定位、詞叢、搭配、詞表和關(guān)鍵詞單等多種功能,界面簡單,方便用戶操作,可以極大提高語料檢索的效率。
官方下載地址:https://www.laurenceanthony.net/software/antconc/


AntConc平臺界面
2)ParaConc
? ? ? ??ParaConc是一款雙語或多語平行語料庫建設(shè)與檢索工具,具有語料對齊、平行文本預(yù)覽功能、平行文本檢索、檢索行排序、詞頻統(tǒng)計、搭配提取等功能,可以用于語料檢索、對比分析、語言學(xué)習(xí)和翻譯研究培訓(xùn)等。
官網(wǎng)下載地址:https://paraconc.com/


5、總結(jié)
? ? ? ??語料工具有很多,在語料采集、清洗、對齊、檢索等各個過程有不同的軟件可供我們使用。面對形形色色的工具,我們不需要貪多,要選擇適合自己的工具并熟練運用,形成自己的一套語料處理體系,無論是對日常學(xué)習(xí),還是對學(xué)術(shù)研究,都有重要的意義。
原創(chuàng)作者:陳 雨
原文排版:李斯然
原文審校:李斯然
本期編輯:丁羽翔

關(guān)注微信公眾號“語言服務(wù)行業(yè)”,了解更多語言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~?