最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

技術(shù)與工具|國內(nèi)外常見語料工具一覽

2022-03-23 12:32 作者:翻譯技術(shù)點津  | 我要投稿

本文來源于:翻譯技術(shù)教育與研究公眾號

? ? ? ? 語料庫是語料構(gòu)成的集合,要進(jìn)行語料庫的處理和應(yīng)用離不開語料工具。接下來,小編為大家介紹一下語料處理步驟中所需的幾類常用工具。


1、語料采集工具

? ? ? ??我們建語料庫所需的語料可能有多種來源,如:網(wǎng)頁、電子文檔、紙質(zhì)材料等。因此在采集不同來源的語料時我們需要使用不同的工具。 ? ? 其中,ABBYY FineReader、天若OCR文字識別等OCR識別軟件可用于處理紙質(zhì)材料或其他不可編輯的材料;Teleport Ultra, TextForever等軟件常用于處理網(wǎng)頁材料。

1)ABBYY FineReader

? ? ? ??ABBYY FineReader是一款專業(yè)OCR軟件,可以進(jìn)行文件識別、自動保留排版格式,后臺批處理識別等功能。用戶可以利用ABBYY FineReader進(jìn)行對不可編輯文本的掃描,如圖像、PDF等格式的語料(如下圖所示),以獲取Microsoft Word等格式的可編輯的文檔。官方下載地址:https://abbyy.store/

ABBYY FineReader軟件標(biāo)志
ABBYY FineReader軟件界面

2)天若OCR文字識別

? ? ? ??天若OCR文字識別是一款界面簡潔、功能強(qiáng)大的OCR識別軟件,可將圖片中的文本轉(zhuǎn)換成可編輯文本,將表格識別后轉(zhuǎn)換成可編輯表格,進(jìn)行識別翻譯、截圖及截圖標(biāo)注等,處理圖像或PDF等格式語料極為方便,基本操作如下圖所示。官網(wǎng)軟件下載:https://ocr.tianruo.net/

天若OCR文字識別軟件標(biāo)志
天若OCR文字識別軟件界面(可參見官網(wǎng)教程)

3)Teleport Ultra

? ? ? ??Teleport Ultra擁有直觀的界面,可以在一個項目中處理多個服務(wù)器,使用正則表達(dá)式指定要爬行的包含區(qū)域和排除區(qū)域,批量獲取網(wǎng)頁數(shù)據(jù)信息。在語料搜集過程中,我們可以利用Teleport Ultra軟件搜集網(wǎng)站中語料資源,根據(jù)軟件向?qū)У奶崾?,?jīng)過簡單的操作,便可以迅速獲取大量資料。官網(wǎng)軟件下載:https://www.tenmax.com/company/downloads.htm

Teleport Ultra軟件圖標(biāo)


Teleport Ultra軟件批量采集特定網(wǎng)址中的語料

4)TextForever

? ? ? ??TextForever可以用來進(jìn)行文本HTML到TXT 的轉(zhuǎn)換、文件切分、文檔合并、文本提取、TXT 文件分行、HTML 代碼整理等功能。在使用Teleport Ultra軟件提取網(wǎng)頁中的語料后,我們可以使用TextForever軟件對所獲取的語料進(jìn)行格式處理,搜集所需格式的語料,兩個軟件的搭配使用使得語料搜集過程更加方便快捷。下載途徑參考:https://pc.qq.com/detail/8/detail_3448.html

TextForever軟件圖標(biāo)


TextForever軟件界面


2、語料清洗工具

? ? ? ??語料清洗指去除語料中的噪音,包括不符合規(guī)范的格式、符號、內(nèi)容等。北京外國語大學(xué)中國外語教育研究中心專職研究員許家金博士,將格式清洗錯誤分為文字符號類、空格段落類、標(biāo)點符號類。 語料清洗過程中可涉及的軟件有Microsoft Word、EmEditor、Notepad++、文本整理器、庫酷、斑斕科技小助手等。

1) Microsoft Word

? ? ? ??微軟Word是微軟公司開發(fā)的一款文字處理軟件。相信大家日常辦公都會或多或少用到它,其實它還有許多隱藏技能,今天為大家介紹其中之一——語料清洗。 具體來說,利用Ctrl+H快捷鍵調(diào)出查找與替換對話框(如下圖所示),點擊“更多”,單擊勾選“通配符”,借助通配符快速清洗語料。

Word通配符學(xué)習(xí)參考:https://www.zhihu.com/question/334555512/answer/748239801

“Ctrl+H”快捷鍵調(diào)出查找與替換對話框

2) EmEditor

? ? ? ??EmEditor是一個輕量級、可擴(kuò)展、易于使用的Windows文本編輯器,適用于Windows系統(tǒng)。EmEditor在64位和32位版本中都可用。我們可以在EmEditor軟件中利用正則表達(dá)式快速清洗語料,具體操作是導(dǎo)入文本后,點擊“搜索”,單擊“替換”,再勾選“正則表達(dá)式”(如下圖所示),利用正則表達(dá)式清洗語料。

正則表達(dá)式學(xué)習(xí)參考:https://www.runoob.com/regexp/regexp-tutorial.html

在線正則表達(dá)式測試平臺:https://tool.oschina.net/regex

EmEditor軟件圖標(biāo)
EmEditor軟件中利用正則表達(dá)式

3) Notepad++

? ? ? ??Notepad++是一款與EmEditor類似的軟件,Notepad++是Windows操作系統(tǒng)下的一套免費的文本編輯器,有完整的中文化接口及支持多國語言編寫的功能(UTF8技術(shù))。同樣,我們也可以借助它,并利用正則表達(dá)式清洗語料,操作與EmEditor類似。官網(wǎng)軟件下載:https://notepad-plus-plus.org/downloads/


Notepad++軟件標(biāo)志


Notepad++軟件利用正則表達(dá)式

4)文檔整理器

? ? ? ??文檔整理器是一款使用方便的語料清洗軟件,內(nèi)含多種快捷鍵(如下圖所示),不需要手動輸入正則表達(dá)式或通配符進(jìn)行語料清洗,功能豐富,操作簡單,是一款較好語料清洗工具。

文檔整理器標(biāo)志
文檔整理器軟件界面

5)庫酷

? ? ? ??庫酷是一款功能豐富的語料清洗軟件,含多種快捷鍵(如下圖所示),用戶只需要根據(jù)自身需求點擊對應(yīng)快捷鍵即可,清洗語料速度快,也是一款不錯的語料清洗軟件,值得推薦。

庫酷軟件標(biāo)志
使用庫酷軟件清洗語料界面

6)斑斕科技小助手

? ? ? ??斑斕科技小助手是一款基于VBA的Word小工具,與庫酷和文檔整理器不同的是,它可以直接在word中使用,功能豐富,提供各種快捷鍵(如下圖所示),操作簡單方便,為語料處理提供極大的幫助。

官方軟件下載:http://edu.bon-lion.com/bon-lion-helper/

斑斕科技小助手在word中的顯示

3、語料對齊工具

? ? ? ??語料對齊一般指的是雙語或多語文本的平行對齊,一般以“一對一”對齊為主,也存在“一對二”或“一對多”平行文本的對齊,目前應(yīng)用最為廣泛的語料對齊是句級語料對齊。

? ? ? ??常見的語料對齊工具包含兩類:一類是CAT軟件自帶的工具,包括Trados的對齊文檔、memoQ的Livedocs等,另一類是獨立的工具,包括ABBYY Aligner、Tmxmall等。一般來說,CAT自帶的語料工具有些局限,這里主要介紹獨立的語料對齊工具。

1)ABBYY Aligner

? ? ? ??ABBYY Aligner 2.0是一個專業(yè)的工具對齊并行文本和創(chuàng)建翻譯記憶數(shù)據(jù)庫,提供了編輯對齊結(jié)果的功能,并可以保存為TMX格式,以便在CAT工具中進(jìn)一步使用,可以提高工作效率。

ABBYY Aligner軟件標(biāo)志
ABBYY Aligner界面

2)Tmxmall

? ? ? ??Tmxmall是一款在線語料對齊工具,語料對齊方便用戶調(diào)整對齊結(jié)果,其自主研發(fā)的智能對齊算法可以自動對齊原文,支持46種語言,2070種語言對,極大提高語料對齊效率。官方下載地址:https://www.tmxmall.com/

Tmxmall工具標(biāo)志
Tmxmall 工具界面

4、語料檢索工具

? ? ? ??語料檢索指的是對語料中的詞、句或結(jié)構(gòu)進(jìn)行檢索,可以獲得詞頻、詞密度、詞表、搭配、關(guān)鍵詞單等,以便對語料進(jìn)行分析研究。在此過程中有AntConc, ParaConc等可供使用。

1)AntConc

? ? ? ??AntConc是一款免費的單語語料檢索工具,支持Windows, MacOS等系統(tǒng),具有索引、索引定位、詞叢、搭配、詞表和關(guān)鍵詞單等多種功能,界面簡單,方便用戶操作,可以極大提高語料檢索的效率。

官方下載地址:https://www.laurenceanthony.net/software/antconc/

AntConc軟件標(biāo)志



AntConc平臺界面

2)ParaConc

? ? ? ??ParaConc是一款雙語或多語平行語料庫建設(shè)與檢索工具,具有語料對齊、平行文本預(yù)覽功能、平行文本檢索、檢索行排序、詞頻統(tǒng)計、搭配提取等功能,可以用于語料檢索、對比分析、語言學(xué)習(xí)和翻譯研究培訓(xùn)等。

官網(wǎng)下載地址:https://paraconc.com/

ParaConc軟件標(biāo)志
ParaConc軟件界面

5、總結(jié)

? ? ? ??語料工具有很多,在語料采集、清洗、對齊、檢索等各個過程有不同的軟件可供我們使用。面對形形色色的工具,我們不需要貪多,要選擇適合自己的工具并熟練運用,形成自己的一套語料處理體系,無論是對日常學(xué)習(xí),還是對學(xué)術(shù)研究,都有重要的意義。


原創(chuàng)作者:陳 雨

原文排版:李斯然

原文審校:李斯然

本期編輯:丁羽翔

關(guān)注微信公眾號“語言服務(wù)行業(yè)”,了解更多語言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~?


技術(shù)與工具|國內(nèi)外常見語料工具一覽的評論 (共 條)

分享到微博請遵守國家法律
锦屏县| 颍上县| 邛崃市| 古浪县| 鄂伦春自治旗| 丹江口市| 来宾市| 大化| 工布江达县| 西和县| 舟曲县| 巴中市| 东莞市| 中阳县| 红桥区| 武隆县| 镇坪县| 新化县| 蒙阴县| 平邑县| 汉沽区| 乌拉特后旗| 衡东县| 杭锦旗| 松原市| 鄱阳县| 桐梓县| 虹口区| 大埔区| 陈巴尔虎旗| 宁都县| 三亚市| 丘北县| 盐池县| 嘉鱼县| 修水县| 屏东县| 盐边县| 济宁市| 虹口区| 巴林右旗|