《2022年機器翻譯評測報告》解讀(上)
1
Intento和e2f介紹
(一)Intento公司
Intento公司,構建了一個下一代集成平臺,支持評估和選擇40多個機器翻譯引擎,并將最適合的引擎(針對特定語言對和內容類型)連接到所有所需的業(yè)務系統(tǒng)和用例。
自2017年5月以來,Intento一直致力于評估機器翻譯模型。Intento使全球企業(yè)能夠在同一個機器翻譯平臺上多翻譯20倍內容。借助Intento,企業(yè)還可以監(jiān)測翻譯性能以不斷改善他們整個機器翻譯程序。
Intento可以為全球公司提供選擇、部署和改進最適合的機器翻譯和其他認知人工智能服務,包括情感分析、語音合成、圖像標記和光學字符識別。
e2f公司成立于2004年,幫助人們和機器不受語言、內容和文化限制,都能流暢地相互交流。e2f以其專有的技術棧提供世界一流的翻譯和訓練數(shù)據(jù),用于翻譯、質量審查和人工智能服務。
e2f主要提供以下服務:
- 機器翻譯檢測和機器翻譯質量評估服務,使企業(yè)能夠監(jiān)測供應商是否達到人工和機器翻譯的品牌標準 。
- 創(chuàng)建自定義Lingosets?,即擴充的多語言數(shù)據(jù)集,代表真實的人類對話。Lingosets可作為對話式人工智能部署的基準。
- 提供黃金數(shù)據(jù)集和訓練數(shù)據(jù)集,幫助領先的機器翻譯供應商能夠評估和微調引擎性能。
《2022年機器翻譯評測報告》解讀
(一)機器翻譯類型分類
報告將所選機器翻譯的類型進行了劃分,包括通用領域、垂直領域、術語定制化、領域自適應和人工適應的機器翻譯。
其中,既可以定制翻譯記憶庫又可以定制術語的機器翻譯有7個,分別是Amazon、Google Cloud、IBM Watson、Microsoft、Rozetta T-400、SYSTRAN和Ubiqus;有3個機器翻譯可以定制翻譯記憶庫,但不提供術語定制服務,分別是Globalese、ModernMT和Yandex;2個機器翻譯只可以定制術語,分別是百度和DeepL。從分析中可得,目前可提供定制化服務的機器翻譯仍占少數(shù)。
(二)數(shù)據(jù)集的選擇與清洗
報告詳細介紹了數(shù)據(jù)集的選擇標準和內容。本次評測的數(shù)據(jù)集選取的都是開源數(shù)據(jù),在評測之前,先對數(shù)據(jù)集進行了過濾和清洗,清除了重復內容、標簽、不完整符號、截斷句段等,過短(少于4詞)和過長的句子都被排除在外,但也考慮了口語體的特殊情況。
(三)行業(yè)領域劃分
報告將所有句段根據(jù)行業(yè)領域進行了劃分,共分為通用、金融、法律、醫(yī)療、娛樂、教育、信息技術、酒店服務和口語體共9個領域。與往年報告不同,2022年報告統(tǒng)一了各語言對、各行業(yè)領域的句段數(shù)量,在11個語言對的每個領域中,都各選取了500個句段,以便更加公平公正地評測機器翻譯質量。
本篇文章首先對《2022年機器翻譯評測報告》的數(shù)據(jù)集內容進行了概述,關于具體的評測方法、評測指標和評測結果將在下一篇文章中進行介紹和解讀。
若您對機器翻譯感興趣,請繼續(xù)關注我們的系列文章,一起探索如何針對不同行業(yè)、不同內容類型和不同語言對,選擇最適合的機器翻譯引擎!
歡迎點擊“閱讀原文”獲取《2022年機器翻譯評測報告》原文文檔。
本文專家
韓林濤 審核專家
碩士生導師,任教于北京語言大學
外國語學院高級翻譯學院,擔任本
科翻譯(本地化方向)專業(yè)負責人
-END-
本文轉載自:譯知科技公眾號
轉載編輯:Amelia