識別人工翻譯/機(jī)器翻譯的“火眼金睛”?
(圖片來源:https://slator.com/researchers-see-promising-direction-auto-detection-human-vs-machine-translation/)
PART NO.1
自2016年神經(jīng)機(jī)器翻譯(NMT)橫空出世以來,許多公司一直吹噓機(jī)器翻譯(MT)幾乎堪比人類水平。誠然,機(jī)器翻譯的質(zhì)量不斷提高(盡管在各語言及各領(lǐng)域之間并不均衡),但在許多情況下,只有人工翻譯(HT)或專家在環(huán)(expert-in-the-loop)翻譯才能奏效。
把人工翻譯譯文從機(jī)器翻譯中篩選出來只會變得越來越困難,尤其是機(jī)器翻譯如今被用來創(chuàng)建一些源文本。在這一領(lǐng)域,荷蘭格羅寧根大學(xué)(University of Groningen)的研究人員發(fā)現(xiàn)了開發(fā)所謂“分類器”的機(jī)會,這是一種用少量特定任務(wù)的標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)的單語或多語語言模型。
在2023年5月一篇題為《多語言環(huán)境下人類翻譯及神經(jīng)機(jī)器翻譯的自動識別》(Automatic Discrimination of Human and Neural Machine Translation in Multilingual Settings)的論文中,作者M(jìn)alina Chichirau、Rik van Noord和Antonio Toral考慮了多語言環(huán)境下的分類器。
他們發(fā)現(xiàn),使用來自多種源語言的訓(xùn)練數(shù)據(jù)可以提高單語及多語分類器的準(zhǔn)確性。
研究人員從國際機(jī)器翻譯大會(Workshop on Machine Translation,WMT)新聞共享任務(wù)中,挑選非英語源文本及其相應(yīng)的英語人工翻譯(HT)和機(jī)器翻譯(MT)用于創(chuàng)建數(shù)據(jù)集。單語分類器只用純英語數(shù)據(jù)進(jìn)行訓(xùn)練,而多語分類器則用源文本及其英語譯文進(jìn)行訓(xùn)練。
與單語分類器相比,多語分類器在識別人工翻譯或機(jī)器翻譯方面準(zhǔn)確率更高,這表明分類器顯然受益于能接觸到源句。
用德語、俄語和中文進(jìn)行的實驗還表明,多源語言的訓(xùn)練可以提升分類器在其他語言上的表現(xiàn)。
PART NO.2
大有前途的方向
作者還寫道,“然而,合并來自不同源語言的訓(xùn)練數(shù)據(jù)其效果似乎正在減弱,因為只有將這三種語言作為訓(xùn)練數(shù)據(jù)結(jié)合起來才能獲得最佳分?jǐn)?shù)?!薄氨M管如此,鑒于即使只有少量的額外訓(xùn)練數(shù)據(jù)(中文只有1756個訓(xùn)練實例)也能提高性能,我們認(rèn)為這是未來工作中很有前途的一個方向?!?br/>
該小組還發(fā)現(xiàn),在文檔層面的文本上對句級模型進(jìn)行微調(diào)是有效的,最好是用文檔而不是用句子來訓(xùn)練模型。以這種方式進(jìn)行微調(diào),使得準(zhǔn)確性最高而標(biāo)準(zhǔn)偏差最低,這表明分類器更穩(wěn)定。
研究人員寫道,展望未來,隨著文本生成繼續(xù)融入機(jī)器翻譯,區(qū)分原文和譯文可能會變得更加困難。因此,這一系列研究,下一個合乎邏輯的步驟將會是:做出能將文本識別為原始文本、人工翻譯文本或機(jī)器翻譯文本的分類器。
原文網(wǎng)址:https://slator.com/researchers-see-promising-direction-auto-detection-human-vs-machine-translation/
特別說明:本文內(nèi)容選自 slator官網(wǎng),僅供學(xué)習(xí)交流使用,如有侵權(quán)請后臺聯(lián)系小編刪除。
- END -
摘譯編輯:唐蕊