速覽!機器翻譯譯前編輯的10個小竅門
以下文章來源于機器翻譯觀察 ,作者Andy Nikulin
如何正確做譯前編輯,讓機器翻譯質量更靠譜?
都2020年了,機器翻譯質量不錯了。機器翻譯目前已經被公司、學生、出版社、翻譯服務提供商廣泛使用,還包括希望在社交媒體上讀懂你帖子的外國朋友們。然后他們開始給你點贊——因為他們看明白了!機器翻譯確實取得了長足的進步。
多年來,我們一直在評估機器翻譯引擎的性能,相信我們,我們已經見過太多。這篇文章總結了我們的經歷(有的是有趣的,有的令人好奇或痛苦的),我們只有一個目的:幫助你最大限度地用好機器翻譯,當然還有,避免尷尬。
在本文中,我們關注的是通用(并且是公開可用)機器翻譯系統(tǒng),因為定制模型可以在您的數據樣本上訓練,以更好地處理您的文本風格的細節(jié),而通用模型則用于處理各類文本。
聽起來不錯?讓我們仔細道來:
1. 使用正式的寫作風格。
刪除或替換以下內容可能是一個好主意:
俚語[例如,Wooot,Buddy或Dude]
借詞和新詞[例如,大獎賽,電動車]
習語和專業(yè)術語[例如,打破僵局="開始對話"]
在源語言方言中有不同含義的歧義詞和單詞,例如:
a)以-ed或-ing結尾的單詞
b)"table"一詞因為上下文不同,可指一件家具或表格清單
c)"glass"一詞可指材料或餐具等。
基于當地詼諧說法、習俗、諺語和偏見的短語
專業(yè)縮寫詞[例如,在法語中,日常交流中使用了很多縮寫:bjr=bonjour,bz=bisous,bises .等]
使用基于常識的短語[例如,地球是一顆行星]
2 .使用簡化的句子結構。
保證句子邏輯一致和完整。
不要用太多帶有從屬從句的復雜句子。
如果可以的話,避免被動時態(tài)。
必要時把復雜句子分開。
3 .統(tǒng)一術語。
例如,不要同時使用“client”和“customer”來描述“用戶”,而是堅持用同一個詞。
4 .檢查正字法、標點符號和錯誤拼寫。
錯誤的單詞可能會被誤譯——“void gaps”不是“avoid gaps”,這完全改變了句子的含義。有一次,我們的軟件因為一個機器翻譯的錯誤單詞“assked”,不得不暫停使用。
5 .統(tǒng)一格式:
價格和貨幣[例如,1.000美元]
測量單位[例如,千克]
數字[盡量用數字代替數字,例如,用“1”代替“one”]
日期和時間[例如,2020-08-12,14:45]
所有其他可統(tǒng)一的特定數據和術語
6 .盡可能多地使用低語域。
避免不必要的大寫[例如,使用"counterparty"而不是"Counterparty"]
解除大寫鎖定[例如,“HERO”一詞可以不翻譯]
7 .留意郵件,文件路徑,網址。
例如,電子郵件地址"daisy@garden.to"可能被機器翻譯為flower@yard,這可能不是用戶想要的。
8 .使用專門術語的詞匯表。
添加網址[物理位置]/地址[例如,"Language Street"可翻譯成"[目標語言直譯語言+街道]
添加產品和服務名稱[例如,翻譯后的產品名稱可能和您公司產品名稱指南有出入]
在詞匯表中增加名稱和縮略語[例如,縮略語"WORLD"可能被翻譯成"world"]
9 .采用統(tǒng)一的方式翻譯地名。
對于翻譯像La Grand-Place這樣的地名,可以選擇保留源語言的名字。
在翻譯文本中保留原語中的外語詞時,遵循語法規(guī)則。例如,如果你需要在翻譯的英語文本中使用一些原生的法語單詞,要遵循英語語法規(guī)則。
10.最后,當你發(fā)送翻譯請求以獲得更好的機翻結果時,確保指定好:
源文本語言。如果未指定源文本語言,自動語種檢測會啟動。語種檢測不僅需要時間,而且在某些情況下也可能提供錯誤的(不是字面上的錯誤,而是意想不到的)結果,例如,Kungens Kurva是斯德哥爾摩一條街道的名字(順便說一句,這是瑞典語中的King's Curve)。但是,如果你沒有指定源語言,它可能會被自動檢測成克羅地亞語,甚至波蘭語。自然,翻譯結果將會和原義大相徑庭。
源文本格式。如果將格式指定為TEXT,您會得到一個純文本。當指定HTML時,準備好處理翻譯結果中的HTML對象,例如,如果您將“Jag a?r mammas son”從瑞典語翻譯成英語,使用HTML格式,您可能會得到“I'm my mother's son”這樣的翻譯結果。
翻譯標記文本時,堅持用標準的HTML標簽,因為一些機翻引擎將非標準標簽視為斷句標記。試著把“She rose and left”翻譯成法語。你可能會得到“Elle Rose et la gauche”的結果,而不是“Elle s’est leve?e et est partie”這樣的正確譯法。
如果你已經留意了以上技巧,你可能會對結果感到滿意。然而,如果你覺得你需要從你的文本中提取一些重要的部分,來保證機器翻譯結果靠譜,這里有一個竅門:把它們摘出來再翻譯,然后把它們粘貼回去,就像在已經很不錯翻譯文本上再撒上一些配料。
祝你好運,翻譯愉快!
本文原載于blog.inten.to,原題為《10 Ways to Optimize Text for Machine Translation》,中文由公眾號@機器翻譯觀察翻譯并發(fā)布。點擊閱讀原文可閱讀英文原文。

本文來源于微信公眾號“翻譯技術教育與研究”、微信公眾號“語言服務行業(yè)”,致力于語言服務行業(yè)資訊、洞察、洞見~ 關注我們,了解更多精彩內容~?