最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

速覽!機器翻譯譯前編輯的10個小竅門

2022-04-22 23:41 作者:翻譯技術點津  | 我要投稿

以下文章來源于機器翻譯觀察 ,作者Andy Nikulin

如何正確做譯前編輯,讓機器翻譯質量更靠譜?

都2020年了,機器翻譯質量不錯了。機器翻譯目前已經被公司、學生、出版社、翻譯服務提供商廣泛使用,還包括希望在社交媒體上讀懂你帖子的外國朋友們。然后他們開始給你點贊——因為他們看明白了!機器翻譯確實取得了長足的進步。

多年來,我們一直在評估機器翻譯引擎的性能,相信我們,我們已經見過太多。這篇文章總結了我們的經歷(有的是有趣的,有的令人好奇或痛苦的),我們只有一個目的:幫助你最大限度地用好機器翻譯,當然還有,避免尷尬。

在本文中,我們關注的是通用(并且是公開可用)機器翻譯系統(tǒng),因為定制模型可以在您的數據樣本上訓練,以更好地處理您的文本風格的細節(jié),而通用模型則用于處理各類文本。

聽起來不錯?讓我們仔細道來:

1. 使用正式的寫作風格。

刪除或替換以下內容可能是一個好主意:

  • 俚語[例如,Wooot,Buddy或Dude]

  • 借詞和新詞[例如,大獎賽,電動車]

  • 習語和專業(yè)術語[例如,打破僵局="開始對話"]

  • 在源語言方言中有不同含義的歧義詞和單詞,例如:

a)以-ed或-ing結尾的單詞

b)"table"一詞因為上下文不同,可指一件家具或表格清單

c)"glass"一詞可指材料或餐具等。

  • 基于當地詼諧說法、習俗、諺語和偏見的短語

  • 專業(yè)縮寫詞[例如,在法語中,日常交流中使用了很多縮寫:bjr=bonjour,bz=bisous,bises .等]

  • 使用基于常識的短語[例如,地球是一顆行星]

2 .使用簡化的句子結構。

  • 保證句子邏輯一致和完整。

  • 不要用太多帶有從屬從句的復雜句子。

  • 如果可以的話,避免被動時態(tài)。

  • 必要時把復雜句子分開。

3 .統(tǒng)一術語。

例如,不要同時使用“client”和“customer”來描述“用戶”,而是堅持用同一個詞。

4 .檢查正字法、標點符號和錯誤拼寫。

錯誤的單詞可能會被誤譯——“void gaps”不是“avoid gaps”,這完全改變了句子的含義。有一次,我們的軟件因為一個機器翻譯的錯誤單詞“assked”,不得不暫停使用。

5 .統(tǒng)一格式:

  • 價格和貨幣[例如,1.000美元]

  • 測量單位[例如,千克]

  • 數字[盡量用數字代替數字,例如,用“1”代替“one”]

  • 日期和時間[例如,2020-08-12,14:45]

  • 所有其他可統(tǒng)一的特定數據和術語

6 .盡可能多地使用低語域。

  • 避免不必要的大寫[例如,使用"counterparty"而不是"Counterparty"]

  • 解除大寫鎖定[例如,“HERO”一詞可以不翻譯]

7 .留意郵件,文件路徑,網址。

例如,電子郵件地址"daisy@garden.to"可能被機器翻譯為flower@yard,這可能不是用戶想要的。

8 .使用專門術語的詞匯表。

  • 添加網址[物理位置]/地址[例如,"Language Street"可翻譯成"[目標語言直譯語言+街道]

  • 添加產品和服務名稱[例如,翻譯后的產品名稱可能和您公司產品名稱指南有出入]

  • 在詞匯表中增加名稱和縮略語[例如,縮略語"WORLD"可能被翻譯成"world"]

9 .采用統(tǒng)一的方式翻譯地名。

  • 對于翻譯像La Grand-Place這樣的地名,可以選擇保留源語言的名字。

  • 在翻譯文本中保留原語中的外語詞時,遵循語法規(guī)則。例如,如果你需要在翻譯的英語文本中使用一些原生的法語單詞,要遵循英語語法規(guī)則。

10.最后,當你發(fā)送翻譯請求以獲得更好的機翻結果時,確保指定好:

  • 源文本語言。如果未指定源文本語言,自動語種檢測會啟動。語種檢測不僅需要時間,而且在某些情況下也可能提供錯誤的(不是字面上的錯誤,而是意想不到的)結果,例如,Kungens Kurva是斯德哥爾摩一條街道的名字(順便說一句,這是瑞典語中的King's Curve)。但是,如果你沒有指定源語言,它可能會被自動檢測成克羅地亞語,甚至波蘭語。自然,翻譯結果將會和原義大相徑庭。

  • 源文本格式。如果將格式指定為TEXT,您會得到一個純文本。當指定HTML時,準備好處理翻譯結果中的HTML對象,例如,如果您將“Jag a?r mammas son”從瑞典語翻譯成英語,使用HTML格式,您可能會得到“I'm my mother's son”這樣的翻譯結果。

  • 翻譯標記文本時,堅持用標準的HTML標簽,因為一些機翻引擎將非標準標簽視為斷句標記。試著把“She rose and left”翻譯成法語。你可能會得到“Elle Rose et la gauche”的結果,而不是“Elle s’est leve?e et est partie”這樣的正確譯法。


如果你已經留意了以上技巧,你可能會對結果感到滿意。然而,如果你覺得你需要從你的文本中提取一些重要的部分,來保證機器翻譯結果靠譜,這里有一個竅門:把它們摘出來再翻譯,然后把它們粘貼回去,就像在已經很不錯翻譯文本上再撒上一些配料。

祝你好運,翻譯愉快!

本文原載于blog.inten.to,原題為《10 Ways to Optimize Text for Machine Translation》,中文由公眾號@機器翻譯觀察翻譯并發(fā)布。點擊閱讀原文可閱讀英文原文。

本文來源于微信公眾號“翻譯技術教育與研究”、微信公眾號“語言服務行業(yè)”,致力于語言服務行業(yè)資訊、洞察、洞見~ 關注我們,了解更多精彩內容~?

速覽!機器翻譯譯前編輯的10個小竅門的評論 (共 條)

分享到微博請遵守國家法律
白山市| 河西区| 揭西县| 济源市| 隆德县| 武功县| 岐山县| 师宗县| 大理市| 玉田县| 通化市| 措美县| 将乐县| 陆良县| 陇西县| 云梦县| 枣庄市| 汉阴县| 柘荣县| 鹤山市| 罗定市| 繁昌县| 临西县| 大兴区| 攀枝花市| 颍上县| 乐东| 铁岭县| 聂拉木县| 周宁县| 石嘴山市| 丹寨县| 华安县| 邵阳市| 繁昌县| 南乐县| 黑龙江省| 临城县| 通州区| 双鸭山市| 临海市|