大廠算法工程師揭秘機(jī)器翻譯內(nèi)幕
本文轉(zhuǎn)自:火山翻譯公眾號(hào)
大家應(yīng)該都使用過(guò)機(jī)器翻譯來(lái)輔助自己高效工作,但你對(duì)它的了解有多少?
除了翻譯外文文獻(xiàn)、幫助我們撰寫(xiě)外文材料以外,它還有哪些用途?不同的機(jī)器翻譯引擎的翻譯結(jié)果為什么不一樣?機(jī)器翻譯如何提升翻譯效果?...
不久前字節(jié)跳動(dòng)AI Lab算法工程師劉志成受邀出席火山翻譯·第五屆全國(guó)機(jī)器翻譯譯后編輯大賽動(dòng)員會(huì),為大家介紹機(jī)器翻譯的應(yīng)用與發(fā)展。
嘉賓介紹
劉志成,字節(jié)跳動(dòng)AI Lab算法工程師。碩士畢業(yè)于上海交通大學(xué),主要研究方向?yàn)樽匀徽Z(yǔ)言處理/機(jī)器翻譯,現(xiàn)參與負(fù)責(zé)語(yǔ)音翻譯/火山同傳業(yè)務(wù)實(shí)踐與學(xué)術(shù)探索。
快速了解全文內(nèi)容
1. 機(jī)器翻譯的應(yīng)用場(chǎng)景
2. 在現(xiàn)今的應(yīng)用場(chǎng)景下火山翻譯做了哪些技術(shù)創(chuàng)新
3. 在當(dāng)前的機(jī)器翻譯場(chǎng)景下,作為口譯或者筆譯,如何看待機(jī)器翻譯的現(xiàn)在和未來(lái)
“
01 機(jī)器翻譯的應(yīng)用場(chǎng)景
關(guān)于機(jī)器翻譯的應(yīng)用場(chǎng)景,我們必須要了解兩點(diǎn):機(jī)器翻譯是什么?它的現(xiàn)狀如何?
那到底什么是機(jī)器翻譯呢?機(jī)器翻譯就是通過(guò)機(jī)器自動(dòng)完成將 X 語(yǔ)言轉(zhuǎn)化成 Y 語(yǔ)言的過(guò)程。如果講到機(jī)器翻譯,大家一般都會(huì)想到,它和人工翻譯有什么區(qū)別呢?
相比人工翻譯來(lái)說(shuō),機(jī)器翻譯有以下三個(gè)優(yōu)勢(shì):首先,機(jī)器翻譯的效率足夠高,它能夠快速地翻譯大規(guī)模文本。其次,機(jī)器翻譯的翻譯質(zhì)量非常穩(wěn)定:譯員的翻譯結(jié)果可能會(huì)因?yàn)橥饨缫蛩氐母蓴_,出現(xiàn)拼寫(xiě)錯(cuò)誤或者其他問(wèn)題。而機(jī)器翻譯的質(zhì)量是非常穩(wěn)定的,不會(huì)因?yàn)橥獠吭蚨霈F(xiàn)質(zhì)量波動(dòng)。第三個(gè)優(yōu)勢(shì)是節(jié)省預(yù)算,降低成本。在翻譯非常大規(guī)模的文本時(shí),如果采用人工翻譯的話,是非常消耗預(yù)算的,相對(duì)來(lái)說(shuō)機(jī)器翻譯的價(jià)格比較友好,是一個(gè)理想的選擇。
那相比人工翻譯,機(jī)器翻譯有哪些劣勢(shì)呢?雖然在一些語(yǔ)向上(比如英語(yǔ)相關(guān)語(yǔ)向),機(jī)器翻譯已經(jīng)能夠達(dá)到人類的平均水平了,但在大部分語(yǔ)向上,機(jī)器翻譯的質(zhì)量和人類的頂尖水平還是有差距的。第二個(gè)劣勢(shì)是關(guān)于意譯的問(wèn)題,比如說(shuō),機(jī)器翻譯俗語(yǔ)、俚語(yǔ)的時(shí)候還是比較生硬的。
這里我舉一個(gè)英語(yǔ)和日語(yǔ)的 case。大家可以看一下,大家覺(jué)得右邊的這個(gè)譯文到底是機(jī)器翻譯出來(lái)的還是人工翻譯出來(lái)的?
大部分同學(xué)都能看出來(lái)兩個(gè)譯文都是機(jī)器翻譯,這說(shuō)明機(jī)器翻譯跟人工翻譯還是存在一定的差距的,雖然這個(gè)差距并不至于影響基本的閱讀理解。
這就是機(jī)器翻譯的大致概念及效果,那機(jī)器翻譯是如何做到在短短1秒內(nèi)提供一個(gè)可用甚至優(yōu)質(zhì)的翻譯結(jié)果的?以火山翻譯為例,作為字節(jié)跳動(dòng)旗下的機(jī)器翻譯品牌,我們也為字節(jié)跳動(dòng)的企業(yè)級(jí)服務(wù)平臺(tái)——火山引擎提供核心人工智能中臺(tái)能力?;鹕椒g日均的調(diào)用量達(dá)百億字符,每天的用戶量是數(shù)千萬(wàn),內(nèi)部支持的業(yè)務(wù)方達(dá)數(shù)百個(gè),是非常大的量級(jí)。
大家可能會(huì)有疑問(wèn),那為什么我好像沒(méi)有聽(tīng)說(shuō)過(guò)火山翻譯呢?這和整體的公司戰(zhàn)略也有關(guān)系。大家對(duì)字節(jié)跳動(dòng)不一定很了解,但是一定都接觸過(guò)我們的產(chǎn)品:抖音、火山小視頻、今日頭條等等。目前我們支持114個(gè)語(yǔ)種,不僅是中文、英文、日文、韓語(yǔ)這些主流語(yǔ)種,也包括比如歐洲、東南亞和非洲的小語(yǔ)系。特別的是,我們還可以支持文言文的翻譯。
或許又有同學(xué)有疑問(wèn):日常生活中,我們什么時(shí)候用得上這么多個(gè)語(yǔ)種?
以西瓜視頻的字幕翻譯為例:為了能讓中國(guó)觀眾享受到不同語(yǔ)言的優(yōu)質(zhì)內(nèi)容,我們希望能夠把這些視頻翻譯成中文,但大家也知道我們的內(nèi)容池量級(jí)非常大,如果用人工翻譯的話,能翻譯的數(shù)量是非常有限的。我們?cè)谧龅囊粋€(gè)場(chǎng)景是直接用機(jī)器翻譯把視頻的標(biāo)題、評(píng)論以及內(nèi)容翻譯成中文。如果視頻里面創(chuàng)作者在說(shuō)話,我們就翻譯語(yǔ)音。如果創(chuàng)作者提供了字幕,我們就識(shí)別其中的字幕,再把它翻譯成中文。
另一個(gè)更大的場(chǎng)景是辦公翻譯。字節(jié)跳動(dòng)在海外都有辦公室,日常辦公中大家需要溝通。那么不同語(yǔ)言的員工之間如何溝通呢?我們可以為辦公軟件(如:飛書(shū))提供對(duì)話翻譯服務(wù)。還有一個(gè)更通用的場(chǎng)景是郵件翻譯。有些郵件字體中間有黑體,或者附件中有圖片,翻譯郵件的時(shí)候我們?cè)趺窗讯嗝襟w的信息也翻譯好,也是我們比較大的應(yīng)用方向。
更難的一個(gè)方向是同聲傳譯。我們研發(fā)了智能同傳產(chǎn)品火山同傳,提供實(shí)時(shí)的語(yǔ)音翻譯能力,為各大會(huì)議和活動(dòng)提供同傳服務(wù)。2020年,日本藝術(shù)家村上隆在抖音舉辦了一場(chǎng)直播活動(dòng)。大家可以看到主持人跟村上隆先生一直在對(duì)話,界面下方中文和日文的雙語(yǔ)字幕實(shí)時(shí)顯示,這就是火山同傳提供的服務(wù)。之前用戶很難直接觀看類似的跨國(guó)直播,但如果通過(guò)機(jī)器翻譯提供同傳字幕,用戶觀看起來(lái)會(huì)更加輕松,從而極大地提升了直播流量。
“
02 火山翻譯的技術(shù)創(chuàng)新
上面我們提到,機(jī)器翻譯仍然存在很多不足。作為技術(shù)工程師,我們?nèi)绾伪M可能優(yōu)化機(jī)器翻譯效果呢?接下來(lái)我先簡(jiǎn)單介紹一下機(jī)器翻譯發(fā)展的歷程,其次,我會(huì)舉一些機(jī)器翻譯出錯(cuò)的例子,討論機(jī)器翻譯技術(shù)到底有哪些問(wèn)題,我們?nèi)绾瓮ㄟ^(guò)技術(shù)創(chuàng)新解決這些問(wèn)題。大家參加MTPE比賽的時(shí)候,也可以根據(jù)這些難點(diǎn)去發(fā)現(xiàn)機(jī)器翻譯的問(wèn)題。
基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯
機(jī)器翻譯發(fā)展歷史,主要是分為四個(gè)階段。這里我重點(diǎn)講最后一個(gè)階段:基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯。2013 年谷歌首次提出了完全基于端到端神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯模型。
那究竟什么是基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯呢?要解答這個(gè)問(wèn)題,我們需要先理解機(jī)器翻譯的原理。
和我們小時(shí)候?qū)W習(xí)英語(yǔ)不同,機(jī)器并不會(huì)學(xué)習(xí)明確的語(yǔ)言規(guī)則,比如說(shuō)什么是定語(yǔ)從句,什么是過(guò)去完成時(shí)。它更像母語(yǔ)是英語(yǔ)的人,多聽(tīng)多看,自然就會(huì)了。例如,機(jī)器看到好幾次“新年快樂(lè)”和“Happy New Year”一起出現(xiàn),慢慢就學(xué)會(huì)了把“新年快樂(lè)”翻譯成“Happy New Year”。
因?yàn)橛?jì)算機(jī)是無(wú)法識(shí)別人類語(yǔ)言的,所以機(jī)器翻譯要先把一句話從文字轉(zhuǎn)變成計(jì)算機(jī)能接受的表示形式,從而完成計(jì)算,這個(gè)表示就是詞向量。每個(gè)詞語(yǔ)都可以用向量來(lái)表示,例如最容易理解的獨(dú)熱向量表示(one-hot),就是一個(gè)長(zhǎng)度為n的向量,n代表某一語(yǔ)言的詞語(yǔ)總數(shù),向量只有一個(gè)位置上為1,其他位置都為0,其中值為1的位置就是單詞在整個(gè)詞典中的位置,那么“蘋果”的向量可能就是[1,0,0,0,…,0],“梨”的向量可能是[0,1,0,0,…,0]。要表示一句話,是通過(guò)把這些詞向量拼接成一個(gè)矩陣來(lái)實(shí)現(xiàn)的。
而神經(jīng)網(wǎng)絡(luò),就是通過(guò)一系列的計(jì)算完成從輸入到輸出的轉(zhuǎn)變,也可以簡(jiǎn)單地用公式表述為多個(gè)y=f(wx+b)的矩陣運(yùn)算疊加。神經(jīng)網(wǎng)絡(luò)最終就是把這樣用于表示一句話的源語(yǔ)輸入矩陣,經(jīng)過(guò)一系列計(jì)算轉(zhuǎn)變成用于表示另一句話的目標(biāo)語(yǔ)輸出矩陣,但因?yàn)檫@些矩陣?yán)锒际且恍?shù)值,所以就需要用詞典把這些數(shù)值映射到真正需要的語(yǔ)言文字上,最終成功“解碼”,實(shí)現(xiàn)從源語(yǔ)言到目標(biāo)語(yǔ)言的翻譯。
從2013年起,因?yàn)樯窠?jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)的出現(xiàn)和演化,機(jī)器翻譯取得了非常大的進(jìn)步,從發(fā)展歷程來(lái)看我們也能發(fā)現(xiàn)語(yǔ)言專家的參與比重在逐步降低。當(dāng)前基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯的時(shí)代,語(yǔ)言專家參與的比重又是多少呢?這個(gè)我也不太確定,但確定的是語(yǔ)言專家在其中仍然發(fā)揮著不小的作用。比如現(xiàn)在大火的MTPE譯后編輯,就是根據(jù)語(yǔ)言專家的修改建議讓機(jī)器翻譯結(jié)果更完美。
機(jī)器翻譯的技術(shù)難點(diǎn)
關(guān)于機(jī)器翻譯的技術(shù)難點(diǎn),第一個(gè)就是術(shù)語(yǔ)翻譯。機(jī)器翻譯已經(jīng)在這個(gè)方面進(jìn)行改進(jìn),但很難做到非常完美。這里有一個(gè)例子:抖音這個(gè)詞是專業(yè)術(shù)語(yǔ),但是英文翻譯結(jié)果完全偏離了原文,這對(duì)用戶來(lái)說(shuō)是不可接受的。這種情況就是機(jī)器翻譯需要改進(jìn)和避免的。
第二個(gè)難點(diǎn)是如何實(shí)現(xiàn)多義詞的準(zhǔn)確翻譯。
比如 knife 這個(gè)單詞。在不同的語(yǔ)境里面,它的意思是不一樣的。第一個(gè)句子中“小刀”是一個(gè)物品,它是用來(lái)切蘋果的。第二個(gè)句子中“小刀”是打折的意思。機(jī)器翻譯并不總是能完美地區(qū)分同一個(gè)詞在不同語(yǔ)境中的含義,這個(gè)也是我們想要克服的困難,希望機(jī)器翻譯能夠做到對(duì)于歧義詞的準(zhǔn)確翻譯。
第三個(gè)點(diǎn)是同聲傳譯,這個(gè)是相對(duì)于文本翻譯來(lái)說(shuō)是更難的場(chǎng)景。有時(shí)候主講人說(shuō)了這一段話:“她怎么了?是哭了嗎?為什么哭?”如果你放到機(jī)器翻譯系統(tǒng)中進(jìn)行翻譯,機(jī)器常常會(huì)把它識(shí)別成三句獨(dú)立的句子,這樣它翻譯的時(shí)候會(huì)出現(xiàn)指代不清的問(wèn)題,帶來(lái)歧義。如果要把這段話翻譯成日語(yǔ),還會(huì)涉及到更復(fù)雜的問(wèn)題——敬語(yǔ)的一致性。識(shí)別、處理不同語(yǔ)種特有的語(yǔ)法現(xiàn)象也是機(jī)器翻譯的難點(diǎn)。
針對(duì)上面的三個(gè)問(wèn)題,我們團(tuán)隊(duì)不斷探索前沿技術(shù)來(lái)攻克難關(guān),提供多個(gè)效果更佳的翻譯產(chǎn)品。
產(chǎn)品的創(chuàng)新從三個(gè)角度出發(fā),也就是中國(guó)近代翻譯家提出的翻譯理論“三難原則”:信達(dá)雅。針對(duì)技術(shù)我們也做了四個(gè)方面的創(chuàng)新。通過(guò)這些創(chuàng)新我們?cè)跈C(jī)器翻譯上已經(jīng)取得了一定的成果。包括在全球?qū)W術(shù)界公認(rèn)的國(guó)際頂級(jí)機(jī)器翻譯比賽——國(guó)際機(jī)器翻譯大賽上,我們分別于20年、21 年都獲得了重要語(yǔ)向的冠軍。此外,我們發(fā)表的研究成果拿下了某計(jì)算機(jī)頂級(jí)會(huì)議的最佳論文,也是這個(gè)頂級(jí)會(huì)議成立 59 年以來(lái),中國(guó)科學(xué)家第二次拿到這個(gè)最高榮譽(yù)。
“
03 外語(yǔ)人才的復(fù)合發(fā)展
最后我想談的是,在機(jī)器翻譯不斷迭代進(jìn)步的時(shí)代背景下,作為譯員,要如何適應(yīng)現(xiàn)今的態(tài)勢(shì)?從兩點(diǎn)來(lái)說(shuō),第一,人機(jī)結(jié)合是不可逆轉(zhuǎn)的趨勢(shì),在這個(gè)前提下,成為復(fù)合型人才,才能夠適應(yīng)時(shí)代的發(fā)展。
人機(jī)結(jié)合的必要性在于上面提到的機(jī)器翻譯的劣勢(shì),也就是說(shuō)機(jī)器翻譯不能完美解決所有的問(wèn)題。比如在同聲傳譯場(chǎng)景,機(jī)器翻譯的效果離人工同傳的最高水平還有一定差距。機(jī)器同傳翻譯一般要先經(jīng)過(guò)語(yǔ)音識(shí)別出原文本,再翻譯成對(duì)應(yīng)的譯文。
如果語(yǔ)音識(shí)別得到的原文出現(xiàn)錯(cuò)誤,翻譯就更加困難了。機(jī)器翻譯并不能代替人工翻譯,它很難去理解那些微妙的部分。日語(yǔ)中表示委婉拒絕的方式比較多,機(jī)器就很難理解他們之間的異同。在專業(yè)術(shù)語(yǔ)上,比如人名、地名、書(shū)名等,機(jī)器也容易出錯(cuò)。還有更多的語(yǔ)法、時(shí)態(tài)等規(guī)則,也是機(jī)器翻譯需要“學(xué)習(xí)”的。
對(duì)于深耕機(jī)器翻譯領(lǐng)域的火山翻譯,我們?nèi)绾慰创叭藱C(jī)結(jié)合”呢?我們追求的肯定是高效率高質(zhì)量。高效率通過(guò)機(jī)器翻譯已經(jīng)做到了,而高質(zhì)量要通過(guò)人工,通過(guò)在座的各位語(yǔ)言專家?guī)椭覀兘鉀Q這個(gè)問(wèn)題。不僅是文本翻譯,還有視頻翻譯、同聲傳譯等等翻譯場(chǎng)景,都非常需要語(yǔ)言專家的參與。
那現(xiàn)在企業(yè)需要樣的復(fù)合型人才呢?首先是語(yǔ)言方面的能力,這個(gè)是基礎(chǔ)。第二個(gè)是 PE (Post editing) 能力,掌握 CAT (Computeraidedtranslation,計(jì)算機(jī)輔助翻譯) 等,這樣的能力是企業(yè)非常需要的。還有其他專業(yè)領(lǐng)域的知識(shí)(比如醫(yī)藥、金融等),這些都是復(fù)合型人才的技能優(yōu)勢(shì)。我覺(jué)得這次 mtpe 大賽對(duì)大家各個(gè)方面的能力是一個(gè)非常好的鍛煉。對(duì)大家畢業(yè)之后的成長(zhǎng)有非常大的幫助,在這里也鼓勵(lì)大家去參加這個(gè)比賽。如果要做 PE 的話,你肯定要了解機(jī)器翻譯的優(yōu)劣勢(shì),了解機(jī)器翻譯有哪部分還有欠缺?此外,還需要掌握譯后編輯的工具或者平臺(tái)。掌握這個(gè)能力不僅是多一項(xiàng)技能,它對(duì)之后的工作效率也有極大的幫助。
最后插播一則廣告~ 字節(jié)跳動(dòng)火山翻譯非常需要語(yǔ)言專家來(lái)加入我們。這里是我們?cè)谡械膷徫弧?/p>
除了英語(yǔ)之外,我們也非常歡迎小語(yǔ)種同學(xué)的加入。英語(yǔ)、日語(yǔ)或是歐洲語(yǔ)系,或是東南亞語(yǔ)系,我們都需要大量這些語(yǔ)種的人才。機(jī)器翻譯在小語(yǔ)種方向上的表現(xiàn)沒(méi)有大語(yǔ)種那么好,因此我們需要更多的小語(yǔ)種專家加入我們。來(lái)火山翻譯實(shí)習(xí)能夠增加各方面的能力,也有機(jī)會(huì)參與文本、視頻等企業(yè)級(jí)的人機(jī)協(xié)作的項(xiàng)目,比如我們剛剛說(shuō)的村上隆的直播活動(dòng),就是由語(yǔ)言專家參與進(jìn)行譯后編輯,從而進(jìn)一步提高直播字幕翻譯的準(zhǔn)確度。
關(guān)注微信公眾號(hào)“語(yǔ)言服務(wù)行業(yè)”,“翻譯技術(shù)教育與研究”,了解更多語(yǔ)言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~