技術科普 | 我們應該在多大程度上相信機器呢?
機器翻譯
MACHINE TRANSLATION
我們應該在多大程度上相信機器實際上真的在慢慢學會理解語義,或者說機器翻譯的準確性正在迅速接近人類水平?為了回答這個問題,讓我們更加仔細地去看這些聲明所依據(jù)的事實。
首先,我們應該弄清楚這些公司如何衡量一臺機器或一個人的翻譯質(zhì)量。評估翻譯質(zhì)量并非那么簡單明了,一段給定的文本可以有很多種正確的翻譯方式,當然,也有更多錯誤的翻譯方式。由于對給定的文本進行翻譯沒有唯一的正確答案,因此很難設計出一種能夠自動評估系統(tǒng)翻譯準確性的方法。
谷歌聲稱其于2016年推出的神經(jīng)機器翻譯這種新方法彌補了人和機器翻譯之間的差距。另外幾家大型科技公司迎頭趕上,也陸續(xù)創(chuàng)造了他們自己的在線機器翻譯程序,同樣是基于編碼器-解碼器的架構(gòu)。這些公司以及為其報道的科技媒體,都在熱情地推廣這些翻譯服務?!堵槭±砉た萍荚u論》雜志報道稱:“谷歌的這一新服務幾乎可以像人類一樣翻譯語言?!蔽④浽谝粓龉就平闀媳硎酒渲形膶τ⑽男侣劮g服務的水平已經(jīng)和人類相當。IBM宣稱:“沃森現(xiàn)在能流利地說9種語言,且這個數(shù)量仍在增加?!盕acebook負責語言翻譯的高管坦言:“我們相信神經(jīng)網(wǎng)絡正在學著理解語言的潛在語義?!睂I(yè)翻譯公司DeepL的首席執(zhí)行官吹噓道:“我們的機器翻譯神經(jīng)網(wǎng)絡已經(jīng)發(fā)展出驚人的理解力。”
總體來說,這些聲明在一定程度上是由科技公司多種多樣的人工智能服務在銷售方面的競爭所推動的,而語言翻譯是其中一項盈利潛力很大的主要服務。雖然像谷歌翻譯這樣的網(wǎng)站會提供針對少量文本的免費翻譯服務,但如果一家公司想要翻譯大量文檔或在自己的網(wǎng)站上為客戶提供翻譯,則需要使用收費的機器翻譯服務,所有這些服務都由相同的編碼器-解碼器架構(gòu)提供支持。
隨著深度學習的引入,機器翻譯的水平已經(jīng)得到很大提升。那么這樣就能證明機器翻譯現(xiàn)在已接近人類水平了嗎?事實上,這種聲明從好幾個方面看來都是不合理的。首先,對評分取平均數(shù)會產(chǎn)生誤導性。比如,對于機器翻譯來說,盡管其對大多數(shù)句子的翻譯被評為“好極了”,但也有許多句子被評為“糟透了”,那么其平均水平是“還不錯”,然而,你可能更想要一個總是表現(xiàn)得相當好、從來不會出錯的、更可靠的翻譯系統(tǒng)。
其次,這些翻譯系統(tǒng)接近人類水平或與人類水平相當?shù)恼f法完全是基于其對單個句子翻譯水平的評估,而非篇幅更長的文章的翻譯。在一篇文章中,句子通常會以重要的方式相互依存,而在對單個句子翻譯的過程中,這些可能會被忽略。我還沒有看到過任何關于機器翻譯長文的評估的正式研究,一般來說,機器翻譯長文的質(zhì)量會差一點,比如說,對于谷歌翻譯,當給定的是整個段落而非單個句子時,其翻譯質(zhì)量會顯著下降。
最后,這些評估所使用的句子都是從新聞報道和維基百科頁面中提取的,這些頁面通常都經(jīng)過慎重的編寫以避免使用有歧義的語言或習語。這樣的語言可能會給機器翻譯系統(tǒng)帶來嚴重的問題,但在現(xiàn)實世界中是無法回避的。