最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

清華AI Time告訴你:機(jī)器翻譯離我們還有多遠(yuǎn)?

2022-04-16 23:45 作者:翻譯技術(shù)點(diǎn)津  | 我要投稿

來自大數(shù)據(jù)文摘,作者:劉俊寰

? ? ? ??作為自然語言處理中一項(xiàng)非常重要的應(yīng)用,現(xiàn)代意義上的機(jī)器翻譯概念從上世紀(jì)40年代提出至今,經(jīng)過了幾代革新,現(xiàn)已初步實(shí)現(xiàn)了多場景的落地和應(yīng)用。而近幾年隨著機(jī)器翻譯質(zhì)量的提高,機(jī)器翻譯將代替人工翻譯的聲勢逐漸浩大起來,那么機(jī)器翻譯對于人工翻譯而言是威脅還是可利用工具?在多大程度上機(jī)器翻譯又能幫助普通用戶呢?

? ? ? ? 在AI Time第六期的辯論中,中科院自動化研究所研究員宗成慶、北京外國語大學(xué)高級翻譯學(xué)院副院長李長栓、蘇州大學(xué)計(jì)算機(jī)學(xué)院副院長國家杰青張民、東北大學(xué)計(jì)算機(jī)學(xué)院教授朱靖波、清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長聘副教授劉洋一起論道了機(jī)器翻譯的相關(guān)問題。


機(jī)器翻譯歷史

? ? ? ??機(jī)器翻譯的歷史大體可以分為兩大階段,第一階段是從60年代到90年代初期,理性主義方法是主流,主要是讓人類專家觀察語言規(guī)律,把它描述成規(guī)則,讓機(jī)器按照既定規(guī)則進(jìn)行翻譯。第二個階段是90年代,特別是互聯(lián)網(wǎng)出現(xiàn)以后,開始從事統(tǒng)計(jì)機(jī)器翻譯研究,此時數(shù)據(jù)以及相應(yīng)的數(shù)據(jù)驅(qū)動方法得到蓬勃發(fā)展。
? ? ? ??統(tǒng)計(jì)方法比較經(jīng)典的模型叫做隱變量對數(shù)線性模型,它的特點(diǎn)是要設(shè)計(jì)特征,X代表輸入,Y代表輸出,Z就代表中間的語言結(jié)構(gòu),通過定義各種特征函數(shù)來訓(xùn)練一個參數(shù),很多工作都集中在如何設(shè)計(jì)好的特征來描述翻譯規(guī)律上。
? ? ? ??但語言太過復(fù)雜,窮盡人類智慧也很難把這個特征設(shè)計(jì)全面,其中一個難點(diǎn)稱之為調(diào)序,比如“就中東局勢舉行了一個小時會談”,這是一個典型的介詞短語和動詞短語的組合,在中文中先說介詞短語,再說動詞短語,但在英文中都是反過來的。
? ? ? ??2015年后,深度學(xué)習(xí)在機(jī)器翻譯得到應(yīng)用。深度學(xué)習(xí)的主要意義在于它可以從數(shù)據(jù)中自動提取表示,就不需要像以前一樣設(shè)計(jì)特征來描述翻譯規(guī)則,只需要設(shè)計(jì)一個網(wǎng)絡(luò),讓機(jī)器自動在數(shù)據(jù)去尋找表述,效果非常好。但還是有難解決的問題,它根本不知道數(shù)字是什么意思,不知道為什么出錯,不知道怎么去改動它,而且很難控制。
? ? ? ??目前最核心的技術(shù)叫做注意力機(jī)制,希望通過自動計(jì)算發(fā)現(xiàn)中英文之間的相關(guān)性,這在整個深度學(xué)習(xí)里也是非常核心的技術(shù)?,F(xiàn)在可以利用一些比較新的技術(shù),這個是transformer,希望能夠處理更長的序列。

機(jī)器翻譯旨在彌補(bǔ)人類干不了的場景

? ? ? ??最近幾年出現(xiàn)了一系列機(jī)器翻譯應(yīng)用,比如翻譯機(jī)、微信的翻譯服務(wù)。機(jī)器翻譯很大程度上是為解決不同國家、不同文化之間的溝通問題,如果機(jī)器翻譯能在一定程度上取代人、幫助人,溝通的信道會有一個巨大的釋放。那么機(jī)器翻譯究竟能否代替人呢?
? ? ? ??宗成慶老師認(rèn)為,機(jī)器翻譯近幾年的進(jìn)步很大,可以大幅提高翻譯效率,但是機(jī)器翻譯的運(yùn)用需要基于場景和任務(wù),機(jī)器翻譯在一些場景下確實(shí)能幫助人,比如旅游問路,但是在某些領(lǐng)域,比如高層次的翻譯,要對機(jī)器翻譯寄予太多的希望還為時過早。


?? ? ? ?張民老師對宗老師的觀點(diǎn)表示贊同,他補(bǔ)充道,機(jī)器翻譯要從學(xué)術(shù)界和產(chǎn)業(yè)界兩個側(cè)面看。學(xué)術(shù)界一直可以做下去,產(chǎn)業(yè)界里機(jī)器翻譯已經(jīng)蓬勃發(fā)展,產(chǎn)業(yè)對學(xué)術(shù)界技術(shù)需求強(qiáng)烈,技術(shù)達(dá)到了產(chǎn)業(yè)低端門坎,產(chǎn)業(yè)推動技術(shù)發(fā)展、技術(shù)服務(wù)行業(yè)。
? ? ? ??李長栓老師也認(rèn)為雖然機(jī)器翻譯進(jìn)步驚人,但不會有取代人的一天,其主要原因在于機(jī)器翻譯質(zhì)量還達(dá)不到專業(yè)翻譯的要求,單個句子能理解,但通篇沒有邏輯。
? ? ? ??朱靖波老師同意宗老師和張老師的觀點(diǎn),并舉例說,通常假設(shè)翻譯人員的結(jié)果完全正確,而技術(shù)想要超過100%去達(dá)到101%的正確率,這在真理上是無法超越的。
? ? ? ??但是機(jī)器翻譯在大數(shù)據(jù)之后蓬勃發(fā)展,并非意在取代人類,比如國家知識產(chǎn)權(quán)里幾百萬個專利文檔,只能利用機(jī)器翻譯,非人工所為;再比如身在國外,人工翻譯不可能隨時在身邊,只能利用機(jī)器翻譯,這都不能算是代替人工翻譯,而是去彌補(bǔ)人工翻譯干不了的應(yīng)用場景。

是機(jī)器翻譯的問題,還是技術(shù)尚未成熟?

? ? ? ??李長栓老師根據(jù)自己的使用經(jīng)驗(yàn),歸納了一下機(jī)器翻譯中遇到的主要問題:

  • 以句子為基礎(chǔ)翻譯,忽略上下文

中文長句子翻譯成英文,需要斷成幾句,但斷開之后,后面的句子就沒有主語了,這時候要補(bǔ)充主語。而機(jī)器翻譯根據(jù)什么補(bǔ)充主語成迷。

  • 同一個詞出現(xiàn)多個譯文版本

比如“訴裁程序”,機(jī)器翻譯給出了十幾個譯文版本,這個問題應(yīng)該可以解決,但是神經(jīng)網(wǎng)絡(luò)翻譯似乎還沒有解決這個問題。

  • 機(jī)械處理信息

機(jī)器翻譯是依賴于形式的轉(zhuǎn)換,遇到歧義時是根據(jù)概率決定修飾關(guān)系;一詞多義也是,即便給了語料庫,但是在同一個專業(yè)領(lǐng)域,一個詞也有很多意思。



? ? ? ??朱靖波老師對此表示部分贊同:首先,目前基于句子級翻譯系統(tǒng)主要因?yàn)榫唧w實(shí)現(xiàn)機(jī)制的問題,實(shí)際上學(xué)術(shù)界關(guān)于篇章級機(jī)器翻譯有不少研究工作?;谏舷挛姆治鲋髡Z省略和指代消解等問題,他更傾向于認(rèn)為是理解問題而非翻譯問題,但可以將兩者結(jié)合起來實(shí)現(xiàn)更好的翻譯結(jié)果。其次,有些問題應(yīng)該分成兩個環(huán)節(jié)來考慮,比如原文錯誤,人會通過理解對其進(jìn)行糾正錯誤后翻譯,但是對于機(jī)器翻譯來說,它認(rèn)為這是用戶想要表達(dá)的意思,不能輕易自動修改原文,導(dǎo)致錯誤的翻譯。這就引出一點(diǎn),機(jī)器翻譯是不是和別的技術(shù)融合在一起使用的效果更好。最后,一詞多義跟結(jié)構(gòu)歧義的問題是現(xiàn)在做得不夠好,不是機(jī)器翻譯沒有能力解決,機(jī)器翻譯建模的核心就是為了解決這兩個問題。
? ? ? ??宗成慶老師指出,現(xiàn)在機(jī)器翻譯的基本假設(shè)是,只要收集到足夠多樣本就行。但這個假設(shè)是有問題的,第一,模型能否學(xué)成存疑,第二,不應(yīng)該只基于樣本,還有日常生活經(jīng)歷和常識等?,F(xiàn)在的模型還不夠智能,提供足夠的樣本也無法學(xué)成,這也是提出基于知識的機(jī)器翻譯的原因。
? ? ? ??張民老師從學(xué)術(shù)界的角度分析了機(jī)器翻譯存在的兩個重大問題。一是篇章問題,翻譯本來應(yīng)該根據(jù)上下文理解和邏輯分析,但目前機(jī)器翻譯建模方法都是句子對句子,在句子層面把翻譯看作是純數(shù)學(xué)映射,因此深度學(xué)習(xí)的方法如果遇上語料訓(xùn)練缺失的情況急劇下降。二是知識和推理驅(qū)動,不僅僅是語言學(xué)知識,還包括常識知識、領(lǐng)域知識、世界知識等。

預(yù)訓(xùn)練的提出與背景補(bǔ)充構(gòu)想

? ? ? ??劉洋老師舉了一個例子,有高翻在法國為了翻譯一本很厚的地鐵資料,坐了一周的法國地鐵,向乘務(wù)員詢問各種信息,后來為核電站翻譯也是如此,要知道設(shè)備的用途,他認(rèn)為翻譯的絕大功夫都是花在對背景知識的理解。
? ? ? ??而反觀現(xiàn)在的機(jī)器翻譯,還是基于數(shù)據(jù),沒有上升到知識。預(yù)訓(xùn)練是一個非常不一樣的想法,在單語數(shù)據(jù)上設(shè)計(jì)相關(guān)問題的學(xué)習(xí)任務(wù),這樣數(shù)據(jù)幾乎是無限的,然后在上面訓(xùn)練模型。
? ? ? ??過去一年,預(yù)訓(xùn)練的方法基本刷榜了LP任務(wù),普遍提升8-10個點(diǎn)。但是機(jī)器翻譯還沒有這么好的效果,因?yàn)榉g的輸出不是簡單的分類,而是整個序列,這個序列光輸出這個詞,就是指數(shù)級的數(shù)據(jù),同時還要排準(zhǔn)數(shù)據(jù)和階層,復(fù)雜度非常高。
? ? ? ??預(yù)訓(xùn)練和機(jī)器翻譯的結(jié)合是一個方向,如果提升到基于知識的翻譯系統(tǒng),顯然是更好的策略。目前比較容易想到的是知識圖譜和機(jī)器翻譯結(jié)合,但這塊沒有突破性的進(jìn)展。


? ? ? ??李長栓老師也認(rèn)為專業(yè)翻譯大部分時間是用來查資料的,他舉例,“某一個先生指出,索馬里沿海海島問題,聯(lián)絡(luò)小組鼓勵通過法律允許根據(jù)捕獲和釋放的做法進(jìn)行起訴”,看 完之后不知所云,這就是機(jī)器翻譯的結(jié)果。
? ? ? ??這種時候?qū)I(yè)翻譯就會去查閱相關(guān)資料,明白之后再進(jìn)行翻譯,“誰誰指出,鑒于一些國家存在先抓后放的做法,某小組鼓勵相關(guān)國家通過立法允許起訴”。翻譯是一個不斷調(diào)查、不斷獲取文字背后意思的過程,表達(dá)的過程是在理解基礎(chǔ)上自然形成的。
? ? ? ??同時李長栓老師也提供了他對機(jī)器翻譯的優(yōu)化思路,機(jī)器補(bǔ)充知識是機(jī)器的優(yōu)勢,它有無窮無盡的語料,翻譯某一句話時就可以利用超鏈接等方式提供相關(guān)背景,這樣會更有助于翻譯的進(jìn)行。


? ? ? ??朱靖波老師根據(jù)自己的經(jīng)驗(yàn)列舉出好的機(jī)器翻譯系統(tǒng)需要的三個東西。一是擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模,提高品質(zhì);二是不斷創(chuàng)新技術(shù);三是根據(jù)問題不斷打磨,三者缺一不可。他把機(jī)器翻譯技術(shù)的概念擴(kuò)大到兩個不同對象之間的等價轉(zhuǎn)換,并認(rèn)為機(jī)器翻譯與人工智能和NLP不同,機(jī)器翻譯是一個產(chǎn)業(yè),機(jī)器翻譯+也是一個產(chǎn)業(yè)。
? ? ? ??宗成慶老師認(rèn)為雖然現(xiàn)在機(jī)器翻譯問題很多,但是不用悲觀,從研究角度講,只有發(fā)現(xiàn)問題才能改進(jìn)問題,問題代表了進(jìn)步空間。

機(jī)器翻譯的突破口在于產(chǎn)生新的范式

? ? ? ??朱靖波老師認(rèn)為未來機(jī)器翻譯的突破口在于產(chǎn)學(xué)研形成閉環(huán),應(yīng)用需求不斷推進(jìn)機(jī)器翻譯理論和技術(shù)研究。
? ? ? ??劉洋老師表示,必須要在范式上進(jìn)行革新,要找到好的策略和方法,充分利用非標(biāo)注數(shù)據(jù)?;蛘吣馨褦?shù)據(jù)用好,或者能夠從未標(biāo)注數(shù)據(jù)中提煉出知識,這兩點(diǎn)都非常關(guān)鍵。


? ? ? ??李長栓老師認(rèn)為,機(jī)器翻譯在中英文間的切換還是很困難,但是在新聞?wù)Z言等領(lǐng)域,機(jī)器翻譯的質(zhì)量已經(jīng)很高。未來的突破還是要回歸到范式或者是思維方法的改變上來,從句子當(dāng)中抓取意思,再重新表達(dá),這是人做翻譯時的思維過程,未來機(jī)器翻譯也是這樣。
? ? ? ??宗成慶老師補(bǔ)充道,高質(zhì)量的機(jī)器翻譯結(jié)果并非一定要達(dá)到信達(dá)雅,那是人類翻譯的終極目標(biāo),目前在某些場景的翻譯結(jié)果已經(jīng)很好,未來還需要解決更細(xì)節(jié)的問題。從某種意義上講,現(xiàn)在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的性能已經(jīng)接近天花板,未來一定是對翻譯模型進(jìn)行改進(jìn)和提高,從技術(shù)應(yīng)用和產(chǎn)業(yè)發(fā)展的角度講,需要明確具體需求和任務(wù),針對性地做定向開發(fā),這是推動整個技術(shù)真正走向?qū)嵱玫谋容^可行的路線。
? ? ? ??張民老師表示,機(jī)器翻譯本身既是一個科學(xué)問題,又是一個工程問題,未來想要突破,科學(xué)上的突破一定要從科學(xué)技術(shù)上,產(chǎn)生新的范式;工程上的突破一定要依賴知識,而知識需要在不同的領(lǐng)域、需要全人類來解決。


AI Time由一群關(guān)注人工智能發(fā)展的青年人創(chuàng)辦,旨在發(fā)揚(yáng)科學(xué)思辨精神,邀請各界人士對人工智能理論、算法、場景、應(yīng)用的本質(zhì)問題進(jìn)行探索,展開辯論,碰撞思想,打造人工智能知識分享的策源地和聚集地。大數(shù)據(jù)文摘作為合作媒體將長期合作報(bào)道。

關(guān)注微信公眾號“語言服務(wù)行業(yè)”“翻譯技術(shù)教育與研究”,了解更多語言服務(wù)行業(yè)與翻譯技術(shù)相關(guān)的資訊和洞察~



清華AI Time告訴你:機(jī)器翻譯離我們還有多遠(yuǎn)?的評論 (共 條)

分享到微博請遵守國家法律
阳西县| 宁陵县| 大渡口区| 杭锦旗| 铜山县| 交城县| 小金县| 克山县| 喀什市| 河源市| 若尔盖县| 营口市| 娄底市| 余干县| 苍山县| 宁武县| 鲁山县| 广平县| 营口市| 尼木县| 永昌县| 尼玛县| 清水县| 丰原市| 普洱| 武义县| 柘荣县| 广丰县| 海晏县| 房产| 高雄市| 霍城县| 双桥区| 台安县| 黑山县| 武宣县| 扶风县| 临湘市| 色达县| 肇东市| 合作市|