專訪|魏勇鵬:機(jī)器翻譯質(zhì)量評(píng)估為什么重要?

如今,人工智能的時(shí)代大勢(shì)引發(fā)了深刻的技術(shù)革命、教育變革和數(shù)據(jù)革命,同時(shí)翻譯技術(shù)也成為了翻譯教學(xué)和實(shí)踐中不可分割的部分,進(jìn)一步推動(dòng)了語言服務(wù)行業(yè)和高校教育的創(chuàng)新變革,促進(jìn)了技術(shù)與人的和諧共生。為提升語言服務(wù)行業(yè)各方對(duì)翻譯技術(shù)的認(rèn)識(shí)和應(yīng)用能力,加強(qiáng)語言服務(wù)人才的技術(shù)素養(yǎng),加速語言技術(shù)成果的高效轉(zhuǎn)化,整合當(dāng)前優(yōu)質(zhì)和有效的翻譯技術(shù)資源,推動(dòng)翻譯技術(shù)與翻譯教學(xué)的融合發(fā)展,促進(jìn)政、產(chǎn)、學(xué)、研的協(xié)同創(chuàng)新,WITTA翻譯技術(shù)教育研究會(huì)(TTES)特別策劃了【大咖專欄】,本期專欄將聚焦“機(jī)器翻譯和譯后編輯”,對(duì)話業(yè)界和學(xué)界的專家教授,聆聽業(yè)內(nèi)名家的精彩觀點(diǎn),洞見未來翻譯技術(shù)發(fā)展趨勢(shì)。
本期專訪嘉賓是語智云帆、商鵲網(wǎng)創(chuàng)始人,世界翻譯教育聯(lián)盟翻譯技術(shù)教育研究會(huì)(WITTA TTES)副會(huì)長,中文信息學(xué)會(huì)機(jī)器翻譯專委會(huì)委員、中國翻譯研究院術(shù)語管理技術(shù)顧問專家魏勇鵬老師,讓我們來聽聽他對(duì)機(jī)器翻譯與譯后編輯的看法。

您認(rèn)為當(dāng)前機(jī)器翻譯存在哪些技術(shù)瓶頸或問題,如何克服?
機(jī)器翻譯最大的技術(shù)瓶頸在于對(duì)大規(guī)模雙語平行語料的重度依賴。雖然資源稀缺語種的機(jī)器翻譯是目前研究的一個(gè)熱點(diǎn)方向,但是從實(shí)際效果來看,翻譯效果能讓人覺得“驚艷”的,仍然是語料資源足夠豐富(上億或上十億句對(duì),至少是數(shù)千萬句對(duì))的語種對(duì)。語料規(guī)模是當(dāng)前機(jī)器翻譯“軍備競賽”的一個(gè)絕對(duì)門檻。這個(gè)門檻越來越高,后來者如果要超越,往往得有數(shù)量級(jí)上的語料優(yōu)勢(shì),成本極其高昂。解決這個(gè)問題,一條路徑是如果能有國家級(jí)乃至國際級(jí)的語料基礎(chǔ)設(shè)施實(shí)現(xiàn)資源的共建共享,可望降低語料資源利用的門檻,但這從知識(shí)產(chǎn)權(quán)、組織管理、商業(yè)邏輯上都不好實(shí)現(xiàn);另一條路徑就是想辦法從別的“知識(shí)”來源,比如知識(shí)圖譜、大規(guī)模預(yù)訓(xùn)練語言模型、多模態(tài)語料庫、人機(jī)互動(dòng)行為大數(shù)據(jù)等,尋找可用的信息和有效的融合利用方式,但這些方面的資源構(gòu)建同樣門檻越來越高,如何有效融合也仍在前沿探討階段。
機(jī)器翻譯的另一個(gè)技術(shù)瓶頸在翻譯質(zhì)量評(píng)測(cè)方法。翻譯質(zhì)量評(píng)測(cè)是機(jī)器翻譯系統(tǒng)優(yōu)化的指揮棒。如果能夠?qū)崿F(xiàn)可靠、高效、經(jīng)濟(jì)的翻譯質(zhì)量自動(dòng)評(píng)測(cè),那么就有可能通過增強(qiáng)學(xué)習(xí)的方式,比如對(duì)偶學(xué)習(xí)、生成對(duì)抗網(wǎng)絡(luò)、教師-學(xué)生網(wǎng)絡(luò)等,實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法的自我進(jìn)化,從而實(shí)現(xiàn)機(jī)器翻譯的突破。但這個(gè)問題其實(shí)是與機(jī)器翻譯本身同等難度的問題,實(shí)現(xiàn)起來也很不容易。更何況,我們對(duì)于翻譯質(zhì)量(不論是人工翻譯還是機(jī)器翻譯)的評(píng)價(jià)標(biāo)準(zhǔn)本身的研究尚淺,并沒有形成本質(zhì)的、量化的、全面的標(biāo)準(zhǔn)體系,這其實(shí)是語言學(xué)、翻譯學(xué)的研究者們能夠大展拳腳的一個(gè)空間。
機(jī)器翻譯質(zhì)量評(píng)估有哪些策略和方法?如何選擇適用的機(jī)器翻譯評(píng)價(jià)機(jī)制?
機(jī)器翻譯質(zhì)量評(píng)估通常有人工評(píng)估、有參考的自動(dòng)評(píng)估和無參考的自動(dòng)評(píng)估三種方法。我經(jīng)常把這三種方法類比為三種不同的挑選蘋果的辦法,分別是“嘗一嘗”、“比一比”和“猜一猜”?!皣L一嘗”的方法最可靠,但成本也最高,咬一口你就得買?!氨纫槐取本褪悄靡粋€(gè)“好吃蘋果”的樣本做比較,成本較為可控,但需要好的樣本且知道比什么,才能挑出來?!安乱徊隆敝饕繗v史經(jīng)驗(yàn),經(jīng)驗(yàn)不豐富的人失手的可能性非常大。
上述三種方法各有優(yōu)缺點(diǎn),因而需要根據(jù)應(yīng)用場景的需求靈活選擇或組合。比如在多個(gè)機(jī)器翻譯系統(tǒng)進(jìn)行橫向?qū)Ρ葧r(shí),常用的是有參考的自動(dòng)評(píng)估,輔以一定量的人工評(píng)估;而在對(duì)同一個(gè)機(jī)器翻譯引擎的版本升級(jí)進(jìn)行評(píng)估時(shí),就反過來以人工評(píng)估為主,這樣才能夠更加可靠、敏感地捕捉到質(zhì)量的變化;在對(duì)待翻譯的內(nèi)容進(jìn)行評(píng)估以篩選出更適合MTPE模式的部分時(shí),主要依賴于無參考的自動(dòng)評(píng)估。
您認(rèn)為機(jī)器翻譯在垂直領(lǐng)域應(yīng)用前景如何?
垂直領(lǐng)域的機(jī)器翻譯一定是未來的發(fā)展趨勢(shì)之一。因?yàn)樵诓煌拇怪鳖I(lǐng)域,翻譯所面臨的知識(shí)結(jié)構(gòu)、語言特征、質(zhì)量標(biāo)準(zhǔn)、應(yīng)用場景都是不盡相同的,只有深入領(lǐng)域進(jìn)行垂直定制,才有可能獲得顯著的提升,滿足該領(lǐng)域的機(jī)器翻譯應(yīng)用需求。
語智云帆先后探索過多個(gè)不同的垂直領(lǐng)域,比如專利翻譯、網(wǎng)絡(luò)文學(xué)出海翻譯等,每個(gè)領(lǐng)域都有其獨(dú)特的需求和不同的實(shí)踐方案,因而要做好垂直領(lǐng)域機(jī)器翻譯,就不能停留在機(jī)器翻譯本身,而要深入到該領(lǐng)域的業(yè)務(wù)鏈條中。反過來說,垂直領(lǐng)域的機(jī)器翻譯也更迫切需要在知識(shí)獲取、質(zhì)量評(píng)測(cè)、用戶交互方面有獨(dú)到之處,因?yàn)榧?xì)分到垂直領(lǐng)域,語料稀缺的瓶頸更加顯著。從商業(yè)上說,找到一個(gè)足以支撐機(jī)器翻譯高昂的研發(fā)和運(yùn)營費(fèi)用的垂直領(lǐng)域,也是一件不容易的事情,行業(yè)從業(yè)者仍在為此不斷努力探索。
您如何看待機(jī)器翻譯質(zhì)量評(píng)估技術(shù)在翻譯教學(xué)中的應(yīng)用?
機(jī)器翻譯質(zhì)量評(píng)估技術(shù)在一定的場景條件下也適合于人工翻譯的質(zhì)量評(píng)估。翻譯教學(xué)中涉及大量的質(zhì)量評(píng)估反饋,這是質(zhì)量評(píng)估技術(shù)能有用武之地的一個(gè)領(lǐng)域。例如在我們多年實(shí)踐打造的試譯寶平臺(tái)上,通過有參考的自動(dòng)評(píng)估方法,可以較為有效且高效的為學(xué)生的翻譯練習(xí)提供更充分的反饋;而無參考的自動(dòng)評(píng)估方法,也能在翻譯實(shí)踐和翻譯項(xiàng)目管理等環(huán)節(jié)提供監(jiān)督管理的手段。這些都有助于提升翻譯教學(xué)的效果和效率,實(shí)現(xiàn)智能化的教學(xué)。此外,在翻譯教學(xué)中有意識(shí)地培養(yǎng)學(xué)生機(jī)器翻譯質(zhì)量評(píng)估的意識(shí)和操作能力,也是提升翻譯質(zhì)量認(rèn)知能力的有效途徑,也有助于翻譯教學(xué)更加體系化、標(biāo)準(zhǔn)化和數(shù)字化。
您如何看待機(jī)器翻譯與人類譯員的關(guān)系?在人機(jī)結(jié)合翻譯中,人類譯員與機(jī)器各扮演什么角色?
我知道你想聽到的是機(jī)器翻譯會(huì)不會(huì)或者何時(shí)會(huì)取代人工翻譯的回答。這個(gè)問題其實(shí)已經(jīng)不是問題,或者說從一開始就不應(yīng)該這樣問。機(jī)器翻譯和人類譯員之間不是誰取代誰的競爭關(guān)系。真正會(huì)發(fā)生競爭的,還是在人類譯員與人類譯員之間。如果非要考慮機(jī)器翻譯,那就是使用機(jī)器翻譯的譯員和不用機(jī)器翻譯的譯員之間的競爭,或者善用機(jī)器翻譯的譯員和濫用機(jī)器翻譯的譯員之間的競爭。當(dāng)機(jī)器翻譯的質(zhì)量較低的時(shí)候,使用機(jī)器翻譯的譯員被認(rèn)為是不負(fù)責(zé)任、懶惰的,自然競爭不過不用機(jī)器翻譯的譯員。但隨著機(jī)器翻譯水平不斷進(jìn)步,情況就沒那么簡單了。翻譯高手使用機(jī)翻往往是如虎添翼,而新手則更容易被機(jī)翻帶入坑里,所以說機(jī)器翻譯加劇了行業(yè)分化,提高了競爭的門檻。那么,人類譯員與機(jī)器各扮演什么角色?這場戲里面所有角色都是由人來扮演的,機(jī)器只是各個(gè)角色手里的道具。
訪談人簡介

魏勇鵬,語智云帆、商鵲網(wǎng)聯(lián)合創(chuàng)始人及首席技術(shù)官。畢業(yè)于清華大學(xué)人工智能實(shí)驗(yàn)室,從事機(jī)器翻譯/自然語言處理技術(shù)研發(fā)近20年。入選“南京領(lǐng)軍型科技創(chuàng)業(yè)人才”和“創(chuàng)新型企業(yè)家”?,F(xiàn)為中文信息學(xué)會(huì)機(jī)器翻譯專委會(huì)委員、世界翻譯教育聯(lián)盟翻譯技術(shù)教育研究會(huì)副會(huì)長、中國翻譯研究院術(shù)語管理技術(shù)顧問專家等,北京外國語大學(xué)、北京語言大學(xué)、同濟(jì)大學(xué)、上海對(duì)外經(jīng)貿(mào)大學(xué)等多所高校的翻譯技術(shù)講師或MTI校外導(dǎo)師,“翻譯技術(shù)沙龍”發(fā)起人和主要組織者。

往期精彩回顧
技術(shù)普及 | 計(jì)算機(jī)輔助翻譯技術(shù)普及活動(dòng)
專訪 | 朱靖波:下一代機(jī)器翻譯技術(shù)是什么樣子?
專訪 | 周興華:機(jī)器翻譯譯后編輯會(huì)讓譯者越來越懶惰嗎?
專訪 | 韓林濤:文科生如何學(xué)習(xí)機(jī)器翻譯?
專訪 | 崔啟亮:機(jī)器翻譯對(duì)語言服務(wù)企業(yè)有多大作用?
專訪 | 神經(jīng)機(jī)器翻譯 VS 神化機(jī)器翻譯?博芬聯(lián)合創(chuàng)始人趙杰
專訪 | 北京大學(xué)李俊老師:生命科學(xué)也需要機(jī)器翻譯嗎?
技術(shù)與工具 | 常見翻譯質(zhì)量保證工具一覽
職業(yè)翻譯必備的計(jì)算機(jī)翻譯輔助軟件| 附網(wǎng)址
翻譯必備術(shù)語庫和語料庫合集(附網(wǎng)址)!
福布斯:2022年人工智能領(lǐng)域發(fā)展七大趨勢(shì)
人工智能時(shí)代翻譯技術(shù)轉(zhuǎn)向研究?
科普 | 機(jī)器翻譯與計(jì)算機(jī)輔助翻譯的區(qū)別及發(fā)展趨勢(shì)
如需更深入學(xué)習(xí),可關(guān)注微信公眾號(hào)“翻譯技術(shù)教育與研究”,留言交流。