專訪 | 韓林濤:文科生如何學習機器翻譯?

如今,人工智能的時代大勢引發(fā)了深刻的技術革命、教育變革和數(shù)據(jù)革命,同時翻譯技術也成為了翻譯教學和實踐中不可分割的部分,進一步推動了語言服務行業(yè)和高校教育的創(chuàng)新變革,促進了技術與人的和諧共生。為提升語言服務行業(yè)各方對翻譯技術的認識和應用能力,加強語言服務人才的技術素養(yǎng),加速語言技術成果的高效轉化,整合當前優(yōu)質和有效的翻譯技術資源,推動翻譯技術與翻譯教學的融合發(fā)展,促進政、產、學、研的協(xié)同創(chuàng)新,WITTA翻譯技術教育研究會(TTES)特別策劃了【大咖專欄】,本期專欄將聚焦“機器翻譯和譯后編輯”,對話業(yè)界和學界的專家教授,聆聽業(yè)內名家的精彩觀點,洞見未來翻譯技術發(fā)展趨勢。
本期專訪嘉賓是北京語言大學外國語學部高級翻譯學院碩士生導師、國家級和北京市一流本科專業(yè)翻譯(本地化方向)專業(yè)負責人韓林濤老師。讓我們來聽聽他對譯后編輯的看法。

在人機共生時代,您認為文科生應如何學習機器翻譯?
機器翻譯的出現(xiàn)源自人們對不同自然語言間轉換的迫切需求,這種需求可以是軍事領域的、可以是學術領域的、可以是商業(yè)領域的,也可以是與日常溝通相關的,當人工翻譯無法滿足其中的一部分需求時,全自動的機器翻譯應運而生,從高成本低質量逐步演變至今日的低成本高質量,與之相關的爭論也持續(xù)至今。
隨著神經(jīng)機器翻譯技術的出現(xiàn),越來越多的人開始認可機器翻譯,也促使更多人想去探究“機器翻譯”?,F(xiàn)在似乎人人都在談機器翻譯,但仔細一看,卻發(fā)現(xiàn)大家對“機器翻譯”的理解是不同的。假如一所大學的人工智能學院開設了一門“機器翻譯”課,這所大學的高級翻譯學院也開設了一門“機器翻譯”課,你會選擇去修哪一門呢?
東北大學肖桐教授和朱靖波教授合著的《機器翻譯:基礎與模型》一書的內容如下:

如果一周學一章,一個學期下來正好學十八周。
我們再來看世界翻譯技術教育聯(lián)盟(WITTA)翻譯技術教育研究會在2019年推出的《機器翻譯與譯后編輯》教學指南:


顯然這門課程就更“文”一些了,少了很多“模型”,多了很多“技能”、“工具”和“方法”。所以,對于翻譯專業(yè)的文科生而言,按這門課程的內容來學習機器翻譯要更實際一些。
以上兩門課程一武一文,前者更偏向于機器翻譯的原理,后者更偏向于機器翻譯的應用。
一個人工智能學院的學生畢業(yè)后進入翻譯公司,老板說“我想擁有一套機器翻譯系統(tǒng)”,于是這位同學會打開一臺電腦,部署一套開源的神經(jīng)機器翻譯源代碼,然后瞪著水盈盈的大眼睛問老板:您的數(shù)據(jù)在哪兒?
一個高級翻譯學院的學生畢業(yè)后進入翻譯公司,老板說“我想擁有一套機器翻譯系統(tǒng)”,于是這位同學會打開一臺電腦,打開某個計算機輔助翻譯工具的頁面,然后瞪著水靈靈的大眼睛問老板:十幾個機器翻譯系統(tǒng),您想選哪一個?
不知道大家有沒有看懂這兩個例子,如果你學機器翻譯的目的是想造一個新的機器翻譯引擎,那么可以去人工智能學院,神經(jīng)機器翻譯模型是現(xiàn)成的,優(yōu)化神經(jīng)機器翻譯模型的技術是現(xiàn)成的,網(wǎng)上開源的小規(guī)模雙語數(shù)據(jù)也是現(xiàn)成的,學完之后可以直接用開源的機器翻譯模型來部署一套新的機器翻譯,也可以自己依據(jù)神經(jīng)機器翻譯的算法來從零做一套機器翻譯系統(tǒng)。你可以過不了四六級,但這不影響你開發(fā)出一套有模有樣的在線機器翻譯系統(tǒng),然后起個酷炫的名字發(fā)布到網(wǎng)上供別人免費使用。但慢慢你會發(fā)現(xiàn),你渴望更多的雙語高質量數(shù)據(jù),沒有更多的數(shù)據(jù)你沒法進一步提高機器翻譯的質量;慢慢你會發(fā)現(xiàn),你需要更大的模型更好的硬件,否則也沒辦法進一步提高機器翻譯的質量。
但如果你學機器翻譯的目的是為了用更快的速度完成更多的翻譯任務,那么你可以去高級翻譯學院,那里有人告訴你怎樣的機器翻譯引擎適用于怎樣的領域,那里有人告訴你怎么去修改低質量的機器翻譯結果。你可以完全不懂編程,但這不影響你在一個精密的計算機輔助翻譯工具去自如的切換不同的機器翻譯引擎,你可以在翻譯完幾十萬字后對不同的機器翻譯引擎評頭論足,你可以構建一整套機器翻譯應用于某個具體領域的語言服務解決方案,然后給這套解決方案起個酷炫的名字去說服你的客戶購買你的語言服務。但慢慢你會發(fā)現(xiàn),你渴望機器翻譯系統(tǒng)能夠根據(jù)你的質量反饋意見來優(yōu)化它未來的翻譯結果,否則你只能重復修改一樣的錯誤;慢慢你會發(fā)現(xiàn),不僅機器翻譯的質量還有很大問題,你自己的中外文水平也有很大問題,限制你翻譯業(yè)務發(fā)展的反而是你自身的語言水平。
當然,也有一部分人,他們既沒有去人工智能學院學過機器翻譯,也沒有去高級翻譯學院學過機器翻譯,但也有不少與機器翻譯有關的雄論。對文科生而言,兩種類型的課程都可以去學習,如果你還是本科生,不妨趁年輕都深入學習一下;如果你還是研究生,不妨先照著機器翻譯與譯后編輯課程的大綱學習如何讓機器翻譯質量的變得更好,然后再花點時間去了解機器翻譯的原理。但我奉勸大家,沒有學這兩門課程之前,切勿瞎說。
在翻譯實踐和翻譯教學中,如何選擇合適的機器翻譯系統(tǒng)?
翻譯實踐和翻譯教學所使用的文本是不同的,所面臨的場景也是不同的。
在翻譯教學中,往往要根據(jù)學生的能力發(fā)展路徑來設置典型的文本案例,而這些案例又要根據(jù)培養(yǎng)目標來從不同領域甄選,甚至還要在甄選后重新調整文本以滿足教學需要。因此,并非所有的翻譯教學環(huán)節(jié)都需要與機器翻譯系統(tǒng)相結合,也并非所有的翻譯類課程中都要嵌入機器翻譯相關的教學內容。比如在一門文學翻譯課程中,適當嵌入機器翻譯系統(tǒng)給出的文學作品譯文來進行對比分析是可以的,而且可以同時對比多個機器翻譯系統(tǒng)的譯文,這樣做的目的是讓學生意識到文學翻譯與機器翻譯的關系,幫助學生培養(yǎng)批判思維能力。而在一門非文學翻譯課程中,針對文本的題材來選擇合適的專利翻譯引擎、財經(jīng)翻譯引擎、IT翻譯引擎等則是必要的,畢竟在專業(yè)領域垂直的機器翻譯系統(tǒng)往往給出的譯文質量更高。授課老師應當對自己所擅長領域的常用機器翻譯系統(tǒng)有全面的了解,熟知通用領域機器翻譯、垂直領域機器翻譯的優(yōu)缺點和調用方法,尤其是與計算機輔助翻譯工具相結合的方法,為日后開展翻譯實踐做好準備。
而在翻譯實踐中,選擇機器翻譯系統(tǒng)則需要十分謹慎,假如我們要基于機器翻譯來對1萬字進行譯后編輯,明明小牛翻譯的質量更好,但我們習慣上認為谷歌翻譯更好,便立刻使用谷歌翻譯來預翻譯這1萬字,并投入大量時間和人力來做譯后編輯,最后非但沒有提升效率,甚至會降低質量,還會造成無謂的成本損失。
我們建議長期從事某個翻譯實踐的個人或企業(yè)對該領域的不同機器翻譯系統(tǒng)產品進行定時定量的翻譯質量評估。質量評估的方法優(yōu)先采用國內外通用的翻譯質量評估模型,如MQM、DQF等。針對翻譯質量評估的結果形成專門領域的機器翻譯譯后編輯指南,如中國翻譯協(xié)會本地化服務委員會推出的《技術文檔機器翻譯譯后編輯入門手冊》。根據(jù)此類指南再選定多款常用的計算機輔助翻譯工具(如國外的、國產的、線上的、客戶端的等),針對不同計算機輔助翻譯工具的功能特點編制機器翻譯譯后編輯工作流程。從而為未來的翻譯實踐做好相應準備,針對翻譯實踐的文本特點、客戶需求、人員組成等快速構建適應的機器翻譯譯后編輯流程。
目前高校開設機器翻譯課程所面臨的主要問題是什么?
問題一:缺乏足夠的翻譯實踐項目
純粹的翻譯類課程往往以翻譯能力提升為主,許多高校甚至沒有足夠的翻譯類課程,有些高校則沒有足夠的翻譯實踐項目,無法在實戰(zhàn)中接觸機器翻譯譯后編輯流程,所以這些高校對機器翻譯課程的訴求并不強。
問題二:缺乏能夠講解機器翻譯的師資
與計算機輔助翻譯課程早期普及面臨的問題類似,能夠針對翻譯專業(yè)文科生講解機器翻譯原理和應用的師資嚴重匱乏。雖然現(xiàn)在市面上可以找到許多機器翻譯的教材和視頻資源,但均不是以翻譯專業(yè)文科生作為授課對象來講解,因此這些資源無法直接為翻譯專業(yè)授課教師所用。機器翻譯的原理涉及線性代數(shù)、概率論、微積分等數(shù)學知識,且原理部分即便能夠以通俗易懂的方式講解清楚,翻譯專業(yè)授課教師也難以給學生演示這些原理是如何應用于實際的機器翻譯系統(tǒng)開發(fā)的,所以翻譯專業(yè)授課教師僅能將機器翻譯作為一個工具,重點講解如何開展機器翻譯的譯后編輯。
請您結合自身經(jīng)驗談談如何更好地在BTI和MTI開設機器翻譯課程?
如果高校能夠引入大量真實的機器翻譯譯后編輯項目,就會倒推高校在既有的計算機輔助翻譯課程中納入機器翻譯相關的課程資源,進而形成機器翻譯譯后編輯課程,最終形成完整的機器翻譯課程。
對于BTI而言,本科階段應當盡早在大一開設數(shù)學基礎課程,講解線性代數(shù)基礎、概率論基礎、微積分基礎,并在大一階段開設Python課程,以此為未來開設機器翻譯課程打好基礎;本科階段最早可在大三開設自然語言處理基礎課程,并在其中嵌入機器翻譯的原理,教會學生如何部署一個簡單的開源機器翻譯引擎;本科生不必過早接觸機器翻譯譯后編輯課程。
對于MTI而言,絕大部分進入研究生階段的同學在過去的四年間并沒有足夠的數(shù)學基礎、編程基礎和自然語言處理基礎,因此并不能在研一階段充分理解機器翻譯的原理,所以可以在開設計算機輔助翻譯課程的前提下,開設機器翻譯譯后編輯課程,幫助學生了解如何評估機器翻譯的質量、如何在計算機輔助翻譯工具中應用機器翻譯、如何管理機器翻譯譯后編輯項目等;對于學有余力的研究生,可以進一步講解機器翻譯的原理,幫助他們進一步分析機器翻譯的優(yōu)缺點成因。
您認為機器翻譯技術對高校翻譯專業(yè)的發(fā)展和翻譯專業(yè)的學生職業(yè)發(fā)展有什么樣的影響,對此您有什么樣的建議?
高校教師必須系統(tǒng)性學習機器翻譯的原理和應用方法,尤其是機器翻譯譯后編輯模式,結合真實的大量的翻譯實踐來產生正確的“機器翻譯觀”,否則教師將無法在課堂上正確引導學生使用機器翻譯。
對于翻譯專業(yè)學生而言,如果沒有合適的機會來學習與機器翻譯相關的基礎知識(數(shù)學、自然語言處理、編程等),那么應該熟練掌握機器翻譯質量評估的方法,否則未來將會在翻譯實踐中錯誤選擇機器翻譯;應該熟練掌握計算機輔助翻譯工具,將機器翻譯連同翻譯記憶庫、術語庫等一同應用于真實的翻譯實踐中。
翻譯專業(yè)師生應當對機器翻譯技術保持敬畏,甚至適當恐慌,因此激發(fā)自己不斷提升中外文水平和翻譯水平,并根據(jù)機器翻譯的優(yōu)缺點來選擇適合自己的專業(yè)領域,將機器翻譯作為工具,形成一套屬于自己的個性化的機器翻譯應用工作流,并等待未來機器翻譯應用技術的不斷改良升級,為搭建專屬于自己的機器翻譯系統(tǒng)做好心理準備和技術準備。
訪談人簡介

韓林濤,北京語言大學外國語學部高級翻譯學院碩士生導師,擔任國家級和北京市級一流本科專業(yè)翻譯(本地化方向)專業(yè)負責人。在校主講本科階段和研究生階段術語學、翻譯項目管理、計算機輔助翻譯、數(shù)據(jù)庫原理、翻譯與本地化實踐、翻譯項目管理等課程,長期致力于探索“翻譯”與“技術”的深度融合之道。著有《譯者編程入門指南》,由北京市教委評為北京高校優(yōu)質本科教材。在語料庫研究方面,韓林濤擔任冬奧術語平臺項目負責人,參與設計研發(fā)支持八個語種的在線術語檢索和管理平臺;新冠疫情爆發(fā)后,韓林濤研制了在線多語種疫情平行句庫Bicovid.org,并將該平臺的核心代碼開源發(fā)布,可以實現(xiàn)多語種平行句庫的上傳、審核、管理、發(fā)布和查詢。

科普翻譯技術知識,推動翻譯技術應用,促進翻譯技術融合研究,了解語言服務行業(yè)最新動態(tài)。更多精彩內容請關注“星睿博士”,或微信公眾號“翻譯技術教育與研究”“語言服務行業(yè)”,和您一起學習技術,了解行業(yè)發(fā)展~