技術洞察 | 翻譯技術的原理及其發(fā)展內驅力
以下文章來源于簡言?,作者韓林濤

前言
過去的幾年,我在思考很多與語言服務行業(yè)發(fā)展相關的問題,其中兩個問題是:什么是翻譯技術的原理?翻譯技術發(fā)展的內驅力是什么?
今天一時興起,我想試著回答一下這兩個問題。
首先,我想談一下演繹與歸納,兩個邏輯學里面的基本概念。雖然在傳統(tǒng)邏輯學和現(xiàn)代邏輯學中人們對演繹和歸納的解釋是不太相同的,但一般來說,我們認為:歸納是從個別到一般,演繹是從一般到個別。
歸納:
一款名叫Trados的計算機輔助翻譯工具的核心功能是:編輯器+翻譯記憶+術語+機器翻譯。
一款名為memoQ的計算機輔助翻譯工具的核心功能是:編輯器+翻譯記憶+術語+機器翻譯。
一款名為YiCAT的計算機輔助翻譯工具的核心功能是:編輯器+翻譯記憶+術語+機器翻譯。
所以,計算機輔助翻譯工具的核心功能是:編輯器+翻譯記憶+術語+機器翻譯。
以上過程就是從個別到一般的歸納過程。
演繹:
一位譯員在翻譯一篇文章時需要參考雙語詞典、過去翻譯過的句子和機器自動翻譯的譯文,并且需要在一個像Word一樣的字處理界面中完成翻譯。
所以,我們可以在Word里面嵌入雙語詞典、翻譯記憶和機器翻譯。
我們也可以自己開發(fā)一個Word,在里面嵌入雙語詞典、翻譯記憶和機器翻譯。
我們也可以開發(fā)一個網(wǎng)頁,在里面嵌入雙語詞典、翻譯記憶和機器翻譯。
我們也可以開發(fā)一個手機APP,在里面嵌入雙語詞典、翻譯記憶和機器翻譯。
我們甚至可以戴上VR眼鏡,構建一個虛擬的翻譯界面,左邊是原文,右邊是譯文,然后嵌入雙語詞典、翻譯記憶和機器翻譯。
以上的過程就是從一般到個別的演繹過程。
正文
一、什么是翻譯技術的原理?
我們在前面用計算機輔助翻譯工具的例子分析了演繹和歸納的區(qū)別,基于以上例子我們來思考困惑我很久的這個問題:編輯器+翻譯記憶+術語+機器翻譯是否就是翻譯技術的基本原理?我們如果想幫助譯員做好翻譯,是否至少應當了解編輯器的基本操作、翻譯記憶的制作方法、術語的制作方法、機器翻譯的引入方法,等都學會之后再基于這些工具和資源幫助我們提高翻譯的效率和質量?
正是因為有這樣的思考,我才會去追溯計算機輔助翻譯工具的發(fā)展歷史,想知道究竟是誰最早研發(fā)了計算機輔助翻譯工具。
通過我對一部分網(wǎng)絡資料的收集和整理,我大概得出了一個抽象的翻譯技術的發(fā)展歷程,但是這個歷程目前還經(jīng)不起推敲,所以就當是一番妄言,大家聽完就樂呵一下:
翻譯是個很古老的工作,從事翻譯工作的人們并沒有想過用什么樣的現(xiàn)代技術來幫助自己提高效率和質量,認為把自己的大腦修煉好才是做好翻譯的根本。
但當政府產(chǎn)生大量的翻譯需求而計算機恰好成為政府的效率工具后,如何將計算機應用于翻譯就成了一個人們自然會想到的問題,于是人們想到:既然做翻譯需要紙質詞典,那么為什么不把詞典放到計算機里,這樣做翻譯的時候就可以查電子詞典?于是計算機中的電子詞典成為了首個應用于翻譯生產(chǎn)的翻譯技術:翻譯生產(chǎn)中查詞典的行為變成了查電子詞典的行為。之所以人們想到的只有詞典,是因為那時計算機的存儲空間是極為有限的。
但當翻譯的對象變成情報后,翻譯行為變成了軍事的一部分,指揮官們不認同人工翻譯的效率,所以希望借助機器來完成自動的翻譯,于是機器翻譯成為了第二個非常重要的應用翻譯生產(chǎn)的翻譯技術。
但受限于當時計算機軟硬件技術的限制,不僅沒有能夠支持高速計算的硬件,也沒有支持自動翻譯的數(shù)字資源,更沒有支持高質量自動翻譯的算法,所以機器翻譯沒能真正發(fā)展起來,反而落寞下去。人們探求自動翻譯的訴求落空,在對機器翻譯技術進行一番探查后,人們認為:與其用機器翻譯還不如用電子詞典。
當戰(zhàn)爭拋棄了機器翻譯后,機器翻譯研發(fā)過程中產(chǎn)生的副產(chǎn)品——雙語翻譯文本——成為了人們關注的對象,于是人們發(fā)現(xiàn)除了電子詞典外,電子的雙語文本也可以應用于翻譯生產(chǎn)。
但是,當使用電子的雙語文本來訓練機器翻譯引擎后,機器翻譯要么就把之前翻譯過的句子完整翻譯出來,要么就什么也翻譯不出來,所以人們開始思考如何在翻譯過程中充分查找電子雙語文本中的有效雙語片段,于是翻譯記憶技術開始出現(xiàn):翻譯生產(chǎn)中查電子詞典的行為逐步變成了查雙語文本的行為。
需要特別說明的是,人們此時并沒有拋棄機器翻譯,而是從完全使用機器翻譯或完全不使用機器翻譯變成了針對機器翻譯進行譯后編輯。
(對這段歷史感興趣的朋友可以閱讀這篇文章:The origins of the translator’s workstation)
如何從翻譯記憶中查找有效的雙語片段從一個翻譯問題變成了數(shù)學問題,在數(shù)學家設計的最短編輯距離算法出現(xiàn)后,翻譯記憶技術趨于成熟。
但翻譯記憶技術的出現(xiàn)并沒有立刻改變翻譯工作者的工作行為,因為翻譯工作本質上是文字工作,如果文字工作沒有好的顯示工具和輸入工具,是肯定無法做好的,所以:電子詞典+機器翻譯+翻譯記憶的翻譯技術組合還被人機交互技術束縛著。商業(yè)計算機和個人計算機的發(fā)展逐步打破了這樣的束縛,個人計算機逐步變得相對廉價可用,但操作系統(tǒng)卻沒能跟上個人計算機的發(fā)展,復雜的操作系統(tǒng)依然在限制翻譯技術的普及,也在限制著計算機輔助翻譯工具的設計。
但圖形化界面的操作系統(tǒng)出現(xiàn)后,更直觀更友好的用戶操作界面也相應出現(xiàn),當這種頁面開始出現(xiàn)在廉價的個人計算機上后,計算機輔助翻譯工具才真正在翻譯行業(yè)普及,友好的編輯器開始出現(xiàn),一開始是基于字處理軟件(如Word)來研發(fā),慢慢的在優(yōu)秀的操作系統(tǒng)的加持下變得可以獨立設計研發(fā),所以基于Windows操作系統(tǒng)的各類計算機輔助翻譯工具在世界上廣泛傳播,掀起了計算機輔助翻譯工具的熱潮。
但是中國的改革開放并沒有及時打開國門,中國的計算機技術發(fā)展也沒有與世界突破,所以中國的計算機輔助翻譯工具市場始終被國外工具占據(jù)著。由于計算機輔助翻譯工具的核心是文字處理,而文字處理必須要基于文件格式,而文件格式標準又被國外公司把持,所以中國的計算機輔助翻譯工具始終受到文件格式標準的束縛。
網(wǎng)絡技術的發(fā)展給計算機輔助翻譯工具帶來了新的希望:原本在一臺計算機上才能完成的翻譯工作可以由多人同時完成,編輯器可以多人協(xié)同操作、電子詞典可以多人共建和多人同時檢索、翻譯記憶庫可以多人共建和多人同時檢索、機器翻譯可以不必受限于本地計算資源而是通過互聯(lián)網(wǎng)來公開調用,于是計算機輔助翻譯工具從獨立使用變成了基于服務器使用。
互聯(lián)網(wǎng)技術和移動通信技術的發(fā)展又使得訪問一個網(wǎng)站比在本地安裝一個軟件要更容易,于是本地計算機輔助翻譯工具逐步變成網(wǎng)頁端計算機輔助翻譯。
大數(shù)據(jù)技術的發(fā)展使得越來越多要翻譯的數(shù)據(jù)不必存儲在特定的文件格式中,而是可以直接存儲在數(shù)據(jù)庫中,于是原本受制于文件格式標準而無法廣泛應用的計算機輔助翻譯工具也迎來了春天,可以擺脫傳統(tǒng)文件格式的束縛,新的計算機輔助翻譯工具又井噴式出現(xiàn)。
隨著現(xiàn)代語言服務流程越來越規(guī)范,人們認識到不僅翻譯過程可以使用工具來輔助,語言服務的各個流程都可以使用工具來輔助,于是諸如翻譯項目管理系統(tǒng)在內的不同類型的翻譯技術工具紛紛涌現(xiàn),而且原本嵌入在一個計算機輔助翻譯工具中的技術也紛紛獨立成單獨的工具,市場不斷出現(xiàn)專業(yè)的術語工具、語料庫、機器翻譯引擎等工具,所有的工具以接口的形式相互鏈接,從而極大提升了計算機輔助工具的功能性。
移動互聯(lián)網(wǎng)技術和5G技術的出現(xiàn)促使原本通過純文本來搭載的待翻譯文本變成了音頻、視頻、圖片、動畫等多種形式的待翻譯對象,這又使得原本只應用了純文字處理技術的編輯器、詞典、翻譯記憶和機器翻譯技術開始被新的技術加持,如:語音識別與合成技術、圖像識別技術等。
今天的我們需要重新定義:在翻譯過程中,我們能夠使用怎樣的計算機軟硬件、我們擁有怎樣的數(shù)字資源以及我們能夠嵌入怎樣的算法?
為什么我們要重新定義這幾個問題?是因為現(xiàn)代邏輯學認為,演繹推理是必然性推理,如果演繹推理的前提是正確的,那么結論必然是正確的,而如果演繹推理的前提是錯誤的,那么結論也會是錯誤的。特斯拉創(chuàng)始人馬斯克推崇亞里士多德的第一性原理,即:在每一系統(tǒng)的探索中,存在第一原理,是一個最基本的命題或假設,不能被省略或刪除,也不能被違反。
假如本文最開始的這句話——“一位譯員在翻譯一篇文章時需要參考雙語詞典、過去翻譯過的句子和機器自動翻譯的譯文,并且需要在一個像Word一樣的字處理界面中完成翻譯?!薄旧砭褪清e誤的,那么我們又如何能夠研發(fā)出真正能夠幫助譯員的計算機輔助翻譯工具呢?所以我們在思考翻譯技術的原理時,要思考我們所定義的“編輯器+翻譯記憶+術語+機器翻譯”是否就是不可打破的翻譯技術基本原理組成,如果不是,什么才是?
二、什么在推動翻譯技術的發(fā)展?
此時,還有另一個問題也是我們需要思考的:是什么在推動翻譯技術的發(fā)展?
今天當我們在談論翻譯技術時,我們都會去探討機器翻譯,那么為什么機器翻譯發(fā)展了這么多年,還有人在探討計算機輔助翻譯?為什么機器翻譯最早出現(xiàn)在美國,而計算機輔助翻譯工具卻鮮有美國公司研發(fā)的?
這里,我想提及我的另一個假說:機器翻譯的發(fā)展源于戰(zhàn)爭,而計算機輔助翻譯的發(fā)展源于國際傳播。
我重點解釋一下后面這部分:經(jīng)過我的部分調研,我發(fā)現(xiàn),電子詞典工具的應用源于歐盟,翻譯記憶技術的應用源于楊百翰大學,翻譯技術的普及源于科技公司。三者的共同點是:歐盟希望將一種語言的文本以多種語言的形式傳遞到歐洲其他國家,機器翻譯固然高效,但不準確,所以必須借助工具來輔助人工翻譯;楊百翰大學及相關人員希望將摩門教的教義以多語語言的形式傳遞到美國甚至世界其他地區(qū),所以必須要研究如何才能準確且高效翻譯摩門教的信息;科技公司希望將自己的產(chǎn)品銷售到全球更多的國家,所以需要借助計算機輔助翻譯工具來準確翻譯產(chǎn)品說明書和其他產(chǎn)品信息。
通過去觀察歷史事實會發(fā)現(xiàn),最早提出電子詞典可以用于翻譯流程的人來自歐盟的前身歐洲煤鋼共同體,類似歐盟的組織還有聯(lián)合國等,都是計算機輔助翻譯技術的擁躉。最早提出翻譯記憶技術的Alan Melby教授就是楊百翰大學的教授,而他本人也是摩門教徒(參見這篇文章了解他成長的背景:https://aclanthology.org/www.mt-archive.info/jnl/LangToday-1998-Melby.pdf),由于摩門教徒是需要學習多門語言的,這也促使他們去思考如何使用技術來提升語言學習的效果和翻譯工作的效率。目前全世界知名的BYU語料庫也是楊百翰大學的。今天全球使用最廣的計算機輔助翻譯工具Trados的前身INK是基于ALPS公司產(chǎn)品來研發(fā),而這個ALPS公司就是源自楊百翰大學的摩門教文本機器翻譯項目,他們研發(fā)了世界上第一款商業(yè)計算機輔助翻譯工具。(參見論文:A SURVEY OF MACHINE TRANSLATION: ITS HISTORY, CURRENT STATUS, AND FUTURE PROSPECTS)。Trados和其前身INK都是為了翻譯IBM公司的項目而研發(fā)的,而包括IBM、蘋果、微軟在內的互聯(lián)網(wǎng)企業(yè)都是計算機輔助翻譯工具的擁躉,微軟公司更是后來成為了Trados公司的股東。如今這些互聯(lián)網(wǎng)公司還在不斷研發(fā)新的翻譯技術,尤其是機器翻譯技術。
無論是歐盟等國際組織,還是楊百翰大學還是科技公司,他們都發(fā)現(xiàn)機器翻譯無法完全勝任他們的國際傳播工作,所以必須要借助計算機輔助翻譯工具,必須要通過人工翻譯來提供高質量的文本。所以我認為國際傳播是計算機輔助翻譯技術發(fā)展的內驅力。
但為什么今天著名的計算機輔助翻譯工具都不是美國公司或中國公司研發(fā)的呢?我猜想,這是因為中國雖然是一個多民族國家,但我們的通用語是漢語,所以政府并沒有在翻譯上花費太多經(jīng)費來推動內部的傳播,而在國際傳播的過程中,中國政府和美國政府很相似,還是更相信自動翻譯的價值,尤其是機器翻譯在軍事中的價值,而不是計算機輔助翻譯工具的價值。中國的企業(yè)和美國的企業(yè)也很相似,不僅研發(fā)機器翻譯,也深刻認同機器翻譯在企業(yè)國際傳播中的價值,所以今天的中國互聯(lián)網(wǎng)公司,包括百度、騰訊、字節(jié)跳動、阿里巴巴、有道等,都擁有自己的計算機輔助翻譯工具,而且絕大多數(shù)是以在線計算機輔助翻譯工具為主,而非Trados這種客戶端的計算機輔助翻譯工具。
總結
前面我介紹了翻譯技術的基本原理和發(fā)展內驅力,現(xiàn)在我們“演繹”一下,去思考今天的中國需要怎樣的翻譯技術。
必須要認同的是,機器翻譯是極為重要的,但是計算機輔助翻譯技術的發(fā)展同樣對中國的國際傳播有重大作用,無論是我們的國家語言服務還是企業(yè)個人的商業(yè)語言服務,都必須要重視翻譯技術的發(fā)展,而且需要好好思考前面我們前面提及的問題:在翻譯過程中,我們能夠使用怎樣的計算機軟硬件、我們擁有怎樣的數(shù)字資源以及我們能夠嵌入怎樣的算法?我們只有把這三個問題解答好,才能真正將翻譯技術應用于國際傳播過程中。
反觀我們今天普遍對“翻譯技術”的理解,我想除了對工具的介紹和功能的介紹外,如果想未來真正“演繹”出下一代的計算機輔助翻譯工具,想創(chuàng)造性的推動翻譯技術的發(fā)展,想真正提升國際語言服務的質量,還是應當深入原理,不能浮于表面。

本文來源于微信公眾號“翻譯技術教育與研究”、微信公眾號“語言服務行業(yè)”,致力于語言服務行業(yè)資訊、洞察、洞見~ 關注我們,了解更多精彩內容~