專訪 | ACL Fellow劉群:MT to Death,一個NLPer的極致表白
以下文章來源于智源社區(qū)?,作者智源社區(qū)

導讀:2022年1月6日,國際計算語言學學會ACL正式公布了2021年ACL Fellow名單,機器翻譯專家、華為諾亞方舟實驗室語音語義首席科學家劉群當選為全球八位新晉ACL Fellow之一。
我們了解到,劉群老師不僅是一個出色的科研人員,他還有另一個身份是一位微博大V,他的微博名稱有一個鮮明而有趣的后綴“MT to Death”,這大概是他對MT(機器翻譯)始終如一的表白。而“機器翻譯”也是他當選2021 ACL Fellow的標簽之一。?借此契機,我們對劉群老師進行了一次專訪,就其個人跨學術界和工業(yè)界的研究經(jīng)歷,針對自然語言處理領域細分趨勢及展望,對年輕科研人員的寄語等方面進行了一次深度訪談。
訪談對象:劉群
撰文:Lilian
編輯:夢佳
?

01
從《數(shù)理語言學》入門到真正開始從事機器翻譯研究
? ? ? ? ?1984年,劉群剛剛入學中國科學技術大學,攻讀的是計算機科學技術專業(yè),本科時期,在中科大合肥校園的圖書館,劉群第一次看到了《數(shù)理語言學》,這是我國計算語言學的開拓者之一、世界上第一個“漢語到多種外語機器翻譯系統(tǒng)”的研制者馮志偉老師所著的一本書,書中系統(tǒng)地、全面地、深入淺出地介紹了代數(shù)語言學、統(tǒng)計語言學、應用數(shù)理語言學三個部分的基本知識。?正是這本書在那個網(wǎng)絡和傳媒尚且不發(fā)達的時代,帶領劉群認識了自然語言處理這一新的研究領域。?


? ? ? ? 馮志偉老師的《數(shù)理語言學》,上圖為劉群當時看的早期版本,下圖為后來的新版
?而在自然語言處理當中,劉群最早接觸到的是機器翻譯。20世紀80年代末期,新的機器翻譯系統(tǒng)大量涌現(xiàn)。1989年從中科大本科畢業(yè),他被保送到了中科院計算所讀碩士,開始參與一個英漢機器翻譯項目的研究。這也是他走上機器翻譯這一方向的真正開端。?
02
從艱難起步到一步步走向成功
? ? ? ? 1992年,劉群碩士畢業(yè),他留在計算所,1993年,他在非常困難的情況下開始了獨立的機器翻譯研究。劉群選擇了漢英機器翻譯這一難度更高、對漢語意義更大的課題。隨后的研究工作中,他與北京大學計算語言學研究所俞士汶教授建立了長期深入的聯(lián)系與合作。直到1998年,劉群團隊和北大計算語言所聯(lián)合開發(fā)的漢英翻譯系統(tǒng)在863中文信息處理與智能人機接口技術評測中取得了較好的成績。至此,他的機器翻譯研究迎來了一個小的高潮。?1999年,劉群報考了北大的在職博士,被錄取為俞士汶老師的在職博士研究生。1999年末,俞士汶老師得到一個973子課題“面向新聞領域的漢英機器翻譯系統(tǒng)”,劉群以計算所員工和北大博士生的雙重身份,擔任這個課題組的技術負責人,繼續(xù)從事機器翻譯研究工作。?2004年,劉群在北京大學獲得博士學位,并回到計算所繼續(xù)從事機器翻譯研究。2005年,他在計算所評上了研究員職稱。從這以后,劉群開始以自己名義正式招收博士研究生,并組建了一支充滿活力的研究團隊。?在1990年代到2000年代初期,國際上軟件開源運動正在興起,但在學術界,開放源代碼還沒有形成風氣,可獲得的開源代碼和開放數(shù)據(jù)資源都十分有限。在那個開源資源非常有限的年代,國內的研究者只能通過有限的學術刊物和會議論文了解國際上最新的研究動態(tài),但這些最新的技術和方法的大部分實現(xiàn)細節(jié),都隱藏在論文介紹的原理和公式背后。
劉群和他的團隊為了掌握國際上最先進的技術,每次看到國際上有什么重要的研究進展,都有一項“必然操作”,那就是從各個角度、用各種方案對這些方法進行還原實現(xiàn) —— 看數(shù)據(jù)、清理數(shù)據(jù)、嘗試各種技術路線、調試代碼?...... 正是他們這種務實的“啃硬骨頭”的做法使得他的研究團隊較早掌握了當時國際上先進的統(tǒng)計方法,并在自然語言處理和機器翻譯研究取得了一系列突破。其中,中文分詞系統(tǒng)ICTCLAS和基于《知網(wǎng)》(Hownet)的詞匯語義相似度計算兩項工作便是最好的證明。?在當時國內缺乏開源代碼的環(huán)境下,劉群和他的團隊把中文分詞系統(tǒng)進行了開源,這是當時性能最好的中文分詞系統(tǒng),也是當時唯一可公開獲取的系統(tǒng)。另外,劉群還將他開發(fā)的基于《知網(wǎng)》(Hownet)的詞語相似度工具的可執(zhí)行代碼公開出來提供免費下載,這兩項公開的成果成為當年很多做中文自然語言處理同行所使用的最基礎的工具,在國內產(chǎn)生了很大的影響。?2002年,劉群團隊作為唯一來自中國的研究機構參加了美國NIST機器翻譯評測,雖然首次參賽的結果讓人大失所望,但他卻深切感受到了統(tǒng)計機器翻譯方法相對于傳統(tǒng)基于規(guī)則的機器翻譯方法的優(yōu)勢,并痛下決心從傳統(tǒng)的規(guī)則方法徹底轉向了統(tǒng)計機器翻譯方法。?在接下來2005年的NIST評測中,他們取得了第五名,證明他們開發(fā)的機器翻譯系統(tǒng)達到了國際同類研究機構的先進行列。同年,劉群的博士生劉洋第一次在 自然語言處理頂級會議ACL上發(fā)表了論文,緊接著他的博士生劉洋和熊德意再次在2006年ACL上發(fā)表了兩篇論文,提出了兩種新型的基于句法的統(tǒng)計機器翻譯方法。在這之前,國內研究機構在ACL上總共只發(fā)表過1篇論文,而劉群的團隊在兩年內連續(xù)發(fā)表了3篇論文,這在當時國內的研究機構中是非常罕見的,引起了很多人的關注。
? ? ? ? 后來劉群的團隊持續(xù)在基于句法的統(tǒng)計機器翻譯方面做了一系列工作,這在國際上也產(chǎn)生了很大影響。因為經(jīng)典的基于短語的統(tǒng)計機器翻譯方法捕捉句法結構的能力比較差,對于類似中英文這種結構差異較大的語言之間的翻譯質量影響很大,而劉群團隊的工作主要是基于源語言端句法的統(tǒng)計機器翻譯方法,在這一方向上發(fā)表了一系列論文,這些工作達到了國際先進水平。?
03
兩位院士的拷問:超越硬件的約束
? ? ? ?這段時間,劉群團隊研究工作已經(jīng)在國內外有了一定的影響。由于統(tǒng)計方法需要使用大量的并行計算資源,劉群在計算所內給領導匯報工作的時候經(jīng)常會說起計算資源的不足影響了研究的進展。有兩次在不同的場合,李國杰院士(也是當時的計算所所長)和高慶獅院士都向他提出過同一個思考題:沒有機器的約束,給你無限多的資源,能把機器翻譯做到什么程度?

??
? ? ? ? 劉群說,這個問題給了他很大的震撼,迫使他更多更深入地思考機器翻譯的長遠發(fā)展問題。眾所周知,由于摩爾定律的原因,機器的性能在快速提升翻倍,雖然如此,大部分研究人員在真正做研究的時候還是很受實際條件制約,經(jīng)常會覺得機器不夠用,并沒有太多時間去深入思考更長遠的問題。
? ? ? ?而兩位做硬件體系結構出身的院士考慮問題的角度卻不一樣。他們更多考慮的是:其他研究領域,包括人工智能,會給硬件和體系結構帶來怎樣的挑戰(zhàn)?而硬件和體系結構的改進,反過來又將如何促進其他領域的進步?兩位院士提出的這一問題,劉群當時無法給出答案,但這個問題卻極大地開拓了他的思路:做研究的人想問題要超前一點,如果不完全考慮硬件約束的情況下,研究能走多遠。帶著這樣的問題去思考,做研究時考慮的角度和深度就跟原來完全不一樣了。?
04
就職都柏林城市大學:主動尋求轉變
? ? ? ? ?2012年7月,劉群加入了愛爾蘭的都柏林城市大學擔任教授職務,并在愛爾蘭下一代本地化技術研究中心(簡稱CNGL,后改名ADAPT研究中心)擔任機器翻譯方向的主題負責人。當時的中心主任是來自德國的Josef van Genabith教授。
? ? ? ? 在愛爾蘭六年從事科研和教學工作的經(jīng)歷,給劉群帶來了很多新鮮的體驗和感受。除了語言、生活、文化和科研體制的沖擊,研究的內容和方法也在發(fā)生改變。

? ? ? ? 劉群發(fā)現(xiàn),雖然都是機器翻譯研究,但CNGL/ADAPT中心關注的重點跟他自己原來的關注點非常不一樣。劉群原來在計算所的研究,非常關注機器翻譯的核心模型和方法,而CNGL/ADAPT這邊更多關注解決機器翻譯在實際應用中所面臨的一些問題,比如翻譯記憶、術語翻譯、翻譯質量評估、譯后編輯、交互翻譯等等。他慢慢意識到這些他原來所忽視的課題的研究價值,并開始帶學生在這些方向做出了一些有影響的工作。比如他指導他的學生Chris Hokamp完成的詞匯約束的神經(jīng)機器翻譯解碼方面的工作,就是在神經(jīng)機器翻譯框架下首次提出了一種給定術語約束解碼的方法,這一工作被很多后來的研究者引用和改進。
? ? ? ? 在這一段時間,整個機器翻譯領域也發(fā)生了一次重大的變革:從統(tǒng)計方法轉移到神經(jīng)網(wǎng)絡方法。與以往的情形類似,這次變革也是由機器翻譯外的技術進步帶來的,一些深度學習研究者在語音、圖像等領域取得巨大成功后,開始把目光瞄準了機器翻譯,并取得了初步的成功。而很多原來的機器翻譯領域的研究者,在這一變革來臨的時候還有點猶豫觀望,并沒有意識到這個變革會給機器翻譯領域帶來顛覆性的影響。
? ? ? ? 劉群是原機器翻譯領域研究者中較早主動擁抱這一變革的人之一。為了更好地在機器翻譯領域推廣這種先進的技術,劉群帶領他的團隊于2005年10月在都柏林城市大學組織了一次為期一周的DL4MT Winter School(機器翻譯的深度學習方法冬季學校),邀請了三位這一領域的頂尖學者來詳細講解深度學習的理論和方法及其在機器翻譯中的應用。這次活動取得了非常大的成功,吸引了來自世界各地的近百名研究者參加,對深度學習方法在機器翻譯領域的傳播和推廣起到了非常積極的作用。不僅如此,劉群還讓自己指導的博士生全部轉向深度學習方法,并在這一領域做出了很多早期的探索性工作。
? ? ? 據(jù)他所說,在都柏林城市大學六年的研究工作對他來講實際上帶來了兩個方面的轉變,既是從統(tǒng)計機器翻譯方法向神經(jīng)網(wǎng)絡翻譯方法的轉變,也是從理論模型研究向理論與應用并重的轉變。作為一個中國土生土長的研究人員,這一段海外從事教學研究工作的經(jīng)歷對他來說也是一筆非常寶貴的財富。?
05
加盟華為諾亞方舟實驗室:開啟新的篇章
?
? ? ? ? ?2018年7月,劉群離開了工作26年之久的學術界,加入華為諾亞方舟實驗室擔任語音語義首席科學家,開始了他的職業(yè)生涯的新的篇章。?華為諾亞方舟實驗室為劉群的研究工作提供了一個全新的更加廣闊的平臺。一方面,原來在高校面臨的資金、人才和計算資源的缺乏等制約因素大大緩解,另一方面,他也需要帶領更大的團隊,并需要面對論文發(fā)表和成果落地的雙重挑戰(zhàn)。但劉群很快適應這個平臺,并且漸入佳境。?劉群說,在研究工作中,他經(jīng)常會有些大膽甚至天馬行空的想法,原先在學術界,由于各方面資源的約束,這些想法通常只能是想想而已,而到了華為,很多原來看似不可能的想法,都有了嘗試的機會,而得益于華為豐富的產(chǎn)品線,甚至原來一些看似沒有太多實用性的想法,都有可能找到落地的場景并受到產(chǎn)品線的歡迎,這讓劉群收獲了非常大的成就感。?在技術落地方面,諾亞方舟實驗室有比較成熟的管理和運行機制。劉群團隊的工作涉及到和業(yè)務團隊的靈活配合,“我們的工作是不跟某個產(chǎn)品綁定的,但要在公司內部證明我們對產(chǎn)品做貢獻,在需要的時候,我們會與業(yè)務團隊做短期內的強綁定,在某一段時間內密切配合產(chǎn)品團隊做好某項任務后,我們又會退出”。?劉群談到,在加入諾亞方舟后,恰逢預訓練語言模型的興起,劉群的團隊很敏銳地抓住了這個機會,迅速投入大量資源開展研究,同時與產(chǎn)品團隊合作,探索如何將預訓練語言模型落地到產(chǎn)品中。由于預訓練語言模型規(guī)模巨大,占用空間多,推理速度慢,模型的壓縮和加速成為產(chǎn)品落地面臨的關鍵問題。
? ? ? ? 為了解決這一問題,劉群團隊在很短的時間內,提出了一種基于知識蒸餾的預訓練語言模型壓縮加速方法:TinyBERT。采用這種方法,模型大小可以壓縮到原始BERT模型的1/7,而速度提高了9倍。而他們的團隊與多個產(chǎn)品團隊合作,很快將TinyBERT運用到手機、終端等設備上,使得華為成為世界上最早將預訓練語言模型大規(guī)模應用到產(chǎn)品中的公司之一。

? ? ? ? “這是我們最早取得的突破,目前華為各個產(chǎn)品線基本上全部都應用了TinyBERT的技術,對公司做出了重大貢獻,我們也非常高興。”TinyBERT不僅在應用中起到了非常好效果,在研究界也產(chǎn)生了很大的影響。TinyBERT的論文在EMNLP2020會議上發(fā)表后不久,很快就成為該次會議引用最高的論文,目前引用次數(shù)已經(jīng)達到500多次,成為預訓練語言模型壓縮中的經(jīng)典工作。
06
熱點探討:語言模型是否越大越好?
?
? ? ? ? ?此次采訪,在分享個人學術經(jīng)歷之余,劉群也就機器翻譯和自然語言處理領域的重點研究話題表達了他的看法。這幾年,隨著GPT-3一類的超大規(guī)模語言模型的推出,一場預訓練模型參數(shù)競賽也隨之而來,是否參數(shù)越大越好??他認為,模型規(guī)模大本身沒有太大的意義,并非越大越好,關鍵是規(guī)模擴大后能夠帶來突破,這個才是最為重要的,比如說,最早的預訓練語言模型(如BERT)為我們帶來的突破之一就是“預訓練+微調”的模式,原來,我們要為每個問題(下游任務)設計單獨的模型,而BERT推出以后,對于大部分NLP任務,我們都不再需要重新設計新的模型,直接采用BERT加上少量下游任務數(shù)據(jù)微調即可。而更大規(guī)模的GPT-3模型推出以后,又在零樣本和少樣本學習上取得了突破。對于一些全新的NLP任務,甚至可以不需要訓練,或者只提供幾個簡短的例子就可以直接解決這個問題,這在以前是很難想象的。?另外,超大模型有可能為產(chǎn)業(yè)界帶來了很大變化,具有超強能力的大模型的能力以后可以放在云端,供大家調用。目前,像GPT-3這樣的超大模型只能部署在云端,這就形成了中心化的AI能力,而這種能力是一般的中小型語言模型所不具備的。這種超大模型的部署,一般的小公司或科研機構也無法承擔,這就需要在模型的部署和應用方式上進行改變。?超大模型以后也需要進行壓縮,但由于模型太大,壓縮整個模型是不現(xiàn)實的,而是應該根據(jù)特定任務的需要,抽取其中某些部分,蒸餾到小模型中。這就需要開發(fā)新的模型壓縮加速技術。?有人認為,如果要把大模型壓縮成小模型來用,為什么不直接訓練小模型呢?劉群對此表示,用小模型直接訓練得到的效果,通常都比大模型壓縮以后得到的小模型效果差,因為大模型壓縮后得到的小模型可以繼承大模型的豐富的知識,這是直接訓練小模型無法得到的。所以大模型在應用中仍然具有明顯的優(yōu)勢,但如何發(fā)揮大規(guī)模模型的優(yōu)勢,這中間還需要做很多研究。未來,模型發(fā)展的趨勢應該是各種大小的模型互相協(xié)作,協(xié)作的模式可以千變萬化,以應對各種不同的應用場景。在有些場景可能需要把大模型壓縮成小模型,而有些場景則需要云邊端協(xié)作。又比如,我們還研制了一種自適應大小的DynaBERT模型,可以方便地對它進行裁剪以滿足不同場景的應用需要。?
07
NLP未來展望
? ? ?? 談到NLP領域的細分及未來展望,預訓練語言模型的出現(xiàn)為自然語言處理帶來了新的研究范式。除此之外,去年以來,跨模態(tài)讓大模型在視覺上帶來了驚喜。對此,劉群表示,未來非常期待語言模型在知識處理、常識處理方面實現(xiàn)更多突破,也希望看到更多多模態(tài)應用帶來的驚喜。?談到機器翻譯研究,劉群表示,雖然文本翻譯目前取得了很大的成功,但實時語音翻譯或自動同聲傳譯目前還面臨著很大的挑戰(zhàn)。如果說文本機器翻譯目前能夠滿足大部分場景需求,那么實時翻譯還處在起步階段。但挑戰(zhàn)越大,研究蘊含的樂趣就越多,他認為相比其他的研究方向,實時翻譯是一個研究起來非常有意思的領域。此外,目前篇章翻譯也還存在很多問題,如論文、小說的翻譯,最大的問題就是術語前后不一致,在這方面解決方案之一是引入符號推理,不僅可以提高模型的可理解性,在減少翻譯一致性錯誤方面也具有較好的前景。?談到對話系統(tǒng),劉群認為,對話系統(tǒng)的研究難度要高于機器翻譯。對話的生成缺乏源語言語義的約束,而涉及到的問題復雜程度是沒有任何限制的。在閑聊對話方面,用大模型生成自然的響應目前在自然性已經(jīng)可以做得比較好,但在實際應用中,也還面臨很多問題。比如研究人員需要在這一基礎上對系統(tǒng)進行適應性調整,目的是保證安全性,避免出現(xiàn)消極或者冒犯性質的語言,還需要避免出現(xiàn)偏見或者歧視性內容。?對于任務型對話,簡單對話如訂票、訂酒店等已經(jīng)做得很好了。但對于復雜的業(yè)務場景,比如移動公司的客服,它們有上百種產(chǎn)品,在這種情況下定制一個很好的對話客服系統(tǒng)難度就很大。通常,研究人員會收集對話語料,來訓練一個對話系統(tǒng),但對于帶有復雜邏輯的業(yè)務系統(tǒng),這種做法是遠遠不夠的,在這種情況下如何快速搭建一個好的對話系統(tǒng)目前還沒有很成熟的辦法,這也將是今后值得研究的一個重要方向。?談到問答系統(tǒng),一個難點是開放式問答,由于涉及的范圍沒有任何限制,開放式回答通常要利用檢索到的多個文本進行推理并生成答案。?對話和問答都涉及自然語言生成技術,這是NLP中比較難的研究方向,也是今后的研究重點。自然語言生成的另外一個問題是hallucination,指模型會胡說八道,意即生成一些毫無依據(jù)的內容,如何解決hallucination問題也會是自然語言生成今后的重點研究方向。?
08
一個NLPer的科研信條:教學是一生的事業(yè)
? ? ? ?當被問及最引以為豪的是什么時?劉群老師的回答很簡單:學生。?采訪中,我們能清晰地感受到劉群老師提及學生時的自豪和欣慰之情。他認為,培養(yǎng)出了一批熱愛機器翻譯并至今一直從事機器翻譯研究和開發(fā)的學生,這就是他心中分量極重、甚至遠超其科研成就的一件事。?這些學生中,有些已經(jīng)是活躍在高校和科研機構中科研人員,如馮洋(計算所)、劉洋(清華)、熊德意(天津大學)、蘇勁松(廈門大學)、侯宏旭(內蒙古大學)等,已經(jīng)成為我國機器翻譯領域青年研究人員中的佼佼者,更多的學生則進入了企業(yè)界。特別值得一提的是,國內一些主要的大型IT企業(yè)的機器翻譯團隊的負責人或者核心技術人員,幾乎都有劉群的學生,如百度、有道、騰訊、阿里、小米、字節(jié)跳動、華為等等,這些學生取得的每一個成就都讓劉群感到發(fā)自內心的高興和驕傲。

? ? ? ?持之以恒是劉群老師一直堅信和實踐的科研信條。談到對學生和年輕學者的建議,他表示,學生要清楚自己的長處,做到這一點雖然不容易但這對科研是至關重要的;對于年輕學者,劉群老師建議,一定要建立自己的學術標簽,也就是一以貫之的研究主線,可以換工作、換單位、換課題,但一定要堅持一個主線,這樣才能形成長期影響力。
? ? ? ?此外,劉群老師也建議從事AI研究的青年科研人員在規(guī)劃自己的學術生涯的時候,不管是長期來說有志于在高校從事科研教學工作,還是希望進入企業(yè)從事應用研究,都應該找機會進入類似華為這樣的大企業(yè)AI研究部門工作一段時間,積累一些工作經(jīng)驗,因為AI是一個有非常強烈的應用背景的研究領域,在大企業(yè)能有機會接觸到各種AI的真實應用場景,有助于研究人員深入的理解AI問題,這對于他們今后的研究工作是非常有助益的。
? ? ? ? 劉群的微博里有一個高頻tag #自然語言理解太難了#,所發(fā)內容大多是讓人啼笑皆非的“理解謬誤”,連人類自己在自然語言理解上都會錯誤百出,更何況機器呢?是的,Machine Translation To Death,機器翻譯的漫漫長路,還需要艱難跋涉,而始終如一的堅持才能收獲至寶。

本文來源于微信公眾號“翻譯技術教育與研究”、微信公眾號“語言服務行業(yè)”,致力于語言服務行業(yè)資訊、洞察、洞見~ 關注我們,了解更多精彩內容~