站在學(xué)術(shù)前沿的科學(xué)家是如何思考NLP問題的?
來源:投稿 作者:Sally can wait
編輯:學(xué)姐

自然語言處理、乃至于人工智能最終要去往何方?功成名就的AI大牛們依然不停止思考這樣抽象而宏大的問題,并積極引領(lǐng)著學(xué)界的思考方向。這篇文章的作者里,有深度學(xué)習(xí)三巨頭之一Bengio。他們所討論的問題具有哲學(xué)意味,涉及對NLP整個(gè)學(xué)術(shù)歷史的思考,和對NLP未來的展望,提出語言模型終將回歸物理世界和具身體驗(yàn)。有趣的是,這篇論文發(fā)表兩年了,NLP還是沒有發(fā)生劃時(shí)代的突破。上次可以稱得上劃時(shí)代的突破還是2018年的BERT問世。我們正處在瓶頸期,是否是浪潮來臨之間的平靜還未可知。
盡管如今的語言模型在很多NLP任務(wù)上超過了人類,但是AI仍然缺乏「對物理世界的具身經(jīng)驗(yàn)以及社會(huì)交際中察覺語境的能力」。人類語言中“意義”的產(chǎn)生,來源于我們共享著一套不言自明的的世界經(jīng)驗(yàn)。作者認(rèn)為,機(jī)器人所使用的“語言”,也應(yīng)當(dāng)從世界經(jīng)驗(yàn)和社會(huì)交際中產(chǎn)生,并作用于世界,而不僅僅是從大量互聯(lián)網(wǎng)文本的分布中獲得一些反映共現(xiàn)信息的表示。為了闡述NLP的過去、現(xiàn)在和未來,作者歸納了NLP發(fā)展過程中的5個(gè)階段,將它們概括為五個(gè)“世界視野”(world scope):
WS1: 語料庫
WS2: 互聯(lián)網(wǎng)
WS3: 多模態(tài)
WS4: 具身認(rèn)知
WS5: 社會(huì)交際
最后作者提出了對NLP未來發(fā)展的展望。「我們將跟隨這五個(gè)“世界視野”,梳理NLP發(fā)展史的來龍去脈」。
世界視野1:語料庫
語料庫是數(shù)據(jù)驅(qū)動(dòng)的語言研究“夢開始的地方”。 此處的語料庫,「早期指的是專家語料庫」,即經(jīng)過語言學(xué)家分析、加工和標(biāo)注的語言資源,比如「賓州樹庫」;

后來這個(gè)概念擴(kuò)展到了「一切人類在網(wǎng)絡(luò)上留下的自然語言的集合」。在70-90年代,NLP的研究熱點(diǎn)在于有監(jiān)督地讓機(jī)器學(xué)習(xí)到語言使用中的句法規(guī)則。90年代后,“「表示學(xué)習(xí)」”作為一種NLP的學(xué)習(xí)范式被搬上了歷史舞臺(tái)。
表示學(xué)習(xí)(Representation Learning)是一種學(xué)習(xí)數(shù)據(jù)表示的技術(shù),用于將現(xiàn)實(shí)世界中的數(shù)據(jù)轉(zhuǎn)化成能夠被計(jì)算機(jī)高效處理的形式。 早期表示學(xué)習(xí)的例子: 1.Brown基于互信息的層次聚類算法 2.鮑姆-韋爾奇算法+ HMM (一種參數(shù)逼近的方法,本質(zhì)上是EM,但比EM早很多) 3.LDA算法,把文檔看成“詞袋 bag of words”,用矩陣編碼詞語的共現(xiàn)信息,用矩陣分解的方法壓縮embedding的維度,來獲得文章的表示。詞袋模型這種基于計(jì)數(shù)的語言學(xué)特征抽取方法,缺點(diǎn)在于無法編碼詞語的前后順序,潛藏在語法結(jié)構(gòu)關(guān)系中的信息則會(huì)丟失。
受到Firth(1957)著名的分布式理論“觀其伴知其義 You shall know a word by the company it keeps.”的啟發(fā),研究者致力于統(tǒng)計(jì)文本的上下文信息,以實(shí)現(xiàn)對文本的表示。比如著名的LDA算法,把文檔看成“詞袋 bag of words”,用矩陣編碼詞語的共現(xiàn)信息,用矩陣分解的方法壓縮embedding的維度,來獲得文章的表示。詞袋模型的缺點(diǎn)在于無法編碼詞語的前后順序,因此潛藏在語法結(jié)構(gòu)關(guān)系中的信息則會(huì)丟失。在語料庫階段,盡管專家已經(jīng)開始致力于基于統(tǒng)計(jì)的詞表示方法,但是受到語料規(guī)模和算力的限制,模型的參數(shù)規(guī)模較小,對文本的表示僅能捕捉到淺層的共現(xiàn)特征。
世界視野2:互聯(lián)網(wǎng)
這也是我們現(xiàn)在所處于的發(fā)展階段。隨著90年代后互聯(lián)網(wǎng)上信息的爆炸式增長以及爬蟲技術(shù)的廣泛使用,NLP研究視野一下子被拓寬了。如今的NLP研究者使用海量的互聯(lián)網(wǎng)數(shù)據(jù)無監(jiān)督地訓(xùn)練語言模型,使得模型學(xué)習(xí)到詞語之間的關(guān)系,并編碼到向量中。盡管訓(xùn)練語料和參數(shù)規(guī)模指數(shù)級地?cái)U(kuò)大了,如今基于互聯(lián)網(wǎng)數(shù)據(jù)的NLP研究仍然遵循著Firth的分布式假說,無論學(xué)習(xí)任務(wù)、目標(biāo)函數(shù)如何推陳出新,語言模型的任務(wù)始終是根據(jù)上下文信息優(yōu)化詞語的表示。
世界視野2的關(guān)鍵技術(shù)是遷移學(xué)習(xí)。有賴于遷移學(xué)習(xí)的“預(yù)訓(xùn)練+微調(diào)”的范式,我們讓語言模型從海量的多領(lǐng)域文本中學(xué)會(huì)“一般地說話”,然后再在目標(biāo)領(lǐng)域的文本中學(xué)會(huì)“專業(yè)地說話”。這是歷史性的進(jìn)步,也直接讓見多識廣的NLP模型在很多任務(wù)上直逼甚至超過了人類的水平。

但是基于互聯(lián)網(wǎng)數(shù)據(jù)的語言模型也逐漸遇到了邊際效益遞減的瓶頸:盡管模型的訓(xùn)練數(shù)據(jù)和參數(shù)量依然在增大,但是收益率逐漸下降。大模型在一些交互性較強(qiáng)的NLP任務(wù)上(如LAMBDA意圖識別任務(wù))無法匹敵人類水平。人們發(fā)現(xiàn),基于海量互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練而成的語言模型,仍然無法捕捉一些世界事實(shí)的知識(比如事物的相對大小關(guān)系)并進(jìn)行合理的推理,這導(dǎo)致在長尾數(shù)據(jù)上泛化性能較差。
世界視野3:多模態(tài)
就像人類學(xué)習(xí)語言一樣,機(jī)器學(xué)習(xí)語言也需要視覺信號、聲音信號,這樣才能對一些長尾分布的事實(shí)做出正確的推理,比如“貓會(huì)無聲地落地”。有些共識是不會(huì)用語言記錄下來的,比如物體之間的相對大小、物體的重量、質(zhì)地等。這樣的信息在互聯(lián)網(wǎng)上海量的文本中,分布依然是稀疏的。

而現(xiàn)如今,計(jì)算機(jī)視覺已經(jīng)能夠區(qū)分1000個(gè)類別的物體(ImageNet),而且這些CV領(lǐng)域的圖像分類模型已經(jīng)擁有了一些事實(shí)推理能力。既然語言不能反映真實(shí)世界,那么不妨加上視覺信息。無論是語言序列,還是圖像,都統(tǒng)一地遵循向量的數(shù)學(xué)形式和運(yùn)算法則,因此將二者結(jié)合起來是很自然且可行的選擇。自2018年后,多模態(tài)模型就如雨后春筍一般涌現(xiàn)。加上了視覺信息,模型就更有把握地基于真實(shí)情況回答“這輛貨車能否通過這條隧道?”這樣的問題,而不僅僅是返回一個(gè)由語料庫詞共現(xiàn)計(jì)算出來的結(jié)果。
盡管如此,多模態(tài)也有它的局限性:AI依然獨(dú)立于真實(shí)世界之外,它的“教材”是二手資料,而不是像牙牙學(xué)語的嬰兒那樣整天在觸摸各種各樣的物品、與世界交互。對于全新的問題,沒有很好的泛化性。
世界視野4:具身認(rèn)知
當(dāng)模型打通了語言和行為的界限,它就更接近“具身認(rèn)知”模型了。這不僅體現(xiàn)在從行為中學(xué)習(xí)語言,也體現(xiàn)在將語言轉(zhuǎn)化為外顯的行為,來塑造外部世界。在人類掌握語言之前,就在和外界的互動(dòng)中習(xí)得了很多常識,這些常識也是不會(huì)記錄在語言中的。比如雞蛋應(yīng)當(dāng)輕拿輕放,而球類則無需。這些知識很難從大規(guī)模的互聯(lián)網(wǎng)信息中獲?。呐率嵌嗄B(tài),也缺乏物理感知,研究表明兒童在把ipad上獲取的2d信息和3d世界聯(lián)系起來的過程中遇到了困難),而需要AI與物理世界進(jìn)行實(shí)際的交互。
作者以一個(gè)自然語言問題“橘子更像棒球還是香蕉?”具體討論了前面說到的4個(gè)世界視野。世界視野1可能無法給出答案,因?yàn)檫@些詞語在語句中的語法角色都是名詞,并且語義角色都是能被人拿住的受事。世界視野2可能擁有“棒球”和“橘子”都是球狀的,但是沒有它們質(zhì)地、相對大小、使其變形所需要的力方面的知識。世界視野3可能可以認(rèn)識到這些物品可能的形態(tài)變化(如香蕉、橘子可以剝皮,棒球可以壓扁),但是不知道實(shí)現(xiàn)形變需要施加多大的力。世界視野4可以覺察到事物之間的細(xì)微區(qū)別,比如橘子和棒球可以用差不多的力抓取,因?yàn)樗鼈儽砻娌畈欢啻植?、重量差不多;橘子和香蕉都可以剝皮、都是可食用的,這才更像人類的推理過程:從一些詞語激發(fā)更多的相關(guān)的聯(lián)想。
但是,當(dāng)前若要把自然語言作為機(jī)器人行為的指導(dǎo),還面臨著一些障礙。目前,基于互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練得到的語言表示,在編碼精細(xì)的機(jī)器人動(dòng)作上捉襟見肘。比如“把爪子向右移動(dòng)10cm”這樣的句子在互聯(lián)網(wǎng)上的分布稀疏,語言模型較難在這些句子上提供很好的表示。簡而言之,語言作為影響和改變物理世界的“功能”還未實(shí)現(xiàn)。
WS5: 社會(huì)交際
語言最基本的功能是社會(huì)交際。盡管物理世界給符號賦予了意義,但語言的實(shí)際含義存在于動(dòng)態(tài)的使用之中。社會(huì)交際因素在語言學(xué)習(xí)和使用中扮演重要的角色。語言學(xué)一大頗具影響力的流派:系統(tǒng)功能語言學(xué),認(rèn)為功能才是是意義的來源。
從世界視野1到4的發(fā)展過程中,“語言”從僅僅作為數(shù)據(jù)源逐漸變成了事件的起因。這也是語言學(xué)習(xí)者的最終目標(biāo):產(chǎn)出對外部世界產(chǎn)生影響的語言。這也呼應(yīng)了語言作為功能的基本要求。
然而當(dāng)前的問題是,對于開放數(shù)據(jù)的獲取和標(biāo)注面臨著很多難點(diǎn),AI局限于訓(xùn)練集-測試集的研究范式,最常用的交叉熵?fù)p失函數(shù)會(huì)忽視對長尾分布的處理,這有可能導(dǎo)致信息繭房。目前,讓用戶和機(jī)器自由地交互學(xué)習(xí)是一個(gè)可行的方法,人類在與機(jī)器的交互中,不斷地?cái)U(kuò)展機(jī)器的決策邊界和世界常識,然而這只是一個(gè)方面。

那么,設(shè)想中的語言模型該如何突破這信息繭房?參考人類的語言的使用情境,如果將它遷移到機(jī)器的語言學(xué)習(xí)上,它們可以幫助我們突破目前互聯(lián)網(wǎng)語料的局限:
二語習(xí)得?當(dāng)你去國外的時(shí)候,借助于共通的世界模型,我們可以通過指某個(gè)物體或者表達(dá)饑餓這樣共通的感受來表達(dá)我們的意思。目前,機(jī)器可以先借助圖像的橋梁,然后經(jīng)過模擬,最后到達(dá)真實(shí)世界。
同指和詞義消歧?如果我們的模型不只是利用詞共現(xiàn)信息,而是能對使用者的愿望和經(jīng)歷進(jìn)行建模,或許可以更好地實(shí)現(xiàn)同指和多義詞消歧這兩個(gè)困難的NLP任務(wù)。
新詞學(xué)習(xí)?一個(gè)物體可以從語言和動(dòng)作兩個(gè)方面進(jìn)行描述(比如彈吉他),如果能讓機(jī)器學(xué)習(xí)到這種關(guān)聯(lián),可以用來解決現(xiàn)在模型中棘手的隱喻問題。
客制化的對話?社交知識的學(xué)習(xí)依賴于對語言具體使用情景的理解。(對個(gè)人一個(gè)學(xué)習(xí)很痛苦但成績不好的人來說,叫他“再努力一點(diǎn)”,可能是對他的傷害,但對另一個(gè)人來說這句話可能是鼓勵(lì)。)
尾聲
這篇論文給我的最大收獲是,讓我體會(huì)到站在學(xué)術(shù)前沿的科學(xué)家是如何思考問題的。在對目前手頭的領(lǐng)域精耕細(xì)作的同時(shí),也需要同時(shí)具備更宏大的學(xué)術(shù)視野,思考一些前沿的問題。并同時(shí)參考多個(gè)人的觀點(diǎn),有一個(gè)自己的判斷。
前段時(shí)間,也看到另一位大牛LeCun的關(guān)于Human-level AI的言論,他也堅(jiān)定地認(rèn)為純粹的大模型并非出路,而需要一種「Macro Architecture」(宏觀框架)來完成對下一代AI的探索,通過借鑒動(dòng)物大腦,構(gòu)建AI的 “心識框架”。這都是學(xué)界前沿對現(xiàn)狀的不滿和對出路的探索,而和這篇文章又有一些不謀而合之處。
NLP相關(guān)論文歡迎大家關(guān)注【學(xué)姐帶你玩AI】公眾號
回復(fù)“500”免費(fèi)領(lǐng)取哈~