大而強 VS 小而美 | 史曉東、周明等共論:大模型主導的時代,NLP 該如何演進?
【專欄:前沿進展】近來,超大規(guī)模預訓練模型快速發(fā)展,在自然語言處理領域引起熱議。基于深度學習的自然語言處理技術正沿著“極大數(shù)據(jù)、極大模型、極大算力”的軌道,“無所不用其極”地一路奮進。
在8月28日舉辦的“第六屆語言與智能高峰論壇”中,來自廈門大學史曉東教授(廈門大學人工智能研究所所長,中國中文信息學會常務理事),創(chuàng)新工場周明博士(創(chuàng)新工場首席科學家,瀾舟科技創(chuàng)始人,ACL 前主席,微軟亞洲研究院前副院長)等對預訓練模型領域的發(fā)展情況做主題演講報告。
史曉東教授提出,盡管當下有許多人認為大模型存在“大而無當”的問題,并以此提倡發(fā)展小模型,但小模型卻可能“貧窮限制想象力”。NLP 如何能夠走得更遠,并非非此即彼。
周明博士認為針對當下 NLP 面臨的難題,無論是神經模型還是符號模型,都存在難解問題。參照李飛飛等人最近提出的“Foundation Models”,周明建設性地提出,我們應該定義 “Foundation Skills”,并做微調來適應大任務。此外,周明還建議 “建立體系化的benchmark,推出推理評測的 GLUE”。
智源社區(qū)對相關的報告進行了整理,供讀者參考。感謝史曉東教授和周明博士對本文的校對。

整理:戴一鳴
責編:賈 偉
大而強VS小而美- 自然語言處理模型應該如何演進?
講者:史曉東,廈門大學教授
我今天的演講主題是《大而強VS小而美,自然語言處理模型應該如何演進》。大家上午也聽了孫茂松老師等老師的報告,都提到目前預訓練訓練語言模型越來越大。從這張比較早的圖可以看出,GPT-3跟以前的模型相比參數(shù)規(guī)模差得非常大。
今年谷歌、國內的悟道等,都在 GPT-3的基礎上,又擴大了將近10倍的參數(shù)規(guī)模。比如悟道2.0的規(guī)模達到了1.75萬億,這類模型我稱之為“大而強”。它是目前我們第二代人工智能的一個主流模型,也就是目前深度學習的標志性模型。

但是這種對大而強模型的追求,也遭到了一些學者的挑戰(zhàn)。很多學者認為大數(shù)據(jù)從來不是人類智能的進化過程的必備條件,我們人類不需要大數(shù)據(jù)。比如說著名的朱松純教授,他提出任務驅動的因果推理學習不需要大數(shù)據(jù)的學習模式,而是靠舉一反三,這種模型我簡單稱之為“小而美”。這個小而美的模型其實是跟傳統(tǒng)的第一代理性主義模型是比較接近的。
現(xiàn)在這個問題就是 “大而強” 和 “小而美”,到底哪個才是將來自然語言處理發(fā)展的思路。我簡單說一下大模型的問題。首先大模型需要大的算力,學校、科研機構不一定有這么強的算力,只有像谷歌、OpenAI才有這樣的實力,學術界有的時候就是力有不逮,這種情況下應該怎么辦?要跟他們合作嗎?
另外一個方面的問題是大模型都是需要消耗能源,然后我們上午也聽到Pascale Fung提到的Green Transformer。還有一個方面問題是大的模型水分很大,很多研究發(fā)現(xiàn)大模型可以壓縮得很小。
大模型是不是一定能夠學到好的表示,比如GPT-3能夠做兩位數(shù)以內的加法,但是他能學懂什么叫加法嗎?比較新的一些模型,比如說悟道模型,以及谷歌的Switch Transformer里都提到了mixture of expert(MoE)架構,也就是用多個子模型,來降低模型的參數(shù)量,增加運算速度,這解決了部分問題,但是根本上沒有解決前述問題。
盡管有很多研究說GPT-3可以做很多這種無監(jiān)督或者few-shot的學習,但它是不是具有通用智能?此外,不管模型多大,永遠有一些數(shù)據(jù)是小樣本的,這些數(shù)據(jù)怎么辦?就要拋棄嗎?
小模型其實也有很多問題,第一個就是說我們一句俗話叫“貧窮限制了想象力”,你都沒見過世面,你怎么能理解人家的操作。另外,任何小模型都要考慮統(tǒng)計上的局限,輸入數(shù)據(jù)太小的話,統(tǒng)計上沒有意義。

另外小模型也存在著認知困局的問題。從時間和空間兩個維度來看,比如說“朝菌不知晦朔,蟪蛄不知春秋”,“夏蟲不可語冰”,“井蛙不可語海”等。沒有先驗就沒辦法去認知,但是有先驗知識的話也會帶一定的偏見,上午也很多人談到了一些偏見問題。
如果說模型很小的話,簡單智能能不能發(fā)展成復雜智能?弱人工智能能發(fā)展成強人工智能嗎?所以在這種情況下,如何在大而強和小而美模型之間來進行選擇?
這個論壇我們邀請到了四五位嘉賓來給大家分享,我這里列出了一些沖突的概念,只是作為一些提示。大家可以在演講中思考一下,什么才是通用人工智能核心的自然語言理解模型這個基本問題。
符號推理還是神經網絡?
- 從計算機求解美國司法學院入學考試題談起
講者:周明,創(chuàng)新工場首席科學家2019年ACL主席,曾擔任微軟亞洲研究院副院長
美國很多學生要考司法學院,它的考試題名為LSAT,題目有三種類型,分別是分析推理、邏輯推理和問答理解,主要考察學生的通用理解和推理能力,不考具體的專業(yè)。

基于這種考試設計的AI,和中國的高考機器人,東大的高考項目不大一樣,在那些項目中,需要要對每個專業(yè),比如語文數(shù)學歷史等進行建模,而這個考試只需要對通用理解進行建模。這個LSAT測試集是一個用于研究推理的理想的數(shù)據(jù)集合。

在分析推理方面,目前符號的方法是最佳的,在這個任務上具有優(yōu)越性。由于缺少數(shù)據(jù),神經網絡無法訓練,而寫規(guī)則的時候可以根據(jù)問題的特點寫一系列針對性的規(guī)則,所以規(guī)則的方法在這里有一定的優(yōu)勢。
在邏輯推理方面,符號方法和神經方法融合最好。對每一道題,用符號方法去理解邏輯,然后根據(jù)邏輯的等價規(guī)律進行延伸和推廣,然后對每一個答案也進行邏輯抽取,然后利用推廣的這些邏輯對答案的邏輯再進行推廣,然后把推廣的邏輯變換成文字,把文字加回到神經網絡中進行訓練,這個方法目前是最優(yōu)的。
它的好處就是把邏輯方法充分的用到問題的實質里頭去了,然后用邏輯方法來擴展了數(shù)據(jù),而沒有直接用邏輯方法去推導,所以這個組合方法在這種題目上取得了最優(yōu)的結果。
在閱讀理解方面,神經網絡加預訓練的方法是最好的,這種方法充分利用了端到端訓練來捕捉這個問題的特點,然后再加上現(xiàn)在的SOTA的閱讀理解方法,所以比任何其他的方法都會好很多。

這個LSAT實驗基本上覆蓋了符號推理、神經網絡推理或者兩者的可能的結合?;谶@個LSAT的實驗,我想談一下自己的感想。
1. 符號方法還是神經網絡方法?
LSAT有三大類的問題,每一大類問題有自己的特點,要根據(jù)每個問題的特點,都設計出了對這個問題來講最優(yōu)的一種方法,這是用到了專家經驗進行的,但是很多情況下,實際上我們對問題性質不是很理解,要做很多試探,也可能沒有那么多專家經驗,因此在做任何推理的問題的時候,大家都比較茫然。
選擇用符號方法還是神經方法?符號方法的優(yōu)點主要是可解釋性,缺點主要是不易復制、不易遷移。神經方法可以端對端訓練,門檻比較低,便于維護,但是缺點是知識難以融入,沒有可解釋性。
分析推理的問題實際上有兩部分,一是理解這個問題本身,二是推理。一般而言,人理解問題沒有問題,但是推理有點問題,所以機器跟它是相反的。
用符號推理的方法來理解問題,還是用神經網絡的方法理解問題,目前的分數(shù)都不高,雖然符號比神經網絡高很多,所以現(xiàn)在的難點是:怎樣用符號的方法能夠很快的撰寫出一些規(guī)則,代價也比較低,我認為現(xiàn)在沒有解。
2. Foundation skills
用神經網絡的方法,數(shù)據(jù)標注集合很大,然后做端到端訓練,我認為也是不可取的,因為有很多任務基本上沒有多少數(shù)據(jù)。還有一些可解釋性問題、常識問題和Few-shot問題,目前解決不好。其實基本上,真實情況下,所有的問題都是小任務的,很少有標注數(shù)據(jù),可是人卻只需要一點數(shù)據(jù)就大概明白意思了,就可以做事情了。所以我在想人是有一些基礎能力的,叫做 Foundation Skills(基礎能力)。這些基礎能力不用針對每一個任務都像現(xiàn)在的神經網絡端對端的重新學一遍。
前幾天像斯坦福李飛飛提到的 Foundation Models,Model是指的是具有支持不同任務能力的模型。但是人不管用什么 Model,體現(xiàn)在外圍是 Foundation Skills,比如語義理解、證據(jù)檢索,語言理解像分詞、句法分析、常識問題,完成某一個基本任務,每個人都有 Foundation Skills,雖然能力各有不同,但是人在解決一個大問題的時候,是調用了 Foundation Skills,然后對每一個用到的Foundation Skills 要快速做 Domain-Adaptation。

所以我認為,第一我們要定義 Foundation Skills,第二我們能夠對某一個 Foundation Skills 做微調來適應大任務。第三,在一個新的大任務的時候,哪怕只有一些很小的數(shù)據(jù),都可以對整個異構的網絡來進行微調。所以我們想能不能去研究 Foundation Skills,能不能研究 Domain Adaptation,雖然目前沒有明確的答案。
3. 如何建立推理評測集合的GLUE,推進推理研究?
我覺得推理非常重要,也許過去重視的不夠,但是像Hinton、Bengio、Yann Lecun等都提到,人工智能下一步主要依賴于表征學習和推理,需要兩者的互相努力、互相推進?,F(xiàn)在推理的數(shù)據(jù)集有分析推理、邏輯推理、嘗試推理、多跳推理等等,但這些數(shù)據(jù)集都是有很多問題。比如說題型比較單一,很多數(shù)據(jù)集都是眾包方式,質量良莠不齊,很多的推理類型還沒有覆蓋,這樣的數(shù)據(jù)集要進一步的完善。

還有些數(shù)據(jù)推理任務沒有相應的數(shù)據(jù)集,比如類比推理就沒有數(shù)據(jù)集。所以應當補充這樣的數(shù)據(jù)集,然后形成一個推理任務的“GLUE”,推動推理整個領域的發(fā)展,謝謝大家。