大模型沒有壁壘嗎?開源模型和chatgpt已經(jīng)沒有差距了嗎?
近期有很多工作比如Alpaca、Vicuna、Koala等論文宣稱通過收集到的大量chatgpt output,在基于開源大模型如LLaMA上進行微調(diào)后的模型就接近甚至超過chatgpt效果。有些看熱鬧不嫌事大的媒體渲染諸如“復制chatgpt,僅需100美元“,”開源大模型超過chatgpt“啦。但事實真的如此嗎?來自UC Berkeley的研究團隊在The False Promise of Imitating Proprietary LLMs這篇論文中分析的這些模型的效果,并給出結論”還差的遠呢“。相信這些經(jīng)驗能指導我們怎么做大模型,以及大模型的核心到底是什么。讓我們一睹為快把。
這里有兩個概念后面會被反復使用到,因此提前定義下:
proprietary model: 標題中的proprietary LLMs指的就是chatgpt這種閉源的專有模型,參數(shù)不進行開放,我們只能獲取到模型的輸出信息,而無法模型參數(shù)、生成過程中詞語的概率等信息。
imitation model: 指的是通過模仿proprietary model的輸出而進行訓練的開源模型。
先說結論
大模型的壁壘在于訓練的foundation model的好壞,這要求我們我們訓練更強,更大的基礎模型。而在style、persona方面的差異性則不是壁壘,因為別的模型可以通過很少的樣例就能學習到這些信息。這點也說明了為啥現(xiàn)在所有的大公司都在自己訓練基礎大模型,因為這才是真正的關鍵。
眾包的人工評測是不靠譜的(未來應該怎么評測大模型好壞依然是questionable的,或者需要極強的專家知識,比如需要MIT的博士用專業(yè)領域知識評估),很多imitation model 很容易就模仿到chatgpt輸出答案的風格,即style,而沒有達到chatgpt輸出答案的正確認識、即factuality。因為很多情況下眾包人員缺乏領域知識,而無法判斷兩個模型輸出是否有事實錯誤,因此傾向于認為兩個模型是打平,甚至是好于chatgpt的。
開源模型和chatgpt仍然具有很大的差距,尤其在涉及factuality的問題上,比如需要領域知識,以及coding,reasoning,math problem solving等問題上。
方法
作者定義了兩種imitation,一種是task-specific的imitation,這種是在特征任務上收集足夠多的chatgpt的輸出,然后訓練小模型,這種imitaion目的是想要在特定任務,特定領域上達到chatgpt的效果。一種是broad-coverage imitation,就是利用人們在網(wǎng)上公開的自己的問題以及chatgpt的回復,這些數(shù)據(jù)集一般包含千羅萬象,什么問題都有,這種imitation是想要在整體效果上達到chatgpt效果?,F(xiàn)在公開的大多模型屬于后一種。
broad-coverage imitation常見數(shù)據(jù)集有:
ShareGPT,大約90K用戶和ChatGPT的對話信息。
HC3,大約27K用戶的提問以及ChatGPT的回答信息。
Discord ChatGPT Bots, 大約10K來自社區(qū)(reddit等)提供的用戶和ChatGPT的交流信息。
對于task-specific imitation,作者構造了6K的QA pair,其中問題是來自Natural Questions這個數(shù)據(jù)集,里面大多是一些關于維基百科的事實性問題,而回答都來自ChatGPT,這個數(shù)據(jù)集稱為NQ-Synthetic。
對于broad-coverage imitation,作者將上面提到的三個數(shù)據(jù)集進行清洗、去重后構建了一個新的稱之為ShareGPT-Mix的數(shù)據(jù)集。
作者在這兩個數(shù)據(jù)集上對從1B到13B大小的模型進行finetune,來探究imitation model的效果究竟如何。
實驗結果
task-specific imitation效果分析
在NQ-Synthetic數(shù)據(jù)finetune后效果有持續(xù)變好,并且在模型參數(shù)量上去后,效果有持續(xù)的逼近chatgpt,說明如果是想在某個領域上達到chatgpt的效果,那么imitation這種方法是可行的。
在ShareGPT-Mix上finetune后在問答效果反而下降了,這可能是模型學習chatgpt的輸出風格而折損了部分性能。
broad-coverage imitation效果分析
提升imitation model 訓練的數(shù)據(jù)量不會提升效果,可以看到一開始的時候模型就飽和了,右上圖的結果也說明了在broad-coverage imitation訓的太多反而會降低在natural question 數(shù)據(jù)集上的效果。
提升imitation model 的參數(shù)量可以顯著的提升模型的效果,說明基礎模型的效果才是關鍵。
用GPT-4作為裁判判斷兩個模型的好壞
趨勢和上面的評測是一致的,說明在一定程度上用gpt-4作為裁判來判定chatgpt和imitation model的效果好壞是可行的。
例子
一個關于強化學習的問題,chatgpt回答的很好,而imitation model回答有很多的事實錯誤。其中紅色部分是事實錯誤部分,可以看到imitation model回答的像模像樣,但是錯誤百出。如果不是對強化學習有足夠的了解的評估人員,可能就被騙了。
Discussion
這篇論文最有含金量的部分就在討論部分,我們以結論為主,感興趣的同學可以看原文的分析。
現(xiàn)有的開源模型和chatgpt的差距還很大,主要是在需要factuality的任務上,比如reasoning, math problem solving,一些專業(yè)問題上。
現(xiàn)有open-source LLM最大的limitation就是基礎模型的能力太弱了,只有13B參數(shù)量想要達到chatgpt的效果是遠遠不夠的。因此開源社區(qū)應該努力訓練更大更好的開源模型,而不是finetuning更多chatgpt的output。
在broad-coverage數(shù)據(jù)集上finetune并不會提升模型對于事實性問題回答的準確性,甚至可能降低效果。側面也印證了大模型的能力主要是來自于預訓練階段,和Meta的LIMA: Less Is More for Alignment這篇論文的假設一致。
在task-specific數(shù)據(jù)集上finetune可以提升相應領域上的效果。
imitation model學習到的是style而不是content。
大模型如何評估將變得很困難,因為已經(jīng)驗證目前的眾包人工評測已經(jīng)是不可行的,而不能總讓gpt-4評測吧,比如我就要超過gpt-4,怎么能讓gpt-4既當運動員又當裁判呢?
imitation model繼承了teacher model的safety以及toxicity style,因此如果已經(jīng)訓練好的一個強大的foundation model,而沒有錢像openAI 那么豪雇幾百個專家做safety & alignment,那么可以嘗試用imitation的方式對齊。
pre-training階段是LLM能力的主要來源,finetuning只是一個輕量級的方法來引誘出這些知識,此處再次cue到LIMA。
如果是采用imitation這種方法,那么很可能會加劇幻覺hallucination問題,因為imitation model要強行學習proprietary model的輸出,而這些輸出可能原本就再它能力之外。
如果偏偏就想用imitaion的方式獲得chatgpt的性能,作者說那就不是簡簡單單用幾十上百K的數(shù)據(jù)微調(diào)這么簡單,應該覆蓋方方面面的知識,這個量級可能和需要的預訓練數(shù)據(jù)量級相當。(: 有這個量級的數(shù)據(jù)我還finetune啥
大模型的壁壘在于foundation model訓練的好壞,因此使勁堆積起來模型參數(shù)量,模型訓練token數(shù)量讓你的基礎模型更強大吧。
如果兩個公司用同樣的fondation model, A公司在輸出style和persona等方面作了優(yōu)化,那么B公司很快可以通過模仿A公司的輸出來白嫖到A公司的優(yōu)化,因此這方面的積累是技術壁壘。
人工評測有很大問題,但目前還不知道怎么解決。