散文網(wǎng) » 科技 »學習 » 大模型沒有壁壘嗎？開源模型和chatgpt已經(jīng)沒有差距了嗎？

大模型沒有壁壘嗎？開源模型和chatgpt已經(jīng)沒有差距了嗎？

2023-06-23 14:38 作者:一起學chatGPT一起學ai 0人讀過 | 我要投稿

近期有很多工作比如Alpaca、Vicuna、Koala等論文宣稱通過收集到的大量chatgpt output，在基于開源大模型如LLaMA上進行微調(diào)后的模型就接近甚至超過chatgpt效果。有些看熱鬧不嫌事大的媒體渲染諸如“復制chatgpt，僅需100美元“，”開源大模型超過chatgpt“啦。但事實真的如此嗎？來自UC Berkeley的研究團隊在The False Promise of Imitating Proprietary LLMs這篇論文中分析的這些模型的效果，并給出結論”還差的遠呢“。相信這些經(jīng)驗能指導我們怎么做大模型，以及大模型的核心到底是什么。讓我們一睹為快把。

這里有兩個概念后面會被反復使用到，因此提前定義下：

proprietary model: 標題中的proprietary LLMs指的就是chatgpt這種閉源的專有模型，參數(shù)不進行開放，我們只能獲取到模型的輸出信息，而無法模型參數(shù)、生成過程中詞語的概率等信息。
imitation model: 指的是通過模仿proprietary model的輸出而進行訓練的開源模型。

先說結論

大模型的壁壘在于訓練的foundation model的好壞，這要求我們我們訓練更強，更大的基礎模型。而在style、persona方面的差異性則不是壁壘，因為別的模型可以通過很少的樣例就能學習到這些信息。這點也說明了為啥現(xiàn)在所有的大公司都在自己訓練基礎大模型，因為這才是真正的關鍵。
眾包的人工評測是不靠譜的（未來應該怎么評測大模型好壞依然是questionable的，或者需要極強的專家知識，比如需要MIT的博士用專業(yè)領域知識評估），很多imitation model 很容易就模仿到chatgpt輸出答案的風格，即style，而沒有達到chatgpt輸出答案的正確認識、即factuality。因為很多情況下眾包人員缺乏領域知識，而無法判斷兩個模型輸出是否有事實錯誤，因此傾向于認為兩個模型是打平，甚至是好于chatgpt的。
開源模型和chatgpt仍然具有很大的差距，尤其在涉及factuality的問題上，比如需要領域知識，以及coding，reasoning，math problem solving等問題上。

imitation model 自身的能力仍需加強

方法

作者定義了兩種imitation，一種是task-specific的imitation，這種是在特征任務上收集足夠多的chatgpt的輸出，然后訓練小模型，這種imitaion目的是想要在特定任務，特定領域上達到chatgpt的效果。一種是broad-coverage imitation，就是利用人們在網(wǎng)上公開的自己的問題以及chatgpt的回復，這些數(shù)據(jù)集一般包含千羅萬象，什么問題都有，這種imitation是想要在整體效果上達到chatgpt效果?，F(xiàn)在公開的大多模型屬于后一種。

broad-coverage imitation常見數(shù)據(jù)集有：

ShareGPT，大約90K用戶和ChatGPT的對話信息。
HC3，大約27K用戶的提問以及ChatGPT的回答信息。
Discord ChatGPT Bots，大約10K來自社區(qū)（reddit等）提供的用戶和ChatGPT的交流信息。

對于task-specific imitation，作者構造了6K的QA pair，其中問題是來自Natural Questions這個數(shù)據(jù)集，里面大多是一些關于維基百科的事實性問題，而回答都來自ChatGPT，這個數(shù)據(jù)集稱為NQ-Synthetic。

對于broad-coverage imitation，作者將上面提到的三個數(shù)據(jù)集進行清洗、去重后構建了一個新的稱之為ShareGPT-Mix的數(shù)據(jù)集。

作者在這兩個數(shù)據(jù)集上對從1B到13B大小的模型進行finetune，來探究imitation model的效果究竟如何。

實驗結果

task-specific imitation效果分析

在NQ-Synthetic數(shù)據(jù)finetune后效果有持續(xù)變好，并且在模型參數(shù)量上去后，效果有持續(xù)的逼近chatgpt，說明如果是想在某個領域上達到chatgpt的效果，那么imitation這種方法是可行的。
在ShareGPT-Mix上finetune后在問答效果反而下降了，這可能是模型學習chatgpt的輸出風格而折損了部分性能。

broad-coverage imitation效果分析

提升imitation model 訓練的數(shù)據(jù)量不會提升效果，可以看到一開始的時候模型就飽和了，右上圖的結果也說明了在broad-coverage imitation訓的太多反而會降低在natural question 數(shù)據(jù)集上的效果。
提升imitation model 的參數(shù)量可以顯著的提升模型的效果，說明基礎模型的效果才是關鍵。

用GPT-4作為裁判判斷兩個模型的好壞

趨勢和上面的評測是一致的，說明在一定程度上用gpt-4作為裁判來判定chatgpt和imitation model的效果好壞是可行的。

d

例子

一個關于強化學習的問題，chatgpt回答的很好，而imitation model回答有很多的事實錯誤。其中紅色部分是事實錯誤部分，可以看到imitation model回答的像模像樣，但是錯誤百出。如果不是對強化學習有足夠的了解的評估人員，可能就被騙了。

Discussion

這篇論文最有含金量的部分就在討論部分，我們以結論為主，感興趣的同學可以看原文的分析。

現(xiàn)有的開源模型和chatgpt的差距還很大，主要是在需要factuality的任務上，比如reasoning， math problem solving，一些專業(yè)問題上。
現(xiàn)有open-source LLM最大的limitation就是基礎模型的能力太弱了，只有13B參數(shù)量想要達到chatgpt的效果是遠遠不夠的。因此開源社區(qū)應該努力訓練更大更好的開源模型，而不是finetuning更多chatgpt的output。
在broad-coverage數(shù)據(jù)集上finetune并不會提升模型對于事實性問題回答的準確性，甚至可能降低效果。側面也印證了大模型的能力主要是來自于預訓練階段，和Meta的LIMA: Less Is More for Alignment這篇論文的假設一致。
在task-specific數(shù)據(jù)集上finetune可以提升相應領域上的效果。
imitation model學習到的是style而不是content。
大模型如何評估將變得很困難，因為已經(jīng)驗證目前的眾包人工評測已經(jīng)是不可行的，而不能總讓gpt-4評測吧，比如我就要超過gpt-4，怎么能讓gpt-4既當運動員又當裁判呢？
imitation model繼承了teacher model的safety以及toxicity style，因此如果已經(jīng)訓練好的一個強大的foundation model，而沒有錢像openAI 那么豪雇幾百個專家做safety & alignment，那么可以嘗試用imitation的方式對齊。
pre-training階段是LLM能力的主要來源，finetuning只是一個輕量級的方法來引誘出這些知識，此處再次cue到LIMA。
如果是采用imitation這種方法，那么很可能會加劇幻覺hallucination問題，因為imitation model要強行學習proprietary model的輸出，而這些輸出可能原本就再它能力之外。
如果偏偏就想用imitaion的方式獲得chatgpt的性能，作者說那就不是簡簡單單用幾十上百K的數(shù)據(jù)微調(diào)這么簡單，應該覆蓋方方面面的知識，這個量級可能和需要的預訓練數(shù)據(jù)量級相當。(: 有這個量級的數(shù)據(jù)我還finetune啥
大模型的壁壘在于foundation model訓練的好壞，因此使勁堆積起來模型參數(shù)量，模型訓練token數(shù)量讓你的基礎模型更強大吧。
如果兩個公司用同樣的fondation model， A公司在輸出style和persona等方面作了優(yōu)化，那么B公司很快可以通過模仿A公司的輸出來白嫖到A公司的優(yōu)化，因此這方面的積累是技術壁壘。
人工評測有很大問題，但目前還不知道怎么解決。

標簽：chatGPT應用 AI教育 al作畫 ai繪畫 aigc midjourney 插件人工智能 AI ai創(chuàng)作

大模型沒有壁壘嗎？開源模型和chatgpt已經(jīng)沒有差距了嗎？的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

大模型沒有壁壘嗎？開源模型和chatgpt已經(jīng)沒有差距了嗎？

先說結論

方法