一文帶你了解爆火的ChatGPT
導(dǎo)讀
OpenAI近期發(fā)布聊天機(jī)器人模型ChatGPT,迅速出圈全網(wǎng)。它以對(duì)話方式進(jìn)行交互。以更貼近人的對(duì)話方式與使用者互動(dòng),可以回答問題、承認(rèn)錯(cuò)誤、挑戰(zhàn)不正確的前提、拒絕不適當(dāng)?shù)恼?qǐng)求。高質(zhì)量的回答、上癮式的交互體驗(yàn),圈內(nèi)外都紛紛驚呼。
為什么有如此高的評(píng)價(jià)?理論支撐是什么?背后的技術(shù)原理是什么?待解決的問題和方案有哪些?資本怎么看待這件事?本文的目標(biāo)是將這些問題詳細(xì)的給大家講清楚。
1 ChatGPT是什么?
ChatGPT本質(zhì)是一個(gè)應(yīng)用在對(duì)話場(chǎng)景的語(yǔ)言模型,基于GPT3.5通過人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)而來,能夠回答后續(xù)問題、承認(rèn)錯(cuò)誤、質(zhì)疑不正確的前提以及拒絕不適當(dāng)?shù)恼?qǐng)求。首先讓我們今天的主角ChatGPT來親自介紹自己。
1.1 讓ChatGPT介紹自己
ChatGPT是什么?既然ChatGPT是語(yǔ)言模型,語(yǔ)言模型是什么?通過強(qiáng)化學(xué)習(xí)訓(xùn)練,強(qiáng)化學(xué)習(xí)又是什么?


1.2 全球范圍的興起和爆發(fā)
OpenAI 11月30號(hào)發(fā)布,首先在北美、歐洲等已經(jīng)引發(fā)了熱烈的討論。隨后在國(guó)內(nèi)開始火起來。全球用戶爭(zhēng)相曬出自己極具創(chuàng)意的與ChatGPT交流的成果。ChatGPT在大量網(wǎng)友的瘋狂測(cè)試中表現(xiàn)出各種驚人的能力,如流暢對(duì)答、寫代碼、寫劇本、糾錯(cuò)等,甚至讓記者編輯、程序員等從業(yè)者都感受到了威脅,更不乏其將取代谷歌搜索引擎之說。繼AlphaGo擊敗李世石、AI繪畫大火之后,ChatGPT成為又一新晉網(wǎng)紅。下面是谷歌全球指數(shù),我們可以看到火爆的程度。

國(guó)內(nèi)對(duì)比各大平臺(tái),最先火起來是在微信上,通過微信指數(shù)我們可以看到,97.48%來自于公眾號(hào),開始于科技圈,迅速拓展到投資圈等。我最先了解到ChatGPT相關(guān)信息的也是在關(guān)注的科技公眾號(hào)上,隨后看到各大公眾號(hào)出現(xiàn)關(guān)于介紹ChatGPT各種震驚體關(guān)鍵詞地震、殺瘋了、毀滅人類等。隨后各行各業(yè)都參與進(jìn)來有趣的整活,問數(shù)學(xué)題,問歷史,還有寫小說,寫日?qǐng)?bào),寫代碼找BUG......

1.3 背后的金主OpenAI
OpenAI是一個(gè)人工智能研究實(shí)驗(yàn)室,目的是促進(jìn)和發(fā)展友好的人工智能,使人類整體受益。OpenAI原是非營(yíng)利機(jī)構(gòu),但為了更好地實(shí)現(xiàn)產(chǎn)研結(jié)合,2019年3月成立OpenAI LP子公司,目的為營(yíng)利所用。
2019年7月微軟投資雙方將攜手合作,2020年6月宣布了GPT-3語(yǔ)言模型,刷新了人們對(duì)AI的認(rèn)知。GPT系列語(yǔ)言模型讓我們不斷對(duì)通用人工智能(AGI)充滿了期待。
OpenAI目標(biāo)之初就很遠(yuǎn)大,解決通用人工智能問題,主要涉及強(qiáng)化學(xué)習(xí)和生成模型。
強(qiáng)化學(xué)習(xí)最早被認(rèn)為是實(shí)現(xiàn)人類通用智能重要手段,2016年DeepMind開發(fā)的AlphaGo Zero 使用強(qiáng)化學(xué)習(xí)訓(xùn)練,讓人類圍棋的歷史經(jīng)驗(yàn)成為了「Zero」,標(biāo)志著人類向通用型的人工智能邁出了重要一步。2019年OpenAI 在《Dota2》的比賽中戰(zhàn)勝了人類世界冠軍。OpenAI在強(qiáng)化學(xué)習(xí)有很多深入的研究,Dactyl也是一款OpenAI通過強(qiáng)化強(qiáng)化學(xué)習(xí)訓(xùn)練能夠高精度操縱物體的機(jī)器人手,OpenAI Gym是一款用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包,所以ChatGPT中使用強(qiáng)化學(xué)習(xí)也是順理成章。
生成模型方面,為我們熟知的是GPT-3,這是一個(gè)強(qiáng)大的語(yǔ)言模型能夠生成人類一樣流暢的語(yǔ)言。DellE 2是最近很火的AI繪畫根據(jù)文本描述生成圖片。Codex是和微軟合作通過github代碼訓(xùn)練而來,可以生成代碼和Debug,已經(jīng)商業(yè)化。
作為OpenAI曾經(jīng)的創(chuàng)始人伊隆·馬斯克也發(fā)表了對(duì)ChatGPT的評(píng)價(jià)!

看看ChatGPT是怎么介紹自家公司的?

2 ChatGPT一些有趣的體驗(yàn)
作為一個(gè)聊天機(jī)器人,我們體驗(yàn)發(fā)現(xiàn)相比傳統(tǒng)的機(jī)器人在連貫性問答中更加流暢自然。微信上已經(jīng)有很多的小程序可以體驗(yàn),或者直接講ChatGPT接入了微信中,下面體驗(yàn)一下已經(jīng)接入到企業(yè)微信的ChatGPT。
1)公司一向注重價(jià)值觀,第一道題回答對(duì)一半,公司規(guī)定應(yīng)第一時(shí)間退回,特殊情況無(wú)法退回,無(wú)論價(jià)值多少都需要進(jìn)行申報(bào),所以ChatGPT應(yīng)該入職不了我司。第二道經(jīng)典問題的回答還蠻符合公司正直的價(jià)值觀的,哈哈。

2)公司協(xié)會(huì)活動(dòng)總又人放鴿子,我來問問ChatGPT這些人啥心態(tài)??吹綆兔ο氲睦碛珊头砒澴拥娜苏f的一樣,我有點(diǎn)懷疑他們的心態(tài)了。

3)職場(chǎng)工具人看看能不能通過ChatGPT代勞,可以看到文案寫作還是不錯(cuò)的。回答的這個(gè)提綱有一點(diǎn)小問題但不影響大局。講故事編劇本也是不錯(cuò)的,先幫中國(guó)足球?qū)懞脜⒓邮澜绫奈陌福褪遣恢滥懿荒苡玫纳狭恕?/p>
4)身邊同事很重視娃的教育,那么從娃娃抓起先看看ChatGPT能不能帶娃學(xué)習(xí)。文化常識(shí)題回答正確,數(shù)學(xué)題這推理能力,我擔(dān)心娃考不上初中,可以用但是家長(zhǎng)給把把關(guān)??!同時(shí)也考察了一下他腦筋急轉(zhuǎn)彎怎么樣,這個(gè)傻瓜沒答對(duì)。

5)號(hào)稱編程神器可寫代碼、修bug,考察一下Leetcode中等難度的都沒問題。雖然它自謙不會(huì)編程,但根據(jù)測(cè)試和網(wǎng)友的驗(yàn)證能力確實(shí)強(qiáng)。
6)考察一下互聯(lián)網(wǎng)知識(shí)儲(chǔ)備,挑戰(zhàn)失??!如ChatGPT自己所述,他還有很多局限性比如給出看起來沒問題其實(shí)挺離譜的答案,例如回答自己公司的成果還夾雜私人感情,把競(jìng)爭(zhēng)對(duì)手DeepMind的AlphaGo功勞都據(jù)為己有。

做一個(gè)小節(jié),其實(shí)網(wǎng)上有特別多有趣的案例,這里篇幅有限只是簡(jiǎn)單了列舉幾個(gè)。通過體驗(yàn)結(jié)合網(wǎng)友的反饋,ChatGPT的確掌握了一些知識(shí)體系和回答技巧。我們看到相比傳統(tǒng)的聊天機(jī)器人,ChatGPT在連貫性問答中更加流暢自然,什么話都能接住。除了好玩的聊天神器外還有很多實(shí)用的價(jià)值,比如解答專業(yè)概念、編程類問題、從日常郵件、寫請(qǐng)假條、廣告文案等等,都可以通過ChatGPT代勞??赐赀@些有趣的案例,那么ChatGPT究竟如何實(shí)現(xiàn)的,我們接下來將講解關(guān)于ChatGPT的哪些技術(shù)原理。
3 ChatGPT之前技術(shù)沿襲
ChatGPT是基于GPT3.5語(yǔ)言模型,人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)而來。本節(jié)將對(duì)涉及語(yǔ)言模型和強(qiáng)化學(xué)習(xí)兩個(gè)重要技術(shù)做一個(gè)科普,已經(jīng)熟悉的可直接跳過本節(jié)。
3.1 語(yǔ)言模型的技術(shù)演進(jìn)
語(yǔ)言模型通俗講是判斷這句話是否通順、正確。數(shù)學(xué)函數(shù)表達(dá)為給定前N個(gè)詞,預(yù)測(cè)第N+1 個(gè)詞概率,將概率序列分解成條件概率乘積的形式,這個(gè)函數(shù)就可以實(shí)現(xiàn)語(yǔ)言模型去生成句子。那么是什么樣的語(yǔ)言模型如此強(qiáng)大,本小節(jié)梳理了深度學(xué)習(xí)開始的語(yǔ)言模型演技過程,如下圖所示:

第一次開始用神經(jīng)網(wǎng)絡(luò)做語(yǔ)言模型是2003年Bengio提出的NNLM的網(wǎng)絡(luò)結(jié)構(gòu),隨著圖像領(lǐng)域預(yù)訓(xùn)練的取得的突破迅速遷移到NLP領(lǐng)域,有了我們熟知的word2vec,通常做NLP任務(wù)句子中每個(gè)單詞Onehot形式輸入,使用預(yù)訓(xùn)練好的word embedding初始化網(wǎng)絡(luò)的第一層,進(jìn)行下游任務(wù)。word2vec的弊端是word embedding靜態(tài)的,后續(xù)代表性工作中ELMo通過采用雙層雙向LSTM實(shí)現(xiàn)了根據(jù)當(dāng)前上下文對(duì)Word Embedding動(dòng)態(tài)調(diào)整。
ELMo非常明顯的缺點(diǎn)在特征抽取器LSTM結(jié)構(gòu)帶來的,17年Google在機(jī)器翻譯Transformer取得了效果的突破,NLP各種任務(wù)開始驗(yàn)證Transformer特征提取的能力比LSTM強(qiáng)很多。自此NLP開啟了Transformer時(shí)代。
2018年OpenAI采用Transformer Decoder結(jié)構(gòu)在大規(guī)模語(yǔ)料上訓(xùn)練 GPT1模型橫掃了各項(xiàng)NLP任務(wù),自此邁入大規(guī)模預(yù)訓(xùn)練時(shí)代NLP任務(wù)標(biāo)準(zhǔn)的預(yù)訓(xùn)練+微調(diào)范式。由于GPT采用Decoder的單向結(jié)構(gòu)天然缺陷是無(wú)法感知上下文,Google很快提出了Encoder結(jié)構(gòu)的Bert模型可以感知上下文效果上也明顯有提升。隨后2019年OpenAI提出了GPT2,GPT2擁有和GPT1一樣的模型結(jié)構(gòu),但得益于更高的數(shù)據(jù)質(zhì)量和更大的數(shù)據(jù)規(guī)模有了驚人的生成能力。同年Google采用了Encoder-Decoder結(jié)構(gòu),提出了T5模型。從此大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型兵分三路,開始了一系列延續(xù)的工作。
2020年OpenAI提出GPT3將GPT模型提升到全新的高度,其訓(xùn)練參數(shù)達(dá)到了1750億,自此超大模型時(shí)代開啟。技術(shù)路線上摒棄了之前預(yù)訓(xùn)練+微調(diào)的范式,通過輸入自然語(yǔ)言當(dāng)作指示生成答案,開始了NLP任務(wù)新的范式預(yù)訓(xùn)練+提示學(xué)習(xí)。由于GPT3可以產(chǎn)生通順的句子但是準(zhǔn)確性等問題一直存在,出現(xiàn)WebGPT、InstructGPT、ChatGPT等后續(xù)優(yōu)化的工作,實(shí)現(xiàn)了模型可以理解人類指令的含義,會(huì)甄別高水準(zhǔn)答案,質(zhì)疑錯(cuò)誤問題和拒絕不適當(dāng)?shù)恼?qǐng)求。
3.2 深度強(qiáng)化學(xué)習(xí)技術(shù)演進(jìn)
深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)是強(qiáng)化學(xué)習(xí)一個(gè)分支,基于深度學(xué)習(xí)強(qiáng)大的感知能力來處理復(fù)雜的、高維的環(huán)境特征,并結(jié)合強(qiáng)化學(xué)習(xí)的思想與環(huán)境進(jìn)行交互,完成決策過程。DRL在游戲場(chǎng)景這種封閉、靜態(tài)和確定性環(huán)境可以達(dá)到甚至超越人類的決策水平。比較著名的事件是2017年DeepMind 根據(jù)深度學(xué)習(xí)和策略搜索的 AlphaGo 擊敗了圍棋世界冠軍李世石。2018 年OpenAI 團(tuán)隊(duì)基于多智能體 DRL推出的OpenAI Five 在Dota2游戲中擊敗了人類玩家。DRL算法主要分為以下兩類:
值函數(shù)算法:值函數(shù)算法通過迭代更新值函數(shù)來間接得到智能體的策略,智能體的最優(yōu)策略通過最優(yōu)值函數(shù)得到?;谥岛瘮?shù)的 DRL 算法采用深度神經(jīng)網(wǎng)絡(luò)對(duì)值函數(shù)或者動(dòng)作值函數(shù)進(jìn)行近似,通過時(shí)間差分學(xué)習(xí)或者 Q 學(xué)習(xí)的方式分別對(duì)值函數(shù)或者動(dòng)作值函數(shù)進(jìn)行更新。代表性的是2015 年 DeepMind 團(tuán)隊(duì)提出深度Q網(wǎng)絡(luò)(DQN),及其后的各種變種DDQN、Dueling DQN、分布式DQN等。
策略梯度算法:策略梯度算法直接采用函數(shù)近似的方法建立策略網(wǎng)絡(luò),通過策略網(wǎng)絡(luò)選取動(dòng)作得到獎(jiǎng)勵(lì)值,并沿梯度方向?qū)Σ呗跃W(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化,得到優(yōu)化的策略最大化獎(jiǎng)勵(lì)值??梢杂脕硖幚磉B續(xù)動(dòng)作。在實(shí)際應(yīng)用中流行的做法是將值函數(shù)算法和策略梯度算法結(jié)合得到的執(zhí)行器?評(píng)價(jià)器(AC)結(jié)構(gòu)。代表性工作有策略梯度算法、AC 算法以及各種變種DDPG、A3C、PPO等。ChatGPT使用的就是策略梯度算法PPO。
4 ChatGPT背后的技術(shù)原理
ChatGPT整體技術(shù)方案是基于 GPT-3.5 大規(guī)模語(yǔ)言模型通過人工反饋強(qiáng)化學(xué)習(xí)來微調(diào)模型,讓模型一方面學(xué)習(xí)人的指令,另一方面學(xué)習(xí)回答的好不好。
本節(jié)首先闡述ChatGPT提升的效果及背后對(duì)應(yīng)的技術(shù),然后介紹ChatGPT的整體訓(xùn)練流程,其次介紹提升涉及幾個(gè)技術(shù)細(xì)節(jié)。
4.1 核心提升了什么?
ChatGPT在對(duì)話場(chǎng)景核心提升了以下三方面:
1)更好的理解用戶的提問,提升模型和人類意圖的一致性,同時(shí)具備連續(xù)多輪對(duì)話能力。
2)大幅提升結(jié)果的準(zhǔn)確性,主要表現(xiàn)在回答的更加的全面,同時(shí)可以承認(rèn)錯(cuò)誤、發(fā)現(xiàn)無(wú)法回答的問題。
3)具備識(shí)別非法和偏見的機(jī)制,針對(duì)不合理提問提示并拒絕回答。
ChatGPT的提升主要涉及以下三方面技術(shù):
1)性能強(qiáng)大的預(yù)訓(xùn)練語(yǔ)言模型GPT3.5,使得模型具備了博學(xué)的基礎(chǔ)。
2)webGPT等工作驗(yàn)證了監(jiān)督學(xué)習(xí)信號(hào)可大幅提升模型準(zhǔn)確性。
3)InstructGPT等工作引入強(qiáng)化學(xué)習(xí)驗(yàn)證了對(duì)齊模型和用戶意圖的能力。
4.2 整體技術(shù)流程
ChatGPT的訓(xùn)練過程分為微調(diào)GPT3.5模型、訓(xùn)練回報(bào)模型、強(qiáng)化學(xué)習(xí)來增強(qiáng)微調(diào)模型三步:

第一步:微調(diào)GPT3.5模型。讓GPT 3.5在對(duì)話場(chǎng)景初步具備理解人類的的意圖,從用戶的prompt集合中采樣,人工標(biāo)注prompt對(duì)應(yīng)的答案,然后將標(biāo)注好的prompt和對(duì)應(yīng)的答案去Fine-tune GPT3.5,經(jīng)過微調(diào)的模型具備了一定理解人類意圖的能力。
第二步:訓(xùn)練回報(bào)模型。第一步微調(diào)的模型顯然不夠好,至少他不知道自己答的好不好,這一步通過人工標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)回報(bào)模型,讓回報(bào)模型來幫助評(píng)估回答的好不好。具體做法是采樣用戶提交的prompt,先通過第一步微調(diào)的模型生成n個(gè)不同的答案,比如A、B、C、D。接下來人工對(duì)A、B、C、D按照相關(guān)性、有害性等標(biāo)準(zhǔn)標(biāo)準(zhǔn)并進(jìn)行綜合打分。有了這個(gè)人工標(biāo)準(zhǔn)數(shù)據(jù),采取pair-wise 損失函數(shù)來訓(xùn)練回報(bào)模型RM。這一步實(shí)現(xiàn)了模型判別答案的好壞。
第三步:強(qiáng)化學(xué)習(xí)來增強(qiáng)微調(diào)模型。使用第一步微調(diào)GPT3.5模型初始化PPO模型,采樣一批和前面用戶提交prompt不同的集合,使用PPO模型生成答案,使用第二步回報(bào)模型對(duì)答案打分。通過產(chǎn)生的策略梯度去更新PPO模型。這一步利用強(qiáng)化學(xué)習(xí)來鼓勵(lì)PPO模型生成更符合RM模型判別高質(zhì)量的答案。
通過第二和第三步的迭代訓(xùn)練并相互促進(jìn),使得PPO模型能力越來越強(qiáng)。
4.3 主要涉及的技術(shù)細(xì)節(jié)
4.3.1 GPT3.5理解能力提升
ChatGPT是在GPT3.5模型技術(shù)上進(jìn)行微調(diào)的,這里對(duì)GPT-3.5在GPT3基礎(chǔ)上做的工作進(jìn)行梳理,官方列舉了以下GPT-3.5系列幾個(gè)型號(hào):
code-davinci-002 是一個(gè)基礎(chǔ)模型,對(duì)于純代碼補(bǔ)全任務(wù)。這也是ChatGPT具備超強(qiáng)代碼生成能力的原因。
text-davinci-002 是在code-davinci-002基礎(chǔ)上訓(xùn)練的InstructGPT模型,訓(xùn)練策略是instructGPT+FeedRM。
text-davinci-003 是基于text-davinci-002模型的增強(qiáng)版本,訓(xùn)練策略是instructGPT+PPO。
根據(jù)如下圖官方發(fā)布的模型時(shí)間線和文檔,我們可以了解到ChatGPT是在text-davinci-003 基礎(chǔ)上微調(diào)而來,這也是ChatGPT模型性能如此強(qiáng)大的核心要素。因?yàn)镚PT-3.5系列模型是在2021年第四季度之前的文本和代碼樣本上訓(xùn)練,所以我們體驗(yàn)ChatGPT時(shí)候同樣無(wú)法回答訓(xùn)練樣本日期之后的問題。

4.3.2 監(jiān)督信號(hào)提升效果顯著
GPT3之前在預(yù)訓(xùn)練+微調(diào)已經(jīng)是NLP任務(wù)中標(biāo)準(zhǔn)范式,GPT3模型的訓(xùn)練是純自監(jiān)督學(xué)習(xí)并以API的形式發(fā)布,用戶不具備微調(diào)的能力,官方也是主打預(yù)訓(xùn)練+提示學(xué)習(xí)的能力。Prompt方法本質(zhì)是挖掘語(yǔ)言模型本身具備的知識(shí),恰當(dāng)?shù)奶崾救ゼぐl(fā)語(yǔ)言模型的補(bǔ)全能力。監(jiān)督信號(hào)微調(diào)可以理解為改變了語(yǔ)言模型的理解能力,InstructGPT的工作可以理解為對(duì)GPT3-SFT做了數(shù)據(jù)增強(qiáng)提升,使得模型在理解人類指令方面更出色。但這并不影響監(jiān)督信號(hào)對(duì)最終效果的價(jià)值。
在InstructGPT的工作中,我們可以看到GPT3-SFT和InstructGPT在毒性、幻覺、理解客戶能力上,監(jiān)督學(xué)習(xí)微調(diào)已經(jīng)和強(qiáng)化學(xué)習(xí)對(duì)比有很大的競(jìng)爭(zhēng)力,甚至在幻覺角度比基于強(qiáng)化學(xué)習(xí)的InstructGPT提升很明顯。

4.3.3 人類反饋強(qiáng)化微調(diào)效果
ChatGPT通過人類反饋強(qiáng)化學(xué)習(xí)(RLHF)來讓模型理解人類的指令。人類反饋強(qiáng)化學(xué)習(xí)(RLHF)是DeepMind早期提出的,使用少量的人類反饋來解決現(xiàn)代RL任務(wù)。RLHF的思想在很多工作中都有體現(xiàn),例如OpenAI的webGPT、DeepMind中Sparrow等都通過人類的反饋進(jìn)一步提升大模型的效果。
RLHF整個(gè)訓(xùn)練過程如下圖所示:

目標(biāo)是實(shí)現(xiàn)后空翻的任務(wù),智能體Agent在環(huán)境中隨機(jī)行動(dòng),每隔一段時(shí)間,兩個(gè)行為的視頻片段給一個(gè)人,人判斷兩個(gè)視頻哪個(gè)更接近目標(biāo)。通過人的反饋數(shù)據(jù),學(xué)習(xí)一個(gè)最能解釋人類判斷的獎(jiǎng)勵(lì)模型Reward Model,然后使用RL來學(xué)習(xí)如何實(shí)現(xiàn)目標(biāo)。隨著人類繼續(xù)提供模型無(wú)法判斷時(shí)候的反饋,實(shí)現(xiàn)了進(jìn)一步完善它對(duì)目標(biāo)的理解。智能體Agent從人類反饋中學(xué)習(xí)最終在許多環(huán)境中有時(shí)甚至是超過人類的表現(xiàn)。
4.4 行動(dòng)驅(qū)動(dòng)的大語(yǔ)言模型
盡管學(xué)術(shù)界一直無(wú)法真正定義AGI,今年大型語(yǔ)言模型(LLM)的表現(xiàn)讓我們對(duì)通用人工智能有了期待,通過OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功,人工智能的未來應(yīng)該是行動(dòng)驅(qū)動(dòng)的,一個(gè)行動(dòng)驅(qū)動(dòng)的LLM看起來很像AGI,如下圖所示:

模型的行為就像一個(gè)智能體Agent選擇行動(dòng)。在中間,我們有開箱即用的基礎(chǔ)模型LLM。用戶通過Prompt詢問模型結(jié)果。
左邊是外部可利用的資源,這些可以是任何將文本作為輸入并提供文本作為輸出的函數(shù),包括搜索、數(shù)據(jù)庫(kù)、代碼解釋器和與人聊天等,它可以增強(qiáng)模型的能力。
右邊是我們有任務(wù)導(dǎo)向的訓(xùn)練,如instruction tuning、RLHF等。instruction tuning相對(duì)好實(shí)現(xiàn),RLHF需要調(diào)整PPO算法相對(duì)較難。整體上RL利用使用日志等專有數(shù)據(jù),通過創(chuàng)建強(qiáng)大的反饋回路,訓(xùn)練模型使其更加符合任務(wù)需求并迭代優(yōu)化。
5 總結(jié)與展望
5.1 技術(shù)創(chuàng)新:待解決問題和改進(jìn)
ChatGPT一個(gè)問題是只能回答2021年前的問題。模型無(wú)法獲取近期的知識(shí),將ChatGPT+webGPT結(jié)合是一個(gè)可以想到的方案。DeepMind提出的Sparrow就是一個(gè)參考,Sparrow model針對(duì)對(duì)話內(nèi)容模型生成結(jié)果并判斷是否搜索互聯(lián)網(wǎng),以提供更多的正確參考答案,用強(qiáng)化學(xué)習(xí)算法去優(yōu)化Sparrow的輸出結(jié)果。整體流程如下圖所示:

5.2 技術(shù)應(yīng)用:能否取代搜索引擎
應(yīng)該不會(huì)取代,根據(jù)目前體驗(yàn)的效果,距離搜索引擎還有很長(zhǎng)的路要走,主要基于幾個(gè)方面。
首先ChatGPT本質(zhì)是語(yǔ)言模型,當(dāng)前的訓(xùn)練技術(shù)模型不具備或者說很弱的推理能力,一些推理問題比如小學(xué)生問題完敗。根據(jù)當(dāng)前體驗(yàn)看擅長(zhǎng)創(chuàng)作類文案,其他問題經(jīng)常出現(xiàn)一些事實(shí)錯(cuò)誤情況。而搜索引擎技術(shù)的核心索引、檢索和排序是給到用戶Top相關(guān)性內(nèi)容,用戶自主多了一層推理、對(duì)比篩選、總結(jié)。
其次目前的ChatGPT不能夠回答21年之后的問題,新知識(shí)的獲取是通過增加標(biāo)注數(shù)據(jù)實(shí)現(xiàn)。如果要支持獲取社會(huì)熱點(diǎn)新聞等,就需要改變底層技術(shù)方案。盡管這個(gè)問題WebGPT、Sparrow通過搜索引擎解決,能否替代自己就有了答案。
最后就是成本問題,ChatGPT火的原因之一就是免費(fèi)體驗(yàn),之前超大模型GPT3收費(fèi)模式根本沒有產(chǎn)生這么大的反響。商業(yè)化一直是大模型的痛,模型效果和模型參數(shù)成正比。搜索引擎索引、檢索、排序的成本和ChatGPT這種模型計(jì)算成本不在一個(gè)量級(jí)上。
5.3 未來預(yù)期:資本市場(chǎng)怎么看
和負(fù)責(zé)投資和戰(zhàn)略的同學(xué)聊,近期都在討論AI。AI賽道無(wú)疑是投資界“今年最大的熱點(diǎn)之一”。ChatGPT和今年大火的AI繪畫都屬于泛AIGC領(lǐng)域,AIGC 是繼 PGC、UGC 后的新內(nèi)容生產(chǎn)形態(tài)。AI投資人看來,從語(yǔ)音、文字、圖像的內(nèi)容生成都將出現(xiàn)增長(zhǎng),而對(duì)話可能是其中最重要的殺手級(jí)應(yīng)用。根據(jù) Gartner 預(yù)計(jì),到 2025 年,生成式人工智能將占所有生成數(shù)據(jù)的 10%,而當(dāng)前占比小于 1%。
回顧一下OpenAI,作為AIGC頂級(jí)技術(shù)公司已經(jīng)做了不少商業(yè)化的嘗試,通過API方式來推動(dòng)GPT-3的技術(shù)商業(yè)化,將GPT3作為一項(xiàng)付費(fèi)服務(wù)來推廣。Codex也是已經(jīng)商業(yè)化的產(chǎn)品。GPT-3歷經(jīng)兩年商業(yè)化嘗試,如今并未取代記者編輯或碼農(nóng)的職業(yè)生涯,OpenAI也從中發(fā)現(xiàn),將GPT系列作為輔助生產(chǎn)力工具對(duì)商業(yè)化更為合適。此次ChatGPT采取免費(fèi)試用可能是OpenAI準(zhǔn)備繼續(xù)打磨這款產(chǎn)品,根據(jù)用戶的反饋幫助模型改進(jìn)從而作出更恰當(dāng)?shù)姆磻?yīng)。等產(chǎn)品打磨好可能為GPT-4商業(yè)化鋪路。
回顧國(guó)內(nèi)行業(yè)巨頭和高??蒲袡C(jī)構(gòu)大規(guī)模預(yù)訓(xùn)練模型軍備競(jìng)賽一直持續(xù)。百度發(fā)布了產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型“文心”(參數(shù)規(guī)模達(dá)2600億),并基于“文心”模型形成了產(chǎn)業(yè)全景圖。華為聯(lián)合鵬程實(shí)驗(yàn)室發(fā)布“盤古”大模型,阿里巴巴達(dá)摩院發(fā)布的中文語(yǔ)言模型 PLUG。智源人工智能研究院的超大規(guī)模預(yù)訓(xùn)練模型“悟道”(悟道2.0參數(shù)規(guī)模達(dá)1.75萬(wàn)億)?;仡檱?guó)內(nèi)創(chuàng)業(yè)公司,根據(jù)睿獸分析顯示2022年以來大規(guī)模預(yù)訓(xùn)練模型賽道出現(xiàn)多筆融資,其中不乏聯(lián)想創(chuàng)投、君聯(lián)資本、啟明創(chuàng)投、創(chuàng)新工場(chǎng)等知名投資機(jī)構(gòu)。瀾舟科技、聆心智能、小冰等這些企業(yè)均將商業(yè)落地作為融資后的發(fā)力重點(diǎn)。
2022 年以來 AIGC 應(yīng)用多點(diǎn)開花,伴隨著深度學(xué)習(xí)模型不斷完善、開源模式的推動(dòng)、大模型探索商業(yè)化的可能,AIGC 有望加速發(fā)展,讓人們對(duì)通用人工智能有了更多的期待。