2023.14 如何從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)再到GPT
2023年第14周 (04-03~04-09)
本期閱讀/摘錄內(nèi)容是來(lái)自 Nvidia 2023年開發(fā)者大會(huì)的一期爐邊談話:Ilya Sutskever and Jensen Huang: AI Today and Vision of the Future
一窺深度學(xué)習(xí)如何從無(wú)到有,到GPT 1、2、3,到今天的ChatGPT,十五年的探索之路。
Ilya Sutskever,OpenAI 的聯(lián)合創(chuàng)始人和首席科學(xué)家
Jensen Huang (黃仁勛) ,Nvidia 的創(chuàng)始人和首席執(zhí)行官

深度學(xué)習(xí)
黃仁勛首先問(wèn):為什么你認(rèn)為深度學(xué)習(xí)(deep learning) 會(huì)有效?
Ilya 答:首先是個(gè)人對(duì)人工智能、什么是意識(shí)的好奇心。把時(shí)間拉回到2003年之前,計(jì)算機(jī)還無(wú)法學(xué)習(xí)任何東西,甚至在理論上也不清楚是否可行。但人類是可以學(xué)習(xí)的,如果在機(jī)器學(xué)習(xí)方面能取得進(jìn)步,將是人工智能的大進(jìn)展。
幸運(yùn)的是我的大學(xué)教授 Geoffrey Hinton,正在研究神經(jīng)網(wǎng)絡(luò)。而神經(jīng)網(wǎng)絡(luò)具備學(xué)習(xí)和自動(dòng)編程的能力,其中蘊(yùn)含著極大的潛力。
開始研究深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)時(shí),人們并沒有意識(shí)到規(guī)模的重要性。當(dāng)時(shí)使用的神經(jīng)網(wǎng)絡(luò)規(guī)模非常小,最多只有數(shù)百個(gè)神經(jīng)元,一百萬(wàn)個(gè)參數(shù)被認(rèn)為非常大。
研究人員對(duì)神經(jīng)網(wǎng)絡(luò)做了很多實(shí)驗(yàn),試圖找到有趣的現(xiàn)象和觀察規(guī)律。雖然在當(dāng)時(shí)這并不是顯而易見的正確之路,但這些研究奠定了未來(lái)深度學(xué)習(xí)領(lǐng)域的基礎(chǔ)。
Geoffrey
Hinton
當(dāng)時(shí)對(duì)在小數(shù)字上訓(xùn)練神經(jīng)網(wǎng)絡(luò)很感興趣,這既是為了分類(classification),也是他對(duì)生成(generating)數(shù)字非常感興趣。
因此,生成模型的開端就在那里。但當(dāng)時(shí)所有這些很酷的東西漂浮在周圍,哪個(gè)是正確的方向并不明顯。
在構(gòu)建 AlexNet 的兩年前(2010年),我們清楚地知道監(jiān)督學(xué)習(xí)是對(duì)的方向。傳統(tǒng)的貝葉斯模型等方法在理論上很優(yōu)雅,但不能代表一個(gè)好的解決方案。
意識(shí)到大型深度神經(jīng)網(wǎng)絡(luò)是解決困難問(wèn)題的關(guān)鍵,為了能夠很好的實(shí)現(xiàn),需要一個(gè)大的數(shù)據(jù)集,以及大量的計(jì)算做這個(gè)工作。如何優(yōu)化計(jì)算是一個(gè)瓶頸,實(shí)驗(yàn)室的另一位研究員 James Martens 在此取得了突破。重點(diǎn)是,這證明了我們可以實(shí)際訓(xùn)練這些神經(jīng)網(wǎng)絡(luò)。
那么下一個(gè)問(wèn)題是,用什么數(shù)據(jù)? ImageNet 數(shù)據(jù)集,是當(dāng)時(shí)非常有挑戰(zhàn)難度的數(shù)據(jù)集。
開始用上GPU進(jìn)行計(jì)算,也是在多倫多實(shí)驗(yàn)室,因?yàn)?Geoffrey 的建議,開始嘗試使用GPU進(jìn)行實(shí)驗(yàn)。當(dāng)在 ImageNet 數(shù)據(jù)集基礎(chǔ)上訓(xùn)練時(shí),發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)與GPU的高度契合,意識(shí)到GPU可以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,并成功訓(xùn)練出了史無(wú)前例的龐大模型。
無(wú)監(jiān)督學(xué)習(xí)
剛我們開始時(shí),也不是100%清楚該如何做。該領(lǐng)域與今日相比也截然不同,研究者也非常少。2016年初,該領(lǐng)域也只有約100位研究者。雖然現(xiàn)在深度學(xué)習(xí)的發(fā)展已經(jīng)非常迅猛,但當(dāng)時(shí)人們對(duì)它的認(rèn)可度卻并不高。
OpenAI在成立之初,有兩個(gè)重要的初始想法。第一個(gè)主要想法,是通過(guò)壓縮實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)。
今天,我們理所當(dāng)然地認(rèn)為無(wú)監(jiān)督學(xué)習(xí)是一件很容易的事情。 你只要對(duì)所有的東西進(jìn)行預(yù)訓(xùn)練,它就會(huì)完全按照你的預(yù)期來(lái)做。在2016年之前,無(wú)監(jiān)督學(xué)習(xí)一直是機(jī)器學(xué)習(xí)領(lǐng)域中的難題,沒有人知道該怎么做。
現(xiàn)在許多人發(fā)現(xiàn),GPT實(shí)際上是對(duì)訓(xùn)練數(shù)據(jù)做壓縮。Ted Chiang 發(fā)表在《Newyorker》的文章
中也暗指了這一點(diǎn)。
從數(shù)學(xué)意義上講,訓(xùn)練這些自回歸生成模型確實(shí)是對(duì)數(shù)據(jù)進(jìn)行壓縮。從直覺上講,你可以看到為什么這應(yīng)該是有效的。
因?yàn)槿绻阆氚褦?shù)據(jù)壓縮得非常好,你必須提取其中存在的所有隱藏的秘密。因此,這就是關(guān)鍵所在。(注:例如壓縮大量數(shù)學(xué)題目文本最好的辦法是推理出四則運(yùn)算規(guī)則,寫一個(gè)計(jì)算器程序)
要提及一下研究情感神經(jīng)元(sentiment neuron)的這項(xiàng)工作在對(duì)我們的思考產(chǎn)生了非常大的影響。
當(dāng)時(shí)我們訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)(還是小型循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM,還沒有 Transformer),訓(xùn)練它預(yù)測(cè)亞馬遜評(píng)論中的下一個(gè)字符。我們發(fā)現(xiàn),如果預(yù)測(cè)得足夠好,那么在LSTM中會(huì)有一個(gè)神經(jīng)元與文本的情緒相對(duì)應(yīng)。這真的很酷,因?yàn)樗故玖藷o(wú)監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)。
并且它驗(yàn)證了這樣一個(gè)想法,那就是做到非常好的預(yù)測(cè)下一個(gè)字符、壓縮,會(huì)具有發(fā)現(xiàn)數(shù)據(jù)中的秘密的特性。
這就是我們?cè)谶@些 GPT 模型中看到的,不僅只是人們說(shuō)的統(tǒng)計(jì)相關(guān)性。
這一發(fā)現(xiàn)也直觀地打開了整個(gè)世界的大門——我從哪里獲取用于無(wú)監(jiān)督學(xué)習(xí)的數(shù)據(jù)?
因?yàn)榇_實(shí)有很多數(shù)據(jù),如果滿足可以讓機(jī)器預(yù)測(cè)下一個(gè)符號(hào),而我知道正確的答案,我就可以用它來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。
黃:對(duì)于無(wú)監(jiān)督學(xué)習(xí)而言,困難之處并不在于從哪里獲取數(shù)據(jù),雖然這個(gè)問(wèn)題也存在,尤其是現(xiàn)在。但更關(guān)鍵的是,為什么要進(jìn)行無(wú)監(jiān)督學(xué)習(xí)?為什么要費(fèi)心去做這件事?難點(diǎn)在于意識(shí)到訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)下一個(gè)符號(hào)是一個(gè)值得追求的目標(biāo)?
實(shí)際上并非很明顯應(yīng)該這么做,所以人們也沒有這樣做。但是情感神經(jīng)元讓我看到了。
Alec Radford,是在此真正推動(dòng)進(jìn)步的人。情感神經(jīng)元是GPT-1的前身,對(duì)我們的思考產(chǎn)生了很大影響。然后出現(xiàn)了 Transformer,我們立刻意識(shí)到,這就是我們要找的東西。于是我們訓(xùn)練出了GPT-1。
Ilya:我一直相信模型越大能力越好,更大的網(wǎng)絡(luò),更深的網(wǎng)絡(luò),更多的訓(xùn)練數(shù)據(jù)。我們?cè)贠penAI一直堅(jiān)信規(guī)模的重要性。但問(wèn)題在于,到底應(yīng)該用規(guī)模來(lái)做什么?
OpenAI發(fā)表了一篇重要的論文,介紹了擴(kuò)展規(guī)律和損失函數(shù)與模型大小、數(shù)據(jù)集大小之間的關(guān)系。當(dāng) Transformer 推出時(shí),我們有機(jī)會(huì)在能接受的耗時(shí)長(zhǎng)度內(nèi)訓(xùn)練非常大的模型。
強(qiáng)化學(xué)習(xí)
除了GPT系列外,還有一條非常重要的工作線,也就是我們的第二個(gè)主要想法——那就是強(qiáng)化學(xué)習(xí)。
能用它做什么呢? 在OpenAI內(nèi)部做的第一個(gè)真正的大項(xiàng)目是我們努力解決一個(gè)實(shí)時(shí)戰(zhàn)略游戲(Dota2),這是一項(xiàng)非常不同的工作,就像一個(gè)競(jìng)技運(yùn)動(dòng),需要有快速的反應(yīng)時(shí)間,需要團(tuán)隊(duì)合作,要和另一個(gè)團(tuán)隊(duì)競(jìng)爭(zhēng)。 通過(guò)強(qiáng)化學(xué)習(xí),我們訓(xùn)練一個(gè)智能體來(lái)自我對(duì)弈,目標(biāo)是達(dá)到可以與世界上最好的玩家競(jìng)爭(zhēng)的水平。
GPT為我們打下了基礎(chǔ),而來(lái)自Dota的強(qiáng)化學(xué)習(xí)轉(zhuǎn)變?yōu)閬?lái)自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),它們的融合為我們帶來(lái)了ChatGPT。
黃:有一種誤解認(rèn)為ChatGPT本身只是一個(gè)巨大的語(yǔ)言模型。其實(shí),周圍有一個(gè)相當(dāng)復(fù)雜的系統(tǒng)。
當(dāng)我們訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)來(lái)準(zhǔn)確預(yù)測(cè)互聯(lián)網(wǎng)上大量不同文本中的下一個(gè)單詞時(shí),實(shí)際上是在學(xué)習(xí)一個(gè)世界模型,
從表面上看,似乎只是在學(xué)習(xí)文本中的統(tǒng)計(jì)相關(guān)性。但事實(shí)上,為了將其壓縮得非常好,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的是生成文本的過(guò)程的某種表示。
文本實(shí)際上是世界的一種投影,包括人們的希望、夢(mèng)想、動(dòng)機(jī)、互動(dòng)以及所處的情境。神經(jīng)網(wǎng)絡(luò)是在學(xué)習(xí)對(duì)這些內(nèi)容的一種壓縮、抽象、可用的表示形式。
這就是通過(guò)準(zhǔn)確預(yù)測(cè)下一個(gè)單詞來(lái)學(xué)習(xí)的東西。并且,你在預(yù)測(cè)下一個(gè)單詞時(shí)越準(zhǔn)確,這個(gè)過(guò)程中的保真度越高,分辨率也越高。所以這就是預(yù)訓(xùn)練階段所做的。
但是這并沒有能夠指定神經(jīng)網(wǎng)絡(luò)展現(xiàn)出符合我們期望的行為。語(yǔ)言模型真正試圖回答的問(wèn)題是,如果我在互聯(lián)網(wǎng)上找到了一些隨機(jī)的文本,以某些前綴或提示開頭,它會(huì)補(bǔ)全什么?
而現(xiàn)在我們想要一個(gè)誠(chéng)實(shí)、有幫助的助手,它將遵循某些規(guī)則而不違反它們。這需要額外的訓(xùn)練,這就是微調(diào)和從人類老師和其他形式的AI輔助中進(jìn)行強(qiáng)化學(xué)習(xí)的地方。
但我們不是在教它新知識(shí),我們是在與它交流,告訴它我們希望它成為什么樣子。第二階段的這個(gè)過(guò)程也非常重要,如果我們做得更好,這個(gè)神經(jīng)網(wǎng)絡(luò)將會(huì)更有用、更可靠。所以第二階段和第一階段一樣重要,要從文本的投射中盡可能地了解世界。
GPT-4 與 ChatGPT
GPT-4與ChatGPT最重要的區(qū)別是GPT-4的可以更準(zhǔn)確地預(yù)測(cè)下一個(gè)詞,這對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)非常重要,因?yàn)樗軌蝾A(yù)測(cè)文本中下一個(gè)詞的準(zhǔn)確性越高,就能理解得越多。
例如讀一本偵探小說(shuō),有復(fù)雜的故事情節(jié),不同的人物,很多的事件,神秘的線索,然后在書的最后一頁(yè),偵探已經(jīng)得到了所有的線索,聚集了所有的人,并說(shuō),好吧,我要揭示誰(shuí)犯了罪的身份。 那個(gè)人的名字是?
現(xiàn)在,有許多不同的詞可能對(duì)應(yīng)這個(gè)名字,但通過(guò)對(duì)這些詞的預(yù)測(cè)越來(lái)越好,對(duì)文本的理解也不斷提高。
黃:人們說(shuō)深度學(xué)習(xí)不會(huì)導(dǎo)致推理。你認(rèn)為通過(guò)預(yù)測(cè)下一個(gè)詞這種方式,能否學(xué)會(huì)推理?
因?yàn)橐f(shuō)出偵探小說(shuō)中誰(shuí)是兇手,這需要相當(dāng)多的推理。
首先“推理”是否是個(gè)很好的定義?也許當(dāng)你深入思考時(shí),你能因?yàn)槟愕耐评砟芰Χ玫礁玫拇鸢浮I窠?jīng)網(wǎng)絡(luò)有其局限性,但目前還沒有完全挖掘出其潛力。不排除能夠?qū)崿F(xiàn)更好的推理能力(更好的答案)的可能性。
從某種程度上說(shuō),這些神經(jīng)網(wǎng)絡(luò)已經(jīng)具備了很多能力,但它們的可靠性并不是很高。事實(shí)上,這是目前使神經(jīng)網(wǎng)絡(luò)真正有用的最大障礙。如果神經(jīng)網(wǎng)絡(luò)有時(shí)還是會(huì)出現(xiàn)一些意外的幻覺或錯(cuò)誤,這種不可靠性會(huì)使它們變得大大不如人類。
關(guān)鍵點(diǎn)是AI的可靠性問(wèn)題,如何讓它在不確定的情況下請(qǐng)求澄清或者在不知道答案時(shí)表明不知道,并且做到極其可靠。
多模態(tài),為什么它如此重要,以及作為結(jié)果的主要突破和特征差異是什么。
GPT-4具有從文本和圖像中學(xué)習(xí)和響應(yīng)輸入的能力,這得益于Transformer,使得從多模態(tài)中學(xué)習(xí)、對(duì)文本和圖像進(jìn)行分詞變得可能。
擴(kuò)展到多模態(tài)有兩個(gè)維度的因素,第一個(gè)維度是它有用的,
神經(jīng)網(wǎng)絡(luò)通過(guò)視覺模態(tài)可以更好地理解世界;因?yàn)槭澜缡欠浅R曈X的,人類是非常視覺化的動(dòng)物,我相信人類大腦皮層的三分之一是用于視覺的。
第二個(gè)維度則是可供學(xué)習(xí)的數(shù)據(jù)量。除了從文本中學(xué)習(xí)外,我們還可以通過(guò)從圖像中學(xué)習(xí)來(lái)了解這個(gè)世界。 對(duì)于一個(gè)人來(lái)說(shuō),在我們的一生中能聽到大約10億個(gè)單詞。而通過(guò)視覺獲得的信息量遠(yuǎn)遠(yuǎn)高于此。另外通過(guò)圖像也可以更快的學(xué)習(xí)到世界中的一些信息,例如“顏色”。雖然通過(guò)人類所寫的文本也能逐漸明白紅色和藍(lán)色的涵義,但是通過(guò)圖像要快得多。當(dāng)然還包括文本中缺失的信息。
實(shí)際的效果是,在需要理解圖表的測(cè)試中,GPT3.5 的正確率是2%~20%,多模態(tài)的GPT-4準(zhǔn)確率提高到40%。視覺信息可以幫助我們更好地理解和推理世界,并有助于更好地進(jìn)行視覺交流。未來(lái)的神經(jīng)網(wǎng)絡(luò)可能能夠通過(guò)視覺方式來(lái)解釋問(wèn)題,而不僅僅是提供文本解釋。
同樣的用詞,但是說(shuō)話的語(yǔ)調(diào)不同,以表達(dá)的意思也不同。是否有考慮將音頻信息加入到模型的學(xué)習(xí)中?
是的,但音頻的信息量有限,(還沒有此計(jì)劃)。
雖然預(yù)測(cè)很困難,但可以肯定的是,AI系統(tǒng)的進(jìn)步將繼續(xù)令人驚嘆,并且當(dāng)前的瓶頸在于系統(tǒng)的可靠性和可信度。在這方面取得進(jìn)展將對(duì)系統(tǒng)的實(shí)用性產(chǎn)生最大的影響。如果神經(jīng)網(wǎng)絡(luò)能夠可靠地識(shí)別重要信息并清晰地遵循用戶的意圖,那么這項(xiàng)技術(shù)將會(huì)得到人們的信任,并被廣泛應(yīng)用于各種領(lǐng)域。未來(lái)兩年,我們將看到這方面的進(jìn)展。