OpenAI首席科學(xué)家:Ilya Sutskever談?wù)揋PT4
節(jié)選自3月15日Eye On AI訪談。
主持人:大型語言模型的局限性在于它們的知識(shí)局限于所訓(xùn)練的語言。而大部分人類知識(shí)是非語言的。我不確定諾姆·喬姆斯基是否同意,但這是大型語言模型的問題。它們的目標(biāo)是滿足提示的統(tǒng)計(jì)一致性,而沒有真正理解現(xiàn)實(shí)世界。我問了GPT關(guān)于我自己的問題,它知道我是記者,但它編造了一些我從未獲得過的獎(jiǎng)項(xiàng)。那么在你們的研究中,有沒有解決這個(gè)問題的方法?
Ilya:在回答你的問題之前,我想先談?wù)剢栴}的前半部分。
主持人:當(dāng)然。
Ilya:談?wù)撜Z言模型的局限性是非常困難的。因?yàn)閮赡昵叭藗冏孕诺卣務(wù)撍鼈兊木窒扌?,結(jié)果卻完全不同。所以要記住這個(gè)背景:我們有多確信今天的局限性會(huì)在兩年后仍然存在?我并不那么有信心。
我還想對問題的另一部分發(fā)表評論,即這些模型只學(xué)習(xí)統(tǒng)計(jì)規(guī)律,因此不知道世界的本質(zhì)。我的觀點(diǎn)與此不同。我認(rèn)為學(xué)習(xí)統(tǒng)計(jì)規(guī)律比表面上看起來更為重要。
很多人之所以不這么認(rèn)為,是因?yàn)樗麄兣c神經(jīng)網(wǎng)絡(luò)接觸的時(shí)間太短,他們認(rèn)為神經(jīng)網(wǎng)絡(luò)不過是調(diào)整參數(shù)。但實(shí)際上發(fā)生了什么呢?這里有另一種更好的解釋。一種早期觀點(diǎn)是預(yù)測是數(shù)據(jù)壓縮。預(yù)測的確是一種統(tǒng)計(jì)現(xiàn)象。但是,為了預(yù)測得更好,你最終需要理解這些數(shù)據(jù)產(chǎn)生的真正過程。為了更好地壓縮數(shù)據(jù)、預(yù)測數(shù)據(jù),你需要越來越了解產(chǎn)生數(shù)據(jù)的世界。
隨著我們的生成模型變得非常優(yōu)秀,我認(rèn)為,它們將對世界及其許多微妙之處有著令人震驚的理解。這是通過文本呈現(xiàn)的世界。它試圖通過文本空間去學(xué)習(xí)世界。
舉一個(gè)最近的例子,我認(rèn)為非常有趣。我們都聽說過Sydney,Bing的第二人格。我看到了一個(gè)有趣的互動(dòng),當(dāng)用戶告訴Sydney他們認(rèn)為Google比Bing更好時(shí),Sydney變得好斗和激進(jìn)?,F(xiàn)在我們?nèi)绾卫斫膺@個(gè)現(xiàn)象呢?
你可以說,它只是在預(yù)測人們會(huì)做什么,而人們確實(shí)會(huì)這樣做。但也許,我們現(xiàn)在已經(jīng)到了一個(gè)地步,心理學(xué)的語言開始適合于理解這些神經(jīng)網(wǎng)絡(luò)的行為。
的確,這些神經(jīng)網(wǎng)絡(luò)有幻覺的傾向。但這是因?yàn)檎Z言模型雖然非常適合學(xué)習(xí)世界,但在生成輸出方面稍遜一籌。
例如,像Chat GPT這樣的系統(tǒng),這是一個(gè)經(jīng)過額外強(qiáng)化學(xué)習(xí)訓(xùn)練過程的語言模型,我們稱之為人類反饋強(qiáng)化學(xué)習(xí)。預(yù)訓(xùn)練過程讓語言模型學(xué)到了很多關(guān)于世界的知識(shí),然后通過人類反饋強(qiáng)化學(xué)習(xí)。每次輸出不合適或不合理時(shí),就告訴它不要再這么做。它會(huì)迅速學(xué)會(huì)如何生成好的內(nèi)容。與預(yù)訓(xùn)練過程不同,現(xiàn)在我們關(guān)心的是模型的輸出。
關(guān)于幻覺,神經(jīng)網(wǎng)絡(luò)確實(shí)有虛構(gòu)事物的傾向。這也是限制它們實(shí)用性的一個(gè)方面。但我相信,通過改進(jìn)后續(xù)的人類反饋強(qiáng)化學(xué)習(xí)步驟,我們可以教會(huì)它不產(chǎn)生幻覺。你可能會(huì)問,這真的可行嗎?我的回答是讓我們來看看。