【花師小哲】鑒定網(wǎng)絡(luò)熱門(?)AI(7)——GPT4:AGI的曙光?
這周真的很忙,加上在做大模型研究的過程中更加切實的體會到OpenAI確實在大模型理解上高了我們好幾個層次,好幾天沒有更新了。今天還是來看看這篇微軟對GPT-4的測試論文吧,由于整篇文章的內(nèi)容是真的多,所以只講一些我感興趣的東西


1.說明
這篇文章用的并不是GPT-4論文中的那個GPT-4,而是較早期的一個GPT-4版本,并且是非多模態(tài)的版本,即只有語言模態(tài)的GPT-4。這個聲明在整篇論文的很多地方都出現(xiàn)了,可能是在炫耀現(xiàn)在放出來的版本要強(qiáng)的多。
用以和GPT-4比較的主要對象是ChatGPT,其次還有達(dá)芬奇003之類的,總體看下來GPT-4確實在很多地方做的確實比ChatGPT好很多,但也同樣繼承來了很多缺點。
本論文的目的是探究GPT-4是否已經(jīng)能夠稱為早期通用人工智能(AGI),得出的結(jié)論是我們確實看到了AGI的曙光,雖然還是有很大的差距。
關(guān)于什么是通用人工智能或強(qiáng)人工智能,有非常多不同的說法,所以某種程度上來說判斷一個模型是否是AGI和判斷一個模型是否真的通過圖靈測試一樣,某種程度上來說帶有主觀性,更像是噱頭。但這篇研究論文表明,GPT-4確實非常強(qiáng),至于到?jīng)]到早期AGI,大家還是自行判斷吧,我看網(wǎng)上吵得還是挺瘋的。

2.談幾個有意思的點
先談一些不展開太多的點
(1)在很多方面,GPT-4都可以吊打ChatGPT,包括能生成可以可視化的LATEX,雖然不知道GPT-4到底在哪些地方做了改進(jìn),但確實更強(qiáng)了一些
(2)GPT-4的數(shù)學(xué)能力雖然略強(qiáng)于ChatGPT,但仍然會犯很多錯誤,例如堅持某個錯誤的計算或思路以至于陷入死胡同等。后續(xù)一些研究也說明GPT-4會陷入一些死胡同,或在一些錯誤的模式中循環(huán)往復(fù)(ChatGPT有時候也會剛開始時生成正確的內(nèi)容然后就同樣的內(nèi)容循環(huán)輸出了)
(3)GPT-4的過程一致性還存在很多問題(畢竟可以認(rèn)為GPT-4并沒有一個特定的“人格”)。
(4)GPT-4不需要訓(xùn)練就可以在zero-shot下使用工具API。這一點挺驚艷的。眾所周知,Meta發(fā)布了Toolformer這篇論文說明大語言模型是可以自己學(xué)會使用API的,結(jié)果GPT-4甚至不需要訓(xùn)練就能用(據(jù)說還能自己用自己),某種程度上也算打了Meta的臉(或者炫耀自己對大模型的理解高你幾個層次):
【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(13)——語言模型自學(xué)使用工具?
(5)GPT-4可以玩游戲,即通過給出游戲的描述(特別是早期mud游戲),它可以玩下去。我自己也試過讓ChatGPT作為強(qiáng)化學(xué)習(xí)的智能體,做的還是挺不錯的

3.又是維特根斯坦狂喜
我們展開講的一點是:GPT-4單純通過學(xué)習(xí)大量語料就學(xué)會了其他模態(tài)。
簡單來說,語言模型就像是盲人,所接受的只有文字,在這種情況下它竟然能夠想象圖像、音樂等多種模態(tài)。例如我們讓GPT-4畫畫(圖中的例子是畫一個小人),他竟然是可以做到的。也許正如維特根斯坦的語言哲學(xué)所說,一切都只不過是語言游戲罷了:


4.自回歸模型的固有缺陷和下一步的去向
研究還表明了自回歸語言模型本身的限制,例如順序處理在很多問題上確實造成了很多難以解決的問題,即使是簡單的數(shù)學(xué)運算,一個簡單的調(diào)換就會導(dǎo)致計算出錯:

簡單來說,GPT模型是decoder-only架構(gòu)的,天生只適合生成下一個詞,或者說,只適合從左到右進(jìn)行順序處理;而BERT是雙向的,某種程度上在處理句子結(jié)構(gòu)時能做的更好。
其實GPT能夠成功,也和decoder-only架構(gòu)脫不開關(guān)系,因為這種單向架構(gòu)更加省空間,同樣的參數(shù)量就可以做的更大,所以在目前硬件上限在那里擺著的情況下GPT就是比BERT的規(guī)模更大。也許BERT也能達(dá)到GPT這種規(guī)模,沒準(zhǔn)會強(qiáng)上不少。真的是成也decoder,敗也decoder。這種缺點很可能是無法完全彌補(bǔ)的,只有不斷打補(bǔ)丁了。
當(dāng)然,這篇報告也給出了非常多的改進(jìn)意見,這里也不多贅述了。