【花師小哲】當代煉金術(神經(jīng)網(wǎng)絡)前沿(25)——GPT-4:地表最強模型?
一覺醒來就發(fā)現(xiàn)群里開始傳GPT-4,當然,很多多媒體早就先我一步寫出推文了(沒辦法,人家是團隊,我就一個人)。不過我當然還是寫一寫我個人在意的一些點。其實干勁不是特別大吧,主要是看了幾篇發(fā)現(xiàn)性能好像沒有我想的那么好,主要是現(xiàn)在GPT已經(jīng)大火了,不像我剛寫ChatGPT論文那時,還是個AI圈子里的事情。


1.論文or報告?
我們來看論文題目:

非常直白。我之前還猜想過什么“語言模型是元學習者”“多模態(tài)模型是XXX”之類的標題,結果竟然是技術報告,只不過確實是論文的形式。
而且,這篇報告基本上是性能測試。也就是說,抱歉,網(wǎng)絡結構不告訴你(主要是在意視覺模態(tài)是以怎么樣的方式融合進去的,用的什么架構),網(wǎng)絡參數(shù)量不告訴你,訓練集也不告訴你(唯一有些透露的就是它是見過一些人類考試的試題的,但基本是沒什么用的透露)。
甚至,目前開放的版本好像是不支持圖像輸入的,具體性能你甚至只能看論文。

2.目前GPT-4發(fā)布現(xiàn)狀
(1)new bing早就再用GPT-4了
(2)ChatGPT有GPT-4版本的了,但是好像只有Plus用戶可以用
(3)有些應用將會搭載GPT-4
(4)上文說了,目前大家能用到的應該是不支持多模態(tài)的

3.多模態(tài)or語言模型Plus?
雖然說是多模態(tài),但從報告來看,目前的輸入可以是圖像和文本,輸出是文本。而且,很可能輸入是必須包含文本的(換言之,可以沒有圖像)。
雖然很多人在說CV結局了,但其實,連NLP目前還沒有結束的跡象,這個倒不用擔心。
雖然沒有想象中的模態(tài)那么多(很多人也在吹第一個多模態(tài)大模型,這也是不準確的,PaLM-E和KOSMOS-1呢?)
從論文來看,我認為整個模型依然是語言模型為主體和絕對C位的的。可以參考下面這個表格:

這時用GPT-4參加人類考試的測試,可以發(fā)現(xiàn),GPT-4的性能是強于GPT-3.5的,但是加上視覺模態(tài)并沒有很大幅度地提升性能,甚至在一些考試中分數(shù)還會下降。
這表明:
(1)視覺模態(tài)可能沒那么重要,且很多時候還會有負面影響;
(2)GPT-4的語言模型應該是比GPT-3.5要強的,但參數(shù)量不一定能達到1750億(也有可能用了稀疏MoE),畢竟目前很多觀點認為ChatGPT本身不是基于1750億的模型來調(diào)的,而是更小的模型。
其他多模態(tài)大模型見:
【花師小哲】鑒定網(wǎng)絡熱門(?)AI(4)——多模態(tài)大模型

4.涌現(xiàn)
似乎GPT-4也涌現(xiàn)出了新能力。關于涌現(xiàn),見:
【花師小哲】當代煉金術(神經(jīng)網(wǎng)絡)前沿(23)——transformer涌現(xiàn)了傅里葉變換
證據(jù)就是下面這個:

這個任務我也不知道是什么,但從表現(xiàn)來看,GPT-4似乎真的學會了這個任務(準確率達到100%)


5.其他幾個點
(1)完全不出意外,GPT-4用了RLHF做微調(diào)。RLHF見:
【花師小哲】當代煉金術(神經(jīng)網(wǎng)絡)前沿(7)——GPT史
(2)它能解釋梗圖:

這是個比較好玩的東西,梗圖的難度是比什么識別物體難多了,不過應該只能識別一些比較大眾的梗圖的。畢竟,梗圖是需要知識積累的
(3)能一句話玩cosplay。簡單來說,它的人格轉換可以非??斓?,要讓ChatGPT玩扮演有時候就沒那么輕松了。
(4)論文中塞論文,在附錄中本論文塞了一個完整論文,關于安全性研究的。原來你們也怕啊(這里沒有暗示某個Lamda的意思

(5)依然有GPT的老問題,這個理所當然是沒有解決的

6.小結
就我來說,這篇論文或這次發(fā)布沒有那么驚艷吧,特別是人家PaLM-E已經(jīng)三個模態(tài),KOSMOS-1已經(jīng)能把其他模態(tài)當“外語”學的時候,GPT-4竟然只加了視覺模態(tài)?不過,從性能角度來講,確實是一次很大的提高了。