再簡單談一些GPT和大模型相關(guān)的基礎(chǔ)信息
五一這一天稍微有點空,再講講ChatGPT和大模型相關(guān)的一些東西。
其實最近我也在各個平臺上看到很多言論,例如有些流傳廣度的“GPT-3/ChatGPT都開源幾個月了,國內(nèi)廠商才抄出來”這種甚至都懶得反駁的謠言。
不過這次主要還是把以前零零散散說過的東西整合一下,主要還是幫大家理解,也不能算是辟謠吧。

(1)前不久我發(fā)了一個專欄:
網(wǎng)傳GPT-5已經(jīng)看完所有人類視頻?簡單找了下這條消息的來源
其實這個推特原文中還提到了“它可以瞬間標記出所有它看過的視頻中的一切聲光信息。準確到每一秒都行”。有沒有一種可能,做到這種事情不需要GPT?有沒有一種可能,我只要寫個簡單的程序就可以了?不過1s確實有些麻煩,但做些索引啥的應(yīng)該問題不大。而GPT這樣的大模型想要1s推理實際上是很麻煩的。再往后就不展開了,就好像我要論證火箭發(fā)射不是用煤一樣。
對了,一開始有人認為GPT-5已經(jīng)開始訓(xùn)練了,主要是因為一位老哥在看GPT-4的技術(shù)報告的時候猜測出來的。
(2)當(dāng)然,可能有朋友會問,萬一里面說的“GPT-5”實際上不是OpenAI做的呢?畢竟OpenAI老總說他們其實沒有在訓(xùn)練GPT-5,那么是不是其他人做了個模型,命名為GPT-5了呢?確實有這個可能。包括很多地方有很多實際上不是GPT的程序披著GPT的名號發(fā)布APP啥的,不過OpenAI最近想要給“GPT”做商標啥的(我對版權(quán)、商標啥的不是很熟,總之OpenAI的目的就是防止“GPT”被泛濫的使用,而且“想要”就是說明在寫這篇專欄的時候,就我所知,還沒做好),目的也是防止山寨貨橫行。
(3)回到一開始的那一條“GPT-3/ChatGPT都開源幾個月了,國內(nèi)廠商才抄出來”。首先,GPT-3就是沒有開源的,有API調(diào)用和開源是兩碼事。開源主要指的是模型架構(gòu)和參數(shù)的開源,再不濟是開源訓(xùn)練數(shù)據(jù)和訓(xùn)練方法,包括超參啥的,讓人能夠不進行額外的探索就可以輕松復(fù)現(xiàn)。
GPT-3論文中只是簡單說明一下模型參數(shù)量和一些架構(gòu)細節(jié),順帶提了下上下文學(xué)習(xí)啥的,遠遠稱不上是開源。
ChatGPT更是連論文都沒有,只是在網(wǎng)頁上說明它用了RLHF等技術(shù),你能找到的相似論文,或者說姐妹模型的論文是InstructGPT,然而很關(guān)鍵的一點,即ChatGPT的RLHF用了多少數(shù)據(jù),用了什么樣的數(shù)據(jù),我們是不清楚的。
GPT-4更是只有技術(shù)報告,連有多少參數(shù)都不知道。
(4)有人會說可是GPT-2開源了啊,不是說GPT-3只是在GPT-2的基礎(chǔ)上狂暴的增加參數(shù)而已嗎?確實,很多人批評GPT-3的主要的一點就在于GPT-3完全沒有創(chuàng)新。但是參數(shù)量從幾億增加到千億級別,是需要相關(guān)資源全部配套到位才可以的,你需要更好的硬件、更好的優(yōu)化策略、更好的處理分布式、更好的既懂得硬件有懂得軟件的工程師、更好更多的數(shù)據(jù)以及更多的錢。整個工程難度不是GPT-2可以比的。
(5)GPT-3的復(fù)刻問題。其實并不是說我們之前就完全沒有關(guān)注GPT的發(fā)展,GPT-3出來以后,就有很多復(fù)刻的嘗試,但大都失敗了,流傳下來了很多復(fù)刻失敗的經(jīng)驗。那么,有沒有復(fù)刻成功的呢?有的,目前唯一已知公開宣布復(fù)刻成功的只有達摩院,而且達摩院也是從GPT-1(其實狹義上的GPT指的就是GPT-1,而且我們業(yè)界一般不說GPT-1的,就直接叫GPT,不過GPT-1畢竟簡單易懂)開始就跟著復(fù)刻了,有不少相關(guān)經(jīng)驗
(6)其實ChatGPT剛開始火的時候,我就猜到有很多國內(nèi)的人會很著急,當(dāng)然我那時候也說了,大模型不是一兩天就能訓(xùn)練出來的,至少要等幾個月。到現(xiàn)在各種類GPT一個個冒出來也說明了ChatGPT出來之后,很多組織跟進的還是挺及時的,然而差距還是有的。這也側(cè)面驗證了GPT-3并不是GPT-2的簡單擴大。
(7)這里提一下清華的ChatGLM。我看了論文才知道GLM實際上是雙向的(GPT-3以及一系列模型都是單向的),雙向的好處是對輸入文本的理解能力更強,但是這樣做會導(dǎo)致在同等參數(shù)量的情況下,雙向模型會小很多,可能會影響能力涌現(xiàn)。
(8)接下來說說“抄”的問題。實際上也沒必要那么在意,包括前不久有人說文心一言的文生圖是中譯英再文生圖的。但是開源的目的就是讓人用的,用開源的東西并不可恥。并且說白了現(xiàn)在大部分大模型不還是transformer架構(gòu)嗎,也沒人整天說這些模型都抄襲“Attention is all you need”這篇論文啊。當(dāng)然,文心一言的實際使用過程中確實可以看到很多值得吐槽的點,整體性能只能說是能用的程度。
(9)大家當(dāng)然希望我們國家的一些技術(shù)能夠自主創(chuàng)新一些,這也能理解,但是對于沒有實際參與過大模型訓(xùn)練的人來說可能很難體會到這個東西到底有多么難做。我整個4月都在和大模型打交道,快把我逼瘋了也沒做出什么有價值的東西,我們實驗室訓(xùn)練出的LLaMA模型性能,實話實說,也不怎么樣。在我看來,能在幾個月內(nèi)搞出點東西,甚至敢發(fā)布,都可以說是很值得稱贊了。
(10)說回Transformer,Transformer是編碼器-解碼器架構(gòu),Transformer出現(xiàn)之后,BERT和GPT就對其“肢解”了,BERT是純編碼器,GPT是純解碼器。我也說過很多次了,之前很多的研究主要走的是BERT這一支,畢竟BERT在當(dāng)時給人的震撼是立竿見影的,這就導(dǎo)致即使GPT-3也同樣驚艷、有很多神奇的現(xiàn)象的情況下,大模型的研究也主要是BERT這條線,直到ChatGPT的出現(xiàn)才讓大部分人意識到事情的不對勁。

其實還有很多想說的,但也寫了快一個小時了,就先這么多吧。
由于我個人比較忙,就不一一把相關(guān)的證據(jù)搬出來了,包括有些資料也不太好翻找。可能會有些錯誤,還請大家見諒。