ChatGPT,讓我們別無(wú)選擇
最近ChatGPT的火爆,讓所有人,包括我們這些外行都見(jiàn)識(shí)到了大模型的厲害。
于是,根據(jù)歷來(lái)傳統(tǒng),想要自主可控的欲望越發(fā)的強(qiáng)烈。筆者在自己的老爺機(jī)器(i7 4790,32G RAM,gtx1080 8G)上嘗試跑了一下GPT2的預(yù)訓(xùn)練模型(如果有人感興趣,可以給大伙弄個(gè)簡(jiǎn)單的流程說(shuō)明)。
效果嘛:
典型的人工智障。
來(lái)看看ChatGPT是咋說(shuō)的:
為啥和ChatGPT差距這么大?
主要原因還是在模型規(guī)模上。
為啥不搞個(gè)更大的模型???
因?yàn)楣P者不配。。。
我們知道,神經(jīng)網(wǎng)絡(luò)或者是深度神經(jīng)網(wǎng)絡(luò)的三大要素:模型、數(shù)據(jù)以及算力。
就GPT來(lái)說(shuō):
模型基本公開(kāi)。
數(shù)據(jù)就是自然語(yǔ)言。麻煩主要在標(biāo)注部分,但是一定能解決(畢竟筆者這樣的廉價(jià)勞動(dòng)力有的是)。
算力,也就是我們的煉丹爐,在大模型上來(lái)說(shuō)就比較難搞了。我們來(lái)討論一下。
目前chatgpt的GPT-3.5還沒(méi)有具體的信息。所以我們還是以目前公開(kāi)領(lǐng)域能看到的GPT-3為例。這玩意有1750億的參數(shù)。這是個(gè)什么概念呢?
我們用有具體數(shù)據(jù)的開(kāi)源模型來(lái)估計(jì)吧。一個(gè)60億參數(shù)的GPT-J模型,其預(yù)訓(xùn)練參數(shù)的zip包大概60GB。一款3A大作也就這樣了。1750億,擴(kuò)大了將近30倍!
有人可能會(huì)覺(jué)得:還不到2TB,現(xiàn)在硬盤也不貴,這有什么?
小伙汁,這就naive啦。這玩意做推理和訓(xùn)練的時(shí)候,是要載入內(nèi)存噠。而且,這么大的模型,要在可接受的時(shí)間內(nèi)計(jì)算出結(jié)果,用CPU也是不行噠,要用并行計(jì)算來(lái)加速。一般來(lái)說(shuō)就是GPU了。
仍舊以GPT-J為估算基礎(chǔ),加載這個(gè)模型內(nèi)存要40-50G以上,顯存要在13G以上。使用rtx3090 tuning(注意,是tuning,還不是training),需要12個(gè)小時(shí)。之后的模型參數(shù)還會(huì)膨脹一些,大概要到80G。
那么GPT-3煉丹大概會(huì)是一個(gè)什么地獄場(chǎng)景,想必大家心里也應(yīng)該有數(shù)了吧(據(jù)說(shuō)需要幾百塊A100,訓(xùn)練時(shí)間以天計(jì)算)。更可怕的是GPT-3現(xiàn)在已經(jīng)過(guò)時(shí)了。。。
chatgpt背后的模型據(jù)說(shuō)比GPT-3還要大。這就是我之前文章中認(rèn)為中小企業(yè)無(wú)法擁有自己的LLM的主要原因。
分析了一圈。一塊A100,便宜的也要6萬(wàn)多。對(duì)于一個(gè)普通人來(lái)說(shuō),別說(shuō)數(shù)百塊,一塊就破產(chǎn)。想要自己跑一個(gè)可用的GPT,基本是沒(méi)什么希望的。
ChatGPT的所作所為大伙最近應(yīng)該已經(jīng)看了夠多的了。作為一個(gè)普通人,要想不被AI卷死,就只能用大企業(yè)的服務(wù),老老實(shí)實(shí)的交AI稅。但是別無(wú)選擇的服務(wù)和奴役又有什么區(qū)別?