【花師小哲】雜談——樂(lè)觀看待大模型發(fā)展
沒(méi)想到昨天調(diào)侃一句“ChatGPT罪大惡極”會(huì)被朋友誤解,當(dāng)然因?yàn)槟莻€(gè)動(dòng)態(tài)也說(shuō)的比較模糊,也不能怪別人誤解??赡苁俏覀€(gè)人有點(diǎn)太在意了,主要是昨天煩心事比較多,再加上這件事讓我回想起了一些塵封的不太愉快的往事。哎,不過(guò)昨天由于影實(shí)第二季官宣了,好歹是中和了一下。
趁著今天的爆肝論文時(shí)間還沒(méi)開(kāi)始,講一些陽(yáng)光點(diǎn)的東西。
有一個(gè)話題最近也有很多人在問(wèn),即為什么中國(guó)做不出ChatGPT,這個(gè)問(wèn)題其實(shí)很多大牛早就在各平臺(tái)回答過(guò)了,不過(guò)既然說(shuō)了要講點(diǎn)陽(yáng)光點(diǎn)的東西,就講講一些樂(lè)觀的地方。
(1)GPT其實(shí)一直并不是特別被看好。很多人可能會(huì)問(wèn),GPT這種東西技術(shù)難度又不高,為什么我們沒(méi)做呢?其實(shí)首先我們要明白一個(gè)前提,即GPT在之前并不是業(yè)界的主要研究方向。在OpenAI搞GPT的時(shí)候,業(yè)界主要在干什么呢?其實(shí)都主要在搞BERT和類BERT。就像GPT現(xiàn)在已經(jīng)被很多領(lǐng)域拿過(guò)去用,誕生了一大堆XXXGPT的項(xiàng)目一樣,BERT當(dāng)時(shí)也是遍地開(kāi)花。
為什么BERT之前的關(guān)注度比較高呢?GPT是單向Tramsformer,BERT是雙向Tramsformer,看起來(lái)就更加高大上一些。另外,GPT是單獨(dú)解碼器架構(gòu),BERT是編碼器架構(gòu),這意味著GPT天生是專注于預(yù)測(cè)下一個(gè)詞,或者說(shuō)語(yǔ)言生成的;而B(niǎo)ERT的目的是把原始的“貧瘠”的輸入轉(zhuǎn)化成“富含信息”的輸出,可以適應(yīng)非常多的任務(wù),這種思想也很容易被其他領(lǐng)域(非NLP領(lǐng)域)借鑒去。另外的原因還有很多,例如BERT實(shí)在是太驚艷、造成了后續(xù)的BERT狂熱而忽略了GPT的發(fā)展(現(xiàn)在可能也是哦,大家都去關(guān)注ChatGPT了沒(méi)準(zhǔn)又會(huì)有新的技術(shù)異軍突起)
所以ChatGPT火起來(lái)更像是OpenAI孤注一擲的結(jié)果,美國(guó)公司不也在做自己的ChatGPT,例如谷歌Bard,結(jié)果不也是一次失敗的嘗試(其實(shí)大語(yǔ)言對(duì)話模型出錯(cuò)很正常,只是在ChatGPT走紅的現(xiàn)在,Bard的出現(xiàn)又帶有一些對(duì)抗性的姿態(tài),所以公開(kāi)展示的一次小出錯(cuò)就顯得嚴(yán)重了)
(2)還是老話,大語(yǔ)言模型不是說(shuō)做就能做的。大模型就要大數(shù)據(jù)、大算力,這不是一般個(gè)人和小實(shí)驗(yàn)室負(fù)擔(dān)的起的。即使是大廠,要搞出大模型也需要幾個(gè)月的時(shí)間來(lái)訓(xùn)練模型,并且由于RLHF的訓(xùn)練強(qiáng)度至今沒(méi)有公開(kāi),所以不可能出的那么快,早期出現(xiàn)的大都是蹭熱度。更不要說(shuō)中文語(yǔ)料庫(kù)其實(shí)還是比較少的等一些現(xiàn)實(shí)問(wèn)題。
現(xiàn)在一些朋友比較焦急我可以理解,但這玩意確實(shí)需要那么長(zhǎng)的時(shí)間,不然出不來(lái)。
說(shuō)好了只講樂(lè)觀的方面,其實(shí)不樂(lè)觀的方面還是很多的,但是我個(gè)人還是希望中國(guó)的大模型能夠發(fā)展起來(lái)