【花師小哲】雜談大模型
經(jīng)典,越忙越想摸會(huì)魚寫寫專欄。這次就雜談下大模型。
我們先談?wù)務(wù)軐W(xué)史,不過也不用太嚴(yán)謹(jǐn)?shù)男g(shù)語吧(雜談雜談,想到什么說什么)。
一開始時(shí),古希臘人創(chuàng)建了哲學(xué),他們討論了各種話題,到柏拉圖和亞里士多德那里,他們總結(jié)了哲學(xué),并給出了自己的一些想法。例如,亞里士多德在《形而上學(xué)》鐘就提出了十幾個(gè)(不同版本個(gè)數(shù)有些差別)哲學(xué)問題或哲學(xué)研究派別。很多人都說,之后的所有哲學(xué)都是才重新闡釋柏拉圖或亞里士多德的哲學(xué)。換種話說,柏拉圖或亞里士多德給出了一份哲學(xué)考試大綱。
之后一大群人都試圖回答這些哲學(xué)問題,這其中不免有很多哲學(xué)家,他們不總是關(guān)注某個(gè)具體的哲學(xué)問題,他們想徹底破解這份哲學(xué)考試大綱,于是黑格爾出現(xiàn)了,他說他吧之前所有哲學(xué)都變成了一盤菜,然后把所有菜擺到了一張大桌子上,他已經(jīng)完全破解了這份哲學(xué)考試大綱。
但是,在哲學(xué)領(lǐng)域,所有題目似乎都是主觀題,總有人不服黑格爾給出的答案,所以他們要發(fā)動(dòng)哲學(xué)革命,思路非常多,例如走唯物主義、重新闡釋哲學(xué)問題大綱、換用其他方法繼續(xù)答題等。但大部分的后續(xù)理論都有個(gè)共同點(diǎn)——它們不再試圖構(gòu)建起一個(gè)囊括萬物的統(tǒng)一大理論,而是去關(guān)注某個(gè)具體的問題。
其中的一支,后現(xiàn)代理論甚至認(rèn)為在后現(xiàn)代,一切都是解離的、碎片的,一切從共性的極端走向了個(gè)性的極端。
好了,以上關(guān)于哲學(xué)史就雜談那么多,肯定不全面也不精確,不過抽出這個(gè)過程有助于后面的分析。
讓我們把視角轉(zhuǎn)到人工智能領(lǐng)域,轉(zhuǎn)到神經(jīng)網(wǎng)絡(luò)模型。
我們最開始認(rèn)為由于過擬合問題基本上無法完美解決,神經(jīng)網(wǎng)絡(luò)似乎都只能在某個(gè)領(lǐng)域中發(fā)揮一定的功能,一個(gè)識(shí)別貓狗的網(wǎng)絡(luò)不能夠識(shí)別馬和牛,一個(gè)幫你寫代碼的AI不能幫你畫畫。
但是,人們總是追求泛化(當(dāng)然,關(guān)于泛化也有很多可以談的,泛化甚至可能是一個(gè)死路,畢竟最泛化的方法其實(shí)是隨機(jī)),他們希望有通用人工智能。好消息是我們似乎還不需要囊括智能的一切領(lǐng)域,我們可以先攻克一個(gè)大領(lǐng)域,例如CV(機(jī)器視覺)或NLP(自然語言處理)。就單拿自然語言處理來講,其中包含的問題其實(shí)蠻多的,有問答系統(tǒng)(ChatGPT那樣的)、文本分類、機(jī)器翻譯等。我們想用一個(gè)算法來解決這一切問題。
于是,大模型出現(xiàn)了,預(yù)訓(xùn)練出現(xiàn)了(預(yù)訓(xùn)練之前專欄提到多次了)。預(yù)訓(xùn)練的思想是我們使用無監(jiān)督的數(shù)據(jù)來進(jìn)行訓(xùn)練,通過自監(jiān)督訓(xùn)練的方式使得模型記住一些東西(這樣的好處是省去大量標(biāo)注成本,畢竟語料和圖片可以隨便從網(wǎng)上扒)。例如NLP的BERT模型的預(yù)訓(xùn)練過程是想讓BERT記住詞語上下文關(guān)系和句子上下文關(guān)系,CV領(lǐng)域的SimCLR模型的預(yù)訓(xùn)練過程是想讓SimCLR知道哪些圖片是相近的,哪些是不同的。
大模型本身不一定能直接拿來做事情,但是我們只需要進(jìn)行微調(diào)就可以實(shí)際應(yīng)用,并且可以應(yīng)用在不同的問題上。例如對(duì)于SimCLR,我們可以用貓狗數(shù)據(jù)集讓它區(qū)分貓狗,也可以用馬牛數(shù)據(jù)集讓它區(qū)分馬牛等等。
或者說,大模型就像是一個(gè)統(tǒng)一的大理論,我們可以快速地那它來解釋具體問題,某種程度上和黑格爾統(tǒng)一理論的思路是差不多的。
當(dāng)然,不同的點(diǎn)也很多,例如黑格爾辯證法是理性的、是有完整架構(gòu)的,而大模型只是上萬億個(gè)數(shù)值而已,甚至根據(jù)業(yè)界的一般看法,大模型只是把一切訓(xùn)練數(shù)據(jù)全都記錄下來,所以遠(yuǎn)觀是一個(gè)共性,實(shí)質(zhì)上是無數(shù)個(gè)個(gè)性。
當(dāng)然,AI的研究肯定不是完全集中在大模型上,另一個(gè)通用人工智能的方向是多模態(tài),簡(jiǎn)單來說,就是把圖像、文本等全部整合起來。似乎大模型+多模態(tài)就能走向通用人工智能了。
那么大模型是不是會(huì)像黑格爾理論一樣走向滑鐵盧呢?這個(gè)不好說,因?yàn)镃hatGPT告訴大家,用小模型在專長(zhǎng)領(lǐng)域甚至都打不過用大模型API,大模型似乎要建立起權(quán)威統(tǒng)治了。
不管怎么說,畢竟還沒有人像黑格爾那樣站出來宣布AI要大結(jié)局了(即使有也很可能會(huì)被光速打臉),我們也只能走一步是一步了。