【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(32)——大模型涌現(xiàn)是一種幻覺?
大語言模型(LLM)有個(gè)神秘的概念——涌現(xiàn)。這讓科學(xué)家們非常興奮,他們認(rèn)為隨著模型規(guī)模的增大,模型內(nèi)部出現(xiàn)了一些本質(zhì)的改變,或者說量變產(chǎn)生了質(zhì)變。
然后就有論文來打臉了:


1.涌現(xiàn)
關(guān)于涌現(xiàn),參考這篇專欄:
【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(23)——transformer涌現(xiàn)了傅里葉變換
涌現(xiàn)這個(gè)術(shù)語也是來源于物理學(xué)啥的,就比如“溫度”這個(gè)概念對(duì)于單個(gè)原子是不存在的,而是某種宏觀的概念,或者說只有當(dāng)一個(gè)“物體”的規(guī)模達(dá)到一定程度時(shí)才會(huì)出現(xiàn)。當(dāng)然,關(guān)于涌現(xiàn)現(xiàn)象的質(zhì)疑也一直沒有停過,實(shí)際上這篇論文的核心思想也差不多。
雖然也存在不是因?yàn)槟P鸵?guī)模擴(kuò)大而產(chǎn)生的涌現(xiàn)現(xiàn)象,但本文主要還是討論這種“規(guī)模涌現(xiàn)”。

2.涌現(xiàn)的特點(diǎn)
或者先澄清一點(diǎn),本文并不是說大模型才能學(xué)會(huì)編程等知識(shí)是錯(cuò)誤的,而是說明這種能力不是涌現(xiàn)出來的。
哎,這就涉及到涌現(xiàn)的兩個(gè)特點(diǎn):
(1)突然出現(xiàn)。即某種能力在某個(gè)臨界點(diǎn)(這里主要指參數(shù)規(guī)模)時(shí)還沒有出現(xiàn),但一旦達(dá)到臨界點(diǎn)就會(huì)突然提升
(2)不可預(yù)測。即我們無法預(yù)測這個(gè)臨界點(diǎn)在哪,也無法解釋為什么在那
看圖應(yīng)該好理解:

在模型參數(shù)規(guī)模達(dá)到一定程度之前,性能一直在某一直線那里徘徊,然后突然就上升的很快了。
本文其實(shí)是在反駁突然出現(xiàn)和不可預(yù)測兩個(gè)點(diǎn)。

3.涌現(xiàn)是度量的結(jié)果?
本文的核心觀點(diǎn)是——涌現(xiàn)是度量指標(biāo)造成的。
作者認(rèn)為,涌現(xiàn)現(xiàn)象是因?yàn)樵u(píng)估者選擇了非線性和不連續(xù)的指標(biāo)才會(huì)出現(xiàn)的。
簡單從直覺上解釋一下,假設(shè)我們規(guī)定10s跑完100米得1分,跑不完得0分這樣一個(gè)離散指標(biāo),那就忽略了“速度”這個(gè)指標(biāo),也就是說一個(gè)運(yùn)動(dòng)員的速度雖然隨著訓(xùn)練時(shí)間的增加而增加,但只有到他真的達(dá)到了“10s跑完100米”,它的分?jǐn)?shù)才會(huì)突變?yōu)?,在此之前,他的分?jǐn)?shù)一直是0。
也就是說,實(shí)際上有些我們沒有發(fā)現(xiàn)的隱藏的指標(biāo)一直在隨著模型規(guī)模擴(kuò)大比較平滑的在增加,但我們選擇了其他的指標(biāo)導(dǎo)致了看上去模型出現(xiàn)了涌現(xiàn)現(xiàn)象。
或者更通俗來講,只有量變,沒有質(zhì)變。質(zhì)變是一種“幻覺”。
作者做了如下實(shí)驗(yàn):

如圖,對(duì)于同樣的結(jié)果,選擇非線性、離散的指標(biāo)(C、D),就表現(xiàn)出了涌現(xiàn)能力。選擇線性、連續(xù)的指標(biāo)(E、F),就沒有表現(xiàn)出涌現(xiàn)能力。
同樣的,對(duì)于以前一些我們認(rèn)為沒有涌現(xiàn)現(xiàn)象的一些模型,我們也可以構(gòu)造一些非線性、離散的指標(biāo)來讓它有涌現(xiàn)。

4.思考
需要注意的是,很多時(shí)候不是我們有意的去構(gòu)造一些指標(biāo),而是因?yàn)楹芏鄸|西我們是沒有辦法構(gòu)造更細(xì)力度、線性的指標(biāo)的。
關(guān)于“量變產(chǎn)生質(zhì)變”可能也是如此,但從宏觀來看,或者說從人的角度來看,“量變產(chǎn)生質(zhì)變”當(dāng)然是存在的。
所以這篇論文也不能說是完全“打臉”的論文,畢竟AI學(xué)術(shù)界一直如此,模型都有自己的缺陷,評(píng)價(jià)指標(biāo)也是,這樣的論文實(shí)際上也是幫助我們提高認(rèn)識(shí)。