【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(45)——大模型自迭代遇到回旋鏢?
近期有個(gè)在大模型科研圈比較火的新聞,即一系列論文開始論文大模型的自迭代很可能實(shí)際上作用不大,這里就不具體講某一篇論文了,籠統(tǒng)的講一下。
比較短,畢竟沒(méi)太多可講的。
不過(guò)還是放一篇論文作為開篇吧,方便大家找:


1.大模型自迭代?
大模型的自迭代方法其實(shí)非常常見(jiàn),種類也是多種多樣,例如模型和數(shù)據(jù)集共同進(jìn)步、代碼語(yǔ)言模型根據(jù)編譯器的反饋不斷修正自己的代碼。
不過(guò)這里我們主要關(guān)注的是這樣一類情況,即不借助外部知識(shí)的自迭代。
有一個(gè)經(jīng)典場(chǎng)景就是我們先讓ChatGPT(模型A)生成一份計(jì)劃,然后再讓“另一個(gè)”ChatGPT(模型B)對(duì)這個(gè)計(jì)劃評(píng)估并提供修改意見(jiàn),這樣兩個(gè)模型不斷重復(fù)這一步驟,理論上就可以獲得更好的計(jì)劃,之前也有一些工作說(shuō)明了這樣做是有用的

2.一個(gè)根本信念
雖然神經(jīng)網(wǎng)絡(luò)領(lǐng)域向來(lái)理論缺乏,但這個(gè)想法真的只是直覺(jué)。這種迭代本質(zhì)上是來(lái)源于程序員的某種“根本信念”(哲學(xué)用語(yǔ),例如對(duì)于一些古希臘哲學(xué)家來(lái)說(shuō),“人是萬(wàn)物的尺度”就是一個(gè)根本信念),即判斷比計(jì)算簡(jiǎn)單。
也不用舉計(jì)算理論中的例子,就簡(jiǎn)單給兩個(gè)命題“世界上有黑天鵝”和“判斷一只天鵝是黑色的還是白色的”就是兩個(gè)難度完全不同的任務(wù),命題1在你找到第一只黑天鵝之前都是下不了判斷的(假設(shè)100只中有一只黑天鵝,那么平均要找大概50次)。對(duì)于大模型來(lái)說(shuō)也是一樣的,把這個(gè)根本信念遷移出來(lái)就是判斷和評(píng)估內(nèi)容比生成內(nèi)容更容易。人不也是類似的嘛,讓你從頭寫憲法是困難的,但審評(píng)一個(gè)起草好的憲法大綱就容易很多。
因?yàn)檠芯空哒J(rèn)為“判斷”更容易,所以讓模型對(duì)于一個(gè)已經(jīng)生成的文本提意見(jiàn)應(yīng)該是比直接生成容易多的,也就更容易取得更好的效果?;谶@一信念,才會(huì)有很多人做大模型自迭代。

3.反駁證據(jù)
最近這幾篇論文基本給出了很多自迭代實(shí)際上作用不大甚至有變差傾向的證據(jù),并且有文章指出,之前一些(不借助外部知識(shí)的)自迭代方法之所以有用可能就單純是因?yàn)閜rompt改變了之類的理由。
不過(guò)還需要注意,目前這幾個(gè)研究的問(wèn)題還不具有普遍性,都是些比較小的問(wèn)題,并不能直接斷言自迭代就沒(méi)用,我們?nèi)匀恍枰C據(jù)。
不管怎么說(shuō),這些研究都有利于我們更好地理解大模型。