【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(33)——GPT-4解釋GPT-2,魔法打敗魔法
OpenAI最近做了個很有意思的新研究,用GPT-4來解釋GPT-2:

嚴格來說,這并不是學(xué)術(shù)論文,目前就是個網(wǎng)頁,不過網(wǎng)頁有網(wǎng)頁的好處,即上面能演示很多實例。

1.可解釋性
還是延續(xù)以往的風格,本系列專欄還是先嘮嗑一些基礎(chǔ)概念。
可解釋性也是之前提過很多次的話題了。
之前我經(jīng)常把很多模型比作一個復(fù)雜的函數(shù),這個函數(shù)過于復(fù)雜,參數(shù)量眾多,所以解釋起來會很麻煩。
再比如,一種解釋性很好并且性能也不差的模型——決策樹:

應(yīng)該很好理解吧,我們只要從樹干循著條件一路找到葉子,就可以得到結(jié)果。
但是一棵樹有時候是不夠的,我們想提高性能,一種方法就是構(gòu)造一大堆的決策樹,每顆決策樹都會獨立給出結(jié)果,然后匯總這些結(jié)果(投票啊、采樣?。┚偷玫揭粋€總結(jié)果,這就是隨機森林。由于隨機森林中決策樹眾多,所以很多人認為隨機森林實際上是不可解釋的。這似乎暗示了當某個東西的數(shù)量上去之后,解釋性慢慢地變得困難。
當然,隨機森林實際上是一種集成方法,集成和蒸餾也是可解釋性的重災(zāi)區(qū)。其中自蒸餾更是經(jīng)典的“左腳踩右腳”,即模型自己教授自己知識就能提升性能,對于人類來說,這種能力還太早了。
對神經(jīng)網(wǎng)絡(luò)也是一樣。我們知道,一個神經(jīng)元實際上并不復(fù)雜,不管是人工的還是自然的:

都是收集一堆輸入,整合成一個輸出。
但神經(jīng)網(wǎng)絡(luò)中神經(jīng)元數(shù)量眾多,連接起來就更加麻煩,很多網(wǎng)絡(luò)都是前面幾層還能得到一些人類看得懂的特征,后面的層會越來越抽象和難以解釋。很多人認為神經(jīng)網(wǎng)絡(luò)的高層是學(xué)習到了人類目前還無法解釋的高級特征。
對于我們的大腦也是一樣,我們能弄清楚一個神經(jīng)元的不少行為,理解神經(jīng)遞質(zhì)和記憶的可能形成過程,但就大腦的整體而言,人類理解起來還是過于困難。
于是,可解釋性的另一層意思就出來了,即可解釋性實際上是讓人來理解機器在做什么,目前主流還是把抽象的東西進行“降維”,“降維”到自然語言、可理解的數(shù)學(xué)公式等層面。當然,人類也在朝著靠近機器的方向在努力,嘗試理解一些高階特征?;蛘哒f,必然是雙向奔赴。
可解釋性很重要,例如在銀行等系統(tǒng)中,出錯是不被允許的,如果一個輸出沒法解釋,問題會變得很麻煩。
關(guān)于可解釋性,還有另一種風格的解釋,見:
【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(3)——可解釋性人工智能

2.GPT-4解釋GPT-2
OK,回到這個研究,實際上方法也不復(fù)雜的:

就分三步:
(1)對于被給定的GPT-2的神經(jīng)元和輸出序列,讓GPT-4解釋這個神經(jīng)元可能起什么作用。例如一個神經(jīng)元可能與電影有關(guān),可能控制著模型說“不”等等;
(2)用GPT-4模擬這個神經(jīng)元會做什么;
(3)與真實的激活情況作對比,得出GPT-4的判斷分數(shù)。
簡單來說,就是讓GPT-4去模擬GPT-2的運作。
論文網(wǎng)站上有很多演示,例如對于一個輸出,每個詞是哪些神經(jīng)元被激活而生成的,很有意思。
GPT-2共有三十萬個神經(jīng)元,其實(對于程序來說)并不算很多,其中1000個神經(jīng)元的解釋分數(shù)能到到0.8,看起來效果還可以。

3.上下文學(xué)習與大模型模擬小模型
其實我個人倒沒有那么驚訝,畢竟很久之前我就說過,理論上GPT-3這樣的大模型是可以在內(nèi)部模擬其他模型的,而且transformer本身又是圖靈完備的,所以我們不難想象大模型內(nèi)部實際上已經(jīng)做了某種程度的“分工”
上下文學(xué)習也是一個例子,有人認為上下文學(xué)習實際上是這個過程中,大模型內(nèi)部構(gòu)造了類似于類似于梯度下降的結(jié)構(gòu),具體見:
【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(11)——GPT與上下文學(xué)習
而GPT-4基本上是GPT-2的暴力擴大,所以內(nèi)部模擬個GPT-2理論上問題不大。
不過我倒是沒想到“大模型套小模型”會用來研究這個

4.研究的不足
論文網(wǎng)站也說了很多,但我總結(jié)下來,最重要的幾點是:
(1)這種方法把每一個神經(jīng)元當做孤立的對象來看待的。而神經(jīng)元是和其他神經(jīng)元高度交互的,這才導(dǎo)致神經(jīng)網(wǎng)絡(luò)的優(yōu)秀的表現(xiàn)。而且解釋仍然是相關(guān)性解釋,不是因果解釋。
(2)仍然是可解釋性的基本問題,即神經(jīng)元(特別是深層的神經(jīng)元)的復(fù)雜行為真的可以用自然語言解釋清楚嗎(也許就像《來自深淵》生骸村的語言一樣,是高度復(fù)合的)
(3)對GPT-4的不信任。一個很明顯的事實是,GPT-4本身是一個沒被解釋的模型(甚至都不開源讓別人解釋),用這樣的模型做解釋真的能讓人信服嗎?更何況GPT-4仍然沒有解決幻覺的問題。甚至有人調(diào)侃解釋GPT-4是不是要用GPT-16(
(4)耗費高等就不說了

5.結(jié)論
總的來說,研究還是有意義的,畢竟可解釋性研究這一塊,基本上有一個算一個,看上去很基礎(chǔ)但都是前沿了。