手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習 » 【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（33）——GPT-4解釋GPT-2，魔法打敗魔法

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（33）——GPT-4解釋GPT-2，魔法打敗魔法

2023-05-11 10:19 作者:花師小哲-中二 0人讀過 | 我要投稿

OpenAI最近做了個很有意思的新研究，用GPT-4來解釋GPT-2：

嚴格來說，這并不是學(xué)術(shù)論文，目前就是個網(wǎng)頁，不過網(wǎng)頁有網(wǎng)頁的好處，即上面能演示很多實例。

1.可解釋性

還是延續(xù)以往的風格，本系列專欄還是先嘮嗑一些基礎(chǔ)概念。

可解釋性也是之前提過很多次的話題了。

之前我經(jīng)常把很多模型比作一個復(fù)雜的函數(shù)，這個函數(shù)過于復(fù)雜，參數(shù)量眾多，所以解釋起來會很麻煩。

再比如，一種解釋性很好并且性能也不差的模型——決策樹：

應(yīng)該很好理解吧，我們只要從樹干循著條件一路找到葉子，就可以得到結(jié)果。

但是一棵樹有時候是不夠的，我們想提高性能，一種方法就是構(gòu)造一大堆的決策樹，每顆決策樹都會獨立給出結(jié)果，然后匯總這些結(jié)果（投票啊、采樣?。┚偷玫揭粋€總結(jié)果，這就是隨機森林。由于隨機森林中決策樹眾多，所以很多人認為隨機森林實際上是不可解釋的。這似乎暗示了當某個東西的數(shù)量上去之后，解釋性慢慢地變得困難。

當然，隨機森林實際上是一種集成方法，集成和蒸餾也是可解釋性的重災(zāi)區(qū)。其中自蒸餾更是經(jīng)典的“左腳踩右腳”，即模型自己教授自己知識就能提升性能，對于人類來說，這種能力還太早了。

對神經(jīng)網(wǎng)絡(luò)也是一樣。我們知道，一個神經(jīng)元實際上并不復(fù)雜，不管是人工的還是自然的：

都是收集一堆輸入，整合成一個輸出。

但神經(jīng)網(wǎng)絡(luò)中神經(jīng)元數(shù)量眾多，連接起來就更加麻煩，很多網(wǎng)絡(luò)都是前面幾層還能得到一些人類看得懂的特征，后面的層會越來越抽象和難以解釋。很多人認為神經(jīng)網(wǎng)絡(luò)的高層是學(xué)習到了人類目前還無法解釋的高級特征。

對于我們的大腦也是一樣，我們能弄清楚一個神經(jīng)元的不少行為，理解神經(jīng)遞質(zhì)和記憶的可能形成過程，但就大腦的整體而言，人類理解起來還是過于困難。

于是，可解釋性的另一層意思就出來了，即可解釋性實際上是讓人來理解機器在做什么，目前主流還是把抽象的東西進行“降維”，“降維”到自然語言、可理解的數(shù)學(xué)公式等層面。當然，人類也在朝著靠近機器的方向在努力，嘗試理解一些高階特征?；蛘哒f，必然是雙向奔赴。

可解釋性很重要，例如在銀行等系統(tǒng)中，出錯是不被允許的，如果一個輸出沒法解釋，問題會變得很麻煩。

關(guān)于可解釋性，還有另一種風格的解釋，見：

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（3）——可解釋性人工智能

2.GPT-4解釋GPT-2

OK，回到這個研究，實際上方法也不復(fù)雜的：

就分三步：

（1）對于被給定的GPT-2的神經(jīng)元和輸出序列，讓GPT-4解釋這個神經(jīng)元可能起什么作用。例如一個神經(jīng)元可能與電影有關(guān)，可能控制著模型說“不”等等；

（2）用GPT-4模擬這個神經(jīng)元會做什么；

（3）與真實的激活情況作對比，得出GPT-4的判斷分數(shù)。

簡單來說，就是讓GPT-4去模擬GPT-2的運作。

論文網(wǎng)站上有很多演示，例如對于一個輸出，每個詞是哪些神經(jīng)元被激活而生成的，很有意思。

GPT-2共有三十萬個神經(jīng)元，其實（對于程序來說）并不算很多，其中1000個神經(jīng)元的解釋分數(shù)能到到0.8，看起來效果還可以。

3.上下文學(xué)習與大模型模擬小模型

其實我個人倒沒有那么驚訝，畢竟很久之前我就說過，理論上GPT-3這樣的大模型是可以在內(nèi)部模擬其他模型的，而且transformer本身又是圖靈完備的，所以我們不難想象大模型內(nèi)部實際上已經(jīng)做了某種程度的“分工”

上下文學(xué)習也是一個例子，有人認為上下文學(xué)習實際上是這個過程中，大模型內(nèi)部構(gòu)造了類似于類似于梯度下降的結(jié)構(gòu)，具體見：

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（11）——GPT與上下文學(xué)習

而GPT-4基本上是GPT-2的暴力擴大，所以內(nèi)部模擬個GPT-2理論上問題不大。

不過我倒是沒想到“大模型套小模型”會用來研究這個

4.研究的不足

論文網(wǎng)站也說了很多，但我總結(jié)下來，最重要的幾點是：

（1）這種方法把每一個神經(jīng)元當做孤立的對象來看待的。而神經(jīng)元是和其他神經(jīng)元高度交互的，這才導(dǎo)致神經(jīng)網(wǎng)絡(luò)的優(yōu)秀的表現(xiàn)。而且解釋仍然是相關(guān)性解釋，不是因果解釋。

（2）仍然是可解釋性的基本問題，即神經(jīng)元（特別是深層的神經(jīng)元）的復(fù)雜行為真的可以用自然語言解釋清楚嗎（也許就像《來自深淵》生骸村的語言一樣，是高度復(fù)合的）

（3）對GPT-4的不信任。一個很明顯的事實是，GPT-4本身是一個沒被解釋的模型（甚至都不開源讓別人解釋），用這樣的模型做解釋真的能讓人信服嗎？更何況GPT-4仍然沒有解決幻覺的問題。甚至有人調(diào)侃解釋GPT-4是不是要用GPT-16（

（4）耗費高等就不說了

5.結(jié)論

總的來說，研究還是有意義的，畢竟可解釋性研究這一塊，基本上有一個算一個，看上去很基礎(chǔ)但都是前沿了。

標簽：

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（33）——GPT-4解釋GPT-2，魔法打敗魔法的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（33）——GPT-4解釋GPT-2，魔法打敗魔法

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（33）——GPT-4解釋GPT-2，魔法打敗魔法的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（33）——GPT-4解釋GPT-2，魔法打敗魔法

本文作者的其他文章

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（33）——GPT-4解釋GPT-2，魔法打敗魔法的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（33）——GPT-4解釋GPT-2，魔法打敗魔法

【花師小哲】當代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（33）——GPT-4解釋GPT-2，魔法打敗魔法的評論 (共條)