【AI雜談】借助高爾頓板理解AI概念
最近出來一篇論文:

挺有意思的,不過主要是這篇論文讓我突然想到一個好玩的比喻。(在我寫稿子期間,看到有人在講了,而且夸大的很厲害,不過簡寫確實很好玩,是ToT)

1.概率模型
大家學概率的時候可能都接觸過這樣一個場景吧(高爾頓板):

(畫的不是很好,大家理解意思就可以,素材都來源于一個著名的免費神經(jīng)網(wǎng)絡畫圖素材)
我們讓一個小球從上到下滾下去,小球基本在每一個紫色柱子(沒錯,最好是將下面那些圓理解成圓柱)之間都會隨機向左或者向右,最終落到底部。
正好,不是有很多人見到AI就直接扔一句“不就是貝葉斯嗎?”那我們對于概率還是拿概率模型說事(真的,雖然我們經(jīng)常吐槽神經(jīng)網(wǎng)絡就是煉丹、就是概率、就是暴力美學,但AI底層的數(shù)學還是非常多的,不是隨便拍拍腦門就能煉丹的)
當然,如果我在專業(yè)領域那這個模型出來說事,估計會被同行“暴打”,不過作為科普,我覺得這個比喻還是有一定好處的。

2.神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡相關知識可以參考:
【花師小哲】面向一般大眾的神經(jīng)網(wǎng)絡科普(1)-基礎知識
現(xiàn)在我們一般都把神經(jīng)網(wǎng)絡統(tǒng)稱為模型了,這樣做有一個好處是,對于一般大眾來說可能更好理解一些,模型嘛,就是把一些數(shù)據(jù)按照一定的規(guī)則組織在一起。嗯,聽起來就不像煉丹那樣渾濁了(
所以我們就可以根據(jù)上面模型修改一下:

我們就拿簡單的分類任務來做討論。上面我有各種各樣的球,每個球都有不同的性質(zhì),我要把一些小球分為五類(A、B、C、D、E),或者說,讓不同的球落到不同的框里。
所以說在這里我們需要對那些原本“萬球平等”的圓柱搞事情了。
如果大家了解這個模型就會知道,落到中間類別(C)的概率是相對比較高的,而落到邊緣(A、E)的概率比較低,這也代表了神經(jīng)網(wǎng)絡剛開始的狀態(tài)。因為剛剛初始化的神經(jīng)網(wǎng)絡權重都接近0,所以對于任何輸入,輸出都是相似的:

然后我們要做的就是根據(jù)這一次掉落的結(jié)果對整個模型進行修改,例如我們可以改成如下的一些情況:

假設這些球有不同的磁性,于是我們在柱子上加一些吸鐵石,讓黃球更傾向于跑到左邊,讓藍球更傾向于跑到右邊,這樣輸出的概率分布就發(fā)生了變化。
這就是神經(jīng)網(wǎng)絡在做的事情,就是對參數(shù)的不斷優(yōu)化,讓不同的輸入有不同的輸出分布。

3.上下文學習
而ChatGPT火起來以后,在大模型這里,情況有些不同。大模型有了一種新的能力:上下文學習。
上下文的意思是說,我不需要修改模型的參數(shù),只要你先給我?guī)讉€樣例,我的輸出效果就會更好。
例如我想讓模型做算術,我就先告訴模型1+1=2,2+2=4,然后就可以讓它計算318489*214764728了
這是很不可思議的一件事情,雖然現(xiàn)在的神經(jīng)網(wǎng)絡中確實會有一些“活參數(shù)”(你可以簡單理解為神經(jīng)網(wǎng)絡內(nèi)部有些數(shù)值是根據(jù)輸入動態(tài)改變的,實際上沒有“活參數(shù)”這樣的術語),但準確率提高一定意味著這些“活參數(shù)”做了一些事情。
當然啦,其實上下文目前依然是迷霧重重的一個存在,但也不是不能類比:

我們拿出一個訓練好的模型,假設我給模型幾個例子,這些例子與以前的東西有些不同(它們的區(qū)別不在于球的顏色,而在于內(nèi)部的文字),根據(jù)一些研究,模型在做的可能是在內(nèi)部擬合出了某種東西。
所以有可能模型是做了類似于這么一件事情:

即模型在內(nèi)部構造了一個更小的模型,這樣,這些輸入至少很難再掉到A、E兩個口了
當然,上下文學習還是太復雜、太神秘了,這個例子肯定有很多不合適的地方,但是也能夠說出一些“反直覺”的事情:

假設左邊的示例(即球(是B類,球2是C類,球3是D類)是正確的,右邊的示例是錯誤的,上面兩種情況的結(jié)果應該是相似的。
因為:(1)正確的輸入輸出對對上下文學習的影響是有限的,更重要的是示例和實際測試樣例的結(jié)構相似性
(2)輸出的分布是重要的,輸入輸出的配對沒有那么重要
(3)這可能是因為大模型本身就具有大量的知識

4.思維鏈
思維鏈(Chain of thought,CoT)也是隨著大模型比較火的一個東西,簡單來說,我們不是讓模型一次得出答案,而是一步步得出答案

例如計算2+8*3,我們不是讓大模型直接突出一個結(jié)果(例如30),而是讓模型一步步來做,模型就會先算8*3=24,然后2+24=26
還是對于這個模型,這時我們就讓大模型來預測這個球會落到哪個洞里,大模型直接預測確實會比較麻煩,但如果我們讓大模型對于每一步都進行預測,情況就會好很多:

如上圖,我們一個個預測,于是來到了如下的狀態(tài):

在這種狀態(tài)下,小球只會落在C、D、E之中了,假設真正的結(jié)果是D,那么這樣正確率相對就提高了。
回到論文中,ToT也是類似的想法:

不過這個模型的推理還可以回去的,比較神奇(就是通過這個圖我想到了這個模型)
希望能幫助大家理解吧。