【AI雜談】借助高爾頓板理解AI概念

2023-05-22 15:04 作者:花師小哲-中二 0人讀過 | 我要投稿

最近出來一篇論文：

挺有意思的，不過主要是這篇論文讓我突然想到一個好玩的比喻。（在我寫稿子期間，看到有人在講了，而且夸大的很厲害，不過簡寫確實很好玩，是ToT）

1.概率模型

大家學概率的時候可能都接觸過這樣一個場景吧（高爾頓板）：

（畫的不是很好，大家理解意思就可以，素材都來源于一個著名的免費神經(jīng)網(wǎng)絡畫圖素材）

我們讓一個小球從上到下滾下去，小球基本在每一個紫色柱子（沒錯，最好是將下面那些圓理解成圓柱）之間都會隨機向左或者向右，最終落到底部。

正好，不是有很多人見到AI就直接扔一句“不就是貝葉斯嗎？”那我們對于概率還是拿概率模型說事（真的，雖然我們經(jīng)常吐槽神經(jīng)網(wǎng)絡就是煉丹、就是概率、就是暴力美學，但AI底層的數(shù)學還是非常多的，不是隨便拍拍腦門就能煉丹的）

當然，如果我在專業(yè)領域那這個模型出來說事，估計會被同行“暴打”，不過作為科普，我覺得這個比喻還是有一定好處的。

2.神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡相關知識可以參考：

【花師小哲】面向一般大眾的神經(jīng)網(wǎng)絡科普（1）-基礎知識

現(xiàn)在我們一般都把神經(jīng)網(wǎng)絡統(tǒng)稱為模型了，這樣做有一個好處是，對于一般大眾來說可能更好理解一些，模型嘛，就是把一些數(shù)據(jù)按照一定的規(guī)則組織在一起。嗯，聽起來就不像煉丹那樣渾濁了（

所以我們就可以根據(jù)上面模型修改一下：

我們就拿簡單的分類任務來做討論。上面我有各種各樣的球，每個球都有不同的性質(zhì)，我要把一些小球分為五類（A、B、C、D、E），或者說，讓不同的球落到不同的框里。

所以說在這里我們需要對那些原本“萬球平等”的圓柱搞事情了。

如果大家了解這個模型就會知道，落到中間類別（C）的概率是相對比較高的，而落到邊緣（A、E）的概率比較低，這也代表了神經(jīng)網(wǎng)絡剛開始的狀態(tài)。因為剛剛初始化的神經(jīng)網(wǎng)絡權重都接近0，所以對于任何輸入，輸出都是相似的：

然后我們要做的就是根據(jù)這一次掉落的結(jié)果對整個模型進行修改，例如我們可以改成如下的一些情況：

假設這些球有不同的磁性，于是我們在柱子上加一些吸鐵石，讓黃球更傾向于跑到左邊，讓藍球更傾向于跑到右邊，這樣輸出的概率分布就發(fā)生了變化。

這就是神經(jīng)網(wǎng)絡在做的事情，就是對參數(shù)的不斷優(yōu)化，讓不同的輸入有不同的輸出分布。

3.上下文學習

而ChatGPT火起來以后，在大模型這里，情況有些不同。大模型有了一種新的能力：上下文學習。

上下文的意思是說，我不需要修改模型的參數(shù)，只要你先給我?guī)讉€樣例，我的輸出效果就會更好。

例如我想讓模型做算術，我就先告訴模型1+1=2,2+2=4，然后就可以讓它計算318489*214764728了

這是很不可思議的一件事情，雖然現(xiàn)在的神經(jīng)網(wǎng)絡中確實會有一些“活參數(shù)”（你可以簡單理解為神經(jīng)網(wǎng)絡內(nèi)部有些數(shù)值是根據(jù)輸入動態(tài)改變的，實際上沒有“活參數(shù)”這樣的術語），但準確率提高一定意味著這些“活參數(shù)”做了一些事情。

當然啦，其實上下文目前依然是迷霧重重的一個存在，但也不是不能類比：