最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【AI雜談】借助高爾頓板理解AI概念

2023-05-22 15:04 作者:花師小哲-中二  | 我要投稿

最近出來一篇論文:

挺有意思的,不過主要是這篇論文讓我突然想到一個好玩的比喻。(在我寫稿子期間,看到有人在講了,而且夸大的很厲害,不過簡寫確實很好玩,是ToT

1.概率模型

大家學概率的時候可能都接觸過這樣一個場景吧(高爾頓板):

概率模型——高爾頓板

(畫的不是很好,大家理解意思就可以,素材都來源于一個著名的免費神經(jīng)網(wǎng)絡畫圖素材)

我們讓一個小球從上到下滾下去,小球基本在每一個紫色柱子(沒錯,最好是將下面那些圓理解成圓柱)之間都會隨機向左或者向右,最終落到底部。

正好,不是有很多人見到AI就直接扔一句“不就是貝葉斯嗎?”那我們對于概率還是拿概率模型說事(真的,雖然我們經(jīng)常吐槽神經(jīng)網(wǎng)絡就是煉丹、就是概率、就是暴力美學,但AI底層的數(shù)學還是非常多的,不是隨便拍拍腦門就能煉丹的)

當然,如果我在專業(yè)領域那這個模型出來說事,估計會被同行“暴打”,不過作為科普,我覺得這個比喻還是有一定好處的。

2.神經(jīng)網(wǎng)絡

神經(jīng)網(wǎng)絡相關知識可以參考:

【花師小哲】面向一般大眾的神經(jīng)網(wǎng)絡科普(1)-基礎知識

現(xiàn)在我們一般都把神經(jīng)網(wǎng)絡統(tǒng)稱為模型了,這樣做有一個好處是,對于一般大眾來說可能更好理解一些,模型嘛,就是把一些數(shù)據(jù)按照一定的規(guī)則組織在一起。嗯,聽起來就不像煉丹那樣渾濁了(

所以我們就可以根據(jù)上面模型修改一下:

我們就拿簡單的分類任務來做討論。上面我有各種各樣的球,每個球都有不同的性質(zhì),我要把一些小球分為五類(A、B、C、D、E),或者說,讓不同的球落到不同的框里。

所以說在這里我們需要對那些原本“萬球平等”的圓柱搞事情了。

如果大家了解這個模型就會知道,落到中間類別(C)的概率是相對比較高的,而落到邊緣(A、E)的概率比較低,這也代表了神經(jīng)網(wǎng)絡剛開始的狀態(tài)。因為剛剛初始化的神經(jīng)網(wǎng)絡權重都接近0,所以對于任何輸入,輸出都是相似的:

然后我們要做的就是根據(jù)這一次掉落的結(jié)果對整個模型進行修改,例如我們可以改成如下的一些情況:

神經(jīng)網(wǎng)絡訓練后的結(jié)果

假設這些球有不同的磁性,于是我們在柱子上加一些吸鐵石,讓黃球更傾向于跑到左邊,讓藍球更傾向于跑到右邊,這樣輸出的概率分布就發(fā)生了變化。

這就是神經(jīng)網(wǎng)絡在做的事情,就是對參數(shù)的不斷優(yōu)化,讓不同的輸入有不同的輸出分布。

3.上下文學習

ChatGPT火起來以后,在大模型這里,情況有些不同。大模型有了一種新的能力:上下文學習

上下文的意思是說,我不需要修改模型的參數(shù),只要你先給我?guī)讉€樣例,我的輸出效果就會更好。

例如我想讓模型做算術,我就先告訴模型1+1=2,2+2=4,然后就可以讓它計算318489*214764728了

這是很不可思議的一件事情,雖然現(xiàn)在的神經(jīng)網(wǎng)絡中確實會有一些“活參數(shù)”(你可以簡單理解為神經(jīng)網(wǎng)絡內(nèi)部有些數(shù)值是根據(jù)輸入動態(tài)改變的,實際上沒有“活參數(shù)”這樣的術語),但準確率提高一定意味著這些“活參數(shù)”做了一些事情。

當然啦,其實上下文目前依然是迷霧重重的一個存在,但也不是不能類比:

假設我們給出了如下的上下文學習的示例

我們拿出一個訓練好的模型,假設我給模型幾個例子,這些例子與以前的東西有些不同(它們的區(qū)別不在于球的顏色,而在于內(nèi)部的文字),根據(jù)一些研究,模型在做的可能是在內(nèi)部擬合出了某種東西。

所以有可能模型是做了類似于這么一件事情:

肯定是不準確的,但相當于模擬出一個更小的高爾頓板

即模型在內(nèi)部構造了一個更小的模型,這樣,這些輸入至少很難再掉到A、E兩個口了

當然,上下文學習還是太復雜、太神秘了,這個例子肯定有很多不合適的地方,但是也能夠說出一些“反直覺”的事情:

這兩種示例的結(jié)果應該是相似的,不會差別很大

假設左邊的示例(即球(是B類,球2是C類,球3是D類)是正確的,右邊的示例是錯誤的,上面兩種情況的結(jié)果應該是相似的。

因為:(1)正確的輸入輸出對對上下文學習的影響是有限的,更重要的是示例和實際測試樣例的結(jié)構相似性

(2)輸出的分布是重要的,輸入輸出的配對沒有那么重要

(3)這可能是因為大模型本身就具有大量的知識

4.思維鏈

思維鏈(Chain of thought,CoT)也是隨著大模型比較火的一個東西,簡單來說,我們不是讓模型一次得出答案,而是一步步得出答案

直接預測比較困難

例如計算2+8*3,我們不是讓大模型直接突出一個結(jié)果(例如30),而是讓模型一步步來做,模型就會先算8*3=24,然后2+24=26

還是對于這個模型,這時我們就讓大模型來預測這個球會落到哪個洞里,大模型直接預測確實會比較麻煩,但如果我們讓大模型對于每一步都進行預測,情況就會好很多:

走一步算一步,你甚至可以多獲得很多狀態(tài)

如上圖,我們一個個預測,于是來到了如下的狀態(tài):

如圖,在這種中間狀態(tài)下,小球就不會去A和B了

在這種狀態(tài)下,小球只會落在C、D、E之中了,假設真正的結(jié)果是D,那么這樣正確率相對就提高了。

回到論文中,ToT也是類似的想法:

ToT方法

不過這個模型的推理還可以回去的,比較神奇(就是通過這個圖我想到了這個模型)


希望能幫助大家理解吧。

【AI雜談】借助高爾頓板理解AI概念的評論 (共 條)

分享到微博請遵守國家法律
双峰县| 万源市| 阿尔山市| 榆社县| 金湖县| 澎湖县| 定远县| 晋城| 宿松县| 石柱| 广元市| 镇平县| 阳城县| 永城市| 济宁市| 亳州市| 筠连县| 开江县| 湄潭县| 大港区| 桓台县| 海宁市| 额敏县| 永新县| 酒泉市| 牟定县| 广安市| 曲水县| 威信县| 从江县| 大余县| 峨山| 鄂托克旗| 牡丹江市| 锦州市| 双城市| 德钦县| 祁连县| 三台县| 涪陵区| 横山县|