最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

關(guān)于Hopfield網(wǎng)絡(luò)和Neural ODE的幾個想法

2023-04-24 17:45 作者:天高水綠  | 我要投稿

1.吸引子網(wǎng)絡(luò)(Hopfield net)基本形式為:

Xt+1?= f(WXt?+ B)

進(jìn)而

Xt+1?- Xt?= f(WXt?+ B) - Xt?= g(Xt)

顯然,這是一個以時間為layer的ResNet,并且這是差分方程離散形式,連續(xù)形式的微分方程形式表為:

dX/dt = g(X)

這就是神經(jīng)網(wǎng)絡(luò)常微分方程(Neural ODE)的形式了。所以Neural ODE是一個ResNet,并且存在解X(t) = ∫g(X)dt + X(0)和吸引子(dX/dt = 0時的X值)。

?

2.既然Neural ODE集三者于一體,那么其吸引子必然可以分為穩(wěn)定、周期、不穩(wěn)定吸引子,其中也包括不穩(wěn)定吸引子中的混沌吸引子。

Neural ODE也可以使用李雅普諾夫第一法(局部線性化)、李雅普諾夫第二法(能量函數(shù)XTPX)進(jìn)行分析,也可以使用李雅普諾夫指數(shù)(計算每個基向量在局部線性作用下其模長是膨脹、收縮還是不變)對其吸引子進(jìn)行分析。

既然存在吸引子,也許根據(jù)大腦結(jié)構(gòu),使用混沌吸引子的Neural ODE更能涌現(xiàn)出意識。

輸入X(0)→Neural ODE→輸出X(t),給定X(0)、X(t)與t,訓(xùn)練W,Neural ODE也許就是這么工作的,這是“一層”O(jiān)DE網(wǎng)絡(luò),其實不止一層,真正的層數(shù)是t,不過不同于普通神經(jīng)網(wǎng)絡(luò),這t層的參數(shù)都是W。當(dāng)然,設(shè)定權(quán)重W為W(t)來學(xué)習(xí),也許可以增加網(wǎng)絡(luò)效果,相當(dāng)于每層是不同權(quán)重,也許這樣更接近神經(jīng)網(wǎng)絡(luò)的本質(zhì),就是用來擬合任何函數(shù)。同理還可以設(shè)定為W(t, X),詳細(xì)在后面介紹。

?

3.計算機(jī)本質(zhì)上只能計算。機(jī)器人是通過計算機(jī)計算后(計算坐標(biāo)與變換坐標(biāo)需要的機(jī)械運動群中的元素)輸出的指令變成電路中的信號驅(qū)動機(jī)械結(jié)構(gòu)形成行為。

人也同理使用大腦。外界信息輸入后,也許會輸入一個ODE網(wǎng)絡(luò),經(jīng)過思考時間t后輸出決策X(t)。如果t足夠長,輸出的X(t)就處于吸引集(吸引子)中,因為人類神經(jīng)網(wǎng)絡(luò)大部分是混沌吸引子,所以在一定范圍內(nèi)確定但是在精細(xì)上不同。如果t過短,未達(dá)吸引集,那么不輸出,表現(xiàn)為生疏或者沒想好。習(xí)慣養(yǎng)成包括習(xí)慣性動作就是縮短到達(dá)吸引子的時間t。

?

4.也許大腦需要注意力機(jī)制,也許只需要吸引子網(wǎng)絡(luò),這里提出一種結(jié)合注意力機(jī)制與吸引子網(wǎng)絡(luò)的辦法:

輸入X→注意力機(jī)制→輸出作為X(0)→ODE吸引子網(wǎng)絡(luò)→輸出X(t)→一個降維網(wǎng)絡(luò)(可以是softmax)→輸出決策output

或者注意→吸引→注意也可以。

?

5.信息的實時輸入也許會對網(wǎng)絡(luò)輸出產(chǎn)生卷積效果。

?

6.神經(jīng)網(wǎng)絡(luò)的最終目標(biāo)就是對任何函數(shù)進(jìn)行最完美的擬合。進(jìn)行目標(biāo)的方法就是不斷的改變神經(jīng)網(wǎng)絡(luò)的架構(gòu)與增大規(guī)模。改變架構(gòu),本質(zhì)上就是在改變加權(quán)的處理方式。Transformer架構(gòu)處理權(quán)重的方法就相當(dāng)于讓權(quán)重變成一個關(guān)于輸入X的函數(shù),即W(X)。

對于Neural ODE,它本質(zhì)上是一個t層的神經(jīng)網(wǎng)絡(luò),t∈R,它的局限性在于它在每一層網(wǎng)絡(luò)結(jié)構(gòu)中的共享一個權(quán)重W,這可能是限制其擬合效果的原因之一。于是我們可以做如下改進(jìn),將權(quán)重W設(shè)置為一個有關(guān)t的函數(shù)W(t),是他在這t層中,每一層都是不同的。同時為了提高其擬合能力,我們還可以模仿Transformer的自注意力機(jī)制,讓它的權(quán)重也與輸入X相關(guān)聯(lián),即W(t, X),模仿Transformer的結(jié)構(gòu),使W(t, X)也擁有一定的參數(shù)Wk(t)、Wq(t)、Wv(t)由他們來作用X經(jīng)過自注意力操作形成W(t, X),就像Transformer做的那樣。


Transformer自注意力機(jī)制結(jié)構(gòu)

這樣新的Neural ODE(以下寫為new Neural ODE)的離散形式表示為:

Xt+1?- Xt?= f(W(t, Xt)Xt?+ B(t)) - Xt?= g(Xt, t)

其連續(xù)形式為:

dX/dt = g(X, t)

f為激活函數(shù)σ。普通離散的神經(jīng)網(wǎng)絡(luò)相當(dāng)于對有限的σ進(jìn)行線性組合,而new Neural ODE這相當(dāng)于讓無限個σ進(jìn)行組合,其擬合效果必然會更好。

也許new Neural ODE會成為神經(jīng)網(wǎng)絡(luò)的統(tǒng)一模型或者終極形態(tài)(擬合任何函數(shù)就是在解微分方程),而且其離散化表示之一就是Transformer架構(gòu),new Neural ODE的權(quán)重如何訓(xùn)練是一個問題。Transformer作為其退化,表示具有離散性質(zhì),更好訓(xùn)練。其編碼層就是一個不斷達(dá)到吸引子的過程。Neural ODE使用伴隨靈敏度方法擬合,也許可以為new Neural ODE的擬合尋找思路。

(純屬私人想法記錄)

關(guān)于Hopfield網(wǎng)絡(luò)和Neural ODE的幾個想法的評論 (共 條)

分享到微博請遵守國家法律
甘泉县| 尤溪县| 客服| 克什克腾旗| 天津市| 彭水| 西乌| 兴义市| 邳州市| 凯里市| 格尔木市| 沙坪坝区| 武夷山市| 平邑县| 章丘市| 高淳县| 隆昌县| 金乡县| 康平县| 贵阳市| 兰州市| 正定县| 噶尔县| 观塘区| 乌海市| 郓城县| 定南县| 永春县| 郑州市| 临武县| 广德县| 开江县| 叶城县| 海南省| 黎城县| 西畴县| 上思县| 永年县| 北流市| 固始县| 台东县|