關(guān)于Hopfield網(wǎng)絡(luò)和Neural ODE的幾個想法
1.吸引子網(wǎng)絡(luò)(Hopfield net)基本形式為:
Xt+1?= f(WXt?+ B)
進(jìn)而
Xt+1?- Xt?= f(WXt?+ B) - Xt?= g(Xt)
顯然,這是一個以時間為layer的ResNet,并且這是差分方程離散形式,連續(xù)形式的微分方程形式表為:
dX/dt = g(X)
這就是神經(jīng)網(wǎng)絡(luò)常微分方程(Neural ODE)的形式了。所以Neural ODE是一個ResNet,并且存在解X(t) = ∫g(X)dt + X(0)和吸引子(dX/dt = 0時的X值)。
?
2.既然Neural ODE集三者于一體,那么其吸引子必然可以分為穩(wěn)定、周期、不穩(wěn)定吸引子,其中也包括不穩(wěn)定吸引子中的混沌吸引子。
Neural ODE也可以使用李雅普諾夫第一法(局部線性化)、李雅普諾夫第二法(能量函數(shù)XTPX)進(jìn)行分析,也可以使用李雅普諾夫指數(shù)(計算每個基向量在局部線性作用下其模長是膨脹、收縮還是不變)對其吸引子進(jìn)行分析。
既然存在吸引子,也許根據(jù)大腦結(jié)構(gòu),使用混沌吸引子的Neural ODE更能涌現(xiàn)出意識。
輸入X(0)→Neural ODE→輸出X(t),給定X(0)、X(t)與t,訓(xùn)練W,Neural ODE也許就是這么工作的,這是“一層”O(jiān)DE網(wǎng)絡(luò),其實不止一層,真正的層數(shù)是t,不過不同于普通神經(jīng)網(wǎng)絡(luò),這t層的參數(shù)都是W。當(dāng)然,設(shè)定權(quán)重W為W(t)來學(xué)習(xí),也許可以增加網(wǎng)絡(luò)效果,相當(dāng)于每層是不同權(quán)重,也許這樣更接近神經(jīng)網(wǎng)絡(luò)的本質(zhì),就是用來擬合任何函數(shù)。同理還可以設(shè)定為W(t, X),詳細(xì)在后面介紹。
?
3.計算機(jī)本質(zhì)上只能計算。機(jī)器人是通過計算機(jī)計算后(計算坐標(biāo)與變換坐標(biāo)需要的機(jī)械運動群中的元素)輸出的指令變成電路中的信號驅(qū)動機(jī)械結(jié)構(gòu)形成行為。
人也同理使用大腦。外界信息輸入后,也許會輸入一個ODE網(wǎng)絡(luò),經(jīng)過思考時間t后輸出決策X(t)。如果t足夠長,輸出的X(t)就處于吸引集(吸引子)中,因為人類神經(jīng)網(wǎng)絡(luò)大部分是混沌吸引子,所以在一定范圍內(nèi)確定但是在精細(xì)上不同。如果t過短,未達(dá)吸引集,那么不輸出,表現(xiàn)為生疏或者沒想好。習(xí)慣養(yǎng)成包括習(xí)慣性動作就是縮短到達(dá)吸引子的時間t。
?
4.也許大腦需要注意力機(jī)制,也許只需要吸引子網(wǎng)絡(luò),這里提出一種結(jié)合注意力機(jī)制與吸引子網(wǎng)絡(luò)的辦法:
輸入X→注意力機(jī)制→輸出作為X(0)→ODE吸引子網(wǎng)絡(luò)→輸出X(t)→一個降維網(wǎng)絡(luò)(可以是softmax)→輸出決策output
或者注意→吸引→注意也可以。
?
5.信息的實時輸入也許會對網(wǎng)絡(luò)輸出產(chǎn)生卷積效果。
?
6.神經(jīng)網(wǎng)絡(luò)的最終目標(biāo)就是對任何函數(shù)進(jìn)行最完美的擬合。進(jìn)行目標(biāo)的方法就是不斷的改變神經(jīng)網(wǎng)絡(luò)的架構(gòu)與增大規(guī)模。改變架構(gòu),本質(zhì)上就是在改變加權(quán)的處理方式。Transformer架構(gòu)處理權(quán)重的方法就相當(dāng)于讓權(quán)重變成一個關(guān)于輸入X的函數(shù),即W(X)。
對于Neural ODE,它本質(zhì)上是一個t層的神經(jīng)網(wǎng)絡(luò),t∈R,它的局限性在于它在每一層網(wǎng)絡(luò)結(jié)構(gòu)中的共享一個權(quán)重W,這可能是限制其擬合效果的原因之一。于是我們可以做如下改進(jìn),將權(quán)重W設(shè)置為一個有關(guān)t的函數(shù)W(t),是他在這t層中,每一層都是不同的。同時為了提高其擬合能力,我們還可以模仿Transformer的自注意力機(jī)制,讓它的權(quán)重也與輸入X相關(guān)聯(lián),即W(t, X),模仿Transformer的結(jié)構(gòu),使W(t, X)也擁有一定的參數(shù)Wk(t)、Wq(t)、Wv(t)由他們來作用X經(jīng)過自注意力操作形成W(t, X),就像Transformer做的那樣。

這樣新的Neural ODE(以下寫為new Neural ODE)的離散形式表示為:
Xt+1?- Xt?= f(W(t, Xt)Xt?+ B(t)) - Xt?= g(Xt, t)
其連續(xù)形式為:
dX/dt = g(X, t)
f為激活函數(shù)σ。普通離散的神經(jīng)網(wǎng)絡(luò)相當(dāng)于對有限的σ進(jìn)行線性組合,而new Neural ODE這相當(dāng)于讓無限個σ進(jìn)行組合,其擬合效果必然會更好。
也許new Neural ODE會成為神經(jīng)網(wǎng)絡(luò)的統(tǒng)一模型或者終極形態(tài)(擬合任何函數(shù)就是在解微分方程),而且其離散化表示之一就是Transformer架構(gòu),new Neural ODE的權(quán)重如何訓(xùn)練是一個問題。Transformer作為其退化,表示具有離散性質(zhì),更好訓(xùn)練。其編碼層就是一個不斷達(dá)到吸引子的過程。Neural ODE使用伴隨靈敏度方法擬合,也許可以為new Neural ODE的擬合尋找思路。
(純屬私人想法記錄)