關于神經網絡中對于求解權重最優(yōu)的梯度下降算法分析

2023-04-10 13:50 作者:Pasta_OldRuns 0人讀過 | 我要投稿

比較常用的對于w權重的訓練優(yōu)化方法是----隨時間反向傳播算法

下面一步步詳細的推過去

首先要知道的知識點

知識點 1.??

h函數是每個神經元的輸出結果，在記憶網絡中當前輸出結果作為下一個神經元的記憶輸入。

如圖

U可看作是對于記憶輸入的輸入權重。

上一個輸入與WX+B 結合作為新輸入用z表示.

在一次反向傳播中，U與W是不變的。

知識點2 .?

真實值與y預測的差別，作為衡量權重是否優(yōu)秀并且根據此損失來反向優(yōu)化權重大小。

首先給出最后推出來的公式--梯度公式=

過程如下

圖中的左側θ L/θ U? =??∑(k=1,t)?θLt/θU

上述公式右側 θLt/θU=?θLt/θZk *?θZk/U?

你可以理解為兩個偏導乘積消去Zk即輸入部分，兩個乘積部分右側等于 h[k-1]的轉置

此處推導應用知識點1部分的求導。?兩個乘積部分中左側寫成這個形式δ(t,k) 你可以理解為平方損失（δt,k為第t時刻的損失對第k步隱藏神經元的凈輸入zk的導數）。

它也可以通過這種方式計算?

同上，也是三部分乘積分別可以寫成對角矩陣的運算diag（f`(Zk)）與 U的轉置與?δ(t,k+1)?

對δ(t,k+1) 再帶入，一直代入到?δ(t,t)，用當前的δ(t,t)求出k出的值。?即此部分就是反向求解的直觀部分。如圖

再結合此圖理解一下

由此這兩部分推完，公式也就推完畢了

以上就是反向梯度優(yōu)化算法。

由于梯度爆炸或消失問題，實際上只能學習到短周期的依賴關系。這就是所謂的長程依賴問題。

也就是只適用于小規(guī)模學習。

ps：下篇簡單寫寫為什么會出現(xiàn)梯度爆炸和梯度消失，以及用RGU方法解決梯度消失的情況況同時用RGU實現(xiàn)適用大規(guī)模學習。

?

標簽：

關于神經網絡中對于求解權重最優(yōu)的梯度下降算法分析的評論 (共條)