關于神經網絡中對于求解權重最優(yōu)的梯度下降算法分析
2023-04-10 13:50 作者:Pasta_OldRuns | 我要投稿
比較常用的對于w權重的訓練優(yōu)化方法是----隨時間反向傳播算法
下面一步步詳細的推過去
首先要知道的知識點
知識點 1.??
h函數是每個神經元的輸出結果,在記憶網絡中當前輸出結果作為下一個神經元的記憶輸入。
如圖

U可看作是對于記憶輸入的輸入權重。
上一個輸入與WX+B 結合作為新輸入用z表示.
在一次反向傳播中,U與W是不變的。
知識點2 .?

真實值與y預測的差別,作為衡量權重是否優(yōu)秀并且根據此損失來反向優(yōu)化權重大小。
首先給出最后推出來的公式--梯度公式=

過程如下
圖中的 左側θ L/θ U? =??∑(k=1,t)?θLt/θU
上述公式右側 θLt/θU=?θLt/θZk *?θZk/U?
你可以理解為兩個偏導乘積消去Zk即輸入部分,兩個乘積部分右側等于 h[k-1]的轉置
此處推導應用知識點1部分的求導。?兩個乘積部分中左側 寫成這個形式δ(t,k) 你可以理解為平方損失(δt,k為第t時刻的損失對第k步隱藏神經元的凈輸入zk的導數)。
它也可以通過這種方式計算?

同上,也是三部分乘積分別可以寫成 對角矩陣的運算diag(f`(Zk)) 與 U的轉置 與?δ(t,k+1)?
對δ(t,k+1) 再帶入,一直代入到?δ(t,t),用當前的δ(t,t)求出k出的值。?即此部分就是反向求解的直觀部分。 如圖

再結合此圖理解一下

由此這兩部分推完,公式也就推完畢了

以上就是反向梯度優(yōu)化算法。
由于梯度爆炸或消失問題,實際上只能學習到短周期的依賴關系。這就是所謂的長程依賴問題。
也就是只適用于小規(guī)模學習。
ps:下篇簡單寫寫為什么會出現(xiàn)梯度爆炸和梯度消失,以及用RGU方法解決梯度消失的情況況同時用RGU實現(xiàn)適用大規(guī)模學習。
?
標簽: