梯度求解中出現(xiàn)的梯度消失問(wèn)題以及GRU解決此問(wèn)題
2023-04-10 14:06 作者:Pasta_OldRuns | 我要投稿

由于圖中r部分會(huì)隨著神經(jīng)元增多不斷重復(fù)乘積,當(dāng)r<1在長(zhǎng)程中會(huì)出現(xiàn)梯度越來(lái)越小即梯度消失,當(dāng)r>1會(huì)出現(xiàn)越來(lái)越大直至爆炸(新輸入的影響相較梯度過(guò)小無(wú)法繼續(xù)訓(xùn)練更新參數(shù))。
綜上為實(shí)現(xiàn)長(zhǎng)程依賴,解決梯度消失。通過(guò)使r<1使r=1即diag部分=1且u=1
即f`(Zt)=1和Ut=1
根據(jù)知識(shí)點(diǎn)1容易知道?

但是由于ht與xt之間變?yōu)榫€性這就導(dǎo)致丟棄了很多數(shù)據(jù),因此要改造成非線性。

具體實(shí)現(xiàn) Gated Recurrent Unit簡(jiǎn)稱 GRU借助門來(lái)解決
用重置門實(shí)現(xiàn)了非線性下可能導(dǎo)致的飽和問(wèn)題。
用更新門實(shí)現(xiàn)更新。
門控循環(huán)單元如下

長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM )如下

不做推導(dǎo)(若在編程使用中可直接調(diào)用GRU無(wú)需知道原理),可自行查閱資料這里僅供了解。
梯度爆炸,設(shè)置截?cái)嗉纯删徑膺^(guò)大問(wèn)題。較簡(jiǎn)單。
綜上僅供了解。
標(biāo)簽: