最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

29.2 ResNet為什么能訓練出1000層的模型【動手學深度學習v2】

2022-03-01 16:59 作者:如果我是泡橘子  | 我要投稿

ResNet為什么能訓練出1000層的模型?


如何避免梯度消失?


  • 將乘法運算變成加法運算(ResNet就是這么做的,特別是殘差連接(Residual Connection))



Residual如何處理梯度消失?


假設有一個預測模型:y = f(x)

  • x:輸入
  • f:表示神經(jīng)網(wǎng)絡模型
  • y:輸出



w:權重


藍色部分:

  • 表示原有模型某一層的 w 的更新計算(輸出 y 中省略了損失函數(shù))
  • η:學習率
  • y 對 w 的梯度不能太小,如果太小的話,η 無論多大都不會起作用,并且也會影響數(shù)值的穩(wěn)定性


紫色部分:

  • y‘ = f(x) + g( f(x) ) 表示使用堆疊的方式對原有的模型進行加深之后的模型

  • 后面的部分表示 y' 對w的梯度,,經(jīng)過鏈式法則展開之后:第二項 y‘ 關于 w 的梯度和之前藍色部分的結果是一樣的,沒有任何變化;第一項 g(y) 關于 y 的梯度是新加的層的輸出對輸入的導數(shù),它和預測值與真實值之間的差別有關系,假設預測的值和真實值之間的差別比較小的話,第一項的值就會變得特別小(假設所加的層的擬合能力比較強,第一項就會變得特別小,在這種情況下,和第二項相乘之后,乘積的值就會變得特別小,也就是梯度就會變得特別小,就只能增大學習率,但可能增大也不是很有用,因為這是靠近底部數(shù)據(jù)層的更新,如果增加得太大,很有可能新加的層中的w就已經(jīng)很大了,這樣的話可能會導致數(shù)值不穩(wěn)定)
  • 正是因為乘法的存在,所以如果中間有一項比較小的話,可能就會導致整個式子的乘積比較小,越到底層的話乘積就越小


綠色部分:

  • y‘' = f(x) + g( f(x) ) 表示使用殘差連接的方式對原有的模型進行加深之后的模型輸出
  • 使用加法的求導對模型表達式進行展開得到兩項,第一項和前面所說的一樣,就是藍色的部分
  • 對于這兩項來說,就算第二項的值比較小,但還是有第一項的值進行補充(大數(shù)加上一個小數(shù)還是一個大數(shù),但是大數(shù)乘以一個小數(shù)就可能變成小數(shù)),正是由于跨層數(shù)據(jù)通路的存在,模型底層的權重相比于模型加深之前不會有大幅度的縮小


靠近數(shù)據(jù)端的權重 w 難以訓練,但是由于加入了跨層數(shù)據(jù)通路,所以在計算梯度的時候,上層的loss可以通過跨層連接通路直接快速地傳遞給下層,所以在一開始,下面的層也能夠拿到比較大的梯度


梯度大小的角度來解釋,residual connection 使得靠近數(shù)據(jù)的層的權重 w 也能夠獲得比較大的梯度,因此,不管網(wǎng)絡有多深,下面的層都是可以拿到足夠大的梯度,使得網(wǎng)絡能夠比較高效地更新





Q&A


  • 1、學習率可不可以使靠近輸出的小一點,靠近輸入的大一點,這樣會不會就可以解決梯度消失的問題?
    ?
    QA P2 - 00:00
    ?


  • 2、為什么深層的網(wǎng)絡,底層比較難訓練?是因為它拿到的梯度一般比較小嗎?
    ?
    QA P2 - 01:15
    ?





----end----

29.2 ResNet為什么能訓練出1000層的模型【動手學深度學習v2】的評論 (共 條)

分享到微博請遵守國家法律
廉江市| 临安市| 江华| 平湖市| 安图县| 北川| 若尔盖县| 威信县| 霞浦县| 陵水| 河曲县| 明星| 东安县| 苏尼特左旗| 仙桃市| 昌图县| 都匀市| 凌源市| 永定县| 永昌县| 亳州市| 芒康县| 呼玛县| 左贡县| 双鸭山市| 江达县| 马龙县| 沧州市| 龙山县| 新营市| 松江区| 通城县| 垦利县| 河源市| 合阳县| 芷江| 昂仁县| 普定县| 仁布县| 邵阳县| 永平县|