29.2 ResNet為什么能訓練出1000層的模型【動手學深度學習v2】

2022-03-01 16:59 作者:如果我是泡橘子 0人讀過 | 我要投稿

ResNet為什么能訓練出1000層的模型?

如何避免梯度消失？

Residual如何處理梯度消失？

假設有一個預測模型：y = f(x)

w：權重

藍色部分：

紫色部分：

y‘ = f(x) + g( f(x) ) 表示使用堆疊的方式對原有的模型進行加深之后的模型
后面的部分表示 y' 對w的梯度,，經(jīng)過鏈式法則展開之后：第二項 y‘ 關于 w 的梯度和之前藍色部分的結果是一樣的，沒有任何變化；第一項 g(y) 關于 y 的梯度是新加的層的輸出對輸入的導數(shù)，它和預測值與真實值之間的差別有關系，假設預測的值和真實值之間的差別比較小的話，第一項的值就會變得特別小（假設所加的層的擬合能力比較強，第一項就會變得特別小，在這種情況下，和第二項相乘之后，乘積的值就會變得特別小，也就是梯度就會變得特別小，就只能增大學習率，但可能增大也不是很有用，因為這是靠近底部數(shù)據(jù)層的更新，如果增加得太大，很有可能新加的層中的w就已經(jīng)很大了，這樣的話可能會導致數(shù)值不穩(wěn)定）
正是因為乘法的存在，所以如果中間有一項比較小的話，可能就會導致整個式子的乘積比較小，越到底層的話乘積就越小

綠色部分：

y‘' = f(x) + g( f(x) ) 表示使用殘差連接的方式對原有的模型進行加深之后的模型輸出
使用加法的求導對模型表達式進行展開得到兩項，第一項和前面所說的一樣，就是藍色的部分
對于這兩項來說，就算第二項的值比較小，但還是有第一項的值進行補充（大數(shù)加上一個小數(shù)還是一個大數(shù)，但是大數(shù)乘以一個小數(shù)就可能變成小數(shù)），正是由于跨層數(shù)據(jù)通路的存在，模型底層的權重相比于模型加深之前不會有大幅度的縮小

靠近數(shù)據(jù)端的權重 w 難以訓練，但是由于加入了跨層數(shù)據(jù)通路，所以在計算梯度的時候，上層的loss可以通過跨層連接通路直接快速地傳遞給下層，所以在一開始，下面的層也能夠拿到比較大的梯度

從梯度大小的角度來解釋，residual connection 使得靠近數(shù)據(jù)的層的權重 w 也能夠獲得比較大的梯度，因此，不管網(wǎng)絡有多深，下面的層都是可以拿到足夠大的梯度，使得網(wǎng)絡能夠比較高效地更新

Q&A

----end----

標簽：

29.2 ResNet為什么能訓練出1000層的模型【動手學深度學習v2】的評論 (共條)