深度之眼人工智能Paper年度會員(CV方向)
2023-07-23 21:27 作者:bili_93891819972 | 我要投稿
過擬合
對于這一點答案是顯然的,因為過擬合會讓網(wǎng)絡(luò)在訓練集上表現(xiàn)得很好,而從上圖我們可以看出,無論是在訓練集還是測試集中,擁有更深層次的網(wǎng)絡(luò)表現(xiàn)均比淺層次的網(wǎng)絡(luò)差,那顯然就不是過擬合導致的。
梯度消失/爆炸
我們先簡單回顧一下概念:梯度消失/爆炸是因為神經(jīng)網(wǎng)絡(luò)在反向傳播的時候,反向連乘的梯度小于1(或大于1),導致連乘的次數(shù)多了之后(網(wǎng)絡(luò)層數(shù)加深),傳回首層的梯度過小甚至為0(過大甚至無窮大),這就是梯度消失/爆炸的概念。
但我們知道,如今我們已經(jīng)習慣加入BN層(Batch Normalize),他可以通過規(guī)整數(shù)據(jù)的分布基本解決梯度消失/爆炸的問題,所以這個問題也不是導致深層網(wǎng)絡(luò)退化的原因。
標簽: