撐起計算機視覺半邊天的ResNet【論文精讀】

論文:Deep Residual Learning for Image Recognition
BIB:@article{he2016deep,
title={Deep Residual Learning For Image Recognition},
author={he, kaiming and zhang, xiangyu and ren, shaoqing and sun, jian},
journal={2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)},
pages={770--778},
year={2016}
}
原文鏈接:https://ieeexplore.ieee.org/document/7780459
經(jīng)典ResNet,現(xiàn)有深度卷積神經(jīng)網(wǎng)絡(luò)有一半可能性是在用ResNet或者其變種,

摘要:深度神經(jīng)網(wǎng)絡(luò)非常難訓(xùn)練
做了一個使用殘差學(xué)習(xí)的框架來使得訓(xùn)練非常深的網(wǎng)絡(luò)比之前容易很多
把這些層作為一個學(xué)習(xí)殘差函數(shù)相對于層輸入的一個方法,而不是跟之前一樣的學(xué)習(xí)unreferenced functions
提供了很多實驗證據(jù)來證明這些殘差網(wǎng)絡(luò)非常容易訓(xùn)練而且可以得到很好的精度特別是層增加了之后
在ImageNet數(shù)據(jù)集上使用了152層,比VGG多了8倍但是更低的復(fù)雜度,用這些殘差網(wǎng)絡(luò)做了一個ensemble之后得到了3.57%的測試精度,這個結(jié)果使他們贏得了ImageNet 2015年競賽,也分析了在CIFAR-10訓(xùn)練100到1000層網(wǎng)絡(luò)

對很多視覺的任務(wù)來說深度是非常重要的
僅僅將我們的網(wǎng)絡(luò)換成了我們之前學(xué)習(xí)到的殘差網(wǎng)絡(luò)得到了28%的相對改進在COCO目標(biāo)檢測數(shù)據(jù)集上,因此贏得了ImageNet第一名的檢測、定位,COCO的檢測和分割

計算機視覺慣例一般會在第一頁放上一張比較好看的圖對問題的描述或者主要結(jié)果,越好看越好
計算機圖形學(xué)可能將一張圖放在標(biāo)題上面,因為對圖形學(xué)來說視覺更重要一點 ,開創(chuàng)這個風(fēng)格的第一人是Randy ,CMU的一個教授
圖1 左圖是訓(xùn)練誤差 右圖測試誤差在CIFAR-10上
用了20層和56層plain network(即沒有加殘差的時候)
x軸是輪數(shù),y軸是錯誤率
56層更深更大的網(wǎng)絡(luò)其誤差率反而更高,訓(xùn)練誤差和測試誤差都更高
在訓(xùn)練更深的網(wǎng)絡(luò)上面是訓(xùn)練不動的,不僅僅是過擬合,更主要的是訓(xùn)練誤差不能達到很好的效果


圖4 在ImageNet上左圖沒有加殘差連接的時候18和34層,右圖加了之后34層比18層誤差更低
