經(jīng)典目標(biāo)檢測算法對比分析
經(jīng)典目標(biāo)檢測算法對比分析
Region Proposal RP 候選區(qū)推薦
R-CNN:Region-based convolutional neural networks
基本結(jié)構(gòu):SS提取RP+CNN提取特征+SVM分類+Bounding boxes Regression
缺點(diǎn):
改進(jìn)點(diǎn):
評價指標(biāo) mAP從DPM HSC的34.3%,提上到66%
引入RPN+CNN
訓(xùn)練步驟繁瑣(微調(diào)網(wǎng)絡(luò)+訓(xùn)練SVM+訓(xùn)練bbox);
訓(xùn)練及推理速度慢;
訓(xùn)練占用內(nèi)存大;
Fast R-CNN:Region-based convolutional neural networks
基本結(jié)構(gòu):SS提取RP+CNN提取特征+Softmax分類+多任務(wù)損失函數(shù)Bounding boxes Regression
缺點(diǎn):
改進(jìn)點(diǎn):
評價指標(biāo) mAP從R-CNN的66%,提上到70%
推理耗時3s
通過SS提取RP耗時長(耗時2-3s),特征提取耗時0.32s;
無法滿足實(shí)時推理的需求;
沒有做到端到端的訓(xùn)練測試;
CNN模塊可以利用CNN,但是區(qū)域推薦出還是使用CPU
Faster R-CNN:Fast Region-based convolutional neural networks
基本結(jié)構(gòu):RPN提取RP+CNN提取特征+Softmax分類+多任務(wù)損失函數(shù)Bounding boxes Regression
缺點(diǎn):
改進(jìn)點(diǎn):
同時提高了檢測精度和速度;
實(shí)現(xiàn)了端到端的訓(xùn)練和推理框架;
生成RP僅需要10ms
無法滿足實(shí)時推理的需求;
獲取Region Proposal,再對每個Region Proposal分類,計算量仍然比較大;
Mask R-CNN:通用實(shí)例分割架構(gòu)
基本結(jié)構(gòu):ResNeXt提取特征+RPN提取RP+RoI Align+Faster R-CNN+FCN+Softmax分類+多任務(wù)損失函數(shù)Bounding boxes Regression
缺點(diǎn):
改進(jìn)點(diǎn):
Mask RCNN以Faster RCNN原型,增加了一個分支用于分割任務(wù),對于Faster RCNN的每個Proposal Box都要使用FCN進(jìn)行語義分割,分割任務(wù)與定位、分類任務(wù)是同時進(jìn)行,實(shí)現(xiàn)語義分割;
引入了RoI Align代替Faster RCNN中的RoI Pooling,RoI Pooling并不是按照像素一一對齊的(pixel-to-pixel alignment),對bbox的影響不是很大,但對于mask的精度影響較大;
引入語義分割分支,實(shí)現(xiàn)了mask和class預(yù)測的關(guān)系的解耦,mask分支只做語義分割,類型預(yù)測的任務(wù)交給另一個分支,與原本的FCN網(wǎng)絡(luò)是不同的,原始的FCN在預(yù)測mask時還用同時預(yù)測mask所屬的種類
無法滿足實(shí)時推理的需求;
獲取Region Proposal,再對每個Region Proposal分類,計算量仍然比較大;
YOLO:one-stage的目標(biāo)檢測算法,將物體的定位和分類在一起完成,在一個輸出層回歸bounding box的位置和bounding box所屬類別
基本結(jié)構(gòu):CNN(Google inceptionV1網(wǎng))提取特征+目標(biāo)檢測層( grid,NMS篩選層)+Softmax分類+多任務(wù)損失函數(shù)Bounding boxes Regression
缺點(diǎn):
改進(jìn)點(diǎn):
圖像分區(qū):將圖像隱式的分割為S X S個網(wǎng)格,當(dāng)物體中心落在哪個網(wǎng)格里哪個網(wǎng)格就負(fù)責(zé)預(yù)測
計算量?。簭埩看笮≈挥?
實(shí)現(xiàn)了實(shí)時檢測;
YOLO將目標(biāo)檢測任務(wù)轉(zhuǎn)換成一個回歸問題,大大加快了檢測的速度,使得YOLO可以每秒處理45張圖像。而且由于每個網(wǎng)絡(luò)預(yù)測目標(biāo)窗口時使用的是全圖信息,使得false positive比例大幅降低
沒有了Region Proposal機(jī)制,只使用7*7的網(wǎng)格回歸會使得目標(biāo)不能非常精準(zhǔn)的定位,這也導(dǎo)致了YOLO的檢測精度并不是很高;