目標(biāo)檢測(cè)基礎(chǔ)知識(shí)大全!快進(jìn)來(lái)收藏啦!
來(lái)源:投稿 作者:LSC
編輯:學(xué)姐
「目標(biāo)檢測(cè)問(wèn)題是識(shí)別圖片中有哪些物體并且找到物體的存在位置?!?/strong>
1.特點(diǎn)
目標(biāo)種類(lèi)與數(shù)量繁多問(wèn)題
目標(biāo)尺度不均問(wèn)題
遮擋、噪聲等外部環(huán)境干擾
2.數(shù)據(jù)集
2.1 VOCS數(shù)據(jù)集
PASCAL VOC挑戰(zhàn)賽(The PASCAL Visual Object Classes)是一個(gè)世界級(jí)的計(jì)算機(jī)視覺(jué)挑戰(zhàn)賽。

4大類(lèi),20小類(lèi)
VOC2007: 9936圖片/24640目標(biāo)
VOC2012: 23080圖片/54900目標(biāo)
2.2 COCO數(shù)據(jù)集
起源于微軟2014年出資標(biāo)注的「MS COCO」數(shù)據(jù)庫(kù),全稱(chēng)是Microsoft Common Objects in Context

包含20萬(wàn)個(gè)圖像
80個(gè)類(lèi)別
超過(guò)50萬(wàn)個(gè)目標(biāo)標(biāo)注
平均每個(gè)圖像的目標(biāo)數(shù)為7.2
3.評(píng)價(jià)指標(biāo)
3.1 GroundTruth

目標(biāo)檢測(cè)的ground truth是指: 類(lèi)別+真實(shí)邊界框坐標(biāo)(x,y,w,h)
假設(shè)上圖尺寸為1000*800px

3.2 IOU(交并比,Intersection over Union)

生成的預(yù)測(cè)框會(huì)很多,首先過(guò)濾掉低類(lèi)別置信度的檢測(cè)結(jié)果,再使用IoU作為邊界框正確性的度量指標(biāo)。

3.3 基本指標(biāo)

預(yù)測(cè)結(jié)果中的正樣本就是有畫(huà)框的地方,負(fù)樣本就是沒(méi)有框的地方(一般是背景)。
3.4 AP與mAp


Precision 準(zhǔn)確率/查準(zhǔn)率
Recall 召回率/查全率
AP(Average Precision) ?用11點(diǎn)法、近似面積法求得
mean AP: 每個(gè)類(lèi)別所得到AP的均值
「mean與average」

mean 算數(shù)平均
average 包含其他的度量標(biāo)準(zhǔn)
Average P: ?P值需要設(shè)計(jì)度量規(guī)則讓它均衡
mean AP: ?AP夠均衡了,直接mean即可
「AP計(jì)算方法: 11點(diǎn)法」

R = [0, 0.1, 0.2, 0.3.....,0.7, 0.8, 0.9, 1]
P = [1, 0.666, 0.4285, 0.4285, ....., 0, 0, 0]

3.5 案例演示

(1)根據(jù)IoU劃分TP&FP
(2)按置信度的從大到小,計(jì)算P值和R值
(3)繪制P-R曲線(xiàn),進(jìn)行AP計(jì)算
多個(gè)與GT重疊的候選框均符合條件時(shí),選取IoU最高的為T(mén)P,其余均為FP。

AP 計(jì)算方法: 面積法
12年后開(kāi)始使用面積法
AP可以解釋為P-R曲線(xiàn)的近似AUC(面積)
修正PR曲線(xiàn)為單調(diào)遞減,進(jìn)行AP計(jì)算


4. 腦圖,上述總結(jié)

5. 算法發(fā)展總覽
時(shí)間線(xiàn)梳理

6. 傳統(tǒng)目標(biāo)檢測(cè)流程
6.1

區(qū)域選擇: 通常采用滑動(dòng)窗口方法
特征提取: 采用SIFT、HOG等
分類(lèi)器: 采用SVM、Adaboost等機(jī)器學(xué)習(xí)算法
6.2傳統(tǒng)區(qū)域選擇

「滑動(dòng)窗口法」
是一種暴力搜索,隨機(jī)設(shè)計(jì)一個(gè)窗口,讓它在圖片上滑動(dòng),隨機(jī)搜索區(qū)域。
特點(diǎn): 任務(wù)相對(duì)獨(dú)立,需要人工設(shè)計(jì)尺寸,大量冗余操作,定位不準(zhǔn)確。
「CNN更有效」

特點(diǎn): 權(quán)值共享、減少滑動(dòng)窗口的冗余,定位不準(zhǔn)

6.3 傳統(tǒng)特征提取
「特征提取」

顏色特征: 顏色分布直方圖
形狀特征: SIFT、HoG
紋理特征: 反復(fù)出現(xiàn)的局部模式
邊緣特征: canny、sobel
7 基于深度學(xué)習(xí)的檢測(cè)算法
7.1 基于anchor劃分
anchor base和anchor free

什么是anchor
anchor-base是自頂向下的
anchor-free是自底向上的

anchor-free算法是free掉的是anchor的預(yù)設(shè)過(guò)程

anchor box用ratio + scale描述:
feature Map的點(diǎn)來(lái)決定位置
scale來(lái)表示目標(biāo)的大小
aspect ratio來(lái)表示目標(biāo)的形狀
7.2一階段和兩階段
two stage算法流程

one stage算法流程

常見(jiàn)的two-stage算法
經(jīng)典發(fā)展線(xiàn): RCNN->SPP Net->Fast R-CNN->Faster R-CNN
其他: Cascade R-CNN、 Guided Anchoring
「常見(jiàn)one-stage算法」
YOLO系列: YOLO v1-v5
SSD系列: SSD、DSSS、 FSSD
其他經(jīng)典: RefineDet
https://github.com/hoya012/deep_learning_object_detection
7.3 NMS
非極大值抑制(Non-maximum suppression, NMS)

設(shè)定目標(biāo)框的置信度閾值,常用的閾值是0.5左右
根據(jù)置信度降序排列候選框列表
選取置信度最高的框A添到輸出列表,將其從候選框列表中刪除
候選框列表中的所有框依次與A計(jì)算IoU,刪除大于閾值的候選框
重復(fù)上述過(guò)程,直到候選框列表為空,返回輸出列表
8.anchor-base算法結(jié)構(gòu)
8.1算法結(jié)構(gòu)圖

8.2主干網(wǎng)絡(luò)(backbone)
用于進(jìn)行特征提取,生成特征圖供后面的網(wǎng)絡(luò)使用
常見(jiàn): VGG、ResNet、darknet

網(wǎng)絡(luò)越來(lái)越深:
(1)網(wǎng)絡(luò)越深非線(xiàn)性表達(dá)能力越強(qiáng)
(2)網(wǎng)絡(luò)越深,越深層次的特征對(duì)于圖像最初的變化越不敏感,魯棒性越好,參數(shù)多,網(wǎng)絡(luò)越“聰明”,泛化能力強(qiáng)
8.3感受野
「(1)定義:」
卷積神經(jīng)網(wǎng)絡(luò)每一層輸出的特征圖(feature map)上的像素點(diǎn)在原始圖像上映射的區(qū)域大小。

(2)理論感受野的計(jì)算

k: kernel size
p: padding size
s: stride size
n: feature map size為n*n
r: 感受野的size為r*r
J: feature map上前進(jìn)1步相當(dāng)于輸入圖像上前進(jìn)個(gè)多少像素
「(3)實(shí)際感受野的表現(xiàn)」

8.4 Neck部分
放在backbone和head之間的,為了更好的利用backbone提取的特征。
FPN(Feature Pyramid Network, 特征金字塔網(wǎng)絡(luò))


8.5 Head部分
檢測(cè)頭
利用特征圖進(jìn)行最終目標(biāo)檢測(cè)的結(jié)構(gòu)
8.6 腦圖總結(jié)

關(guān)注【學(xué)姐帶你玩AI】公眾號(hào)
后臺(tái)回復(fù)“CVPR”免費(fèi)領(lǐng)取學(xué)姐整理的目標(biāo)檢測(cè)論文合集!
另有CV其他細(xì)分方向!同學(xué)們可以按規(guī)則領(lǐng)取o( ̄▽?zhuān)?o