簡(jiǎn)單聊聊圖像分類基礎(chǔ)知識(shí),小白看過來
作者:LSC 來源:投稿
編輯:學(xué)姐
基礎(chǔ)知識(shí)
1. 具體領(lǐng)域劃分
(1)多類別圖像分類
(2)細(xì)粒度圖像分類
(3)多標(biāo)簽圖像分類
(4)弱監(jiān)督與無監(jiān)督圖像分類
(5)零樣本圖像分類
2.圖像分類問題的3層境界

多類別圖像分類在不同物種的層次上識(shí)別,往往具有較大的類間方差,而類內(nèi)則具有較小的類內(nèi)誤差。

細(xì)粒度圖像分類具有更加相似的外觀和特征,導(dǎo)致數(shù)據(jù)間的類內(nèi)差異較大,分類難度也更高。

實(shí)例級(jí)分類可以看做是一個(gè)識(shí)別問題,比如人臉識(shí)別。

3.傳統(tǒng)圖像分類關(guān)鍵問題
(1)數(shù)據(jù)預(yù)處理 (2)圖像特征 (3)分類模型
分為兩種: 手工特征+分類器、從數(shù)據(jù)自動(dòng)學(xué)習(xí)特征

4. 常用的圖像分類數(shù)據(jù)集
(1) MNIST數(shù)據(jù)集: 發(fā)布于1998年,60000張圖,10類,分布均勻,數(shù)據(jù)集中的”hello world”

在票據(jù)等圖像中裁剪出數(shù)字,將其放在20*20像素的框中,并保持了長(zhǎng)寬比率,然后放在28*28的背景中。
(2) CIFAR10
MNIST的彩色增強(qiáng)版,60000張圖片,大小32*32,10類,均勻分布,都是真實(shí)圖片而不是手稿等,圖中只有一個(gè)主體目標(biāo),可以有部分遮擋,但是必須可辨識(shí)。

(3) CIFAR100
更加細(xì)粒度的CIFAR10,共100類,被分成20個(gè)超類。
每小類包含600個(gè)圖像,其中有500個(gè)訓(xùn)練圖像和100個(gè)測(cè)試圖像。每個(gè)圖像都帶有一個(gè)“精細(xì)”標(biāo)簽(它所屬的類)和一個(gè)粗糙的標(biāo)簽(它所屬的超類)


(4) PASCAL
來源于2005-2012的PASCAL Visual Object Classes(VOC項(xiàng)目),20類,來源于圖片社交網(wǎng)站flickr,總共9963張圖,24640個(gè)標(biāo)注目標(biāo)。

2005年主要用于目標(biāo)檢測(cè),從2007年開始引進(jìn)了圖像分割的標(biāo)注和人體結(jié)構(gòu)布局的標(biāo)注,2010年開始引進(jìn)了行為分類標(biāo)注。

(5)ImageNet數(shù)據(jù)集
包含21841個(gè)類別,14197122張圖片,百萬標(biāo)注框

5 評(píng)估指標(biāo)
(1)正負(fù)樣本
計(jì)標(biāo)簽為正樣本,分類為正樣本的數(shù)目為True Positive,簡(jiǎn)稱TP,標(biāo)簽為正樣本,分類為負(fù)樣本的數(shù)目為False Negative,簡(jiǎn)稱FN,標(biāo)簽為負(fù)樣本,分類為正樣本的數(shù)目為False Positive,簡(jiǎn)稱FP,標(biāo)簽為負(fù)樣本,分類為負(fù)樣本的數(shù)目為True Negative,簡(jiǎn)稱TN。

(2)精確率、召回率、F1值
精度(查準(zhǔn)率):?被判定為正樣本的測(cè)試樣本中,真正的正樣本所占的比例

召回率(查全率):?被判定為正樣本的正樣本占全部正樣本的比例

F1-score是綜合考慮了精度與召回率,其值越大模型越好。

(3)PR曲線
精度與召回率是一對(duì)相互矛盾的指標(biāo),召回率增加,精度下降,曲線與坐標(biāo)值面積越大,性能越好,對(duì)正負(fù)樣本不均衡敏感。

(4)ROC曲線與AUC

橫坐標(biāo)(假陽率)FPR=FP/(FR+TN) 正類中實(shí)際負(fù)實(shí)例占所有負(fù)實(shí)例的比例。
縱坐標(biāo)(正陽率) TPR=TP/(TP+FN) 正類中實(shí)際正實(shí)例占所有正實(shí)例的比例。
正負(fù)樣本的分布變化,ROC曲線保持不變,對(duì)正負(fù)樣本不均衡問題不敏感。
AUC(Area Under Curve):?ROC曲線下的面積,表示隨機(jī)挑選一個(gè)正樣本以及一個(gè)負(fù)樣本,分類器會(huì)對(duì)正樣本給出的預(yù)測(cè)值高于負(fù)樣本的概率。
(5)混淆矩陣
多矩陣分類模型各個(gè)類別之間的分類情況。
對(duì)于k分類問題,混淆矩陣為k*k的矩陣,元素Cij表示第i類樣本被分類器判定為第j類的數(shù)量。

主對(duì)角線的元素之和為正確分類的樣本數(shù),其他位置元素之和為錯(cuò)誤分類的樣本數(shù)。對(duì)角線之和值越大,正確率越高。
混淆矩陣可以很清晰的反映出各類別之間的錯(cuò)分概率,越好的分類器對(duì)角線上的值更大。

(6)0-1損失
只看分類的對(duì)錯(cuò),當(dāng)標(biāo)簽與與類別相等時(shí),loss為0,否則為1。
這個(gè)是真實(shí)的優(yōu)化目標(biāo),但是無法求導(dǎo)和優(yōu)化,只有理論意義。

(7)熵與交叉熵(cross entropy)
熵表示熱力學(xué)系統(tǒng)的無序程序,在信息學(xué)中用于表示信息多少,不確定性越大,概率越低,則信息越多,熵越高。
熵是概率的單調(diào)遞減的函數(shù)。

(8)KL散度
用于估計(jì)兩個(gè)分布p和q的相似性
如果p是一個(gè)已知的分布(標(biāo)簽),則-l(p,p)是一個(gè)常數(shù),此時(shí)KL散度與交叉熵l(p,q)只有一個(gè)常數(shù)的差異。

KL散度的特性是大于等于0,當(dāng)且僅當(dāng)兩個(gè)分布完全相同時(shí)等于0。

