計(jì)算機(jī)視覺 知識脈絡(luò)梳理

計(jì)算機(jī)視覺的任務(wù)是跨越圖像矩陣到語義信息的語義鴻溝。
一、圖像分類
什么是圖像分類任務(wù):建立像素到語義的映射,完成圖像數(shù)據(jù)分類.
圖像分類任務(wù)面臨的問題:角度、光照、尺度、遮擋、形變、背景雜波(背景和物體具有相似性,如雪地里面的雪狐)、類內(nèi)形變(不同形狀的同一類物品)、運(yùn)動模糊、類別繁多
為圖像分類任務(wù)設(shè)計(jì)算法,第一步就是列清楚圖像分類任務(wù)中的難點(diǎn),有針對性的融合技術(shù)給出解決方案
基于規(guī)則的分類方法:通過硬編碼方式識別類別非常困難。難以為一類數(shù)據(jù)給出一套固定的判別模式。

數(shù)據(jù)驅(qū)動的圖像分類方法:
數(shù)據(jù)集構(gòu)建
分類器設(shè)計(jì)與訓(xùn)練
輸入圖像,選擇合適的形式在模型中表示這個(gè)圖像中的特征
像素表示(維度比較高)
全局特征表示(如GIST,適用于大場景分類)
局部特征表示(如SIFT特征+詞袋模型,適用于小目標(biāo)分類)
近鄰分類器
貝葉斯分類器
線性分類器
支持向量機(jī)分類器【線性分類器的拓展】
神經(jīng)網(wǎng)絡(luò)分類器
隨機(jī)森林
Adaboost
0-1損失
多類支撐向量機(jī)損失
交叉熵?fù)p失
L1損失
L2損失
一階方法:
梯度下降
隨機(jī)梯度下降
小批量隨機(jī)梯度下降
二階方法:
牛頓法
BFGS
L-BFGS
分類器決策:處理輸入數(shù)據(jù)后,調(diào)用模型對輸入圖像進(jìn)行預(yù)測
數(shù)據(jù)驅(qū)動范式總結(jié):
數(shù)據(jù)集劃分
數(shù)據(jù)集預(yù)處理
數(shù)據(jù)增強(qiáng)
解決欠擬合與過擬合【減少算法復(fù)雜度;引入正則項(xiàng);引入dropout正則化】
超參數(shù)調(diào)整
模型集成
選擇合適的分類模型對輸入做出預(yù)測
選擇合適的損失函數(shù)計(jì)算預(yù)測值與真實(shí)值之間的差異值
選擇合適的優(yōu)化算法更新模型參數(shù)

- 基于線性分類器的圖像分類范式:

基于像素的圖像表示
經(jīng)典的圖像類別:
二值圖像:0/1
灰度圖像:0-255
彩色圖像:分為RGB三個(gè)通道,每個(gè)通道值是0-255
flatten:將圖像中相鄰?fù)ǖ赖南袼刂捣旁谝黄穑?img type="latex" class="latex" src="http://api.bilibili.com/x/web-frontend/mathjax/tex?formula=%5BR_1%2CG_1%2CB_1%2CR_2%2CG_2%2CB_2%2C%5Cdots%5D" alt="%5BR_1%2CG_1%2CB_1%2CR_2%2CG_2%2CB_2%2C%5Cdots%5D">,將高維矩陣轉(zhuǎn)換為一維向量
線性分類器定義、權(quán)值和分界面
一種線性映射,將輸入向量映射到類別標(biāo)簽。其輸出值是一個(gè)維數(shù)為標(biāo)簽數(shù)目的向量。

其中,每一個(gè)標(biāo)簽對應(yīng)的維度上的值為該輸入對應(yīng)到該標(biāo)簽的得分。對于線性分類器,取wx+b=0時(shí)那條線就是線性決策面

損失函數(shù)的定義:

定量評價(jià)給定分類器的預(yù)測值和真實(shí)值的不一致程度,其輸出通常為一個(gè)非負(fù)實(shí)值。
其輸出通??梢宰鳛榉答佇盘?,指導(dǎo)優(yōu)化算法對分類器參數(shù)進(jìn)行調(diào)整。
多類支持向量機(jī)損失,hingeloss(折頁損失)

這種損失函數(shù)的關(guān)鍵點(diǎn)在于其比較當(dāng)前類別的預(yù)測值與正確類別預(yù)測值,當(dāng)滿足時(shí)將當(dāng)前類別損失值設(shè)置為0,否則將當(dāng)前類別的損失值設(shè)定為1+兩者之差。
二、圖像檢測
圖像檢測任務(wù)
圖像檢測評價(jià)指標(biāo)
二階段檢測網(wǎng)絡(luò)
一階段檢測網(wǎng)絡(luò)
三、圖像分割
圖像分割任務(wù)
圖像分割評價(jià)指標(biāo)
語義分割網(wǎng)絡(luò)
實(shí)例分割網(wǎng)絡(luò)
四、圖像描述
循環(huán)神經(jīng)網(wǎng)絡(luò)
LSTM
注意力機(jī)制
五、圖像生成
深度生成網(wǎng)絡(luò)