46 語義分割和數(shù)據(jù)集【動(dòng)手學(xué)深度學(xué)習(xí)v2】

語義分割( semantic segmentation )
- 在圖片分類中,其主要任務(wù)是給定一張圖片,識(shí)別圖片中主體物體
- 目標(biāo)檢測,也叫物體檢測,其主要任務(wù)是找出圖片中多個(gè)感興趣的物體,并且找到每個(gè)物體的具體位置(使用方形邊界框來標(biāo)注和預(yù)測圖像中的目標(biāo)),問題是這些框很多時(shí)候比較粗糙,只能標(biāo)注出大致的位置,但是無法標(biāo)注出物體各部分的具體位置以及物體與背景之間的分割線(物體的具體輪廓)
- 語義分割可以識(shí)別并理解圖像中每一個(gè)像素的內(nèi)容(將圖片中的每個(gè)像素分類到對(duì)應(yīng)的類別),其語義區(qū)域的標(biāo)注和預(yù)測是像素級(jí)的
圖像分割( image segmentation )與實(shí)例分割( instance segmentation )
圖像分割
- 分割在計(jì)算機(jī)視覺中應(yīng)用的時(shí)間比較長,最早是進(jìn)行圖片分割,給定一張圖片,通過聚類或者其他方法,將語義上比較像的像素放在一起,可能不會(huì)明確某一塊像素到底是什么,而只是像素在顏色或者像素上比較相似,然后進(jìn)行聚類
- 圖像分割將圖像劃分為若干組成區(qū)域,這類問題的方法通常利用圖像中像素之間的相關(guān)性。它在訓(xùn)練時(shí)不需要有關(guān)圖像像素的標(biāo)簽信息,在預(yù)測時(shí)也無法保證分割出的區(qū)域具有所希望得到的語義
實(shí)例分割
- 實(shí)例分割也叫同時(shí)檢測并分割( simultaneous detection and segmentation ),它研究如何識(shí)別圖像中各個(gè)目標(biāo)實(shí)例的像素級(jí)區(qū)域
- 實(shí)例分割與語義分割的不同之處在于:實(shí)例分割不僅需要區(qū)分語義,還要區(qū)分不同的目標(biāo)實(shí)例
語義分割
- 語義分割和一般分割的不同之處在于它就明確每一個(gè)像素的標(biāo)號(hào)( label )到底是什么,它屬于是有監(jiān)督的學(xué)習(xí),而一般的分割可以通過聚類來實(shí)現(xiàn)無監(jiān)督的學(xué)習(xí)
- 相比于圖片分類和目標(biāo)檢測,語義分割更加精細(xì),因?yàn)樾枰獙?duì)每一個(gè)像素的類別進(jìn)行判斷,對(duì)每一個(gè)像素生成一個(gè)標(biāo)號(hào)
應(yīng)用
背景虛化

路面分割

實(shí)例分割
- 實(shí)例分割與語義分割最大的不同在于:語義分割只關(guān)心像素所屬的類別,實(shí)例分割會(huì)將類別中具體的實(shí)例進(jìn)行區(qū)分(實(shí)例分割可以認(rèn)為是真正意義上的目標(biāo)檢測的進(jìn)化版本,實(shí)例分割不僅能夠?qū)⒏信d趣的物體檢測出來,還能將物體的邊緣描繪出來)

語義分割和數(shù)據(jù)集
最重要的語義分割數(shù)據(jù)集之一是 Pascal VOC 2012
- Pascal 是一個(gè)組織
- VOC 是一個(gè)競賽
- 2012 年的競賽,之后的競賽主要是在 2012 的基礎(chǔ)上做了一些修改
- 這個(gè)數(shù)據(jù)集有自己的格式 -- VOC格式,它是一個(gè)使用非常廣泛的格式(VOC、COCO 都是比較有名的數(shù)據(jù)集)
VOC 2012 數(shù)據(jù)集組件
- ImageSets/Segmentation:該路徑下包含用于訓(xùn)練和測試樣本的文本文件
- JPEGImages:該路徑下存儲(chǔ)著每個(gè)實(shí)例的輸入圖像
- SegmentationClass:該路徑下存儲(chǔ)著每個(gè)實(shí)例的標(biāo)簽(此處的標(biāo)簽也采用圖像格式,其尺寸和它所標(biāo)注的輸入圖像的尺寸相同;標(biāo)簽中顏色相同的像素屬于同一個(gè)語義類別)
預(yù)處理數(shù)據(jù)
- 在之前的任務(wù)中,使用再縮放圖像使其符合模型的輸入形狀,而在語義分割中,這樣做需要將預(yù)測的像素類別重新映射回原始尺寸的輸入圖像,這樣的映射可能不夠精確,尤其是在不同語義的分割區(qū)域
- 為避免這個(gè)問題,將圖像裁剪為固定尺寸,而不再是縮放:使用圖像增廣中的隨機(jī)裁剪,裁剪輸入圖像和標(biāo)簽的相同區(qū)域
總結(jié)
- 語義分割通過將圖像劃分為屬于不同語義類別的區(qū)域,來識(shí)別并理解圖像中像素級(jí)別的內(nèi)容
- 由于語義分割的輸入圖像和標(biāo)簽在像素上一一對(duì)應(yīng),輸入圖像會(huì)被隨機(jī)裁剪為固定尺寸而不是縮放
Q&A
- 1、能否做更細(xì)的語義分割,例如一個(gè)狗的頭、身體、腿進(jìn)行語義分割??QA P3 - 00:00?
- 2、B 沒有乘 256 ??QA P3 - 02:26?
- 3、目標(biāo)檢測中如果也做圖像增廣,目標(biāo)框也會(huì)做同樣的變換,如果是做圖像的傾斜、旋轉(zhuǎn)這樣的操作,目標(biāo)框的形狀可能就不是矩形了,這種情況怎么解決??QA P3 - 02:55?
- 4、如何把人像的語義分割做成老師課上用的這個(gè)效果這么好,大概需要多少訓(xùn)練集??QA P3 - 04:24?
- 5、老師,三維語義分割標(biāo)注應(yīng)該怎樣去做,是不是和二維圖像差別很大??QA P3 - 06:44?
- 6、老師,自動(dòng)駕駛用語義分割,實(shí)例分割還是目標(biāo)檢測更合適??QA P3 - 08:14?
- 7、計(jì)算機(jī)視覺和機(jī)器視覺的區(qū)別是什么??QA P3 - 10:36?
- 8、語義分割的標(biāo)注工具是什么??QA P3 - 10:44?
- 9、攝像頭怕過曝、逆光,是不是采集數(shù)據(jù)的時(shí)候包含進(jìn)去訓(xùn)練好或者數(shù)據(jù)增廣成帶逆光之類,推理的時(shí)候即使有過曝和逆光,也能正確語義分割嗎??QA P3 - 11:44?
- 10、請(qǐng)問,自動(dòng)駕駛用純視覺方案能不能做到很可靠?存疑?QA P3 - 14:59?
----end----
其他參考
1、https://zh-v2.d2l.ai/chapter_computer-vision/semantic-segmentation-and-dataset.html
標(biāo)簽: