最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

弱監(jiān)督視覺語義分割

2023-08-07 22:40 作者:青爺威武  | 我要投稿

簡(jiǎn)介

轉(zhuǎn)載:

  • 讓機(jī)器“一葉知秋”:弱監(jiān)督視覺語義分割

  • 弱監(jiān)督學(xué)習(xí)在語義分割中的進(jìn)展與應(yīng)用?

正文

對(duì)于語義分割任務(wù),大量的像素級(jí)別的標(biāo)注意味著無法想象的人工成本,與之相對(duì)應(yīng),人對(duì)視野內(nèi)目標(biāo)的語義分割,也無需以精細(xì)到像素級(jí)別的監(jiān)督信息為保障,而只需以弱監(jiān)督作為輔助。因此,學(xué)術(shù)界衍生出了針對(duì)弱監(jiān)督的語義分割這一前沿方向。

本報(bào)告主要是針對(duì)弱監(jiān)督視覺語義分割問題來介紹一下近兩年來的一些工作。

對(duì)于語義分割,目前大家用到最多的就是這種全卷積網(wǎng)絡(luò)。在全監(jiān)督訓(xùn)練的情況下,我們需要給定訓(xùn)練圖片及其對(duì)應(yīng)的像素級(jí)標(biāo)注的mask。然而這種像素級(jí)的mask往往很難獲取。

比如,我們?nèi)绻贗mageNet上做語義分割的話,其標(biāo)注的工作量會(huì)非常大。具體地,ImageNet上大概包括了2萬類別,如果每一類我們只標(biāo)100張圖片用于訓(xùn)練的話,最終則需要標(biāo)二百萬的訓(xùn)練圖片。如果標(biāo)注一張圖片需要五分鐘,則一個(gè)人大概需要標(biāo)注19年才能完成。因此大規(guī)模圖像的全監(jiān)督語義分割往往在數(shù)據(jù)標(biāo)注上需要耗費(fèi)大量的時(shí)間和金錢。

因此我們考慮對(duì)于語義分割任務(wù)能否采用一些相對(duì)于像素級(jí)標(biāo)注更容易獲取的標(biāo)注作為監(jiān)督信息。這里我們給出了四種簡(jiǎn)單的標(biāo)注方式,包括物體框、線條、點(diǎn)以及圖像標(biāo)簽。我們稱這些比像素級(jí)mask更容易獲取的監(jiān)督方式為弱監(jiān)督。一般來講,在這些弱監(jiān)督信息中圖像級(jí)的標(biāo)簽最容易獲取。

近期的研究:

  • 基于Bounding box的監(jiān)督

  • Dai J, He K, Sun J. BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation[J]. 2015:1635-1643.

  • Rajchl M, Lee M, Oktay O, et al. DeepCut: Object Segmentation from Bounding Box Annotations using Convolutional Neural Networks[J]. IEEE Transactions on Medical Imaging, 2016, 36(2):674-683.

  • Papandreou G, Chen L C, Murphy K, et al. Weakly- and Semi-Supervised Learning of a DCNN for Semantic Image Segmentation[J]. 2015:1742-1750.

  • Khoreva A, Benenson R, Hosang J, et al. Simple Does It: Weakly Supervised Instance and Semantic Segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017:1665-1674.

  • 基于Scribble的監(jiān)督

  • ?zgün ?i?ek, Abdulkadir A, Lienkamp S S, et al. 3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation[J]. 2016:424-432.

  • Lin D, Dai J, Jia J, et al. ScribbleSup: Scribble-Supervised Convolutional Networks for Semantic Segmentation[C]// Computer Vision and Pattern Recognition. IEEE, 2016:3159-3167.

  • 基于Point的監(jiān)督

  • Bearman A, Russakovsky O, Ferrari V, et al. What’s the Point: Semantic Segmentation with Point Supervision[C]// European Conference on Computer Vision. Springer International Publishing, 2016:549-565.

  • 基于Image-level lable的監(jiān)督

  • Vezhnevets A, Buhmann J M. Towards weakly supervised semantic segmentation by means of multiple instance and multitask learning[C]// Computer Vision and Pattern Recognition. IEEE, 2010:3249-3256.

  • Pathak D, Krahenbuhl P, Darrell T. Constrained Convolutional Neural Networks for Weakly Supervised Segmentation[J]. 2015:1796-1804.

  • Pathak D, Shelhamer E, Long J, et al. Fully Convolutional Multi-Class Multiple Instance Learning[J]. Computer Science, 2015.

  • Pinheiro P O, Collobert R. From Image-level to Pixel-level Labeling with Convolutional Networks[J]. 2015:1713-1721.

  • Papandreou G, Chen L C, Murphy K, et al. Weakly- and Semi-Supervised Learning of a DCNN for Semantic Image Segmentation[J]. 2015:1742-1750.

  • Wei Y, Liang X, Chen Y, et al. Learning to segment with image-level annotations[J]. Pattern Recognition, 2016, 59(C):234-244.

  • Shimoda W, Yanai K. Distinct Class-Specific Saliency Maps for Weakly Supervised Semantic Segmentation[M]// Computer Vision – ECCV 2016. Springer International Publishing, 2016:218-234.

  • Saleh F, Aliakbarian M S, Salzmann M, et al. Built-in Foreground/Background Prior for Weakly-Supervised Semantic Segmentation[J]. 2016.

  • Kolesnikov A, Lampert C H. Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation[C]// European Conference on Computer Vision. Springer International Publishing, 2016:695-711.

  • Qi X, Liu Z, Shi J, et al. Augmented Feedback in Semantic Segmentation Under Image Level Supervision[M]// Computer Vision – ECCV 2016. Springer International Publishing, 2016:90-105.

  • Wei Y, Liang X, Chen Y, et al. STC: A Simple to Complex Framework for Weakly-Supervised Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(11):2314-2320.

  • Roy A, Todorovic S. Combining Bottom-Up, Top-Down, and Smoothness Cues for Weakly Supervised Image Segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017:7282-7291.

  • Durand T, Mordan T, Thome N, et al. WILDCAT: Weakly Supervised Learning of Deep ConvNets for Image Classification, Pointwise Localization and Segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017:5957-5966.

  • Wei Y, Feng J, Liang X, et al. Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach[J]. 2017:6488-6496.

  • Hong S, Yeo D, Kwak S, et al. Weakly Supervised Semantic Segmentation Using Web-Crawled Videos[J]. 2017:2224-2232.

  • Wang, X., You, S., Li, X., & Ma, H. Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features. CVPR 2018.

  • Huang, Z., Wang, X., Wang, J., Liu, W., & Wang, J. Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing. CVPR 2018.

  • Ahn, J., & Kwak, S. Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation. CVPR 2018.

  • Wei, Y., Xiao, H., Shi, H., Jie, Z., Feng, J., & Huang, T. S. Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation, CVPR 2018.

  • 多種標(biāo)記混合使用

  • Papandreou G, Chen L C, Murphy K, et al. Weakly- and Semi-Supervised Learning of a DCNN for Semantic Image Segmentation[J]. 2015:1742-1750.

  • Xu J, Schwing A G, Urtasun R. Learning to segment under various forms of weak supervision[J]. 2015:3781-3790.


所以我們接下來的工作也都是圍繞如何利用圖像級(jí)的標(biāo)簽作為監(jiān)督信息,最終實(shí)現(xiàn)像素級(jí)別的分類。實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵是如何構(gòu)建訓(xùn)練圖像中圖像標(biāo)簽和像素之間的關(guān)聯(lián),即自動(dòng)的推斷出物體在圖像中的位置。進(jìn)而實(shí)現(xiàn)弱監(jiān)督的物體定位或語義分割等任務(wù)。

這是我們根據(jù)近兩年在弱監(jiān)督學(xué)習(xí)上的一些工作,主要探索了如何有效構(gòu)建圖像語義標(biāo)簽和像素之間的關(guān)聯(lián)。這些工作在弱(半)監(jiān)督的語義分割或定位等任務(wù)上都取得了當(dāng)時(shí)最好的性能。

首先是最早在PR上面一篇文章,我們提出了一種Proposal-based的方法來構(gòu)建圖像標(biāo)簽跟語義之間的關(guān)聯(lián)。

這篇文章的思路是訓(xùn)練一個(gè)多標(biāo)簽的分類網(wǎng)絡(luò),進(jìn)而利用該網(wǎng)絡(luò)對(duì)圖片產(chǎn)生的proposal進(jìn)行分類,最后將那些在某個(gè)類別上confidence比較高的proposal映射回原來的圖片,從而獲得語義標(biāo)簽和localization的關(guān)聯(lián)。我們利用這種粗糙的localization圖作為監(jiān)督信息訓(xùn)練語義分割網(wǎng)絡(luò)。

我們利用了當(dāng)時(shí)提出的Hypotheses-CNN-Pooling網(wǎng)絡(luò),訓(xùn)練了用于判別proposal類別的分類網(wǎng)絡(luò)。最后利用那些高confidence的proposal生成物體的定位圖。雖然這個(gè)工作當(dāng)時(shí)取得了比較高的分割性能,但有兩個(gè)明顯的缺點(diǎn)。首先,該方法需要對(duì)所有的proposal都做一次分類,因此會(huì)有較高的時(shí)耗。其次,直接將proposal內(nèi)的像素點(diǎn)作為物體區(qū)域會(huì)引入很多false positive像素,比如屬于背景的像素。

為了克服proposal-based方法的缺點(diǎn),我們?cè)?017年提出了一種Simple to Complex的方法。

這個(gè)方法基于了一個(gè)有意思的觀察。我們發(fā)現(xiàn)Internet上的圖片可以大致分為兩種,即簡(jiǎn)單圖片和復(fù)雜圖片。簡(jiǎn)單圖片主要是指圖片中的物體類別單一并且背景比較干凈;復(fù)雜圖片主要是指圖片中物體類別語義多樣并且背景非常雜亂。我們發(fā)現(xiàn)對(duì)于簡(jiǎn)單圖片,可以通過顯著性檢測(cè)技術(shù)有效地獲取包含前背景信息顯著圖。

從上面的圖中可以看出,在顯著圖上像素值越高,其同語義的關(guān)聯(lián)性就越大。因此在知道簡(jiǎn)單圖片語義標(biāo)簽的情況下,我們很容易通過顯著圖構(gòu)建語義標(biāo)簽跟像素點(diǎn)的關(guān)系。

基于這樣的觀察,我們提出了一種self-paced的Simple to Complex訓(xùn)練框架。我們首先從網(wǎng)絡(luò)上下載大量的簡(jiǎn)單圖片,然后通過顯著性檢測(cè)技術(shù)去獲取其對(duì)應(yīng)的顯著圖。進(jìn)而利用顯著圖和語義標(biāo)簽作為監(jiān)督信息去訓(xùn)練一個(gè)Initial的分割網(wǎng)絡(luò)。特別地,在利用顯著圖作為監(jiān)督信息的情況下每個(gè)pixel會(huì)以不同的概率屬于物體或者背景。比如屬于 “馬” 的某個(gè)像素點(diǎn)可能以0.9和0.1的概率分別屬于前景物體 “馬” 和背景。在Initial網(wǎng)絡(luò)訓(xùn)練完成后,其對(duì)簡(jiǎn)單圖片已經(jīng)具備了一定的分割能力,進(jìn)而我們利用該網(wǎng)絡(luò)預(yù)測(cè)出所有簡(jiǎn)單圖片的masks,并利用這些masks訓(xùn)練一個(gè)Enhanced語義分割網(wǎng)絡(luò)。最后我們通過Enhanced網(wǎng)絡(luò)預(yù)測(cè)更多復(fù)雜圖片的masks,并訓(xùn)練出一個(gè)更好的語義分割網(wǎng)絡(luò),即Powerful DCNN。

這個(gè)是我們構(gòu)建的Flickr-Clean 簡(jiǎn)單圖像庫及部分圖片對(duì)應(yīng)顯著圖??梢钥闯鐾ㄟ^顯著圖構(gòu)建像素和語義之間關(guān)系的方式是很有效的。

通過左邊的表格可以看出,Initial, Enhanced和Powerful網(wǎng)絡(luò)對(duì)圖像的語義分割能力在不斷增強(qiáng)。通過右邊的結(jié)果圖也可以看出分割效果變得越來越好。這個(gè)方法雖然很簡(jiǎn)單,但在Pascal VOC上比當(dāng)時(shí)最好的性能高出十個(gè)百分點(diǎn)。然而這個(gè)方法也有兩個(gè)很明顯的缺點(diǎn):1)必須收集大量的簡(jiǎn)單圖片,否則很難訓(xùn)練出一個(gè)性能較高的Initial網(wǎng)絡(luò)并不斷提高;2)訓(xùn)練樣本多,訓(xùn)練時(shí)間長。

鑒于這些不足,我們希望可以發(fā)現(xiàn)一種不依賴于簡(jiǎn)單的圖片的方法,并可以達(dá)到較高的語義分割性能。于是我們?cè)?017年提出了Adversarial Erasing。

2016年發(fā)表在CVPR上的一篇文章(CAM)發(fā)現(xiàn),分類網(wǎng)絡(luò)可以通過Top-down的方式定位出圖片上的哪些區(qū)域?qū)ξ矬w分類的貢獻(xiàn)較大,而這些區(qū)域往往屬于對(duì)應(yīng)語義的物體。然而,CAM方法的主要問題在于它只能發(fā)現(xiàn)最具判別力的一些物體區(qū)域(比如狗的頭部),這些區(qū)域往往屬于目標(biāo)物體的某個(gè)part并且分布稀疏。這同語義分割需要定位完整物體的目標(biāo)并不一致。

為了定位較為完整的物體,我們提出了一種Adversarial Erasing的方法。該方法的motivation主要是通過不斷擦除物體上最具判別力的一些區(qū)域,使得分類網(wǎng)絡(luò)發(fā)現(xiàn)更多的物體的其它區(qū)域。如左圖所示,我們首先將包含狗的圖片輸入分類網(wǎng)絡(luò)中,通過訓(xùn)練可以獲得屬于狗的最具判別力的區(qū)域,即狗的頭部。進(jìn)而我們將狗的頭部從圖片中擦除掉,并將擦除后的圖片輸入分類網(wǎng)絡(luò)進(jìn)行再訓(xùn)練。網(wǎng)絡(luò)會(huì)尋找其它的證據(jù)使得圖片可以被正確分類,進(jìn)而找到狗的胸部。重復(fù)此操作,狗的腳部也可以進(jìn)一步被發(fā)現(xiàn)。最后通過融合擦除掉的區(qū)域就可以獲得物體的整個(gè)區(qū)域。右圖給出了更多示例以及最后通過融合擦除區(qū)域獲得的整個(gè)物體區(qū)域。

由于最終的目標(biāo)是語義分割,我們最后把mining出的物體區(qū)域生成了圖像的mask并用于訓(xùn)練語義分割網(wǎng)絡(luò),這部分在本文不做過多介紹,具體細(xì)節(jié)可以參閱paper。

Adversarial Erasing方法沒有用到任何額外數(shù)據(jù),并在VOC12上獲得了 55. 7的mIoU值。雖然這篇工作用更簡(jiǎn)單的方式(相對(duì)Simple to Complex)獲得了更高的性能,但也存在兩個(gè)明顯的問題:1)需要多次訓(xùn)練分類網(wǎng)絡(luò),時(shí)耗較高;2)對(duì)于每張訓(xùn)練圖片很難確定何時(shí)停止擦除操作。我們?cè)谖恼轮胁捎猛ㄟ^觀察分類網(wǎng)絡(luò)收斂的loss值的方式來決定擦除的次數(shù),但該方法很難保證所有訓(xùn)練圖片都能達(dá)到最好的擦除效果。

針對(duì)Adversarial Erasing的兩個(gè)缺點(diǎn),我們進(jìn)一步提出了一種Adversarial Complementary Learning的方法,并被CVPR 2018錄用。首先我們發(fā)現(xiàn)Network-in-Network中提出的Global Avg Pooling (GAP) + Classification Loss的方式就可以獲得跟CAM方法中完全一樣的物體定位圖 (如右圖所示),我們?cè)谖恼吕镆步o出了數(shù)學(xué)證明。有了這個(gè)前提,我們就可以很容易的將Adversarial Erasing的思想嵌入到訓(xùn)練過程中。

這是我們Adversarial Complementary Learning的框架圖。我們首先利用一個(gè)分類網(wǎng)絡(luò)來發(fā)現(xiàn)一些物體的判別區(qū)域,進(jìn)而將這些區(qū)域從中間的特征圖中擦除。我們將擦除后的特征圖輸入到另外一個(gè)分支中進(jìn)行訓(xùn)練,進(jìn)而獲得同第一個(gè)分支互補(bǔ)的物體定位圖。最后,我們將從兩個(gè)分支獲得物體定位圖合并起來獲得最終的結(jié)果。

這是我們?cè)贗mageNet上的實(shí)驗(yàn)結(jié)果。可以看出不同的分類器定位的區(qū)域是具有互補(bǔ)性的,并且最后融合出了我們想要的結(jié)果。通過我們的定位圖生成的物體框相比CAM方法也更加準(zhǔn)確。

我們的方法在ImageNet上達(dá)到了最好的定位性能。同時(shí)也測(cè)試了在Pascal VOC測(cè)試了語義分割結(jié)果,性能相比Adversarial Erasing提升了3.1個(gè)百分點(diǎn)(55.7->58.8)。

我們?cè)诮衲甑腃VPR上也發(fā)表了另外一篇相關(guān)的文章,通過一種更簡(jiǎn)單的方式獲得了更好的定位結(jié)果。物體的某個(gè)區(qū)域之所以會(huì)被highlight出來,其實(shí)是因?yàn)檫@部分特征的判別力較強(qiáng)。如果這部分判別力較強(qiáng)的特征可以transfer到物體的其它區(qū)域,那么其它判別力較弱的區(qū)域也有可能被highlight出來。我們發(fā)現(xiàn)這個(gè)想法可以很容易的通過加寬卷積(dilated convolution)的方式實(shí)現(xiàn)。如上圖所示,在輸入的特征圖上只有鳥的頭部判別力最強(qiáng)(綠圈內(nèi)的區(qū)域),隨著dilation rate的提升越來越多的距離判別區(qū)域較遠(yuǎn)的物體區(qū)域都被成功的highlight。

基于這個(gè)觀察,我們?cè)诜诸惥W(wǎng)絡(luò)中引入了四種dilation rate不同的分支進(jìn)行分類訓(xùn)練。從左圖可以看出,不同的分支可以定位出了不同的物體區(qū)域,并最終融合出一個(gè)非常完整的物體定位圖。如果把定位圖應(yīng)用于語義分割,我們需要通過一個(gè)threshold將物體區(qū)域從定位圖中取出。右圖對(duì)比了我們的方法跟CAM的對(duì)比,可以看出我們的方法無論對(duì)小物體還是大物體都可以很好定位,因此threshold也更容易選取。

基于生成的物體定位圖,我們嘗試訓(xùn)練了弱監(jiān)督和半監(jiān)督的語義分割網(wǎng)絡(luò)。其中半監(jiān)督是指一部分圖像的masks是通過人工標(biāo)定的,而另外一部分僅利用了圖像級(jí)的標(biāo)簽。

我們對(duì)比了在不同設(shè)定下的分割圖結(jié)果,可以看出隨著人工標(biāo)定圖片的增多,效果也在一步步提升。同時(shí),在弱監(jiān)督的設(shè)定下,我們的方法在Pascal VOC上也獲得了更高的分割性能(58.8->60.8)。在僅利用1400多張人工標(biāo)注圖的情況下性能可以進(jìn)一步提升到68.5。該結(jié)果非常逼近全監(jiān)督(1萬張人工標(biāo)注圖)情況下的分割結(jié)果。

在今年的AAAI上,我們發(fā)表了另外一種半監(jiān)督語義分割的文章。

在上個(gè)工作中提到的半監(jiān)督方式可以被定義為In-category的半監(jiān)督。In-category是指如果訓(xùn)練某個(gè)類的分割網(wǎng)絡(luò),則必須標(biāo)定一些屬于此類的圖片。但在大規(guī)模類別的情況下(如ImageNet中的2萬類),少量的標(biāo)注仍會(huì)耗費(fèi)大量的時(shí)間。因此,我們?cè)谶@個(gè)工作中提出了一種Cross-category的半監(jiān)督方法。Cross-category是指只有一小部分的類別具有人工標(biāo)注的masks,而大部分類別都只有圖像的標(biāo)簽。我們的目標(biāo)是將在少量類別上學(xué)習(xí)到的分割能力遷移到大量的類別上。

在這個(gè)工作中我們提出了一種Transferable Semi-supervised Network,主要包括了Label Transfer Network和Prediction Transfer Network。

對(duì)于Label Transfer Network,我們首先利用有人工標(biāo)注的圖片訓(xùn)練了一個(gè)class-agnostic的前背景分割網(wǎng)絡(luò)。進(jìn)而通過CAM的方法找到每個(gè)類別在圖片上最具判別力的種子點(diǎn)。最后我們通過self-diffusion的算法,將種子點(diǎn)在class-agnostic的分割圖上擴(kuò)散出屬于不同類別物體的整個(gè)區(qū)域,從而獲得包含語義信息的mask。

為了使得預(yù)測(cè)的mask更接近于人工標(biāo)注的mask,我們又提出了Prediction Transfer Network。P-Net利用mask上pixel的語義信息,將輸入圖片encode成跟語義數(shù)目一致的圖片數(shù)量(如Pascal VOC上為21),并concat到一起作為input。我們利用GAN的思想訓(xùn)練出discriminator,用于判斷哪些input是通過真實(shí)mask生成。最后我們固定P-Net的參數(shù)并對(duì)預(yù)測(cè)的mask給定假的標(biāo)簽,使得預(yù)測(cè)的mask盡可能逼近人工標(biāo)注的mask。我們?cè)赑ascal VOC上僅用到了10個(gè)類別的人工標(biāo)注mask,并在20個(gè)類上獲得了64.6的分割性能。

我們最終的目的是希望該方法可以實(shí)現(xiàn)大規(guī)模類別的語義分割,因此也在ImageNet上做了實(shí)驗(yàn)。上圖是在部分類別上的分割結(jié)果。雖然沒有任何人工標(biāo)注信息,可以看出我們的方法仍然可以獲得令人滿意的分割結(jié)果。

我們所有的工作都是圍繞如何生成高質(zhì)量的物體定位圖開展的。這些物體定位圖進(jìn)而可以服務(wù)于語義分割或檢測(cè)等任務(wù)。如何更高效的定位復(fù)雜場(chǎng)景內(nèi)的物體、確定不同物體之間的邊界是我們后續(xù)探索的目標(biāo)。


弱監(jiān)督視覺語義分割的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
长海县| 翁源县| 宣城市| 固阳县| 绍兴县| 宁海县| 清苑县| 德州市| 汪清县| 临泉县| 孝昌县| 灵川县| 宜城市| 罗江县| 龙胜| 郓城县| 桐乡市| 调兵山市| 和静县| 乌恰县| 连城县| 钦州市| 潜山县| 津南区| 巴中市| 合作市| 五河县| 鄂伦春自治旗| 高邑县| 浦城县| 谢通门县| 钦州市| 大厂| 六盘水市| 定西市| 庆安县| 大同县| 玉田县| 滦南县| 常德市| 左权县|