ECCV2020圖像分割開(kāi)源論文合集
本文整理了ECCV2020目前開(kāi)源的分割方向的全部論文,涵蓋實(shí)例分割、語(yǔ)義分割、點(diǎn)云分割、目標(biāo)跟蹤與分割以及視頻目標(biāo)分割等多個(gè)方向,并對(duì)每一篇論文進(jìn)行了簡(jiǎn)要介紹,文末附論文打包下載。
實(shí)例分割
【1】Conditional Convolutions for Instance Segmentation(Oral)
作者|Zhi Tian, Chunhua Shen, Hao Chen
機(jī)構(gòu)|阿德萊德大學(xué)
代碼|https://git.io/AdelaiDet
介紹:本文提出了一個(gè)簡(jiǎn)單而有效的實(shí)例分割框架CondInst。效果最好的實(shí)例分割方法(例如Mask R-CNN)依靠ROI操作(比如ROIPool或ROIAlign)來(lái)獲取最終的實(shí)例掩碼。相反,本文從新的角度解決實(shí)例分割問(wèn)題。采用基于實(shí)例的動(dòng)態(tài)實(shí)例感知網(wǎng)絡(luò)替代以ROI作為固定權(quán)重網(wǎng)絡(luò)的輸入。CondInst具有兩個(gè)優(yōu)點(diǎn):(1)通過(guò)全卷積網(wǎng)絡(luò)進(jìn)行實(shí)例分割,無(wú)需進(jìn)行ROI裁剪和特征對(duì)齊;(2)由于動(dòng)態(tài)生成條件卷積的能力大大提高,因此mask head可以非常緊湊(例如3個(gè)卷積層,每個(gè)僅具有8個(gè)通道),從而獲得明顯更快inference。該方法在準(zhǔn)確性和inference速度上都實(shí)現(xiàn)更高的性能。


【2】Fashionpedia: Ontology, Segmentation, and an Attribute Localization Dataset
作者|Menglin Jia, Mengyun Shi, Mikhail Sirotenko, Yin Cui, Claire Cardie , Bharath Hariharan, Hartwig Adam, Serge Belongie
機(jī)構(gòu)|康奈爾大學(xué);谷歌
代碼|https://fashionpedia.github.io/home/
本文專注于具有屬性本地化的實(shí)例分割任務(wù),統(tǒng)一了實(shí)例分割和細(xì)粒度屬性的可視分類。建議的任務(wù)既需要定位對(duì)象,又需要描述其屬性。Fashionpedia由兩部分組成:(1)由時(shí)尚專家建立的本體,包含27個(gè)主要服裝類別,19個(gè)服裝部件以及294個(gè)細(xì)粒度屬性及其關(guān)系;(2)由日常和名人事件時(shí)尚圖片組成的數(shù)據(jù)集細(xì)分蒙版及其相關(guān)的細(xì)粒度屬性。本文提出了一種新穎的Attribute-Mask R-CNN模型來(lái)聯(lián)合執(zhí)行實(shí)例分割和局部屬性識(shí)別,并為任務(wù)提供了一種新穎的評(píng)估指標(biāo)。

【3】SipMask: Spatial Information Preservation for Fast Image and Video Instance Segmentation
作者|Jiale Cao, Rao Muhammad Anwer, Hisham Cholakkal, Fahad Shahbaz Khan, Yanwei Pang, Ling Shao
機(jī)構(gòu)|天津大學(xué);Mohamed bin Zayed University of Artificial Intelligence;Inception Institute of Artificial Intelligence
代碼|https://github.com/JialeCao001/SipMask
介紹:本文提出了一種快速單階段實(shí)例分割方法SipMask,通過(guò)將實(shí)例的蒙版預(yù)測(cè)與檢測(cè)到的邊界框的不同子區(qū)域分開(kāi)來(lái)保留實(shí)例特定的空間信息。提出了一個(gè)新穎的輕量級(jí)空間保存(SP)模塊,為邊界框內(nèi)的每個(gè)子區(qū)域生成單獨(dú)的一組空間系數(shù),從而改善了蒙版預(yù)測(cè)。它還可以精確描繪空間上相鄰的實(shí)例。此外,我們引入了蒙版對(duì)齊權(quán)重?fù)p失和特征對(duì)齊方案,以更好地將蒙版預(yù)測(cè)與對(duì)象檢測(cè)相關(guān)聯(lián)。在COCO上,SipMask優(yōu)于現(xiàn)有的單階段方法。與最先進(jìn)的單級(jí)TensorMask相比,SipMask的絕對(duì)增益為1.0%(mask AP),同時(shí)提供了四倍的加速比。就實(shí)時(shí)功能而言,在類似的設(shè)置下,SipMask的絕對(duì)增益要優(yōu)于YOLACT,其絕對(duì)增益為3.0%(mask AP),而在Titan Xp上以可比的速度運(yùn)行。將SipMask用于實(shí)時(shí)視頻實(shí)例分割,在YouTube-VIS數(shù)據(jù)集上取得了不錯(cuò)的結(jié)果。


【4】Commonality-Parsing Network across Shape and Appearance for Partially Supervised Instance Segmentation
作者|Qi Fan, Lei Ke, Wenjie Pei, Chi-Keung Tang, Yu-Wing Tai
機(jī)構(gòu)|香港科技大學(xué);哈爾濱工業(yè)大學(xué)深圳研究院
代碼|https://github.com/fanq15/CPMask
介紹:部分監(jiān)督實(shí)例分割旨在對(duì)有限的帶掩碼注釋的數(shù)據(jù)類別執(zhí)行學(xué)習(xí),從而消除昂貴且詳盡的掩碼注釋?,F(xiàn)有方法通常采用學(xué)習(xí)從檢測(cè)到分割的傳遞函數(shù),或?qū)W習(xí)用于對(duì)新穎類別進(jìn)行分割的聚類形狀先驗(yàn)的方式。本文則建議學(xué)習(xí)潛在的與類無(wú)關(guān)的共性,這些共性可以從帶掩碼的類別擴(kuò)展到新穎的類別。具體來(lái)說(shuō),本文分析兩種類型的共性:1)通過(guò)對(duì)實(shí)例邊界預(yù)測(cè)執(zhí)行監(jiān)督學(xué)習(xí)而獲得的形狀共性;2)通過(guò)對(duì)特征圖像素之間的成對(duì)親和力建模來(lái)捕獲外觀共同性,以優(yōu)化實(shí)例與背景之間的可分離性。結(jié)合形狀和外觀的共性,本文模型在部分監(jiān)督設(shè)置和小樣本設(shè)置方面均明顯優(yōu)于最新方法。

【5】The Devil is in Classification: A Simple Framework for Long-tail Instance Segmentation
作者|Tao Wang, Yu Li, Bingyi Kang, Junnan Li, Junhao Liew, Sheng Tang, Steven Hoi, Jiashi Feng
機(jī)構(gòu)|新加坡國(guó)立大學(xué);中國(guó)科學(xué)院計(jì)算技術(shù)研究所
代碼|https://github.com/twangnh/SimCal
介紹:大多數(shù)現(xiàn)有的對(duì)象實(shí)例檢測(cè)和細(xì)分模型只能在相當(dāng)均衡的基準(zhǔn)上很好地工作,而在長(zhǎng)尾的現(xiàn)實(shí)數(shù)據(jù)集中出現(xiàn)性能下降。本文系統(tǒng)地研究了最新的two-stage實(shí)例分割模型Mask R-CNN在長(zhǎng)尾LVIS數(shù)據(jù)集上的性能下降,并揭示主要原因:object proposals的分類不正確。因此本文考慮了各種用于改善長(zhǎng)尾分類性能的技術(shù),可以增強(qiáng)實(shí)例分割結(jié)果。本文提出了一個(gè)簡(jiǎn)單的校準(zhǔn)框架,以采用雙層類平衡采樣方法更有效地減輕分類頭偏差,極大地提高了在LVIS數(shù)據(jù)集和文章采樣的COCO-LT數(shù)據(jù)集上尾類的實(shí)例分割性能。

【6】Supervised Edge Attention Network for Accurate Image Instance Segmentation
作者|Xier Chen, Yanchao Lian, Licheng Jiao, Haoran Wang, YanJie Gao, Shi Lingling
機(jī)構(gòu)|西安電子科技大學(xué)
代碼|https://github.com//IPIU-detection/SEANet
介紹:有效地保持蒙版邊界完整對(duì)實(shí)例分割很重要。在此任務(wù)中,許多工作片段實(shí)例都是基于框頭的邊界框,這意味著檢測(cè)的質(zhì)量也會(huì)影響蒙版的完整性。為了解決這個(gè)問(wèn)題,本文提出了一個(gè)完全卷積的box head和一個(gè)在mask head中的監(jiān)督邊緣注意模塊。box head包含一個(gè)新的IoU預(yù)測(cè)分支。它學(xué)習(xí)對(duì)象特征和檢測(cè)到的邊界框之間的關(guān)聯(lián),以提供更準(zhǔn)確的邊界框進(jìn)行分割。邊緣關(guān)注模塊利用關(guān)注機(jī)制來(lái)突出對(duì)象并抑制背景噪聲,并設(shè)計(jì)了一個(gè)有監(jiān)督的分支來(lái)引導(dǎo)網(wǎng)絡(luò)精確地關(guān)注實(shí)例的邊緣。

語(yǔ)義分割
【7】Unsupervised Domain Adaptation for Semantic Segmentation of NIR Images through Generative Latent Search
作者|Prashant Pandey, Aayush Kumar Tyagi, Sameer Ambekar, Prathosh AP
機(jī)構(gòu)|印度理工學(xué)院
代碼|https://github.com/ambekarsameer96/GLSS
介紹:本文將皮膚分割問(wèn)題歸結(jié)為與目標(biāo)無(wú)關(guān)的無(wú)監(jiān)督域自適應(yīng)(UDA)問(wèn)題,使用來(lái)自可見(jiàn)范圍紅色通道的數(shù)據(jù)來(lái)開(kāi)發(fā)NIR圖像上的皮膚分割算法。提出一種與目標(biāo)無(wú)關(guān)的分割方法,在源域中搜索目標(biāo)圖像的“最近克隆”并將其用作僅在源域上訓(xùn)練的分割網(wǎng)絡(luò)中的代理。本文證明了“最近克隆”的存在,并提出了一種基于變分推理的深度生成模型潛在空間上的優(yōu)化算法。通過(guò)NIR域中兩個(gè)新創(chuàng)建的皮膚分割數(shù)據(jù)集上的最新UDA分割方法,證明了NIR皮膚分割方法的有效性。

【8】Classes Matter: A Fine-grained Adversarial Approach to Cross-domain Semantic Segmentation
作者|Haoran Wang, Tong Shen, Wei Zhang, Ling-Yu Duan, Tao Mei
機(jī)構(gòu)|ETH;京東;北京大學(xué)
代碼|https://github.com/JDAI-CV/FADA
介紹:盡管在監(jiān)督語(yǔ)義分割方面取得了很大進(jìn)展,但在野外部署模型時(shí)通常會(huì)觀察到性能大幅下降。域自適應(yīng)方法通過(guò)對(duì)齊源域和目標(biāo)域來(lái)解決此問(wèn)題。但大多數(shù)現(xiàn)有方法忽略了目標(biāo)域中底層的類級(jí)別數(shù)據(jù)結(jié)構(gòu)。為了充分利用源域中的監(jiān)督,本文提出了一種細(xì)粒度的對(duì)抗學(xué)習(xí)策略,用于類級(jí)別的特征對(duì)齊,同時(shí)保留了跨域語(yǔ)義的內(nèi)部結(jié)構(gòu)。本文所提出的方法在三個(gè)經(jīng)典領(lǐng)域適應(yīng)任務(wù)上進(jìn)行了有效性評(píng)估,即GTA5 ?Cityscapes, SYNTHIA?Cityscapes, Cityscapes?Cross-City。性能的大幅提高表明該方法優(yōu)于其他基于全局特征對(duì)齊和基于類對(duì)齊的對(duì)應(yīng)方法。

【9】Improving Semantic Segmentation via Decoupled Body and Edge Supervision
作者|Xiangtai Li, Xia Li, Li Zhang, Guangliang Cheng, Jianping Shi, Zhouchen Lin, Shaohua Tan, Yunhai Tong
機(jī)構(gòu)|北京大學(xué);之江實(shí)驗(yàn)室;哈佛大學(xué);商湯科技
代碼|https://github.com/lxtGH/DecoupleSegNets
介紹:本文提出了一種語(yǔ)義分割的新范式。通過(guò)學(xué)習(xí)流場(chǎng)使圖像特征變形,以使對(duì)象部分更加一致。通過(guò)顯式采樣不同部分(身體或邊緣)像素,在去耦監(jiān)督下進(jìn)一步優(yōu)化了生成的身體特征和殘留邊緣特征。我們表明,具有各種基準(zhǔn)或骨干網(wǎng)絡(luò)的建議框架可獲得更好的對(duì)象內(nèi)部一致性和對(duì)象邊界。在包括Cityscapes,CamVid,KIITI和BDD在內(nèi)的四個(gè)主要道路場(chǎng)景語(yǔ)義分割基準(zhǔn)上的大量實(shí)驗(yàn)表明,本文提出的方法建立了新的技術(shù)水平,同時(shí)保持了較高的推理效率。

【10】Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation
作者|Xiaokang Chen, Kwan-Yee Lin, Jingbo Wang, Wayne Wu, Chen Qian, Hongsheng Li, Gang Zeng
機(jī)構(gòu)|北京大學(xué);香港中文大學(xué);商湯科技
代碼|https://charlescxk.github.io/
介紹:深度信息是RGB-D圖像語(yǔ)義分割中的有用提示,它可以為RGB表示提供幾何上的對(duì)應(yīng)。大多數(shù)現(xiàn)有工作僅假設(shè)深度測(cè)量準(zhǔn)確且與RGB像素良好對(duì)齊,并將該問(wèn)題建模為交叉模式特征融合以獲得更好的特征表示以實(shí)現(xiàn)更準(zhǔn)確的分割。但是,這可能不會(huì)導(dǎo)致令人滿意的結(jié)果,因?yàn)閷?shí)際的深度數(shù)據(jù)通常比較嘈雜,這可能會(huì)隨著網(wǎng)絡(luò)的深入而降低準(zhǔn)確性。本文提出了一個(gè)統(tǒng)一而有效的跨模態(tài)引導(dǎo)編碼器,不僅可以有效地重新校準(zhǔn)RGB特征響應(yīng),還可以通過(guò)多個(gè)階段提取準(zhǔn)確的深度信息,并交替匯總兩個(gè)重新校準(zhǔn)的表示。本文提出的體系結(jié)構(gòu)的關(guān)鍵是新穎的“分離與聚合門控”操作,該操作在交叉模態(tài)聚合之前共同過(guò)濾和重新校準(zhǔn)兩種表示形式。同時(shí),一方面引入了雙向多步傳播策略,以幫助在兩種模態(tài)之間傳播和融合信息,另一方面,在長(zhǎng)期傳播過(guò)程中保持它們的特異性。此外,本文提出的編碼器可以輕松地注入到以前的編碼器-解碼器結(jié)構(gòu)中,以提高其在RGB-D語(yǔ)義分割上的性能。

點(diǎn)云分割
【11】SqueezeSegV3: Spatially-Adaptive Convolution for Efficient Point-Cloud Segmentation
作者|Chenfeng Xu, Bichen Wu, Zining Wang, Wei Zhan, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka
機(jī)構(gòu)|加州大學(xué)伯克利分校;Facebook
代碼|https://github.com/chenfengxu714/SqueezeSegV3
介紹:LiDAR點(diǎn)云分割是許多應(yīng)用程序中的重要問(wèn)題。對(duì)于大規(guī)模點(diǎn)云分割,常見(jiàn)方法是投影3D點(diǎn)云以獲得2D LiDAR圖像并使用卷積對(duì)其進(jìn)行處理。盡管常規(guī)RGB和LiDAR圖像之間存在相似之處,本文首次發(fā)現(xiàn)LiDAR圖像的特征分布在不同圖像位置會(huì)急劇變化。由于卷積濾波器會(huì)拾取僅在圖像中特定區(qū)域有效的局部特征,因此使用標(biāo)準(zhǔn)卷積來(lái)處理此類LiDAR圖像存在問(wèn)題,將導(dǎo)致網(wǎng)絡(luò)的容量未得到充分利用,分割性能下降。為了解決這一問(wèn)題,本文采用空間自適應(yīng)卷積(SAC)根據(jù)輸入圖像對(duì)不同位置采用不同的濾波器。并使用SAC構(gòu)建了用于LiDAR點(diǎn)云分割的SqueezeSegV3,在SemanticKITTI基準(zhǔn)上以至少2.0%的mIoU優(yōu)于所有先前發(fā)布的方法。

目標(biāo)跟蹤與分割
【12】Segment as Points for Efficient Online Multi-Object Tracking and Segmentation(Oral)
作者|Zhenbo Xu, Wei Zhang, Xiao Tan, Wei Yang, Huan Huang, Shilei Wen, Errui Ding, Liusheng Huang
機(jī)構(gòu)|中國(guó)科學(xué)技術(shù)大學(xué);百度
代碼|https://github.com/detectRecog/PointTrack
簡(jiǎn)介:當(dāng)前的多目標(biāo)跟蹤和分割方法遵循“tracking-by-detection”范例,并采用卷積進(jìn)行特征提取。受固有感受野影響,基于卷積的特征提取不可避免地將前景特征和背景特征混合在一起,從而在后續(xù)實(shí)例關(guān)聯(lián)中產(chǎn)生歧義。本文提出了一種有效的方法:將緊湊的圖像表示轉(zhuǎn)換為無(wú)序的2D點(diǎn)云表示,從而基于分割學(xué)習(xí)實(shí)例嵌入。此外,多種信息數(shù)據(jù)模態(tài)被轉(zhuǎn)換為點(diǎn)狀表示,以豐富點(diǎn)狀特征。PointTrack以接近實(shí)時(shí)的速度(22 FPS)大大超越了所有最新技術(shù),包括3D跟蹤(MOTSA高5.4%,MOTSFusion快18倍) )。與此同時(shí),本文針對(duì)目前MOTS數(shù)據(jù)集缺少擁擠場(chǎng)景的問(wèn)題,構(gòu)建了一個(gè)具有更高實(shí)例密度的MOTS數(shù)據(jù)集:APOLLO MOTS。

視頻目標(biāo)分割
【13】Learning What to Learn for Video Object Segmentation
作者|Goutam Bhat, Felix Järemo Lawin, Martin Danelljan, Andreas Robinson, Michael Felsberg, Luc Van Gool, Radu Timofte
機(jī)構(gòu)|ETH;Linko ?ping University
代碼|https://github.com/visionml/pytracking
介紹:視頻對(duì)象分割(VOS)是一個(gè)極富挑戰(zhàn)性的問(wèn)題,因?yàn)槟繕?biāo)對(duì)象僅在推理過(guò)程中由第一幀參考掩碼定義。如何捕獲和利用這些有限的信息來(lái)準(zhǔn)確地分割目標(biāo)的問(wèn)題仍然是一個(gè)基礎(chǔ)研究問(wèn)題。為了解決這個(gè)問(wèn)題,本文引入端到端可訓(xùn)練的VOS架構(gòu),集成了可區(qū)分小樣本學(xué)習(xí)器。旨在通過(guò)最小化第一幀中的分割誤差來(lái)預(yù)測(cè)目標(biāo)的強(qiáng)大參數(shù)模型。該方法在大規(guī)模YouTube-VOS 2018數(shù)據(jù)集上獲得了81.5的總得分,相對(duì)過(guò)去的最佳結(jié)果提高了2.6%。

【14】Collaborative Video Object Segmentation by Foreground-Background Integration
作者|Zongxin Yang, Yunchao Wei, Yi Yang
機(jī)構(gòu)|悉尼科技大學(xué);百度
代碼|https://github.com/z-x-yang/CFBI
介紹:本文研究了嵌入學(xué)習(xí)的原理,以解決具有挑戰(zhàn)性的半監(jiān)督視頻對(duì)象分割。與僅使用前景對(duì)象的像素探索嵌入學(xué)習(xí)的以前的做法不同,本文認(rèn)為應(yīng)該同等對(duì)待背景,因此建議使用前景背景集成(CFBI)方法進(jìn)行協(xié)作視頻對(duì)象分割。CFBI隱式強(qiáng)加了從目標(biāo)前景對(duì)象及其對(duì)應(yīng)的背景中嵌入的特征以進(jìn)行對(duì)比,從而相應(yīng)地提高了分割結(jié)果。通過(guò)前景和背景的嵌入,CFBI可以在像素和實(shí)例水平上執(zhí)行參考序列與預(yù)測(cè)序列之間的匹配過(guò)程,從而使CFBI能夠適應(yīng)各種對(duì)象比例。在DAVIS 2016,DAVIS 2017和YouTube-VOS進(jìn)行實(shí)驗(yàn),CFBI的性能(J&F)分別達(dá)到89.4%,81.9%和81.4%,優(yōu)于其他所有最新技術(shù)。
【15】URVOS: Unified Referring Video Object Segmentation Network with a Large-Scale Benchmark
作者|Seonguk Seo, Joon-Young Lee, Bohyung Han
機(jī)構(gòu)|首爾大學(xué);Adobe
代碼|https://github.com/skynbe/Refer-YouTube-VOS
介紹:本文提出了一個(gè)統(tǒng)一的參照視頻目標(biāo)分割網(wǎng)絡(luò)(URVOS)。URVOS將視頻和引用表達(dá)式作為輸入,并估計(jì)整個(gè)視頻幀中給定語(yǔ)言表達(dá)式引用的對(duì)象蒙版。通過(guò)使用單個(gè)深層神經(jīng)網(wǎng)絡(luò)以及兩個(gè)注意模型的適當(dāng)組合,共同執(zhí)行基于語(yǔ)言的對(duì)象分割和掩碼傳播,解決了具有挑戰(zhàn)性的問(wèn)題。此外,本文構(gòu)建了第一個(gè)大規(guī)模的參考視頻目標(biāo)分割數(shù)據(jù)集Refer-YouTube-VOS。

打包下載
在極市平臺(tái)公眾號(hào)后臺(tái)回復(fù)ECCV圖像分割,即可獲取上述論文打包下載鏈接。