最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

實(shí)例分割綜述 | 近兩年的SOTA匯總

2022-08-23 22:52 作者:自動駕駛之心  | 我要投稿

作者:汽車人

原文鏈接:公眾號【自動駕駛之心】

底部有自動駕駛技術(shù)交流群加入方式哦~

全監(jiān)督

YOLACT

YOLACT 主要貢獻(xiàn)一是在 MS COCO 數(shù)據(jù)集上做出了第一個實(shí)時的實(shí)例分割模型;二是對模型的各種表現(xiàn)進(jìn)行了評估;此外還提出了比 NMS 算法更快的 Fast NMS;

YOLACT 為了保證速度,設(shè)計(jì)了2個分支網(wǎng)絡(luò),并行地進(jìn)行以下操作:

1、Prediction Head 分支生成各候選框的類別 confidence、anchor 的 location 和 prototype mask 的 coefficient;

2、Protonet 為每張圖片生成 k 個 prototype mask。在代碼中 k = 32。Prototype mask 和 coefficients 的數(shù)量相等。

DetectoRS

許多目標(biāo)檢測器通過使用兩次觀察和思考的機(jī)制表現(xiàn)出出色的性能。在本文中,作者在目標(biāo)檢測的主干設(shè)計(jì)中探索了這種機(jī)制。

在宏觀層面,提出了 Recursive Feature Pyramid,它將來自特征金字塔網(wǎng)絡(luò)的額外反饋連接合并到自下而上的主干層中;

在微觀層面,提出了 Switchable Atrous Convolution,它對不同 Atrous 率的特征進(jìn)行卷積,并使用 Switch 函數(shù)收集結(jié)果。

將它們結(jié)合起來會產(chǎn)生 DetectoRS,它顯著提高了目標(biāo)檢測的性能。

在 COCO test-dev 上,DetectoRS 實(shí)現(xiàn)了最先進(jìn)的 55.7% 的Box AP,48.5% 的Mask AP,以及 50.0% PQ。

SOLOv2

SOLO(Segmenting Objects by Locations)算法的核心思想是將分割問題轉(zhuǎn)化為位置分類問題,從而做到不需要 anchor(錨框)及 bounding box,而是根據(jù)實(shí)例的位置和大小,對每個實(shí)例的像素點(diǎn)賦予一個類別從而達(dá)到對實(shí)例對象進(jìn)行分割的效果。

具體而言,就是如果物體的中心落在了某個網(wǎng)格內(nèi),該網(wǎng)格就負(fù)責(zé)預(yù)測該物體的語義類別,并給每個像素點(diǎn)賦一個位置類別。

在 SOLOv1 中有兩個分支:類別分支和 mask 分支。類別分支預(yù)測語義類別;mask 分支則分割物體實(shí)例。同時,使用 FPN 來支持多尺度預(yù)測,F(xiàn)PN 的每一個特征圖后都接上述兩個并行的分支。

SOLOv2 繼承了 SOLOv1 中的一些設(shè)定,將原來的 mask 分支解耦為 mask 核分支和 mask 特征分支,分別預(yù)測卷積核和卷積特征。

輸入為 H×W×E 的特征,E 是輸入特征的通道數(shù),輸出為卷積核 S×S×D,其中 S 是劃分的網(wǎng)格數(shù)目。Mask 核分支位于預(yù)測 head 內(nèi),平行的有語義類別分支。預(yù)測 head 的輸入是 FPN 輸出的特征圖。Head 內(nèi)的 2 個分支都有 4 個卷積層來提取特征,和 1 個最終的卷積層做預(yù)測。Head 的權(quán)重在不同的特征圖層級上共享。同時作者在 kernel 分支上增加了空間性,做法是在第一個卷積內(nèi)加入了 CoordConv,即輸入后面跟著兩個額外的通道。

CondInst

CondInst有兩個優(yōu)點(diǎn):

1)實(shí)例分割采用全卷積網(wǎng)絡(luò),消除了ROI裁剪和特征比對的需要。

2)由于動態(tài)生成條件卷積的容量大大提高,掩模前端可以非常緊湊(例如,3個卷積層,每個只有8個通道),從而大大加快推理速度。CondInst是一種更簡單的實(shí)例分割方法,它可以在準(zhǔn)確性和推理速度上都得到提高。在COCO數(shù)據(jù)集上,CondInst表現(xiàn)優(yōu)于一些最近的方法,包括調(diào)優(yōu)的Mask R-CNN,而不需要更長的訓(xùn)練時間。

本文主要貢獻(xiàn):

1)提出了CondInst實(shí)例分割框架,該框架比掩模R-CNN等現(xiàn)有方法的實(shí)例分割性能有所提高,同時速度更快。在精度和速度上都優(yōu)于最近的最新技術(shù)。

2)CondInst是完全卷積的,在現(xiàn)有的許多方法中避免了調(diào)整大小的操作,因?yàn)镃ondInst不依賴于ROI操作。無需調(diào)整feature map的大小,就可以獲得具有更精確邊緣的高分辨率實(shí)例掩模。

3)與之前的方法不同,在掩模前端的過濾器對于所有實(shí)例在訓(xùn)練時是固定的,是動態(tài)生成和條件的實(shí)例。由于濾波器只需要預(yù)測一個實(shí)例的掩碼,這在很大程度上減輕了學(xué)習(xí)要求,從而降低了濾波器的負(fù)載。因此,掩碼前端可以非常輕,大大縮短了每個實(shí)例的推理時間。與bounding-box檢測器FCOS相比,CondInst只需要增加10%的計(jì)算時間,甚至可以處理每幅圖像的最大實(shí)例數(shù)(即100實(shí)例)。

PolarMask

PolarMask 基于極坐標(biāo)系建模輪廓,把實(shí)例分割問題轉(zhuǎn)化為實(shí)例中心點(diǎn)分類(instance center classification)問題和密集距離回歸(dense distance regression)問題。同時,本文還提出了兩個有效的方法,用來優(yōu)化high-quality正樣本采樣和dense distance regression的損失函數(shù)優(yōu)化,分別是Polar CenterNess和 Polar IoU Loss。沒有使用任何trick(多尺度訓(xùn)練,延長訓(xùn)練時間等),PolarMask 在ResNext 101的配置下 在coco test-dev上取得了32.9的mAP。這是首次證明了更復(fù)雜的實(shí)例分割問題,可以在網(wǎng)絡(luò)設(shè)計(jì)和計(jì)算復(fù)雜度上,和anchor free物體檢測一樣簡單。

MEInst

MEInst將掩碼提煉為緊湊且固定的維度表示。通過使用 PCA 進(jìn)行簡單的線性變換,MEInst 能夠?qū)?28x28 的局部掩碼壓縮為 60 維的特征向量。該論文還嘗試在FCOS上直接回歸 28x28=784-dim 特征向量,并且在 1 到 2 個 AP 點(diǎn)下降的情況下也得到了合理的結(jié)果。

這意味著直接預(yù)測高維掩碼并非完全不可能,但很難優(yōu)化。掩碼的緊湊表示使其更容易優(yōu)化,并且在推理時運(yùn)行速度也更快。它與 Mask RCNN 最相似,可以直接與大多數(shù)其他目標(biāo)檢測算法一起使用。

QueryInst

之前得分比較高的例如Cascade Mask R-CNN 、 HTC這類non-query范例如果直接放到以query為基準(zhǔn)的檢測器下是效率很差。

在這篇文章中作者提出了QueryInst,基于query的實(shí)例分割,通過在動態(tài)mask heads上并行監(jiān)督驅(qū)動,使得mask 的梯度不僅可以回溯到骨架網(wǎng)絡(luò)的特征提取器中,并且對于目標(biāo)query而言,它也可以在不同階段本質(zhì)上是一一對應(yīng)。這些queries隱式攜帶了多階的mask信息,這些信息會在最終的mask生成器中被動態(tài)mask頭里的ROI特征提取器所使用。并且,在不同階段不同子任務(wù)例如目標(biāo)檢測和實(shí)力分割當(dāng)中,queries不僅可以互相分享而且可以互相利用的,使得這種query將協(xié)調(diào)合作的機(jī)制充分發(fā)揮了。

總而言之,整個思路有以下優(yōu)點(diǎn):成功地在基于query的端到端檢測框架中使用并行動態(tài)mask頭的新角度解決實(shí)例分割問題;成功地通過利用共享query和多頭自注意力設(shè)計(jì)為基于查詢的目標(biāo)檢測和實(shí)例分割建立了任務(wù)聯(lián)合范式;將QueryInst延展到例如YouTube-VIS數(shù)據(jù)集上,表現(xiàn)SOTA。

SOLQ

在本文中,作者提出了一個端到端的實(shí)例分割框架。基于最近引入的 DETR,本文的方法稱為 SOLQ,通過學(xué)習(xí)統(tǒng)一query來分割對象。

在 SOLQ 中,每個query代表一個對象并具有多種表示形式:類、位置和掩碼。學(xué)習(xí)到的對象query以統(tǒng)一的向量形式同時執(zhí)行分類、框回歸和掩碼編碼。

在訓(xùn)練階段,編碼的掩碼向量由原始空間掩碼的壓縮編碼監(jiān)督。

在推理時,產(chǎn)生的掩碼向量可以通過壓縮編碼的逆過程直接轉(zhuǎn)換為空間掩碼。

實(shí)驗(yàn)結(jié)果表明,SOLQ 可以實(shí)現(xiàn)最先進(jìn)的性能,超越大多數(shù)現(xiàn)有方法。此外,統(tǒng)一query表示的聯(lián)合學(xué)習(xí)可以大大提高DETR的檢測性能。

E2EC

基于輪廓的實(shí)例分割方法近年來得到了快速發(fā)展,但是由于特征粗糙和手工制作的輪廓初始化,限制了模型的性能,而需要經(jīng)驗(yàn)的以及固定的后續(xù)預(yù)測-標(biāo)簽點(diǎn)配對又增加了學(xué)習(xí)難度。

論文提出了一種基于輪廓的高質(zhì)量圖像分割方法E2EC 。

1)首先,E2EC采用一種可學(xué)習(xí)的輪廓初始化體系來代替手工的輪廓初始化;

2)其次,本文提出了一種新的標(biāo)簽抽樣方案,稱為多方向配準(zhǔn),以減少學(xué)習(xí)困難;

3)第三,為了提高邊界層的質(zhì)量,本文動態(tài)匹配最合適的預(yù)測真值點(diǎn)對,并提出相應(yīng)的損失函數(shù),稱為動態(tài)匹配損失。

實(shí)驗(yàn)結(jié)果表明,E2EC可以在KITTI實(shí)例數(shù)據(jù)集、Semantic邊界數(shù)據(jù)集、Cityscapes數(shù)據(jù)集和COCO數(shù)據(jù)集上實(shí)現(xiàn)最先進(jìn)的性能。此外,E2EC在實(shí)時應(yīng)用中也很價值。

SparseInst

以前,大多數(shù)實(shí)例分割方法嚴(yán)重依賴于基于邊界框或密集中心的對象檢測和掩碼預(yù)測。

本文創(chuàng)新點(diǎn):論文提出了一種概念新穎、高效且完全卷積的實(shí)時圖像分割框架,提出了一組稀疏的實(shí)例激活映射,作為一種新的對象表示,用于每個前景對象的高亮度信息區(qū)域。然后根據(jù)突出顯示的區(qū)域聚合特征,獲得實(shí)例級特征,用于識別和分割。此外,基于二分匹配,實(shí)例激活映射可以以一對一的方式預(yù)測對象,從而避免了后處理中的非最大抑制(NMS)。

實(shí)驗(yàn)結(jié)果:由于具有實(shí)例激活圖的簡單而有效的設(shè)計(jì),SparseInst的推理速度非???,在COCO基準(zhǔn)上達(dá)到40 FPS和37.9 AP,在速度和準(zhǔn)確性方面有明顯優(yōu)勢。

弱監(jiān)督

BoxInst

使用只有bbox標(biāo)注的數(shù)據(jù)進(jìn)行實(shí)例分割的訓(xùn)練。

Core idea:重新設(shè)計(jì)實(shí)例分割中l(wèi)earning mask的loss設(shè)計(jì),沒有對分割網(wǎng)絡(luò)進(jìn)行改進(jìn)。

新的loss可以監(jiān)督mask的訓(xùn)練,并且不會依賴于mask的annotation。

兩個loss項(xiàng):

1)最小化gt box的投影和pred mask之間的差異

2)Pair-wise Loss,利用先驗(yàn):具有相似顏色的相鄰像素之間很有可能來自于同一類。

DiscoBox

為了加快注釋過程, NVIDIA 研究人員開發(fā)了 DiscoBox 框架。該解決方案使用了一種弱監(jiān)督學(xué)習(xí)算法,可以在訓(xùn)練期間輸出高質(zhì)量的實(shí)例分割,而無需掩碼注釋。

該框架直接從邊界框監(jiān)督生成實(shí)例Mask,而不是使用掩碼注釋直接監(jiān)督任務(wù)。邊界框作為一種基本的標(biāo)注形式被引入,用于訓(xùn)練目標(biāo)檢測器。每個box對目標(biāo)的定位、大小和類別信息進(jìn)行編碼。

邊界框標(biāo)注是工業(yè)計(jì)算機(jī)視覺應(yīng)用的最佳選擇。它包含豐富的圖像信息,并且非常容易得到,使得在標(biāo)注大量數(shù)據(jù)時,它更經(jīng)濟(jì)、更具可擴(kuò)展性。然而,它本身不提供像素級信息,不能直接用于訓(xùn)練實(shí)例分割。

Box-supervised Instance Segmentation with Level Set Evolution

基于SOLOv2按位置動態(tài)分割目標(biāo)并預(yù)測全圖大小的實(shí)例Mask,為了促進(jìn)框監(jiān)督實(shí)例分割,本文將每個實(shí)例Mask視為其對應(yīng)目標(biāo)的水平集函數(shù) φ。此外,本文利用輸入圖像和深層特征作為輸入來進(jìn)化水平集,其中使用框投影函數(shù)來鼓勵網(wǎng)絡(luò)在每一步自動估計(jì)初始水平集 φ0。每個實(shí)例的水平集都在框內(nèi)迭代優(yōu)化。

歡迎關(guān)注國內(nèi)首個自動駕駛開發(fā)者社區(qū)

后臺回復(fù)【ECCV2022獲取ECCV2022所有自動駕駛方向論文!

后臺回復(fù)【領(lǐng)域綜述】獲取自動駕駛?cè)珬=?0篇綜述論文!

后臺回復(fù)【數(shù)據(jù)集下載】獲取計(jì)算機(jī)視覺近30種數(shù)據(jù)集!

自動駕駛之心】全棧技術(shù)交流群

自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標(biāo)檢測、語義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測、車道線、目標(biāo)跟蹤、3D感知、多傳感器融合、SLAM、高精地圖、規(guī)劃控制、AI模型部署落地等方向;

加入我們自動駕駛之心技術(shù)交流群匯總!

自動駕駛之心【知識星球】

想要了解更多自動駕駛感知(分類、檢測、分割、關(guān)鍵點(diǎn)、車道線、3D感知、多傳感器融合、目標(biāo)跟蹤)、自動駕駛定位建圖(SLAM、高精地圖)、自動駕駛規(guī)劃控制、領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球(三天內(nèi)無條件退款),日常分享論文+代碼,這里匯聚行業(yè)和學(xué)術(shù)界大佬,前沿技術(shù)方向盡在掌握中,期待交流!



實(shí)例分割綜述 | 近兩年的SOTA匯總的評論 (共 條)

分享到微博請遵守國家法律
嘉荫县| 海林市| 香格里拉县| 长顺县| 宝鸡市| 定日县| 大邑县| 资源县| 成都市| 栖霞市| 宿州市| 景洪市| 车险| 固安县| 海原县| 花莲县| 台东市| 桂平市| 绥棱县| 平远县| 贺州市| 正安县| 天等县| 上林县| 台江县| 甘洛县| 宁强县| 延吉市| 府谷县| 旬阳县| 尼木县| 韶关市| 明光市| 太和县| 长宁县| 余干县| 湘潭市| 饶河县| 嵊州市| 景谷| 类乌齐县|