一文詳解語義分割新范式StructToken
來源:投稿 作者:xin
編輯:學(xué)姐

Motivation
本文將當(dāng)前語義分割的方法分為兩類,一類是「靜態(tài)逐像素分類方法」(static per-pixel classification),另一類為「動態(tài)逐像素分類方法」(dynamic per-pixel classification)。目前基于靜態(tài)逐像素分類的方法,僅通過探索像素表示的信息融合,擴(kuò)大每個像素的接受域,使尾部的卷積網(wǎng)絡(luò)可以更精細(xì)的逐像素分類,生成更精細(xì)的得分圖。然而這類工作側(cè)重于提高逐像素的表示能力,并沒有考慮圖像中的結(jié)構(gòu)信息?;趧討B(tài)分類的方法雖然可以通過分類器與特征映射的交互更新可學(xué)習(xí)標(biāo)記,提升模型性能。雖然此類方法分類器是動態(tài)的,但它仍然作用于每個像素,逐像素分類的性質(zhì)不會改變,依舊破壞了圖像中的結(jié)構(gòu)信息。故本文跳出原有的語義分割框架,從更擬人化的角度考慮語義分割任務(wù)。提出了帶有結(jié)構(gòu)先驗StructToken
。與靜態(tài)逐像素分類和動態(tài)逐像素分類方法不同的是,本文的方法根據(jù)結(jié)構(gòu)先驗為每個類生成一個粗略的掩碼,然后再逐步細(xì)化該掩碼。(圖1展示了三種語義分割方式)

Method


下面介紹本文提出的三種Interaction方法。
Cross-Slice Extraction
: 本方法是自注意力的一種拓展,將backbone提取的特征F映射為v、k,將可學(xué)習(xí)結(jié)構(gòu)Token S映射為q。通過交叉注意力機(jī)制學(xué)習(xí)新的結(jié)構(gòu)化Token。計算公式如下:

為1*1卷積,3*3深度可分離卷積,1*1卷積順序構(gòu)成的變換。
Self-Slice Extraction
:本方法與Cross-Slice Extraction類似,只不過先將特征與結(jié)構(gòu)Token S在通道維度上進(jìn)行拼接,然后采用自注意力機(jī)制學(xué)習(xí)新的結(jié)構(gòu)化Token。

Point-Wise Extraction
: 本方法指出,

是特征圖每個切片的權(quán)重。在注意力矩陣產(chǎn)生之后,計算一個加權(quán)和以提取有用的信息。故可以通過直接預(yù)測生成注意力矩陣,而不需要計算切片間測相似度。計算過程如下所示:

Result:



表1、表2、表3展示了提出模型在3個數(shù)據(jù)集上的結(jié)果,可以看出,在3個數(shù)據(jù)集上都達(dá)到了SOTA的結(jié)果。
關(guān)注【學(xué)姐帶你玩AI】公眾號
回復(fù)“500”獲取語義分割必讀論文