詳解圖像分割高分作:Mask2Former框架一統(tǒng)分割任務
來源:投稿 作者:xin
編輯:學姐

論文標題:Masked-attention Mask Transformer for Universal Image Segmentation
論文鏈接:https://arxiv.org/pdf/2112.01527.pdf
作者信息:Facebook AI Research
Motivation:
當前對于分割任務的研究(如語義分割、實例分割、全景分割等分割任務)主要集中在為每個任務設計特定的框架,而本文致力于提出能媲美單個任務模型的統(tǒng)一模型。

Method:
故本文提出了Mask2Former的框架,用來實現(xiàn)分割任務的一統(tǒng)。本文的創(chuàng)新點如下:
1、提出了Mask Attention機制,將注意力計算限制在局部特征中,而不是像cross-attention一樣計算每個像素與整張圖像的關系。
2、使用多尺度高分辨率特征幫助分割小目標。
3、提出了關于Transformer的優(yōu)化方法;使用可學習的query以及隨機采樣等方法提高計算效率,節(jié)約內存。
在介紹本文提出的Mask2Former前,先回顧一下MaskFormer的基礎結構。

整體框架如圖所示,分為pixel-level模型,Transformer模型以及分割模型。首先通過backbone提取出圖像特征,再將其送入解碼器以生成像素嵌入特征。在Transformer模型中,使用低分辨率的圖像特征作為K和V,結合0初始化的查詢向量query通過Transformer decoder生成N個預分割嵌入向量Q。通過MLP將Q一支送去分類,另一只映射到像素嵌入的空間,進行mask的預測。最后將mask預測和類別預測進行矩陣相乘送去分割。

回顧完MaskFormer后,介紹本文提出的Mask2Former,該模型在MaskFormer上進行改進。首先也是最重要的改進,提出了Mask Attention機制,這使得每個通過Transformer的特征只在前景區(qū)域進行特證間的交互,而不是每個像素對整張圖像都做注意力。本文基于此想法提出了假設:假設局部前景特征足以保證query向量的更新,以及局部前景特征通過自注意力機制可以獲取有保證的上下文信息。相比于傳統(tǒng)的Transformer的計算方法:

為了幫助分割小目標,本文使用了一種特征金字塔結構,該結構采用特征由低像素到高像素的策略,每次將不同分辨率的特征送入一個Transformer Decoder。具體而言是使用pixel decoder產生的1/32,1/16,1/8的特征,結合正弦位置嵌入

以及可學習的尺度規(guī)模嵌入

依次由低到高的送入Transformer Decoder,3次為一個循環(huán),共循環(huán)L次(也即共送入3L個Transformer Decoder)。
在進行完上述改進后,本文還針對Transformer進行了進一步的改進。首先本文交換了self-attention和cross-attention(mask attention)的位置,因為第一層自注意力的查詢特征與圖像無關,沒有來自圖像的信號,故用自注意力不太可能豐富信息,所以進行交換。其次,本文將MaskFormer中0初始化的Query特征換為可學習的參數(shù),并以次直接監(jiān)督的生成。最后,作者發(fā)現(xiàn)Transformer中的Dropout是非必要的,故將Transformer Decoder中的Dropout其全部去掉。
最后為了提升訓練效率,且受到PointRend和Implicit PointRend的啟發(fā),在匹配損失計算時,對所有預測值和mask掩碼進行統(tǒng)一采樣相同的K個點組成集合進行計算。在計算整體loss時,在不同對的預測值和真實值通過重要性采樣選取不同的K個點進行損失的計算。K = 12544這樣節(jié)省了3倍的內存,由18G->6G。

圖像分割方向必讀論文學姐整理在了CVPR論文合集里
大家關注“學姐帶你玩AI”公眾號,后臺回復“CVPR”即領!