如何零樣本實現(xiàn)語義分割
CLIPTeacher:一種基于VLM的通用零樣本語義分割框架,有效地利用了可見和忽略區(qū)域,而不需要對原CLIP模型進行任何更改,性能提升顯著!單位:名古屋大學(xué) 現(xiàn)有的通用零樣本語義分割(GZLSS)方法應(yīng)用微調(diào) CLIP 范式或?qū)⑵渲贫檠诖a分類任務(wù),受益于視覺語言模型(VLM)。 然而,微調(diào)方法受到固定骨干模型的限制,這些模型對于分割不靈活,并且掩模分類方法嚴重依賴于額外的顯式掩模提議器。 同時,流行的方法僅利用可見的類別,這是一種極大的浪費,即忽略了存在但未注釋的區(qū)域。 為此,我們提出了 CLIPTeacher,這是一種新的學(xué)習(xí)框架,可以應(yīng)用于各種每像素分類分割模型,而無需引入任何顯式掩碼proposer或改變 CLIP 的結(jié)構(gòu),并利用可見區(qū)域和忽略區(qū)域。 具體來說,CLIPTeacher由兩個關(guān)鍵模塊組成:全局學(xué)習(xí)模塊(GLM)和像素學(xué)習(xí)模塊(PLM)。 具體來說,GLM 將圖像編碼器的密集特征與 CLS 令牌(即在 CLIP 中訓(xùn)練的唯一token)對齊,這是從 CLIP 模型中探測全局信息的簡單但有效的方法。 相比之下,PLM 僅利用 CLIP 的密集標(biāo)記來生成用于忽略區(qū)域的高級偽注釋,而無需引入任何額外的mask proposer。 同時,PLM基于偽標(biāo)注可以充分利用整個圖像。 在三個基準(zhǔn)數(shù)據(jù)集:PASCAL VOC 2012、COCO-Stuff 164k 和 PASCAL Context 上的實驗結(jié)果顯示出巨大的性能提升,即 2.2%、1.3% 和 8.8% 論文地址:https://arxiv.org/abs/2310.02296
更多論文創(chuàng)新點加微信群:Lh1141755859 公眾號:CV算法小屋