CVPR2023 | 手繪草圖就能實(shí)現(xiàn)目標(biāo)檢測?一種新的目檢測訓(xùn)練范例
CVPR2023:提出了一種新的范例訓(xùn)練目標(biāo)檢測,將 CLIP 和 SBIR 結(jié)合、無需邊界框注釋或圖像級(jí)類標(biāo)簽
作者:PCIPG-ka ??| 來源:3D視覺工坊
在公眾號(hào)「3D視覺工坊」后臺(tái),回復(fù)「原論文」即可獲取論文pdf。
添加微信:dddvisiona,備注:目標(biāo)檢測,拉你入群。文末附行業(yè)細(xì)分群。
在本文中,我們提出一個(gè)問題:繪制的草圖可以為物體檢測的基本視覺任務(wù)做什么?因此,設(shè)想的結(jié)果是一個(gè)支持草圖的對(duì)象檢測框架,它根據(jù)您的草圖內(nèi)容(即您想要如何表達(dá)自己)進(jìn)行檢測。繪制“吃草的斑馬”應(yīng)該從一群斑馬中檢測出“那只”斑馬(實(shí)例感知檢測),并且它還可以讓您自由地指定各個(gè)部分(部分感知檢測) ),所以如果你更想要“斑馬”的“頭”,那么就畫出這個(gè)頭。作者沒有從頭開始設(shè)計(jì)一個(gè)支持草圖的對(duì)象檢測模型,而是證明CLIP和現(xiàn)成的 SBIR 模型 之間的協(xié)同作用已經(jīng)可以相當(dāng)優(yōu)雅地解決問題,CLIP 提供模型泛化,SBIR 彌合草圖到照片差距;使用 SBIR 模型訓(xùn)練目標(biāo)檢測器分為以下三步:(a) 首先,使用現(xiàn)有的草圖-照片對(duì)訓(xùn)練 FG-SBIR 模型,該模型可推廣到未見過的類別。(b) 為了訓(xùn)練對(duì)象檢測器模塊,我們平鋪來自 SBIR 數(shù)據(jù)集的多個(gè)對(duì)象級(jí)照片,并通過預(yù)先訓(xùn)練的草圖編碼器使用其配對(duì)草圖編碼來對(duì)齊檢測到的框的區(qū)域嵌入。(c) 包含用于對(duì)象檢測的草圖開辟了多種途徑,例如檢測查詢草圖的特定對(duì)象(例如,檢測正在吃草的“斑馬”)或?qū)ο蟮囊徊糠郑ɡ?,“斑馬”的“頭”)。這里也推薦「3D視覺工坊」新課程《面向自動(dòng)駕駛領(lǐng)域目標(biāo)檢測中的視覺Transformer》。
首次培養(yǎng)用于目標(biāo)檢測的繪制草圖的表現(xiàn)力,
基于草圖的目標(biāo)檢測器,用于檢測您想要在草圖中表達(dá)的內(nèi)容
一個(gè)目標(biāo)檢測器除了執(zhí)行傳統(tǒng)的類別級(jí)檢測之外,還具有實(shí)例感知和部分感知功能。
一種新穎的提示學(xué)習(xí)設(shè)置,將 CLIP 和 SBIR 結(jié)合起來,構(gòu)建草圖感知檢測器,該檢測器無需邊界框注釋(如監(jiān)督 、類標(biāo)簽(如弱監(jiān)督)),并且可以在零樣本的情況下工作。
在零樣本設(shè)置下,結(jié)果優(yōu)于監(jiān)督 (SOD) 和弱監(jiān)督目標(biāo)檢測器 (WSOD)。
我們的框架有兩個(gè)關(guān)鍵模塊——目標(biāo)檢測和基于草圖的圖像檢索(類別級(jí)和細(xì)粒度)。為了完整起見,我們給出了簡短的背景。Faster Rcnn
特征提?。菏褂妙A(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(如VGG、ResNet等)對(duì)輸入圖像進(jìn)行特征提取,得到圖像的特征圖。
候選區(qū)域提取(Region Proposal Network,RPN):在特征圖上,RPN通過滑動(dòng)窗口來生成一系列候選區(qū)域(即候選檢測框),每個(gè)候選區(qū)域都有一個(gè)邊界框回歸和一個(gè)置信度得分。
區(qū)域分類與回歸:對(duì)于每個(gè)候選區(qū)域,F(xiàn)aster R-CNN將其與實(shí)際目標(biāo)進(jìn)行對(duì)比,通過分類器判斷其所屬類別,并校正候選區(qū)域的邊界框位置。這一步使用了RoI(Region of Interest)池化操作來從特征圖中提取固定大小的特征向量。
結(jié)果輸出:根據(jù)候選區(qū)域的分類結(jié)果和位置調(diào)整,選擇最終的檢測結(jié)果,并輸出目標(biāo)類別和邊界框的坐標(biāo)。
SBIR框架
特征提?。航o定草圖/照片對(duì) (s, p),類別級(jí) SBIR 需要來自同一類別的 (s, p),而細(xì)粒度 SBIR 需要實(shí)例級(jí)草圖/照片匹配,使用圖像檢索任務(wù)中常見的特征提取方法,從草圖和圖像數(shù)據(jù)獲取特征圖 fs = Fs(s) ε R512 和 fp = Fp(p) ε R512。
特征匹配與相似度計(jì)算:將草圖特征與圖像特征進(jìn)行匹配,計(jì)算特征的余弦距離。其中負(fù)樣本與草圖的余弦距離? 應(yīng)該增加,而正樣本與草圖的余弦距離 + 應(yīng)該減小
檢索與排序:根據(jù)相似度分?jǐn)?shù),對(duì)圖像數(shù)據(jù)庫中的圖像進(jìn)行排序,以確定與草圖最匹配的圖像。按照相似度降序排列,以提供最相關(guān)的圖像結(jié)果。
訓(xùn)練使用三元組損失函數(shù),超參數(shù)為μ > 0:
與使用邊界框注釋來完善提案的監(jiān)督對(duì)象檢測 (SOD) 不同,WSOD 僅使用圖像級(jí)別的類標(biāo)簽,這不足以完善提案,為了解決這個(gè)問題,使用了迭代細(xì)化分類器。ωk = φ* cls(fr),其中 ωk ∈ RR×(|C|+1) 來預(yù)測每個(gè)patch的細(xì)化類別分?jǐn)?shù),使用偽標(biāo)簽訓(xùn)練,目標(biāo)是盡可能將預(yù)測的標(biāo)簽與真實(shí)標(biāo)簽對(duì)齊
具體步驟
(i) 我們計(jì)算每個(gè)類中得分最高的patch
為了使用具有高度泛化和開放詞匯功能的 SBIR 來訓(xùn)練目標(biāo)檢測,我們引入了使用 CLIP ?進(jìn)行 SBIR 的即時(shí)學(xué)習(xí) 類別級(jí)和跨類別細(xì)粒度) 什么是 CLIP?如下圖所示:CLIP 包含一個(gè)圖像和文本編碼器(ViT 或 ResNet),在大型 400M 文本/圖像對(duì)上進(jìn)行訓(xùn)練,是一個(gè)高度通用的模型,可以實(shí)現(xiàn)靈驗(yàn)本學(xué)習(xí)。核心思想就是讓圖像識(shí)別模型從自然語言中學(xué)習(xí)監(jiān)督信息,讓模型可以學(xué)習(xí)圖像特征和文字特征之間的關(guān)系。CLIP可以根據(jù)圖像內(nèi)容自動(dòng)生成相關(guān)的文本標(biāo)注。它可以理解圖像并生成描述性的標(biāo)注,為圖像檢索、圖像搜索等任務(wù)提供更豐富的信息。
結(jié)
盡管SBIR是使用物體級(jí)別(單個(gè)物體)的草圖/照片對(duì)進(jìn)行訓(xùn)練,但目標(biāo)檢測是在圖像級(jí)別(多個(gè)物體)的數(shù)據(jù)上進(jìn)行的。為了使用SBIR訓(xùn)練目標(biāo)檢測器,我們需要彌合這種物體級(jí)別和圖像級(jí)別之間的差距。我們的解決方案非常簡單——通過隨機(jī)平鋪 n = {1, . ……, 7} SBIR 數(shù)據(jù)集中的對(duì)象級(jí)照片,盡管它很簡單,但我們的增強(qiáng)技巧(類似于 CutMix )提高了針對(duì)輸入損壞和分布外泛化的魯棒性。畫布中照片的配對(duì)草圖用于構(gòu)造支持集 S。作者將這種設(shè)置稱為極弱監(jiān)督目標(biāo)檢測(EW-SOD),因?yàn)橛?xùn)練目標(biāo)檢測器無需“看到”評(píng)估數(shù)據(jù)分布或使用任何注釋(邊界框或圖像級(jí)別的類別標(biāo)簽)
跨類別 FG-SBIR 數(shù)據(jù)集 – Sketchy:訓(xùn)練目標(biāo)檢測器,包含 125 個(gè)類別,每個(gè)類別有 100 張照片。每張照片至少有 5 個(gè)實(shí)例級(jí)配對(duì)草圖;SketchyCOCO :由MS-COCO中的自然圖像和實(shí)例級(jí)配對(duì)草圖組成,從中選擇了1,225對(duì)草圖/照片,其中至少包含一個(gè)前景被描繪的物體 QuickDraw-Extended:對(duì)類別級(jí)草圖/照片對(duì)進(jìn)行訓(xùn)練,其中包含來自 110 個(gè)類別的 330k 草圖和 204k 照片
(i) 保持 Fd 和 R 固定,訓(xùn)練 RoI 池化層和 FC 層 (P)、分類頭 (φcls)、檢測頭 (φdet) 和細(xì)化頭 (φ* cls) 240k 次迭代。(ii) 我們僅凍結(jié) RPN 并微調(diào)所有模塊以進(jìn)行 80k 次迭代。應(yīng)用 IoU ≥ 0.3 的非極大值抑制來獲得最終預(yù)測;
(i) 對(duì)于細(xì)粒度目標(biāo)檢測,我們測量 AP.3、AP.5 和 AP.7,計(jì)算 IoU 值為 0.3、0.5 和 0.7 時(shí)的平均精度 (AP)。(ii) 對(duì)于類別級(jí)對(duì)象檢測,我們使用測量 AP.5 和 CorLoc 來計(jì)算最置信度預(yù)測框與每個(gè)類別至少有一個(gè)真實(shí)框的 IoU ≥ 0.5 的圖像百分比。(iii) 對(duì)于跨類別 FG-SBIR,我們測量 Acc.@q – top-q 列表中具有真正匹配照片的草圖的百分比,以及 (iv) 平均精度 (mAP) 以及考慮前 200 個(gè)檢索的精度 P@200對(duì)于類別級(jí) SBIR。
零樣本類別級(jí) SBIR (CL-SBIR) 和跨類別 FG-SBIR (CC-FGSBIR) 的定量性能。
與其他的基于草圖的目標(biāo)檢測方法相比,無論是強(qiáng)監(jiān)督(SOD)、弱監(jiān)督方法(WSOD)還是極弱監(jiān)督(EWSOD),本文中提出的方法都展現(xiàn)出了最優(yōu)的結(jié)果。這里也推薦「3D視覺工坊」新課程《面向自動(dòng)駕駛領(lǐng)域目標(biāo)檢測中的視覺Transformer》。
該方法可以檢測不同物體的草繪的 “頭部” 區(qū)域,但是對(duì)于像 “腿” 這樣的模棱兩可的零件草圖,檢測性能較低。模型無法檢測到微小的草繪零件
擬議的支持草圖的對(duì)象檢測框架使用結(jié)合了CLIP和SBIR的新型提示學(xué)習(xí)設(shè)置, 基于人類草圖檢測物體,并且無需邊界框注釋或類標(biāo)簽即可工作。該檢測器設(shè)計(jì)為通用型,以零樣本方式工作,在零樣本設(shè)置下,其性能優(yōu)于有監(jiān)督和弱監(jiān)督的物體探測器
https://zhuanlan.zhihu.com/p/31426458https://zhuanlan.zhihu.com/p/493489688
目前工坊已經(jīng)建立了3D視覺方向多個(gè)社群,包括SLAM、工業(yè)3D視覺、自動(dòng)駕駛方向,細(xì)分群包括:[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測、三維測量、TOF、相機(jī)標(biāo)定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺產(chǎn)品落地等交流群。大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群。