最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

CVPR2023 | 手繪草圖就能實(shí)現(xiàn)目標(biāo)檢測?一種新的目檢測訓(xùn)練范例

2023-08-15 21:58 作者:3D視覺工坊  | 我要投稿

CVPR2023:提出了一種新的范例訓(xùn)練目標(biāo)檢測,將 CLIP 和 SBIR 結(jié)合、無需邊界框注釋或圖像級(jí)類標(biāo)簽

作者:PCIPG-ka ??| 來源:3D視覺工坊

在公眾號(hào)「3D視覺工坊」后臺(tái),回復(fù)「原論文」即可獲取論文pdf。

添加微信:dddvisiona,備注:目標(biāo)檢測,拉你入群。文末附行業(yè)細(xì)分群。

在本文中,我們提出一個(gè)問題:繪制的草圖可以為物體檢測的基本視覺任務(wù)做什么?因此,設(shè)想的結(jié)果是一個(gè)支持草圖的對(duì)象檢測框架,它根據(jù)您的草圖內(nèi)容(即您想要如何表達(dá)自己)進(jìn)行檢測。繪制“吃草的斑馬”應(yīng)該從一群斑馬中檢測出“那只”斑馬(實(shí)例感知檢測),并且它還可以讓您自由地指定各個(gè)部分(部分感知檢測) ),所以如果你更想要“斑馬”的“頭”,那么就畫出這個(gè)頭。作者沒有從頭開始設(shè)計(jì)一個(gè)支持草圖的對(duì)象檢測模型,而是證明CLIP和現(xiàn)成的 SBIR 模型 之間的協(xié)同作用已經(jīng)可以相當(dāng)優(yōu)雅地解決問題,CLIP 提供模型泛化,SBIR 彌合草圖到照片差距;使用 SBIR 模型訓(xùn)練目標(biāo)檢測器分為以下三步:(a) 首先,使用現(xiàn)有的草圖-照片對(duì)訓(xùn)練 FG-SBIR 模型,該模型可推廣到未見過的類別。(b) 為了訓(xùn)練對(duì)象檢測器模塊,我們平鋪來自 SBIR 數(shù)據(jù)集的多個(gè)對(duì)象級(jí)照片,并通過預(yù)先訓(xùn)練的草圖編碼器使用其配對(duì)草圖編碼來對(duì)齊檢測到的框的區(qū)域嵌入。(c) 包含用于對(duì)象檢測的草圖開辟了多種途徑,例如檢測查詢草圖的特定對(duì)象(例如,檢測正在吃草的“斑馬”)或?qū)ο蟮囊徊糠郑ɡ?,“斑馬”的“頭”)。這里也推薦「3D視覺工坊」新課程《面向自動(dòng)駕駛領(lǐng)域目標(biāo)檢測中的視覺Transformer》。

  • 首次培養(yǎng)用于目標(biāo)檢測的繪制草圖的表現(xiàn)力,

  • 基于草圖的目標(biāo)檢測器,用于檢測您想要在草圖中表達(dá)的內(nèi)容

  • 一個(gè)目標(biāo)檢測器除了執(zhí)行傳統(tǒng)的類別級(jí)檢測之外,還具有實(shí)例感知和部分感知功能。

  • 一種新穎的提示學(xué)習(xí)設(shè)置,將 CLIP 和 SBIR 結(jié)合起來,構(gòu)建草圖感知檢測器,該檢測器無需邊界框注釋(如監(jiān)督 、類標(biāo)簽(如弱監(jiān)督)),并且可以在零樣本的情況下工作。

  • 在零樣本設(shè)置下,結(jié)果優(yōu)于監(jiān)督 (SOD) 和弱監(jiān)督目標(biāo)檢測器 (WSOD)。

我們的框架有兩個(gè)關(guān)鍵模塊——目標(biāo)檢測和基于草圖的圖像檢索(類別級(jí)和細(xì)粒度)。為了完整起見,我們給出了簡短的背景。Faster Rcnn

Faster Rcnn目標(biāo)檢測領(lǐng)域的重要算法,并在各種應(yīng)用中取得了出色的性能,包括物體檢測、行人檢測、車輛檢測等。它的算法流程主要包括四步

  1. 特征提?。菏褂妙A(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(如VGG、ResNet等)對(duì)輸入圖像進(jìn)行特征提取,得到圖像的特征圖。

  2. 候選區(qū)域提取(Region Proposal Network,RPN):在特征圖上,RPN通過滑動(dòng)窗口來生成一系列候選區(qū)域(即候選檢測框),每個(gè)候選區(qū)域都有一個(gè)邊界框回歸和一個(gè)置信度得分。

  3. 區(qū)域分類與回歸:對(duì)于每個(gè)候選區(qū)域,F(xiàn)aster R-CNN將其與實(shí)際目標(biāo)進(jìn)行對(duì)比,通過分類器判斷其所屬類別,并校正候選區(qū)域的邊界框位置。這一步使用了RoI(Region of Interest)池化操作來從特征圖中提取固定大小的特征向量。

  4. 結(jié)果輸出:根據(jù)候選區(qū)域的分類結(jié)果和位置調(diào)整,選擇最終的檢測結(jié)果,并輸出目標(biāo)類別和邊界框的坐標(biāo)。

SBIR框架

  1. 特征提?。航o定草圖/照片對(duì) (s, p),類別級(jí) SBIR 需要來自同一類別的 (s, p),而細(xì)粒度 SBIR 需要實(shí)例級(jí)草圖/照片匹配,使用圖像檢索任務(wù)中常見的特征提取方法,從草圖和圖像數(shù)據(jù)獲取特征圖 fs = Fs(s) ε R512 和 fp = Fp(p) ε R512。

  2. 特征匹配與相似度計(jì)算:將草圖特征與圖像特征進(jìn)行匹配,計(jì)算特征的余弦距離。其中負(fù)樣本與草圖的余弦距離? 應(yīng)該增加,而正樣本與草圖的余弦距離 + 應(yīng)該減小

  3. 檢索與排序:根據(jù)相似度分?jǐn)?shù),對(duì)圖像數(shù)據(jù)庫中的圖像進(jìn)行排序,以確定與草圖最匹配的圖像。按照相似度降序排列,以提供最相關(guān)的圖像結(jié)果。

訓(xùn)練使用三元組損失函數(shù),超參數(shù)為μ > 0:

將SBIR擴(kuò)展到用于區(qū)分類別時(shí),損失函數(shù)就可以用交叉熵來實(shí)現(xiàn):
查詢 q = {s, p},ci 表示第 i 個(gè)樣本的類標(biāo)簽,F(xiàn)c : R512 → R|C|預(yù)測 softmax 概率。

如何實(shí)現(xiàn)弱監(jiān)督(不使用邊界框注釋)?一)使用圖像級(jí)類標(biāo)簽進(jìn)行訓(xùn)練,使用RPN方法生成候選框r = {r1,...rR},并獲得每個(gè)候選框的特征 fr = P(fp, r) ,如圖三紅色框所示,與Faster Rcnn類似,將每個(gè)patch的特征輸入分類頭φcls和檢測頭φdet,xc = φcls(fr) ∈ RR×(|C|+1),xd = φdet(fr) ∈ RR×(|C|+1) a:分類頭φcls:通過對(duì)(|C| + 1)個(gè)類別標(biāo)簽進(jìn)行softmax,將候選框分為預(yù)定義的C個(gè)類別和背景類別的分?jǐn)?shù)
b:檢測頭 φdet :通過在所有區(qū)域上進(jìn)行softmax操作,計(jì)算每個(gè)補(bǔ)丁 i 在圖片被分為類別 j時(shí)做出的貢獻(xiàn)
訓(xùn)練過程中,使用圖像級(jí)類標(biāo)簽:Y=[y0,y1....y|C|]T∈ R(|C|+1)×1,其中 yc = 1 或 0 表示圖像中是否存在類 c ∈ C 的實(shí)例。對(duì)于每個(gè)patch,我們計(jì)算其組合得分; ω0 = σcls(xc) ⊙ σdet(xd),ω0 ∈ RR×(|C|+1) 將所有patch的組合分?jǐn)?shù) ω0 相加,以得出圖像中是否存在第 c 類的實(shí)例的概率:
訓(xùn)練通過多類交叉熵進(jìn)行
二)提出了迭代細(xì)化分類器,使用(k-1)次迭代的偽分?jǐn)?shù)標(biāo)簽進(jìn)行監(jiān)督與使用邊界框注釋來完善提案的監(jiān)督對(duì)象檢測 (SOD) 不同,WSOD 僅使用圖像級(jí)別的類標(biāo)簽,這不足以完善提案,為了解決這個(gè)問題,使用了迭代細(xì)化分類器。ωk = φ* cls(fr),其中 ωk ∈ RR×(|C|+1) 來預(yù)測每個(gè)patch的細(xì)化類別分?jǐn)?shù),使用偽標(biāo)簽訓(xùn)練,目標(biāo)是盡可能將預(yù)測的標(biāo)簽與真實(shí)標(biāo)簽對(duì)齊 具體步驟 (i) 我們計(jì)算每個(gè)類中得分最高的patch
。(ii) 如與最高評(píng)分塊 rc * 具有高度重疊(iou>0.5)的所有區(qū)域 ri ∈ r 應(yīng)該是相同的類標(biāo)簽 c,
。(iii) 如果區(qū)域 ri ∈ r 與任何得分最高的塊 rc * 具有較低的重疊,我們將其分配給背景類
。(iv) 如果類 c 不在圖像 p 中,我們將其分配給
通過迭代K次,細(xì)化過程涉及根據(jù)偽分?jǐn)?shù)標(biāo)簽調(diào)整分類器的權(quán)重和參數(shù),使損失函數(shù)收斂,
在弱監(jiān)督物體檢測 (WSOD) 中使用方程 (5) 和 (6) 來訓(xùn)練模型,期望得到最正確的分類頭和檢測頭分?jǐn)?shù),輸出草圖是c ∈ C 的概率

WSOD 將檢測限制為預(yù)定義的 C 類,如何將任務(wù)擴(kuò)展未知類別中呢?我們用可擴(kuò)展的開放集原型學(xué)習(xí)替換 WSOD 中的固定集分類器 。--最初的 WSOD 模型中,使用函數(shù) φ預(yù)測分?jǐn)?shù),該函數(shù)將 512 維特征向量映射到維度為 RR× (|C|+1) 的分?jǐn)?shù)向量:RR×512 → RR×(|C|+1 --在修改后的模型中,函數(shù) φ用于計(jì)算嵌入向量而不是分?jǐn)?shù)。-嵌入向量是通過將函數(shù) φ應(yīng)用于 512 維特征向量來計(jì)算的,從而生成一個(gè)新的 512 維向量:RR ×512→RR×512 ? ? e =,使用預(yù)訓(xùn)練的草圖編碼器Fs對(duì)草圖特征提取,得到
其中 ebg是背景類,使用 S 和檢測到的區(qū)域的嵌入向量 e 計(jì)算分?jǐn)?shù) {xc, xd, ωk}
選擇不同的級(jí)別的草圖編碼器可以實(shí)現(xiàn)不同級(jí)別的檢測結(jié)果:(i)類別級(jí) SBIR 上的預(yù)訓(xùn)練 Fs 計(jì)算 S,檢測與查詢草圖具有相同類別的區(qū)域 r ,實(shí)現(xiàn)類別級(jí)對(duì)象檢測。(ii) 跨類別 FG-SBIR 上的預(yù)訓(xùn)練 Fs 計(jì)算 S,其中僅檢測到實(shí)例級(jí)對(duì)齊區(qū)域 r ,實(shí)現(xiàn)細(xì)粒度對(duì)象檢測。(iii) 使用通用(詞匯外)草圖編碼器 Fs 擴(kuò)展細(xì)粒度對(duì)象檢測有助于在給定查詢草圖的情況下檢測對(duì)象部分(例如,“馬”的“頭”),實(shí)現(xiàn)部分級(jí)對(duì)象檢測。為了進(jìn)一步提高訓(xùn)練效率,使用圖片編碼器(Fp)提供了額外的監(jiān)督,即在目標(biāo)檢測器中候選框?qū)?yīng)patch特征和使用預(yù)訓(xùn)練的 Fp 為裁剪的照片區(qū)域計(jì)算的照片特征之間施加特征匹配損失。特征匹配損失基于 L1,類似于特征蒸餾
此方法有助于學(xué)習(xí)在照明、復(fù)雜背景、遮擋、看不見的類別等廣泛變化下進(jìn)行類別級(jí)別和細(xì)粒度草圖/照片匹配的通用(詞匯外)SBIR。同時(shí)使用草圖和照片編碼器有助于彌合草圖和照片之間的差距,這對(duì)于基于草圖的物體檢測至關(guān)重要。

為了使用具有高度泛化和開放詞匯功能的 SBIR 來訓(xùn)練目標(biāo)檢測,我們引入了使用 CLIP ?進(jìn)行 SBIR 的即時(shí)學(xué)習(xí) 類別級(jí)和跨類別細(xì)粒度) 什么是 CLIP?如下圖所示:CLIP 包含一個(gè)圖像和文本編碼器(ViT 或 ResNet),在大型 400M 文本/圖像對(duì)上進(jìn)行訓(xùn)練,是一個(gè)高度通用的模型,可以實(shí)現(xiàn)靈驗(yàn)本學(xué)習(xí)。核心思想就是讓圖像識(shí)別模型從自然語言中學(xué)習(xí)監(jiān)督信息,讓模型可以學(xué)習(xí)圖像特征和文字特征之間的關(guān)系。CLIP可以根據(jù)圖像內(nèi)容自動(dòng)生成相關(guān)的文本標(biāo)注。它可以理解圖像并生成描述性的標(biāo)注,為圖像檢索、圖像搜索等任務(wù)提供更豐富的信息。

結(jié)

然而,將 CLIP 應(yīng)用于草圖是很棘手的,因?yàn)楹唵蔚牡奈⒄{(diào)會(huì)導(dǎo)致模型崩潰。因此,我們使用即時(shí)學(xué)習(xí),一組 可學(xué)習(xí)向量 vs ?∈ RP ×768 用于草圖和vp ∈ ?RP ×768用于圖片,被注入到ViT的第一層中,以促使CLIP學(xué)習(xí)下游的草圖/圖片分布。CLIP 學(xué)到的知識(shí)被提煉成提示的權(quán)重,同時(shí)保持 ViT 權(quán)重固定,從而以更少的數(shù)據(jù)和更快的收斂速度進(jìn)行參數(shù)高效訓(xùn)練。對(duì)于類別級(jí)別的SBIR,(vs, vp)使用三元組損失學(xué)習(xí)類別感應(yīng)提示。對(duì)于跨類別的細(xì)粒度SBIR,稍微復(fù)雜一些,它使用方程(1)中的硬三元組進(jìn)行訓(xùn)練,并使用CLIP的文本編碼器的修改類別區(qū)分損失方程(2),形式為:

盡管SBIR是使用物體級(jí)別(單個(gè)物體)的草圖/照片對(duì)進(jìn)行訓(xùn)練,但目標(biāo)檢測是在圖像級(jí)別(多個(gè)物體)的數(shù)據(jù)上進(jìn)行的。為了使用SBIR訓(xùn)練目標(biāo)檢測器,我們需要彌合這種物體級(jí)別和圖像級(jí)別之間的差距。我們的解決方案非常簡單——通過隨機(jī)平鋪 n = {1, . ……, 7} SBIR 數(shù)據(jù)集中的對(duì)象級(jí)照片,盡管它很簡單,但我們的增強(qiáng)技巧(類似于 CutMix )提高了針對(duì)輸入損壞和分布外泛化的魯棒性。畫布中照片的配對(duì)草圖用于構(gòu)造支持集 S。作者將這種設(shè)置稱為極弱監(jiān)督目標(biāo)檢測(EW-SOD),因?yàn)橛?xùn)練目標(biāo)檢測器無需“看到”評(píng)估數(shù)據(jù)分布或使用任何注釋(邊界框或圖像級(jí)別的類別標(biāo)簽)

跨類別 FG-SBIR 數(shù)據(jù)集 – Sketchy:訓(xùn)練目標(biāo)檢測器,包含 125 個(gè)類別,每個(gè)類別有 100 張照片。每張照片至少有 5 個(gè)實(shí)例級(jí)配對(duì)草圖;SketchyCOCO :由MS-COCO中的自然圖像和實(shí)例級(jí)配對(duì)草圖組成,從中選擇了1,225對(duì)草圖/照片,其中至少包含一個(gè)前景被描繪的物體 QuickDraw-Extended:對(duì)類別級(jí)草圖/照片對(duì)進(jìn)行訓(xùn)練,其中包含來自 110 個(gè)類別的 330k 草圖和 204k 照片

(i) 保持 Fd 和 R 固定,訓(xùn)練 RoI 池化層和 FC 層 (P)、分類頭 (φcls)、檢測頭 (φdet) 和細(xì)化頭 (φ* cls) 240k 次迭代。(ii) 我們僅凍結(jié) RPN 并微調(diào)所有模塊以進(jìn)行 80k 次迭代。應(yīng)用 IoU ≥ 0.3 的非極大值抑制來獲得最終預(yù)測;

(i) 對(duì)于細(xì)粒度目標(biāo)檢測,我們測量 AP.3、AP.5 和 AP.7,計(jì)算 IoU 值為 0.3、0.5 和 0.7 時(shí)的平均精度 (AP)。(ii) 對(duì)于類別級(jí)對(duì)象檢測,我們使用測量 AP.5 和 CorLoc 來計(jì)算最置信度預(yù)測框與每個(gè)類別至少有一個(gè)真實(shí)框的 IoU ≥ 0.5 的圖像百分比。(iii) 對(duì)于跨類別 FG-SBIR,我們測量 Acc.@q – top-q 列表中具有真正匹配照片的草圖的百分比,以及 (iv) 平均精度 (mAP) 以及考慮前 200 個(gè)檢索的精度 P@200對(duì)于類別級(jí) SBIR。

零樣本類別級(jí) SBIR (CL-SBIR) 和跨類別 FG-SBIR (CC-FGSBIR) 的定量性能。

與其他的基于草圖的目標(biāo)檢測方法相比,無論是強(qiáng)監(jiān)督(SOD)、弱監(jiān)督方法(WSOD)還是極弱監(jiān)督(EWSOD),本文中提出的方法都展現(xiàn)出了最優(yōu)的結(jié)果。這里也推薦「3D視覺工坊」新課程《面向自動(dòng)駕駛領(lǐng)域目標(biāo)檢測中的視覺Transformer》。

該方法可以檢測不同物體的草繪的 “頭部” 區(qū)域,但是對(duì)于像 “腿” 這樣的模棱兩可的零件草圖,檢測性能較低。模型無法檢測到微小的草繪零件

擬議的支持草圖的對(duì)象檢測框架使用結(jié)合了CLIP和SBIR的新型提示學(xué)習(xí)設(shè)置, 基于人類草圖檢測物體,并且無需邊界框注釋或類標(biāo)簽即可工作。該檢測器設(shè)計(jì)為通用型,以零樣本方式工作,在零樣本設(shè)置下,其性能優(yōu)于有監(jiān)督和弱監(jiān)督的物體探測器

https://zhuanlan.zhihu.com/p/31426458https://zhuanlan.zhihu.com/p/493489688

目前工坊已經(jīng)建立了3D視覺方向多個(gè)社群,包括SLAM、工業(yè)3D視覺、自動(dòng)駕駛方向,細(xì)分群包括:[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測、三維測量、TOF、相機(jī)標(biāo)定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺產(chǎn)品落地等交流群。大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群。

CVPR2023 | 手繪草圖就能實(shí)現(xiàn)目標(biāo)檢測?一種新的目檢測訓(xùn)練范例的評(píng)論 (共 條)

分享到微博請遵守國家法律
资中县| 柳江县| 汪清县| 固阳县| 屏东县| 黄平县| 渝中区| 菏泽市| 体育| 泌阳县| 营山县| 永春县| 山阳县| 吴堡县| 垣曲县| 高平市| 达州市| 故城县| 新巴尔虎左旗| 西华县| 奉新县| 夏邑县| 栾城县| 靖远县| 交城县| 高阳县| 泽库县| 浙江省| 福贡县| 高碑店市| 沙坪坝区| 阿荣旗| 贡嘎县| 菏泽市| 邓州市| 中江县| 尖扎县| 永登县| 龙州县| 广州市| 大同县|