CVPR2020最佳檢測 | 帶有注意力RPN和多關(guān)系檢測器的小樣本目標(biāo)檢測網(wǎng)絡(luò)(提供源碼)

1概 要
傳統(tǒng)的目標(biāo)檢測方法通常需要大量的訓(xùn)練數(shù)據(jù),并且準(zhǔn)備這樣高質(zhì)量的訓(xùn)練數(shù)據(jù)是勞動密集型的(工作)。在本文中,我們提出了少量樣本的目標(biāo)檢測網(wǎng)絡(luò),目的是檢測只有幾個訓(xùn)練實(shí)例的未見過的類別對象。我們的方法的核心是注意力RPN和多關(guān)系模塊,充分利用少量訓(xùn)練樣本和測試集之間的相似度來檢測新對象,同時抑制背景中的錯誤檢測。為了訓(xùn)練我們的網(wǎng)絡(luò),我們已經(jīng)準(zhǔn)備了一個新的數(shù)據(jù)集,它包含1000類具有高質(zhì)量注釋的不同對象。據(jù)我們所知,這也是第一個數(shù)據(jù)集專門設(shè)計用于少樣本目標(biāo)檢測。一旦我們的網(wǎng)絡(luò)被訓(xùn)練,我們可以應(yīng)用對象檢測為未見過的類,而無需進(jìn)一步的訓(xùn)練或微調(diào)。我們的方法是通用的,并且具有廣泛的應(yīng)用范圍。我們證明了我們的方法在不同的數(shù)據(jù)集上的定性和定量的有效性。
?解決的問題?
少量support的情況,檢測全部的屬于target目標(biāo)范疇的前景。
2背景
現(xiàn)有的物體檢測方法通常嚴(yán)重依賴大量的注釋數(shù)據(jù),并且需要很長的訓(xùn)練時間。這激發(fā)了少量樣本物體檢測的最新發(fā)展。鑒于現(xiàn)實(shí)世界中物體的光照,形狀,紋理等變化很大,少量樣本學(xué)習(xí)會遇到挑戰(zhàn)。盡管已經(jīng)取得了重要的研究和進(jìn)展,但是所有這些方法都將重點(diǎn)放在圖像分類上,而很少涉及到很少檢測到物體的問題,這很可能是因?yàn)檗D(zhuǎn)移從少樣本分類到少樣本目標(biāo)檢測是一項艱巨的任務(wù)。
僅有少數(shù)樣本的目標(biāo)檢測的中心是如何在雜亂的背景中定位看不見的對象,從長遠(yuǎn)來看,這是新穎類別中一些帶注釋的示例中對象定位的一個普遍問題。潛在的邊界框很容易錯過看不見的物體,否則可能會在后臺產(chǎn)生許多錯誤的檢測結(jié)果。我們認(rèn)為,這是由于區(qū)域提議網(wǎng)絡(luò)(RPN)輸出的良好邊界框得分不當(dāng)而導(dǎo)致難以檢測到新物體。這使得少樣本目標(biāo)檢測本質(zhì)上不同于少樣本分類。另一方面,最近用于少樣本物體檢測的工作都需要微調(diào),因此不能直接應(yīng)用于新穎類別。
在今天分享的文章中,作者解決了少樣本目標(biāo)檢測的問題:給定一些新穎目標(biāo)對象的支持圖像,我們的目標(biāo)是檢測測試集中屬于目標(biāo)對象類別的所有前景對象,如下圖所示。

FSOD: A Highly-Diverse Few-Shot Object Detection Dataset
進(jìn)行少量學(xué)習(xí)的關(guān)鍵在于,當(dāng)新穎的類別出現(xiàn)時,相關(guān)模型的泛化能力。因此,具有大量對象類別的高多樣性數(shù)據(jù)集對于訓(xùn)練可以檢測到看不見的對象的通用模型以及執(zhí)行令人信服的評估是必要的。但是,現(xiàn)有的數(shù)據(jù)集包含的類別非常有限,并且不是在一次性評估設(shè)置中設(shè)計的。因此,我們建立了一個新的少樣本物體檢測數(shù)據(jù)集。我們從現(xiàn)有的大規(guī)模對象檢測數(shù)據(jù)集構(gòu)建數(shù)據(jù)集以進(jìn)行監(jiān)督學(xué)習(xí)。但是,由于以下原因,這些數(shù)據(jù)集無法直接使用:
不同數(shù)據(jù)集的標(biāo)簽系統(tǒng)是在某些具有相同語義的對象用不同的詞注釋的地方不一致;
由于標(biāo)簽不正確和缺失,重復(fù)的框,對象太大,現(xiàn)有注釋的很大一部分是嘈雜的;
他們的訓(xùn)練/測試組包含相同的類別,而對于少樣本設(shè)置,我們希望訓(xùn)練/測試組包含不同的類別,以評估其在看不見的類別上的普遍性。
為了開始構(gòu)建數(shù)據(jù)集,首先從中總結(jié)標(biāo)簽系統(tǒng)。我們將葉子標(biāo)簽合并到其原始標(biāo)簽樹中,方法是將相同語義(例如,冰熊和北極熊)的葉子標(biāo)簽歸為一類,并刪除不屬于任何葉子類別的語義。然后,我們刪除標(biāo)簽質(zhì)量差的圖像和帶有不合適尺寸的盒子的圖像。具體而言,刪除的圖像的框小于圖像尺寸的0.05%,通??虻囊曈X質(zhì)量較差,不適合用作支持示例。接下來,我們遵循幾次學(xué)習(xí)設(shè)置,將我們的數(shù)據(jù)分為訓(xùn)練集和測試集,而沒有重疊的類別。如果研究人員更喜歡預(yù)訓(xùn)練階段,我們將在MS COCO數(shù)據(jù)集中按類別構(gòu)建訓(xùn)練集。然后,我們通過選擇現(xiàn)有訓(xùn)練類別中距離最大的類別來劃分包含200個類別的測試集,其中距離是連接is-a分類法中兩個短語的含義的最短路徑。其余類別將合并到總共包含800個類別的訓(xùn)練集中??偠灾?,我們構(gòu)建了一個包含1000個類別的數(shù)據(jù)集,其中明確地劃分了類別用于訓(xùn)練和測試,其中531個類別來自ImageNet數(shù)據(jù)集,而469來自開放圖像數(shù)據(jù)集。
?數(shù)據(jù)集分析?
數(shù)據(jù)集是專為幾次學(xué)習(xí)和評估新穎類別模型的通用性而設(shè)計的,該模型包含1000個類別,分別用于訓(xùn)練和測試集的800/200分割,總共約66,000張圖像和182,000個邊界框。下表和下圖顯示了詳細(xì)的統(tǒng)計信息。我們的數(shù)據(jù)集具有以下屬性。

類別高度多樣性??
包含了83中父類語義,例如哺乳動物,衣服,武器等,這些語義進(jìn)一步細(xì)分為1000個葉子類別。我們的標(biāo)簽樹如上圖所示。由于嚴(yán)格的數(shù)據(jù)集劃分,我們的訓(xùn)練/測試集包含了非常不同的語義類別的圖像,因此給要評估的模型帶來了挑戰(zhàn)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ?4新方法框架

在RPN前加一個attention,在檢測器之前加了3個attention,然后還是用到了負(fù)support訓(xùn)練。具體來說,我們構(gòu)建了一個由多個分支組成的權(quán)重共享框架,其中一個分支用于查詢集,另一個分支用于支持集(為簡單起見,我們在圖中僅顯示了一個支持分支)。權(quán)重共享框架的查詢分支是Faster R-CNN網(wǎng)絡(luò),其中包含RPN和檢測器。我們利用此框架來訓(xùn)練支持和查詢功能之間的匹配關(guān)系,使網(wǎng)絡(luò)學(xué)習(xí)相同類別之間的常識。在該框架的基礎(chǔ)上,我們引入了一種新穎的注意力RPN和具有多關(guān)系模塊的檢測器,用于在支持框和查詢框之間產(chǎn)生準(zhǔn)確的查詢解析。
?Attention-Based Region Proposal Network?

沒有support,RPN就沒有目標(biāo),后面的子分類就搞不清楚這么多的不相關(guān)目標(biāo)。使用support信息就能過濾掉大部分的背景框,還有那些不是匹配的類別。通過在RPN中用attention機(jī)制來引入support信息,來對其他類的proposal進(jìn)行壓制。通過逐深度的方法計算二者特征值的相似性,相似性用來生成proposal。相似度定義如下:

其中GGG是attention特征圖,X作為一個卷積核在query的特征圖上滑動,以一種逐深度(取平均)的方式。使用的是RPN的底部特征,ResNet50的res4-6,發(fā)現(xiàn)設(shè)置S=1表現(xiàn)很好,這說明全局特征能提供一個好的先驗(yàn)G用3×3的卷積處理,然后接分類和回歸層。
?Multi-Relation Detector

不同的關(guān)系模塊建模查詢和支持圖像之間的不同關(guān)系。全局關(guān)系模塊使用全局表示來匹配圖像;局部關(guān)系模塊捕獲像素到像素的匹配關(guān)系;補(bǔ)丁關(guān)系模塊對一對多像素關(guān)系進(jìn)行建模。
該檢測器包括三個注意模塊,分別是要學(xué)習(xí)的全局關(guān)系模塊在深度嵌入的全局匹配中,局部相關(guān)模塊學(xué)習(xí)支持和查詢建議之間的像素級和深度互相關(guān),而補(bǔ)丁關(guān)系模塊則學(xué)習(xí)深度非線性度量以用于補(bǔ)丁匹配。我們通過實(shí)驗(yàn)證明,三個匹配的模塊可以相互補(bǔ)充以產(chǎn)生更高的性能。
需要哪些關(guān)系模塊?我們遵循RepMet中提出的Kway N-shot評估協(xié)議來評估我們的關(guān)系模塊和其他組件。表2顯示了我們在FSOD數(shù)據(jù)集的簡單1-way 1-shot訓(xùn)練策略和5-way 5-shot評估下對我們提出的多關(guān)系檢測器的模型簡化測試。
此后,我們對FSOD數(shù)據(jù)集上的所有模型簡化測試使用相同的評估設(shè)置。對于單個模塊,本地關(guān)系模塊在AP50和AP75評估中均表現(xiàn)最佳。出人意料的是,盡管補(bǔ)丁關(guān)系模塊對圖像之間更復(fù)雜的關(guān)系進(jìn)行建模,但其性能比其他關(guān)系模塊差。我們認(rèn)為,復(fù)雜的關(guān)系模塊使模型難以學(xué)習(xí)。當(dāng)組合任何兩種類型的關(guān)系模塊時,我們獲得的性能要優(yōu)于單個關(guān)系模塊。通過組合所有的關(guān)系模塊,我們獲得了完整的多重關(guān)系檢測器,并獲得了最佳性能,表明三個提出的關(guān)系模塊相互補(bǔ)充,可以更好地區(qū)分目標(biāo)與不匹配的對象。因此,以下所有實(shí)驗(yàn)均采用完整的多關(guān)系檢測器。
Two-way Contrastive?Training?Strategy

2次對比訓(xùn)練三聯(lián)體和不同的匹配結(jié)果。在查詢圖像中,只有正支持與目標(biāo)基本事實(shí)具有相同的類別。匹配對包括正面支持和前景建議,非匹配對具有三類:(1)正面支持和背景建議;(2)負(fù)面支持和前景建議;(3)負(fù)面支持和負(fù)面建議。選擇訓(xùn)練策略:

哪個RPN更好?
我們根據(jù)不同的評估指標(biāo)評估注意力RPN。為了評估提案質(zhì)量,我們首先評估常規(guī)RPN和建議的RPN超過0.5 IoU閾值的前100個提案的召回率。我們關(guān)注的RPN具有比常規(guī)RPN更好的召回性能(0.9130對0.8804)。然后,我們針對這兩個RPN評估整個ground truth框的平均最佳重疊率(ABO)。注意RPN的ABO為0.7282,而常規(guī)RPN的相同度量為0.7127。這些結(jié)果表明,關(guān)注RPN可以生成更多高質(zhì)量的建議。
上表進(jìn)一步比較了在不同訓(xùn)練策略下具有注意力RPN的模型和具有常規(guī)RPN的模型。在AP50和AP75評估中,注意力RPN的模型始終表現(xiàn)出比常規(guī)RPN更好的性能。在AP50 / AP75評估中,注意力RPN在1-way 1-shot訓(xùn)練策略中產(chǎn)生0.9%/ 2.0%的收益,在2-way 5-shot訓(xùn)練策略中產(chǎn)生2.0%/ 2.1%的收益。這些結(jié)果證實(shí),我們注意力的RPN會產(chǎn)生更好的建議并有益于最終的檢測預(yù)測。因此,在我們的完整模型中采用了注意力RPN。
5實(shí)驗(yàn)


