最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Exploiting Unlabeled Data with Vision and Language Models for Ob

2023-07-05 21:31 作者:Aster的小號(hào)  | 我要投稿

構(gòu)建穩(wěn)健且通用的目標(biāo)檢測(cè)框架需要擴(kuò)展到更大的標(biāo)簽空間和更大的訓(xùn)練數(shù)據(jù)集。然而,以大規(guī)模獲取數(shù)千個(gè)類別的標(biāo)注是代價(jià)高昂的。我們提出了一種新穎的方法,利用最近的視覺(jué)和語(yǔ)言模型中豐富的語(yǔ)義信息,對(duì)未標(biāo)記的圖像進(jìn)行目標(biāo)定位和分類,從而有效地生成目標(biāo)檢測(cè)的偽標(biāo)簽。從一個(gè)通用且與類別無(wú)關(guān)的區(qū)域提議機(jī)制開(kāi)始,我們使用視覺(jué)和語(yǔ)言模型將圖像中的每個(gè)區(qū)域分類到下游任務(wù)所需的任何目標(biāo)類別中。我們?cè)趦蓚€(gè)特定任務(wù)中展示了生成的偽標(biāo)簽的價(jià)值:開(kāi)放詞匯檢測(cè)(模型需要泛化到?jīng)]有見(jiàn)過(guò)的目標(biāo)類別)和半監(jiān)督目標(biāo)檢測(cè)(額外的未標(biāo)記圖像可用于改進(jìn)模型)。我們的實(shí)證評(píng)估顯示了偽標(biāo)簽在這兩個(gè)任務(wù)中的有效性,我們?cè)陂_(kāi)放詞匯目標(biāo)檢測(cè)方面超過(guò)了競(jìng)爭(zhēng)基線,并取得了新穎的最先進(jìn)的結(jié)果。我們的代碼可在 https://github.com/xiaofeng94/VL-PLM 上獲得。

近年來(lái),目標(biāo)檢測(cè)的最新進(jìn)展是基于大規(guī)模數(shù)據(jù)集[17,27,43],這些數(shù)據(jù)集為許多目標(biāo)類別提供了豐富而準(zhǔn)確的人工標(biāo)注邊界框。然而,這些數(shù)據(jù)集的標(biāo)注成本是相當(dāng)大的。此外,自然目標(biāo)類別的長(zhǎng)尾分布使得為所有類別收集足夠的注釋更加困難。半監(jiān)督目標(biāo)檢測(cè)(SSOD)[46,62]和開(kāi)放詞匯目標(biāo)檢測(cè)(OVD)[4,16,56]是兩個(gè)通過(guò)利用不同形式的未標(biāo)記數(shù)據(jù)來(lái)降低標(biāo)注成本的任務(wù)。在SSOD中,除了大量的未標(biāo)記圖像語(yǔ)料庫(kù),還提供了對(duì)少數(shù)全面注釋的訓(xùn)練圖像的幫助。在OVD中,在所有訓(xùn)練圖像中只注釋了部分所需的目標(biāo)類別(基本類別),任務(wù)是在測(cè)試時(shí)還要檢測(cè)一組新的(或未知的)類別。這些目標(biāo)類別可能出現(xiàn)在訓(xùn)練圖像中,但沒(méi)有用地面實(shí)況邊界框進(jìn)行注釋。利用未標(biāo)記數(shù)據(jù)的常見(jiàn)且成功的方法是生成偽標(biāo)簽。然而,在SSOD的所有先前工作中,僅利用了少量標(biāo)記數(shù)據(jù)生成偽標(biāo)簽,而在OVD的大部分先前工作中根本不利用偽標(biāo)簽。

在本文中,我們提出了一種簡(jiǎn)單而有效的方法,利用最近提出的視覺(jué)和語(yǔ)言(V&L)模型來(lái)挖掘未標(biāo)記圖像,為已知和未知的類別生成偽標(biāo)簽,適用于SSOD和OVD兩種任務(wù)。V&L模型[23,29,38]可以通過(guò)訓(xùn)練(含有噪聲)的圖像標(biāo)題對(duì)集合進(jìn)行訓(xùn)練,這可以通過(guò)在網(wǎng)站上獲取圖像和其替代文本來(lái)大規(guī)模獲取,而無(wú)需進(jìn)行人工標(biāo)注工作。盡管注釋有噪聲,但這些模型展現(xiàn)了在零樣本分類或圖像-文本檢索等各種語(yǔ)義任務(wù)上的優(yōu)異性能。大量多樣的圖像加上自由文本為訓(xùn)練強(qiáng)大且通用的模型提供了強(qiáng)大的信息源。這些特性使得視覺(jué)和語(yǔ)言模型成為改進(jìn)利用未標(biāo)記數(shù)據(jù)的現(xiàn)有目標(biāo)檢測(cè)流水線的理想選擇,如OVD或SSOD,見(jiàn)圖1(a)。

具體而言,我們的方法利用最近提出的視覺(jué)和語(yǔ)言模型CLIP [38]生成目標(biāo)檢測(cè)的偽標(biāo)簽。我們首先使用一個(gè)兩階段的與類別無(wú)關(guān)的提議生成器預(yù)測(cè)區(qū)域提議,該生成器在訓(xùn)練時(shí)僅使用已知基本類別的有限地面實(shí)況(在OVD中)或已標(biāo)記的圖像(在SSOD中)進(jìn)行訓(xùn)練,但可以泛化到未知類別。對(duì)于每個(gè)區(qū)域提議,我們使用預(yù)訓(xùn)練的V&L模型CLIP [38]獲取所需目標(biāo)類別的概率分布(取決于任務(wù))。然而,如圖1(b)所示,V&L模型的一個(gè)主要挑戰(zhàn)是其對(duì)象定位質(zhì)量相對(duì)較低,這也在[59]中觀察到。為了提高定位的準(zhǔn)確度,我們提出了兩種策略,其中兩階段提議生成器幫助V&L模型:(1)融合CLIP得分和兩階段提議生成器的對(duì)象性得分,(2)通過(guò)多次應(yīng)用提議生成器的定位頭(第二階段)刪除冗余的提議。最后,將生成的偽標(biāo)簽與原始的地面實(shí)況相結(jié)合,訓(xùn)練最終的檢測(cè)器。我們將我們的方法命名為基于V&L模型的偽標(biāo)簽挖掘(VL-PLM)。

廣泛的實(shí)驗(yàn)表明,VL-PLM成功地利用了未標(biāo)記數(shù)據(jù)進(jìn)行開(kāi)放詞匯檢測(cè),并在COCO數(shù)據(jù)集[32]上對(duì)新類別的性能超過(guò)了最新的ViLD [16] 6.8個(gè)AP。此外,VL-PLM改進(jìn)了SSOD中已知類別的性能,并以明顯的優(yōu)勢(shì)擊敗了 STAC [46] 這一流行基線,僅僅是用我們的偽標(biāo)簽替換它們。此外,我們還對(duì)生成的偽標(biāo)簽的屬性進(jìn)行了各種消融研究,并分析了我們提出的方法的設(shè)計(jì)選擇。我們還相信,使用諸如ALIGN [23]或ALBEF [29]等更好的V&L模型,VL-PLM還可以進(jìn)一步改進(jìn)。

我們的工作的貢獻(xiàn)如下:(1)我們利用V&L模型來(lái)改進(jìn)目標(biāo)檢測(cè)框架,通過(guò)在未標(biāo)記的數(shù)據(jù)上生成偽標(biāo)簽。 (2)通過(guò)使用V&L模型CLIP [38]來(lái)提高偽標(biāo)簽的定位質(zhì)量的一種簡(jiǎn)單而有效的策略。 (3)在COCO開(kāi)放詞匯檢測(cè)設(shè)置中,提供了對(duì)新類別的最新結(jié)果。 (4)我們展示了VL-PLM在半監(jiān)督目標(biāo)檢測(cè)設(shè)置中的益處。


Exploiting Unlabeled Data with Vision and Language Models for Ob的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
德州市| 腾冲县| 孟村| 衡阳市| 古浪县| 亳州市| 宜州市| 蓬溪县| 河源市| 翁源县| 荣昌县| 嘉定区| 榆社县| 沁阳市| 漳浦县| 扎赉特旗| 新邵县| 乐安县| 固阳县| 应用必备| 镇雄县| 大城县| 赫章县| 南丰县| 望谟县| 东港市| 边坝县| 青阳县| 韩城市| 新建县| 桃园县| 岳池县| 山阴县| 那坡县| 蒙自县| 泗阳县| 蒙山县| 游戏| 铜鼓县| 大方县| 昆明市|