ECCV 22丨BUTD-DETR:圖像和點(diǎn)云的語言標(biāo)定Transformer
來源:投稿 作者:橡皮
編輯:學(xué)姐

論文鏈接:https://arxiv.org/abs/2112.08879[1]
主頁(yè)鏈接:https://github.com/nickgkan/butd\_detr[2]
摘要:
在二維和三維場(chǎng)景中,大多數(shù)模型的任務(wù)都是將指涉語句置地,學(xué)會(huì)從預(yù)先訓(xùn)練好的檢測(cè)器提供的對(duì)象建議庫(kù)中選擇指涉對(duì)象。這是限制性的,因?yàn)樵捳Z可能涉及不同粒度級(jí)別的視覺實(shí)體,例如椅子、椅子腿或椅子前腿的尖端,這些可能被檢測(cè)器錯(cuò)過。我們提出了一種語言標(biāo)定模型,該模型關(guān)注引用話語和根據(jù)預(yù)先訓(xùn)練的檢測(cè)器計(jì)算的對(duì)象備選框池,以使用檢測(cè)頭解碼引用的對(duì)象,而不從池中選擇它們。通過這種方式,它可以得到強(qiáng)大的預(yù)訓(xùn)練目標(biāo)檢測(cè)器的幫助,而不受其失誤的限制。我們將我們的模型稱為自下而上自上而下檢測(cè)變換器(BUTD-DETR),因?yàn)樗褂谜Z言指導(dǎo)(自上而下)和對(duì)象指導(dǎo)(自下而上)來在圖像和點(diǎn)云中提供參考話語。此外,BUTD-DETR將對(duì)象檢測(cè)作為參考標(biāo)定,并使用對(duì)象標(biāo)簽作為語言提示來接地于視覺場(chǎng)景,以這種方式增強(qiáng)對(duì)參考接地任務(wù)的監(jiān)督。所提出的模型在流行的 3D 語言標(biāo)定基準(zhǔn)中樹立了新的最先進(jìn)水平,與以前的 3D 方法相比,性能顯著提升(SR3D 為 12.6%,NR3D 為 11.6%,ScanRefer 為 6.3%)。當(dāng)應(yīng)用于 2D 圖像時(shí),它的性能與之前的技術(shù)水平相當(dāng)。我們消融了模型的設(shè)計(jì)選擇,并量化了它們對(duì)性能的貢獻(xiàn)。
1.引言
語言引導(dǎo)的注意力可以幫助我們定位 "自下而上"、與任務(wù)無關(guān)的感知可能會(huì)忽略的對(duì)象。請(qǐng)看圖 1。語言 "浴室梳妝臺(tái)頂上的瓶子 "足以將我們的注意力引向參照物,盡管它遠(yuǎn)非突出物。語言導(dǎo)向感知會(huì)根據(jù)語句調(diào)整輸入場(chǎng)景的視覺處理。而物體檢測(cè)器則會(huì)在每個(gè)場(chǎng)景中進(jìn)行相同的計(jì)算,這可能會(huì)錯(cuò)過與任務(wù)相關(guān)的物體。

圖 1:使用 BUTD-DETR 進(jìn)行語言調(diào)制 3D(頂部)和 2D(底部)檢測(cè)。中:最先進(jìn)的物體探測(cè)器通常無法定位小的、被遮擋的或稀有的物體(這里它們錯(cuò)過了架子上的時(shí)鐘和柜子上的瓶子)。右圖:BUTD-DETR 中語言驅(qū)動(dòng)和對(duì)象驅(qū)動(dòng)的注意力根據(jù)參考表達(dá)調(diào)節(jié)視覺處理,同時(shí)考慮顯著的、自下而上檢測(cè)到的對(duì)象,并正確定位所有參考對(duì)象。
大多數(shù)現(xiàn)有的語言接地模型都使用了對(duì)象備選瓶頸:它們從預(yù)先訓(xùn)練的對(duì)象檢測(cè)器提供的對(duì)象建議池中選擇被引用的對(duì)象。這意味著它們無法恢復(fù)自下而上檢測(cè)器遺漏的對(duì)象或部分。這就造成了限制,因?yàn)槿绻麤]有任務(wù)驅(qū)動(dòng)的指導(dǎo),小的、遮擋的或罕見的物體很難被檢測(cè)到。例如,在圖 1 中間,最先進(jìn)的二維和三維檢測(cè)器分別錯(cuò)過了架子上的時(shí)鐘和浴室梳妝臺(tái)上的瓶子。
最近,Kamath 等人提出了 MDETR,這是一種用于二維圖像的語言標(biāo)定模型,它使用 DETR檢測(cè)頭解碼對(duì)象方框,并將其與輸入語篇中的相關(guān)跨度對(duì)齊,而不是從方框備選池中選擇答案。視覺計(jì)算是根據(jù)輸入語句,通過對(duì)語言和視覺特征串聯(lián)的幾層自我關(guān)注進(jìn)行調(diào)制的。與以前的盒式瓶頸方法相比,MDETR 在二維語言接地方面實(shí)現(xiàn)了巨大的性能飛躍。
我們?cè)?MDETR 的基礎(chǔ)上提出了一種用于在三維和二維視覺場(chǎng)景中定位指代語篇的模型,我們稱之為 BUTD-DETR(讀作 Beauty-DETR),因?yàn)樗瑫r(shí)使用由預(yù)先訓(xùn)練的檢測(cè)器 "自下而上 "和 "自上而下 "地從語篇中獲得的箱體建議來定位場(chǎng)景中的相關(guān)對(duì)象。BUTD-DETR 使用預(yù)先訓(xùn)練好的檢測(cè)器獲得的方框建議作為額外的輸入流;但是,它沒有方框瓶頸,仍然使用檢測(cè)頭對(duì)物體進(jìn)行解碼,而不是從輸入方框流中選擇物體。正如我們的實(shí)驗(yàn)所顯示的那樣,目前的物體檢測(cè)器能對(duì)輸入的視覺場(chǎng)景進(jìn)行噪聲標(biāo)記化,這對(duì)于多模態(tài)推理來說是一個(gè)有用的提示。其次,BUTD-DETR 通過將對(duì)象檢測(cè)注釋配置為檢測(cè)提示來增強(qiáng)視覺場(chǎng)景中的接地注釋。檢測(cè)提示是一系列物體類別標(biāo)簽,例如 "椅子, 門, 人, 床"。我們通過定位圖像中存在的標(biāo)簽來訓(xùn)練模型,使檢測(cè)提示落地,并學(xué)會(huì)舍棄那些被提及但與場(chǎng)景中任何物體都不對(duì)應(yīng)的標(biāo)簽。第三,BUTD-DETR 考慮了改進(jìn)的邊界框-詞距對(duì)齊損耗,以減少將對(duì)象框與所指語篇中的名詞短語對(duì)齊時(shí)產(chǎn)生的噪音。
我們?cè)谌S基準(zhǔn)和二維基準(zhǔn)上測(cè)試了 BUTD-DETR。在三維點(diǎn)云中,我們?cè)?Referit3D和 ScanRefer這兩個(gè)基準(zhǔn)測(cè)試中創(chuàng)造了新的最高水平,并報(bào)告了與所有先前方法相比的顯著性能提升(SR3D 為 12.6%,NR3D 為 11.6%,ScanRefer 為 6.3%),以及與我們的 MDETR-3D 直接實(shí)現(xiàn)相比的顯著性能提升(MDETR-3D 在訓(xùn)練過程中不使用方框建議流或檢測(cè)提示)。在 2D 圖像中,我們的模型在 RefCOCO、RefCOCO+ 和 Flickr30k 上獲得了與 MDETR 相媲美的性能,并且由于視覺流中的可變形關(guān)注度更低,所需的 GPU 訓(xùn)練時(shí)間不到 MDETR 的一半。我們對(duì)模型的每個(gè)設(shè)計(jì)選擇進(jìn)行了消減,以量化它們對(duì)性能的貢獻(xiàn)。
總之,我們的貢獻(xiàn)在于:
(i) 一個(gè)在二維和三維場(chǎng)景中都具有 SOTA 性能的模型,只需稍作改動(dòng),即可顯示二維圖像中的調(diào)制檢測(cè)也可在三維點(diǎn)云中使用,只需對(duì)視覺編碼器和解碼器進(jìn)行適當(dāng)修改即可。
(ii) 通過檢測(cè)提示、關(guān)注額外的輸入框流和改進(jìn)的邊界框-字跨對(duì)齊損失來加強(qiáng)監(jiān)督。
(iii) 通過廣泛的消減來量化我們模型中不同組成部分的貢獻(xiàn)。
2.相關(guān)工作
「使用transformer行物體檢測(cè)」 物體檢測(cè)器經(jīng)過訓(xùn)練,可以定位圖像和三維點(diǎn)云中封閉的物體類別標(biāo)簽集的所有實(shí)例。早期的架構(gòu)是在提議的方框內(nèi)匯集特征來解碼物體并將其分類,而最近由 DETR首創(chuàng)的方法則使用transformer架構(gòu),其中一組物體查詢矢量會(huì)關(guān)注場(chǎng)景并在它們之間解碼物體方框及其標(biāo)簽。DETR 面臨著圖像特征自我關(guān)注的二次成本問題。D(eformable)-DETR提出了可變形關(guān)注,這是一種局部自適應(yīng)內(nèi)核,可直接預(yù)測(cè)每個(gè)像素位置,而無需關(guān)注其他像素位置,從而節(jié)省了像素間關(guān)注的二次成本。我們的模型以可變形注意力為基礎(chǔ),用于從 RGB 圖像中提取特征。還有工作將Transformer擴(kuò)展到三維點(diǎn)云輸入。
「二維參照語言定位」 參照語言定位是對(duì)語言語篇中的參照對(duì)象進(jìn)行定位的任務(wù)。大多數(shù)二維語言定位模型都是通過預(yù)先訓(xùn)練的對(duì)象檢測(cè)器來獲取對(duì)象建議集,并在提取對(duì)象建議集時(shí)丟棄原始圖像。其中許多方法使用多層注意力來融合提取的盒子和語言語篇的信息。最近,有幾種方法在不使用預(yù)訓(xùn)練對(duì)象建議的情況下直接回歸目標(biāo)邊界框。在文獻(xiàn)中,語言和視覺特征相互關(guān)聯(lián),并通過串聯(lián)來預(yù)測(cè)所指對(duì)象的方框。Yang等人將YOLO檢測(cè)器擴(kuò)展到了參照標(biāo)定,方法是將語言、視覺和空間特征圖按通道串聯(lián)起來,然后使用YOLO方框預(yù)測(cè)頭回歸單個(gè)方框。先前工作類似的融合,然后從一組錨點(diǎn)框中選擇一個(gè)框,并預(yù)測(cè)其變形,這與 Faster-RCNN 物體檢測(cè)器非常相似。以前的方法會(huì)將整個(gè)文本輸入編碼成一個(gè)特征向量,通過遞歸地關(guān)注指代語篇的不同部分來進(jìn)一步提高性能。最后,使用內(nèi)模態(tài)和跨模態(tài)轉(zhuǎn)換器對(duì)圖像和語音進(jìn)行編碼,并使用特殊的可學(xué)習(xí)標(biāo)記對(duì)單個(gè)方框進(jìn)行回歸。與我們的方法不同的是,所有這些方法都是對(duì)每對(duì)圖像-語言預(yù)測(cè)一個(gè)邊界框。我們的工作建立在 Kamath 等人的 MDETR 基礎(chǔ)之上,MDETR通過關(guān)注輸入語言語篇來調(diào)節(jié)視覺處理,并從與 DETR 類似的查詢中解碼對(duì)象,而無需從備選庫(kù)中進(jìn)行選擇。我們的方法和 MDETR 都能預(yù)測(cè)被提及的多個(gè)實(shí)例以及地面中間名詞短語。與我們的研究同時(shí)進(jìn)行的 GLIP研究表明,從檢測(cè)注釋中添加監(jiān)督可以改善二維指代標(biāo)定。我們的工作在二維領(lǐng)域獨(dú)立地證實(shí)了這一假設(shè),同時(shí)也顯示了它在三維領(lǐng)域的適用性。
「三維指代語言標(biāo)定」 最近才開始流行起來。據(jù)我們所知,所有相關(guān)方法都存在方框瓶頸:它們提取三維物體備選并選擇其中一個(gè)作為答案。它們的流程可分解為三個(gè)主要步驟: i) 將對(duì)象框表示為點(diǎn)特征、分割掩碼或純空間/分類特征。ii) 使用詞嵌入和/或場(chǎng)景圖對(duì)語言語篇進(jìn)行編碼。 iii) 使用圖網(wǎng)絡(luò)或transformer對(duì)兩種模式進(jìn)行融合并對(duì)每個(gè)備選進(jìn)行評(píng)分。這些作品大多還采用了特定領(lǐng)域的設(shè)計(jì)選擇,明確編碼成對(duì)關(guān)系或依賴啟發(fā)式方法,如將注意力限制在局部和忽略輸入模態(tài)。這種設(shè)計(jì)使得這些架構(gòu)無法同時(shí)適用于三維和二維領(lǐng)域。
由于 3D 物體檢測(cè)器的性能不如 2D 物體檢測(cè)器,流行的 3D 語言接地基準(zhǔn)(如 Referit3D)在測(cè)試時(shí)提供了對(duì)地面真實(shí)物體盒的訪問。所提出的 BUTD-DETR 是首個(gè)在該基準(zhǔn)上評(píng)估的 3D 語言接地模型,無需訪問 Oracle 3D 物體盒。
3.方法
我們首先在第 3.1 節(jié)介紹 MDETR。然后,我們將在第 3.2 節(jié)中介紹 BUTD-DETR 的架構(gòu),在第 3.3 節(jié)中介紹使用檢測(cè)提示的監(jiān)督增強(qiáng)功能,并在第 3.4 節(jié)中介紹其訓(xùn)練目標(biāo)。
3.1 背景介紹 MDETR
MDETR 是一種二維語言標(biāo)定模型,它將指代語句和 RGB 圖像作為輸入,并在圖像中定位語句中提到的所有對(duì)象。MDETR 使用卷積網(wǎng)絡(luò)對(duì)圖像進(jìn)行編碼,使用 RoBERTa 編碼器對(duì)語篇進(jìn)行編碼。然后,MDETR 通過對(duì)連接的視覺和語言特征序列進(jìn)行多層自我關(guān)注,融合語言和視覺特征信息。在 MDETR 的解碼器中,一組查詢向量迭代地關(guān)注上下文化的視覺特征,并相互自關(guān)注,這與 DETR 的解碼器類似。最后,每個(gè)查詢解碼出一個(gè)邊界框和輸入語篇中每個(gè)單詞的置信度得分,并將邊界框與文本跨度相關(guān)聯(lián)。
使用匈牙利匹配法,將預(yù)測(cè)的方框分配給地面實(shí)況方框。匹配后,將計(jì)算以下?lián)p失:
預(yù)測(cè)方框與相應(yīng)地面實(shí)況方框之間的邊界方框損失。這是 L1 和廣義 IoU損失的組合。
軟標(biāo)簽預(yù)測(cè)損失。與地面實(shí)況箱相匹配的查詢會(huì)被訓(xùn)練成解碼指向該對(duì)象的語言標(biāo)記位置的均勻分布。與地面實(shí)況目標(biāo)不匹配的查詢會(huì)被訓(xùn)練成預(yù)測(cè)無對(duì)象標(biāo)簽。
查詢和語言標(biāo)記特征之間的兩種對(duì)比損失。第一種稱為對(duì)象對(duì)比損失(object contrastive loss),它使對(duì)象查詢的特征更接近于相應(yīng)的地面實(shí)況跨度詞標(biāo)記的特征,而比所有其他標(biāo)記更遠(yuǎn)。第二種損失稱為標(biāo)記對(duì)比損失,它使地面實(shí)況跨度的標(biāo)記特征更接近相應(yīng)的對(duì)象查詢特征,而比所有其他查詢特征更遠(yuǎn)。
3.2 自下而上 自上而下 DETR(BUTD-DETR)

圖 2:BUTD-DETR 架構(gòu)。給定一個(gè)視覺場(chǎng)景和一個(gè)參考語句,該模型會(huì)定位語句中提到的所有物體實(shí)例。預(yù)先訓(xùn)練好的對(duì)象檢測(cè)器會(huì)提取對(duì)象框提議。使用視覺編碼器、語言編碼器和方框編碼器,將視覺場(chǎng)景特征、語言語句和標(biāo)記方框建議分別編碼成相應(yīng)的視覺、詞語和方框標(biāo)記序列。這三個(gè)流交叉處理,最后解碼方框和每個(gè)解碼方框所對(duì)應(yīng)的語言語篇中的相應(yīng)跨度。在此,我們將該模型在三維點(diǎn)云上的運(yùn)行情況可視化;二維圖像接地也采用了類似的架構(gòu)。
BUTD-DETR 的結(jié)構(gòu)如圖 2 所示。給定一個(gè)指代性語言語句,例如 "找到放在桌子末端的植物 "和一個(gè)可視場(chǎng)景(可以是三維點(diǎn)云或二維圖像),BUTD-DETR 將接受訓(xùn)練以定位語句中提到的所有對(duì)象。在前面的例子中,我們希望一個(gè)方框代表 "植物",一個(gè)方框代表 "桌子"。該模型會(huì)關(guān)注圖像/點(diǎn)云、語言和盒子建議流,然后解碼相關(guān)對(duì)象并將其與輸入語言跨度對(duì)齊。
「模內(nèi)編碼器」 在二維圖像中,我們使用預(yù)訓(xùn)練的 ResNet101 骨干對(duì) RGB 圖像進(jìn)行編碼。二維外觀視覺特征被添加到二維傅立葉位置編碼中,這與 先前的方法相同。在三維空間,我們使用 PointNet++ 骨干網(wǎng)對(duì)三維點(diǎn)云進(jìn)行編碼。三維點(diǎn)視覺特征被添加到可學(xué)習(xí)的三維位置編碼中,這與文獻(xiàn)相同:我們通過一個(gè)小型多層感知器(MLP)傳遞點(diǎn)的坐標(biāo)。讓 V∈R nv×cv 表示視覺標(biāo)記序列,其中 nv 是視覺標(biāo)記的數(shù)量,cv 是視覺特征通道的數(shù)量。
輸入語篇的單詞使用預(yù)先訓(xùn)練好的 RoBERTa骨干進(jìn)行編碼。讓 L∈R n?×c? 表示單詞標(biāo)記序列。
我們使用預(yù)先訓(xùn)練好的檢測(cè)器來獲取二維或三維物體方框建議。根據(jù)先前的文獻(xiàn),我們使用 Faster-RCNN(針對(duì) RGB 圖像)和 Group-Free Detector(針對(duì) 3D 點(diǎn)云)對(duì) Visual Genome 的 1601 個(gè)對(duì)象類別進(jìn)行預(yù)訓(xùn)練,前者針對(duì) ScanNet的 485 個(gè)對(duì)象類別詞匯進(jìn)行預(yù)訓(xùn)練。對(duì)于檢測(cè)到的超過置信度閾值的盒子提案,我們使用盒子提案編碼器對(duì)其進(jìn)行編碼,將其空間坐標(biāo)和分類信息分別映射到一個(gè)嵌入向量中,然后將它們連接起來形成一個(gè)對(duì)象提案標(biāo)記。我們使用預(yù)先訓(xùn)練和凍結(jié)的 RoBERTa骨干來編碼提議方框的語義類別。讓 O∈R no×co 表示對(duì)象標(biāo)記序列。
3D 檢測(cè)器是在 ScanNet 上訓(xùn)練的,我們使用的所有 3D 基準(zhǔn)也都基于 ScanNet。這就造成了檢測(cè)器的預(yù)測(cè)質(zhì)量在訓(xùn)練和測(cè)試時(shí)間之間的差異,因?yàn)樗谟?xùn)練集上要準(zhǔn)確得多。因此,我們發(fā)現(xiàn) BUTD-DETR 在訓(xùn)練時(shí)傾向于依賴檢測(cè)器,而在測(cè)試時(shí)的泛化程度較低,檢測(cè)器的預(yù)測(cè)結(jié)果噪音更大。為了緩解這一問題,我們?cè)谟?xùn)練時(shí)隨機(jī)替換了 30% 的檢測(cè)框。當(dāng)檢測(cè)器無法定位目標(biāo)對(duì)象時(shí),這種增強(qiáng)會(huì)帶來更強(qiáng)的泛化能力。需要注意的是,在二維圖像中情況并非如此,因?yàn)闄z測(cè)器是在不同的數(shù)據(jù)集上進(jìn)行訓(xùn)練的。
所有視覺、單詞和方框提案標(biāo)記都使用(每種模式不同)MLP 映射到相同長(zhǎng)度的特征向量。
「跨模態(tài)編碼器」 視覺、語言和方框提案通過一系列 NE 交叉注意層進(jìn)行交互。在每個(gè)編碼層中,視覺標(biāo)記和語言標(biāo)記相互交叉注意,并使用標(biāo)準(zhǔn)鍵值注意進(jìn)行更新。然后,由此產(chǎn)生的以語言為條件的視覺標(biāo)記會(huì)關(guān)注方框提案標(biāo)記。我們對(duì)三維的兩個(gè)流使用標(biāo)準(zhǔn)注意力,對(duì)二維的視覺流使用可變形注意力。
與 MDETR 不同的是,BUTD-DETR 在編碼器中將視覺流、語言流和盒式流分開,而不是將它們合并在一起。這樣,我們就能在二維域的視覺流中,在自我關(guān)注層和交叉關(guān)注層中使用可變形注意力??勺冃巫⒁饬ι婕坝?jì)算雙線性內(nèi)插特征,這在點(diǎn)云等不連續(xù)和稀疏的模態(tài)中既昂貴又不可靠,因此我們?cè)谌S中使用了虛無注意力(更多詳情請(qǐng)參見補(bǔ)充資料)。在實(shí)驗(yàn)中,我們發(fā)現(xiàn)在三維參照接地中,串聯(lián)與保持獨(dú)立流的效果類似。
「解碼器」 BUTD-DETR 使用二維和三維的非參數(shù)查詢,根據(jù)上下文特征對(duì)物體進(jìn)行解碼。非參數(shù)查詢是通過當(dāng)前場(chǎng)景中的視覺標(biāo)記來預(yù)測(cè)的,這與 DETR和 MDETR中使用的參數(shù)查詢不同,后者對(duì)應(yīng)于所有場(chǎng)景中共享的學(xué)習(xí)向量集。具體來說,最后一個(gè)多模態(tài)編碼層的語境化視覺標(biāo)記預(yù)測(cè)置信度分?jǐn)?shù),每個(gè)視覺標(biāo)記預(yù)測(cè)一個(gè)置信度分?jǐn)?shù)。得分最高的前 K 個(gè)標(biāo)記將分別輸入一個(gè) MLP,以預(yù)測(cè)一個(gè)代表對(duì)象查詢的向量,即一個(gè)能解碼相對(duì)于相應(yīng)視覺標(biāo)記位置的方框中心和大小的向量,類似于 D-DETR。查詢向量通過 ND 解碼層以殘差方式進(jìn)行更新。在每個(gè)解碼器層中,我們采用了四種注意力操作。首先,查詢會(huì)相互關(guān)注,以根據(jù)上下文完善其估算。其次,它們會(huì)關(guān)注上下文化的單詞嵌入,以語言語篇為條件。其次,它們會(huì)關(guān)注方框提議標(biāo)記,然后是圖像或點(diǎn)視覺標(biāo)記。在每個(gè)解碼層的末尾,都有一個(gè)預(yù)測(cè)頭,用于預(yù)測(cè)方框中心位移、高度和寬度向量,以及每個(gè)對(duì)象查詢的標(biāo)記跨度,從而定位相應(yīng)的對(duì)象方框,并將其與語言輸入對(duì)齊。更多實(shí)現(xiàn)細(xì)節(jié)請(qǐng)讀者參閱我們的補(bǔ)充文件。
3.3 通過檢測(cè)提示加強(qiáng)監(jiān)管
物體檢測(cè)是指代性語言基礎(chǔ)的一個(gè)實(shí)例,其中的語句是一個(gè)單詞,即物體類別標(biāo)簽。語言接地模型有效地將監(jiān)督結(jié)合到了指代接地、標(biāo)題描述和問題解答任務(wù)中,這是其成功的重要因素。迄今為止,物體檢測(cè)注釋尚未被視為此類聯(lián)合訓(xùn)練的候選對(duì)象。
如圖 3 所示,我們將物體檢測(cè)作為檢測(cè)提示的基礎(chǔ),即由一系列物體類別標(biāo)簽組成的參照語篇。具體來說,我們給定檢測(cè)器的物體類別標(biāo)簽詞匯表,隨機(jī)抽取固定數(shù)量的標(biāo)簽(其中一些出現(xiàn)在視覺場(chǎng)景中,另一些則沒有),然后通過對(duì)抽取的標(biāo)簽進(jìn)行排序生成合成語篇,例如 "沙發(fā),人,椅子,冰箱",我們稱之為檢測(cè)提示。我們將這些提示語視為待定位的參照語:任務(wù)是定位提示中提到的類別標(biāo)簽的所有對(duì)象實(shí)例(如果它們出現(xiàn)在場(chǎng)景中)。對(duì)負(fù)面類別標(biāo)簽(沒有物體實(shí)例出現(xiàn)的標(biāo)簽)的取樣是一種負(fù)面訓(xùn)練:對(duì)模型進(jìn)行訓(xùn)練,使其不會(huì)將任何方框與負(fù)面類別標(biāo)簽相匹配。

圖 3:通過檢測(cè)提示增強(qiáng)參考標(biāo)定監(jiān)督。通過對(duì)采樣的對(duì)象類別標(biāo)簽(此處為 couch、person 和 chair)進(jìn)行排序來構(gòu)建檢測(cè)提示。任務(wù)是本地化提到的對(duì)象的所有實(shí)例,并將它們與提示中的正確范圍關(guān)聯(lián)起來。 50% 的采樣標(biāo)簽是負(fù)的,即它們?cè)趫?chǎng)景中沒有對(duì)應(yīng)的對(duì)象實(shí)例。模型學(xué)會(huì)不將這些跨度與預(yù)測(cè)框關(guān)聯(lián)起來。
3.4 監(jiān)督目標(biāo)
我們對(duì)解碼器每一層中所有預(yù)測(cè)頭的輸出進(jìn)行監(jiān)督。我們效仿 MDETR,使用匈牙利匹配法將對(duì)象查詢子集分配給地面實(shí)況對(duì)象框,然后計(jì)算邊界框、軟標(biāo)記預(yù)測(cè)和對(duì)比損失。我們的邊界框和軟標(biāo)記預(yù)測(cè)損失與 MDETR 的相同。但是,我們注意到,MDETR 的對(duì)比損失并沒有對(duì)稱地比較所有對(duì)象查詢和詞標(biāo)記。具體來說,對(duì)象對(duì)比損失只監(jiān)督與地面真實(shí)對(duì)象框匹配的對(duì)象查詢。另一方面,詞塊對(duì)比損失只包括屬于正跨度的詞塊,即場(chǎng)景中具有相應(yīng)對(duì)象實(shí)例的名詞短語。因此,未與任何地面實(shí)況對(duì)象框匹配的對(duì)象查詢不會(huì)遠(yuǎn)離非地面實(shí)況文本跨度,這意味著在推理時(shí),對(duì)象查詢可能會(huì)接近負(fù)跨度。我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn),這種不對(duì)稱會(huì)影響性能。
為了解決這個(gè)問題,我們提出了一個(gè)對(duì)稱的替代方案,即考慮所有對(duì)象查詢和語言標(biāo)記之間的相似性。我們將 "未提及 "跨度添加到所有輸入語篇中。對(duì)于所有未被分配給任何基本真實(shí)對(duì)象的對(duì)象查詢,這就充當(dāng)了基本真實(shí)文本跨度?,F(xiàn)在,對(duì)象對(duì)比損失會(huì)監(jiān)督所有查詢,并考慮與所有標(biāo)記的相似性。我們根據(jù)經(jīng)驗(yàn)發(fā)現(xiàn),將不匹配的查詢收集到 "未提及 "中是有益的。這與軟標(biāo)記預(yù)測(cè)損失的原理類似,在軟標(biāo)記預(yù)測(cè)損失中,不匹配的查詢必須預(yù)測(cè) "無對(duì)象"。事實(shí)上,我們發(fā)現(xiàn)這種對(duì)稱性對(duì)比損失足以滿足我們模型的監(jiān)督要求,但我們觀察到,對(duì)軟標(biāo)記預(yù)測(cè)進(jìn)行共同優(yōu)化會(huì)加快收斂速度。
4.實(shí)驗(yàn)
我們測(cè)試了 BUTD-DETR 在三維點(diǎn)云和二維圖像中的指代語句基礎(chǔ)。我們的實(shí)驗(yàn)旨在回答以下問題:
與最先進(jìn)的 3D 和 2D 語言接地相比,BUTD-DETR 的性能如何?
與最先進(jìn)的二維 MDETR模型在三維中的直接擴(kuò)展相比,BUTD-DETR 的性能如何?
自下而上的方框提案流對(duì)績(jī)效有多大幫助?
接地檢測(cè)提示的聯(lián)合訓(xùn)練對(duì)性能有多大幫助?
建議的對(duì)比損失變體對(duì)性能有多大幫助?
4.1 三維點(diǎn)云的語言標(biāo)定
我們?cè)?SR3D、NR3D和 ScanRefer基準(zhǔn)上測(cè)試了 BUTD-DETR。這三個(gè)基準(zhǔn)都包含來自 ScanNet的室內(nèi)場(chǎng)景三維點(diǎn)云和相應(yīng)的引用語句,任務(wù)是定位語句中引用的對(duì)象。SR3D 中的語句簡(jiǎn)短、合成,例如 "選擇圖片下方的沙發(fā)",而 NR3D 和 ScanRefer 中的語句較長(zhǎng)、更自然,例如 "從靠墻的椅子組中,選擇離紅墻最遠(yuǎn)、離紅墻較近的椅子組中的椅子"。為了與之前的方法進(jìn)行公平比較,我們?cè)?SR3D、NR3D 和 ScanRefer 中分別訓(xùn)練 BUTD-DETR。我們利用 ScanNet 檢測(cè)提示增強(qiáng)了對(duì)這三個(gè)數(shù)據(jù)集的監(jiān)督。SR3D 提供了語篇中提到的所有對(duì)象的注釋,因此在訓(xùn)練過程中,我們對(duì)提到的所有對(duì)象的定位進(jìn)行了監(jiān)督。在 NR3D 和 ScanRefer 中,我們只對(duì)引用對(duì)象的定位進(jìn)行監(jiān)督。
在 SR3D 或 NR3D 基準(zhǔn)測(cè)試中測(cè)試過的所有現(xiàn)有模型都存在方框瓶頸,即它們被訓(xùn)練為從方框建議庫(kù)中選擇答案。它們都使用真實(shí)的 3D 物體方框(不含類別標(biāo)簽)作為要選擇的方框集。因此,我們考慮了兩種評(píng)估設(shè)置:
det:我們使用其公開代碼重新訓(xùn)練以前的模型,并提供與 BUTD-DETR 中相同的 3D 框建議,這些建議由經(jīng)過訓(xùn)練的無組 3D 物體檢測(cè)器獲得,用于檢測(cè) ScanNet 中的 485 個(gè)物體類別(表 1 中的 det 部分)。
GT,我們使用地面真實(shí) 3D 物體盒作為模型和基線(表 1 中的 GT 部分)。
除了之前的模型,我們還將我們的模型與 MDETR 模型的三維實(shí)施進(jìn)行了比較。該模型與我們的模型類似,但不關(guān)注方框流,不使用檢測(cè)提示進(jìn)行聯(lián)合訓(xùn)練,也不使用 MDETR 提出的原始對(duì)比損失。我們還將 MDETR 的參數(shù)對(duì)象查詢替換為非參數(shù)對(duì)象查詢(與我們的模型類似),因?yàn)槭聦?shí)證明,非參數(shù)對(duì)象查詢對(duì)于三維模型的良好性能至關(guān)重要。我們稱這種模型為 MDETR-3D。為完整起見,我們?cè)诒?2 中列出了使用參數(shù)查詢的 3D 版 MDETR,不出所料,它的性能要差得多。MDETR 并不以任何方式使用框提案池,因此我們無法報(bào)告 GT 下 MDETR-3D 的結(jié)果。
我們?cè)诒?1 中展示了我們的模型與前人研究成果的量化結(jié)果。我們使用 top-1 準(zhǔn)確度指標(biāo),該指標(biāo)衡量的是我們能找到 IoU 高于閾值的目標(biāo)方框的次數(shù)百分比。我們報(bào)告了 IoU@0.25 在 SR3D 和 NR3D 上的結(jié)果;以及 IoU@0.25 和 IoU@0.5 在 ScanRefer 上的結(jié)果。更多詳細(xì)結(jié)果請(qǐng)參閱補(bǔ)充資料。
在 det 和 GT 兩種評(píng)估設(shè)置下,BUTD-DETR 都遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有方法和 MDETR-3D。它還優(yōu)于最近的 SAT-2D,后者在訓(xùn)練過程中使用了額外的 2D RGB 圖像特征。BUTD-DETR 不使用二維圖像特征,但可以很容易地?cái)U(kuò)展到二維圖像特征。我們?cè)趫D 4 中展示了定性結(jié)果。有關(guān)更多定性結(jié)果,請(qǐng)查看補(bǔ)充文件。

表 1: 三維點(diǎn)云中的語言定位結(jié)果。我們使用地面實(shí)況(GT)或檢測(cè)到的(det)方框來評(píng)估 top-1 精確度。? 表示該方法使用了額外的二維圖像特征。? 表示使用作者的代碼和檢查點(diǎn)對(duì)檢測(cè)到的方框進(jìn)行評(píng)估。? 表示使用作者的代碼重新訓(xùn)練。

表 2:在 SR3D 上對(duì) BUTD-DETR 的設(shè)計(jì)選擇進(jìn)行消融。
「消融分析」 表 2 列出了我們?cè)?SR3D 基準(zhǔn)上消融 3D BUTD-DETR 的所有設(shè)計(jì)方案。我們將 BUTD-DETR 與以下變體進(jìn)行了比較:
無視覺標(biāo)記:對(duì)象瓶頸變體,只關(guān)注語言和方框備選,并從建議中選擇一個(gè)方框。
無檢測(cè)提示: BUTD-DETR僅根據(jù)SR3D基礎(chǔ)語料進(jìn)行訓(xùn)練。
無方框流: 不關(guān)注方框流的 BUTD-DETR。
使用 MDETR 的對(duì)比損失: 用 MDETR 的對(duì)比損失替換我們修改過的對(duì)比損失的 BUTD-DETR。
不含檢測(cè)提示、不含盒流、含 MDETR 對(duì)比損失:MDETR-3D 實(shí)現(xiàn)。
帶參數(shù)查詢、不帶檢測(cè)提示、不帶盒流、帶 MDETR 的對(duì)比損失:MDETR-3D 實(shí)現(xiàn),與原始 MDETR 一樣使用參數(shù)對(duì)象查詢。
有串聯(lián)的視覺流、語言流和方框流:我們不單獨(dú)處理每種模式,而是沿著序列維度串聯(lián)不同的流。

圖 4: BUTD-DETR 在 SR3D 基準(zhǔn)中的定性結(jié)果。對(duì)目標(biāo)的預(yù)測(cè)顯示為綠色,對(duì)其他提到的物體的預(yù)測(cè)顯示為橙色,檢測(cè)到的建議顯示為藍(lán)色。檢測(cè)到的建議顯示為藍(lán)色。 (a) 不帶盒子流(紅框)的變體未能利用檢測(cè)器提供的信息,但 BUTD-DETR 成功了。(b) 檢測(cè)器錯(cuò)過了 "鞋子",任何有盒子瓶頸的變體都失敗了。(c) 檢測(cè)器成功找到了 "垃圾箱",但 BUTD-DETR 仍在改進(jìn)框,以獲得更精確的邊界框。
結(jié)論如下:
方框瓶頸會(huì)造成傷害: BUTD-DETR 和 MDETR-3D 等模型可以解碼對(duì)象方框,而不是從給定的對(duì)象提案池中選擇方框,因此其性能明顯優(yōu)于有方框瓶頸的變體。BUTD-DETR 以 10.2% 的優(yōu)勢(shì)超越了對(duì)象瓶頸變體,后者不關(guān)注三維點(diǎn)特征,也不解碼方框。
BUTD-DETR 優(yōu)于 MDETR-3D 6.7%:
對(duì)方框建議流的關(guān)注有幫助:取消對(duì)方框流的關(guān)注會(huì)導(dǎo)致準(zhǔn)確率絕對(duì)下降 1.1%。
使用檢測(cè)提示進(jìn)行聯(lián)合訓(xùn)練有幫助: 使用檢測(cè)提示進(jìn)行聯(lián)合訓(xùn)練可使準(zhǔn)確率提高 4.2%(從 47.9% 提高到 52.1%)。
BUTD-DETR 的對(duì)比損失有幫助: 用 MDETR 的對(duì)比損失替換我們的對(duì)比損失,絕對(duì)準(zhǔn)確率下降了 2.5%。
將視覺流、語言流和對(duì)象流合并在一起的效果不如為每種模態(tài)設(shè)置獨(dú)立流的模型 我們的動(dòng)機(jī)是在三維跨模態(tài)編碼器和解碼器中保持獨(dú)立流,以便與第 3.2 節(jié)中解釋的二維 BUTD-DETR 保持一致。此外,我們還發(fā)現(xiàn),采用單獨(dú)的數(shù)據(jù)流可提升 0.8%。
4.2 局限性
我們的工作依賴于語言與圖像的對(duì)齊,并沒有解決如何通過對(duì)視覺特征的抽象來更好、更穩(wěn)健地建立語言基礎(chǔ)的問題,例如,當(dāng)我們改變用戶視角時(shí)左右顛倒的事實(shí),數(shù)字需要精確計(jì)數(shù)的事實(shí),或者 "離門最遠(yuǎn)的椅子 "需要滿足邏輯約束的事實(shí),而我們的模型在呈現(xiàn)非分布式視覺輸入時(shí)可能會(huì)完全違反這一邏輯約束。這一限制是未來工作的直接途徑。
5.總結(jié)
我們提出了 BUTD-DETR,這是一種用于三維和二維場(chǎng)景中指代接地的模型,它關(guān)注語言、視覺和方框建議流,以解碼指代語中提到的對(duì)象,并將它們與輸入中的相應(yīng)跨度對(duì)齊。BUTD-DETR 建立在 MDETR的基礎(chǔ)上,由于關(guān)注標(biāo)記的自下而上的盒式建議、與檢測(cè)提示的協(xié)同訓(xùn)練以及改進(jìn)的對(duì)比損失,其性能大大超過了直接的 MDETR-3D 等效方法,在兩個(gè)三維語言接地基準(zhǔn)中創(chuàng)造了新的最高水平。BUTD-DETR 也是三維參照接地模型中的首個(gè)模型,它可以在無法訪問甲骨文對(duì)象框的現(xiàn)實(shí)設(shè)置下運(yùn)行,而是從輸入的三維點(diǎn)云中檢測(cè)對(duì)象框。
參考資料
[1]https://arxiv.org/abs/2112.08879
[2]https://github.com/nickgkan/butd_detr
需要論文的同學(xué)!
關(guān)注“學(xué)姐帶你玩AI”公眾號(hào)
回復(fù)“500”免費(fèi)領(lǐng)取500+篇論文合集,包含CV/NLP等熱門方向