最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ICCV2023開源SOTA!2D-3D交錯(cuò)Transformer,性能史詩級(jí)增強(qiáng)!

2023-10-31 22:09 作者:3D視覺工坊  | 我要投稿


作者:大森林 ?| 來源:3D視覺工坊

在公眾號(hào)「3D視覺工坊」后臺(tái),回復(fù)「原論文」可獲取論文pdf和代碼鏈接。

添加微信:dddvisiona,備注:自動(dòng)駕駛,拉你入群。文末附行業(yè)細(xì)分群。

本文提出了一種多模態(tài)交錯(cuò)Transformer(MIT)模型,用于在只有場景級(jí)別標(biāo)簽弱監(jiān)督條件下,利用2D和3D數(shù)據(jù)進(jìn)行點(diǎn)云分割。該模型包含兩個(gè)編碼器一個(gè)解碼器分別從3D點(diǎn)云和2D多視圖圖像中提取自注意力特征,并通過交錯(cuò)的2D-3D交叉注意力機(jī)制,隱式地融合2D-3D特征。該模型不需要額外的2D標(biāo)注,也不依賴于攝像頭姿態(tài)或深度圖像來建立2D-3D對(duì)應(yīng)關(guān)系。在S3DISScanNet兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型在弱監(jiān)督點(diǎn)云分割方面,顯著優(yōu)于現(xiàn)有的所有方法。這里也推薦「3D視覺工坊」新課程《國內(nèi)首個(gè)面向自動(dòng)駕駛目標(biāo)檢測領(lǐng)域的Transformer原理與實(shí)戰(zhàn)課程》。

本文貢獻(xiàn)如下:


  1. 我們首次在只有場景級(jí)別標(biāo)簽的弱監(jiān)督條件下,探索了利用2D和3D信息進(jìn)行點(diǎn)云分割的方法。


  2. 我們提出了一種新穎的多模態(tài)交錯(cuò)Transformer(MIT)模型,它能夠通過交錯(cuò)注意力機(jī)制,隱式地融合2D-3D信息,而不需要依賴于攝像頭姿態(tài)信息。


  3. 我們引入了分類損失,來對(duì)齊不同模態(tài)之間的類別標(biāo)簽。

我們?cè)趦蓚€(gè)大規(guī)模的數(shù)據(jù)集ScanNet和S3DIS上進(jìn)行了實(shí)驗(yàn),結(jié)果證明了我們的方法在弱監(jiān)督點(diǎn)云分割方面的優(yōu)越性。

圖1:多模態(tài)交錯(cuò)Transformer(MIT)模型的概述。輸入包括一個(gè)3D點(diǎn)云、多視圖2D圖像和一個(gè)場景級(jí)別的類別標(biāo)簽。我們的模型是一個(gè)由兩個(gè)編碼器和一個(gè)解碼器組成的Transformer模型。兩個(gè)編碼器分別計(jì)算3D體素和2D圖片的特征。解碼器采用交錯(cuò)的方式,實(shí)現(xiàn)了2D-3D交叉注意力,并隱式地融合了2D和3D特征。在奇數(shù)層中,3D體素作為查詢,被2D視圖特征增強(qiáng),后者扮演鍵值對(duì)的角色。在偶數(shù)層中,二者的角色交換2D視圖由3D幾何特征描述。

我們提出了一種多模態(tài)交錯(cuò)Transformer(MIT)模型,它能夠在弱監(jiān)督的條件下,利用2D和3D數(shù)據(jù)進(jìn)行點(diǎn)云分割。以往的研究已經(jīng)證明,2D和3D特征對(duì)于點(diǎn)云分割有著互補(bǔ)的作用。然而,現(xiàn)有的方法都需要額外的2D標(biāo)注來實(shí)現(xiàn)2D-3D特征的融合。鑒于點(diǎn)云標(biāo)注的高成本,如何在弱監(jiān)督學(xué)習(xí)的框架下有效地融合2D和3D特征,是一個(gè)具有重要意義的問題。為了解決這個(gè)問題,我們?cè)O(shè)計(jì)了一個(gè)由兩個(gè)編碼器和一個(gè)解碼器組成的變壓器模型,它只需要場景級(jí)別的類別標(biāo)簽,就能夠完成點(diǎn)云分割任務(wù)。具體來說,兩個(gè)編碼器分別從3D點(diǎn)云和2D多視圖圖像中提取自注意力特征。解碼器采用交錯(cuò)的方式,實(shí)現(xiàn)了2D-3D交叉注意力,并隱式地融合了2D和3D特征。我們?cè)诮獯a器層中交替地改變查詢和鍵值對(duì)的角色,使得2D和3D特征能夠相互增強(qiáng)。我們?cè)赟3DIS和ScanNet兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,我們的方法在弱監(jiān)督點(diǎn)云分割方面,明顯優(yōu)于現(xiàn)有的方法。

本節(jié)介紹了我們提出的方法。首先,我們?cè)?.1節(jié)中對(duì)問題進(jìn)行了形式化定義。然后,我們?cè)?.2節(jié)和3.3節(jié)中詳細(xì)介紹了具有編碼器-解碼器結(jié)構(gòu)的MIT模型。最后,我們?cè)?.4節(jié)中給出了實(shí)現(xiàn)細(xì)節(jié)。

給定一組N個(gè)點(diǎn)云及其對(duì)應(yīng)的RGB多視圖圖像和類別標(biāo)簽注釋,即,其中表示第n個(gè)點(diǎn)云,表示多視圖圖像,并且是C維二進(jìn)制向量,存儲(chǔ)出現(xiàn)的類別,其中C是感興趣的類別數(shù)。注意,,和都是從同一場景中獲取的。在不失普適性的情況下,我們假設(shè)每個(gè)點(diǎn)云由M個(gè)點(diǎn)組成,即,其中每個(gè)點(diǎn)由其3D坐標(biāo)和RGB顏色表示。多視圖RGB圖像是在與相同的場景中捕獲的,并由一組T個(gè)圖像組成,即。每幅圖像具有H × W分辨率,具有RGB通道。的類別標(biāo)簽即,是一個(gè)存儲(chǔ)出現(xiàn)的類別的C維二進(jìn)制向量。

利用弱標(biāo)注數(shù)據(jù)集,我們的目標(biāo)是推導(dǎo)一個(gè)模型,以將測試云中的每個(gè)點(diǎn)分類到C個(gè)類別之一。注意,在這個(gè)弱監(jiān)督設(shè)置中,沒有點(diǎn)或像素被標(biāo)記,并且攝像頭姿態(tài)不可用,這使得由于沒有點(diǎn)/像素監(jiān)督和2D像素與3D點(diǎn)之間的顯式對(duì)應(yīng)關(guān)系,很難通過結(jié)合額外的2D特征來增強(qiáng)3D點(diǎn)云分割成為一個(gè)具有挑戰(zhàn)性的問題。此外,由于多視圖圖像共享場景的同一類別標(biāo)簽,每個(gè)視圖圖像都沒有單獨(dú)的類別標(biāo)簽注釋,這可能導(dǎo)致每個(gè)圖像的語義理解不準(zhǔn)確。

方法概述。圖2說明了MIT的網(wǎng)絡(luò)體系結(jié)構(gòu),它由兩個(gè)Transformer編碼器 和 ,以及一個(gè)解碼器 組成。兩個(gè)編碼器分別用于提取3D點(diǎn)云和2D多視圖圖像的特征。解碼器是為2D-3D特征融合而開發(fā)的,它利用交叉注意力將2D和3D數(shù)據(jù)隱式地聯(lián)系起來。接下來對(duì)它們進(jìn)行詳細(xì)闡述。

圖2:MIT網(wǎng)絡(luò)概覽

3D點(diǎn)云特征提取。 應(yīng)用一個(gè)3D骨干網(wǎng)絡(luò),例如MinkowskiNet或PointNet++,以提取所有M個(gè)點(diǎn)的點(diǎn)嵌入。如WYPR中所示,我們使用無監(jiān)督的開箱即用算法執(zhí)行超體素劃分。將的3D坐標(biāo)輸入坐標(biāo)嵌入模塊,該模塊由兩個(gè)1×1卷積層與ReLU激活組成,以獲得位置嵌入,其中D是嵌入維度。我們通過超體素平均池化聚合點(diǎn)特征和點(diǎn)位置嵌入,生成超體素特征和匯集的位置嵌入,其中S是中的超體素?cái)?shù)。超體素特征與位置嵌入相加。

為了學(xué)習(xí)適合場景級(jí)監(jiān)督的類別特定表示,我們?cè)赟個(gè)超體素標(biāo)記之前添加C個(gè)可學(xué)習(xí)的類標(biāo)記??偣?C + S)個(gè)標(biāo)記被饋送到Transformer編碼器。通過自注意力機(jī)制,捕獲類標(biāo)記和超體素標(biāo)記之間的依賴性,生成自注意力3D特征。

2D多視圖圖像特征提取。 應(yīng)用一個(gè)2D骨干網(wǎng)絡(luò),例如ResNet,以提取圖像特征,其中且。我們對(duì)圖像特征沿空間維度應(yīng)用全局平均池化。池化后的圖像特征與可學(xué)習(xí)的位置嵌入相加,生成T個(gè)視圖標(biāo)記。

類似于3D特征提取,應(yīng)用另一個(gè)Transformer編碼器到C個(gè)類標(biāo)記和T個(gè)視圖標(biāo)記,獲得自注意力2D特征。

編碼器優(yōu)化。在訓(xùn)練期間,我們考慮一個(gè)點(diǎn)云及其相關(guān)的T個(gè)多視圖圖像和場景級(jí)標(biāo)簽。像上面提到的那樣構(gòu)建2D和3D自注意力特征和。

對(duì)于3D注意力特征,我們將其分為C個(gè)類標(biāo)記和S個(gè)超體素標(biāo)記。對(duì)于類標(biāo)記,通過沿特征維度應(yīng)用平均池化來估計(jì)C個(gè)類別分?jǐn)?shù)。在估計(jì)的類別分?jǐn)?shù)與場景級(jí)別地面真值之間計(jì)算多標(biāo)簽分類損失。對(duì)于超體素標(biāo)記,我們引入一個(gè)類別感知層,即一個(gè)帶有C個(gè)濾波器的1×1卷積層,它將超體素標(biāo)記映射到類別激活映射(CAM)。通過對(duì)沿超體素維度應(yīng)用全局平均池化來獲得估計(jì)的類別分?jǐn)?shù)。在類別分?jǐn)?shù)與標(biāo)簽之間計(jì)算多標(biāo)簽分類損失。3D模態(tài)的損失定義為。對(duì)于C個(gè)類標(biāo)記和T個(gè)視圖標(biāo)記的自注意力2D特征,2D損失類似地定義為。

總之,兩個(gè)編碼器都是以弱監(jiān)督的方式使用目標(biāo)函數(shù):

兩個(gè)編碼器分別產(chǎn)生C + S標(biāo)記的自注意力3D特征和C + T標(biāo)記的2D特征。我們提出一個(gè)解碼器,執(zhí)行交錯(cuò)的2D-3D交叉注意力以進(jìn)行特征融合。圖2中的解碼器是一個(gè)交錯(cuò)塊的堆棧。每個(gè)交錯(cuò)塊由兩個(gè)連續(xù)的解碼器層組成,如圖3所示。在這個(gè)模塊的第一個(gè)層中,3D標(biāo)記使用2D特征進(jìn)行充實(shí),而在第二個(gè)層中,2D標(biāo)記使用3D特征進(jìn)行增強(qiáng)。

圖3:交錯(cuò)模塊的體系結(jié)構(gòu)。為簡單起見,未顯示多層感知器殘差學(xué)習(xí)。

在奇數(shù)/第一個(gè)層中(圖3中的藍(lán)色陰影區(qū)域),中的C + S個(gè)標(biāo)記充當(dāng)查詢,而中的C + T個(gè)標(biāo)記充當(dāng)鍵值對(duì)。通過縮放點(diǎn)積注意力,計(jì)算交叉模態(tài)注意力矩陣(黃色陰影區(qū)域)以存儲(chǔ)3D標(biāo)記和2D標(biāo)記之間的一致性。由于我們?cè)诖藢又袃H關(guān)注探索3D標(biāo)記與2D視圖標(biāo)記之間的關(guān)系,所以我們忽略與2D類標(biāo)記相關(guān)的注意力值在A中。具體地,僅考慮查詢與視圖之間的注意力值(圖3中的綠點(diǎn))。這通過對(duì)注意力矩陣和值矩陣應(yīng)用子矩陣提取來實(shí)現(xiàn),即且。

在對(duì)應(yīng)用softmax操作之后,我們?cè)诓樵兣c視圖注意力矩陣與屏蔽值矩陣之間執(zhí)行矩陣乘法。這樣,每個(gè)查詢(3D標(biāo)記)都是值(2D視圖標(biāo)記)的加權(quán)和。結(jié)合殘差連接,得到的3D標(biāo)記被2D特征充實(shí)。這意味著在沒有標(biāo)注數(shù)據(jù)的情況下實(shí)現(xiàn)了從3D特征到2D特征的隱式特征融合。

在偶數(shù)/第二層中(圖3中的綠色陰影區(qū)域),和的角色切換:前者用作鍵值對(duì),而后者產(chǎn)生查詢。經(jīng)過類似的過程,得到的2D標(biāo)記被3D信息增強(qiáng)。和是交錯(cuò)模塊的輸出。通過堆疊R個(gè)交錯(cuò)模塊,建立了所提出的解碼器,以迭代地融合2D和3D特征。

解碼器優(yōu)化。在最后一個(gè)交錯(cuò)模塊中,可以通過對(duì)相應(yīng)的類標(biāo)記應(yīng)用平均池化來估計(jì)2D類分?jǐn)?shù)和3D類分?jǐn)?shù)。可以在地面真值與估計(jì)的類分?jǐn)?shù)之間計(jì)算2D 和3D 的數(shù)據(jù)的多標(biāo)簽分類損失。

為了挖掘額外的監(jiān)督信號(hào),我們?cè)陬惻c類之間的注意力矩陣上運(yùn)用對(duì)比學(xué)習(xí)。盡管2D類標(biāo)記和3D類標(biāo)記參與各自的模態(tài),但它們共享相同的類標(biāo)簽。因此,屬于同一類的一對(duì)類標(biāo)記之間的注意力值應(yīng)大于不同類之間標(biāo)記的注意力值,這可以通過N對(duì)損失來實(shí)現(xiàn)。我們?cè)诮獯a器層中的所有注意力矩陣中使用此正則化

其中是第r層解碼器中的注意力矩陣。

學(xué)習(xí)解碼器的目標(biāo)函數(shù)是

其中是一個(gè)正常數(shù)。

我們使用PyTorch實(shí)現(xiàn)了我們的方法。我們將在ImageNet上預(yù)訓(xùn)練過的ResNet-50作為2D特征提取器,將MinkowskiUNet18A作為3D特征提取器。我們將體素大小設(shè)為5cm。我們?cè)诎藟KNVIDIA 3090 GPU上訓(xùn)練了該網(wǎng)絡(luò),共進(jìn)行了500個(gè)epoch。批量大小,學(xué)習(xí)率和權(quán)重衰減分別設(shè)置為32,10,10。我們使用AdamW作為優(yōu)化器。的權(quán)重設(shè)置為0.5。

推理。推理方面,我們將點(diǎn)云輸入3D編碼器進(jìn)行特征提取。然后通過將提取的特征傳遞到類別感知層,獲得3D CAM ,即分割結(jié)果,如第3.2節(jié)中所述。在MCTformer中,3D CAM可以通過來自最后K個(gè)Transformer編碼器層的類別與體素之間的注意力圖進(jìn)行進(jìn)一步優(yōu)化,其中。通過CAM與注意力圖之間的逐元素乘法獲得優(yōu)化的3D CAM:,其中表示哈達(dá)馬積。此外,如果提供了多視圖圖像,我們還考慮解碼器中的類與體素之間的注意力圖,這可以從所有偶數(shù)層中提取,產(chǎn)生另一個(gè)優(yōu)化的3D CAM 。最后,可以通過對(duì)和執(zhí)行逐元素最大操作來獲得分割結(jié)果。

我們采用了一種常用的方法,即在訓(xùn)練集上運(yùn)行我們的推理過程,生成偽分割標(biāo)簽。然后,我們使用分割模型,如Res U-Net,在置信度超過0.5的偽標(biāo)簽上進(jìn)行訓(xùn)練,并得到了分割模型。我們訓(xùn)練了150個(gè)epoch,沒有進(jìn)行任何后處理。這里也推薦「3D視覺工坊」新課程《國內(nèi)首個(gè)面向自動(dòng)駕駛目標(biāo)檢測領(lǐng)域的Transformer原理與實(shí)戰(zhàn)課程》。

我們?cè)赟3DIS和ScanNet兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,我們的方法在弱監(jiān)督點(diǎn)云分割方面,明顯優(yōu)于現(xiàn)有的方法。具體實(shí)驗(yàn)結(jié)果如下:

表1: 在ScanNet和S3DIS數(shù)據(jù)集上具有不同監(jiān)督和輸入數(shù)據(jù)設(shè)置的幾種點(diǎn)云分割方法的定量結(jié)果(mIoU)。

表2:我們的方法(交錯(cuò)解碼器)和競爭方法在ScanNet驗(yàn)證集上使用場景級(jí)標(biāo)注的不同2D-3D融合策略的定量結(jié)果(mIoU)。

圖4 在使用場景級(jí)監(jiān)督的ScanNet數(shù)據(jù)集上的定性結(jié)果。

表3:ScanNet數(shù)據(jù)集驗(yàn)證集上不同組件組合的mIoU性能。

表4:在不同視圖數(shù)量下的mIoU性能。

表5:在不同交錯(cuò)模塊數(shù)量下的mIoU性能。

表6:我們的MIT在ScanNet的不同弱監(jiān)督類型下的性能以及每個(gè)場景的平均標(biāo)注時(shí)間。

表7:在ScanNet上使用不同骨干網(wǎng)絡(luò)時(shí)的性能。

本文提出了一種多模態(tài)交錯(cuò)Transformer(MIT)模型,它能夠在只有場景級(jí)別標(biāo)簽的弱監(jiān)督條件下,利用2D和3D數(shù)據(jù)進(jìn)行點(diǎn)云分割。該模型從3D點(diǎn)云和2D多視圖圖像中提取特征,并通過交叉注意力機(jī)制,隱式地融合2D-3D特征。該模型不需要額外的2D標(biāo)注,也不依賴于攝像頭姿態(tài)或深度圖像。在S3DIS和ScanNet兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型在弱監(jiān)督點(diǎn)云分割方面,顯著優(yōu)于現(xiàn)有的方法。該模型具有廣泛的適用性,可以應(yīng)用于那些無法獲取相機(jī)姿態(tài)或深度圖像的環(huán)境中。



ICCV2023開源SOTA!2D-3D交錯(cuò)Transformer,性能史詩級(jí)增強(qiáng)!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
大方县| 汉沽区| 永城市| 犍为县| 临城县| 仁化县| 桂阳县| 茌平县| 六安市| 合山市| 安乡县| 芦溪县| 太仓市| 侯马市| 安溪县| 宁武县| 体育| 禄丰县| 罗定市| 万载县| 陈巴尔虎旗| 天祝| 凯里市| 隆尧县| 长泰县| 汾西县| 建瓯市| 泸溪县| 河津市| 施甸县| 赣榆县| 腾冲县| 武义县| 大方县| 日土县| 太湖县| 吉木乃县| 会宁县| 含山县| 赣州市| 永仁县|