最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

2D知識(shí)轉(zhuǎn)移到3D領(lǐng)域?MAE指導(dǎo)的點(diǎn)云學(xué)習(xí)架構(gòu)

2023-09-04 17:04 作者:3D視覺(jué)工坊  | 我要投稿

通過(guò)大量圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練已成為穩(wěn)健二維表征的重要方法。相反,由于昂貴的數(shù)據(jù)采集和標(biāo)注,大規(guī)模三維數(shù)據(jù)集的缺乏嚴(yán)重阻礙了高質(zhì)量三維特征的學(xué)習(xí)。在本文中,我們提出了一種替代方法,通過(guò)圖像到點(diǎn)掩碼自動(dòng)編碼器(Image-to-Point Masked Autoencoders)從二維預(yù)訓(xùn)練模型中獲得卓越的三維表示,命名為I2P-MAE。通過(guò)自監(jiān)督預(yù)訓(xùn)練,我們利用學(xué)習(xí)到的二維知識(shí)指導(dǎo)三維掩碼自動(dòng)編碼,通過(guò)編碼器-解碼器架構(gòu)重建掩碼點(diǎn)標(biāo)記。在我們的圖像到點(diǎn)預(yù)訓(xùn)練的幫助下,凍結(jié)的I2P-MAE在沒(méi)有任何微調(diào)的情況下,在ModelNet40上實(shí)現(xiàn)了93.4%的線性SVM準(zhǔn)確率,與現(xiàn)有方法的完全訓(xùn)練結(jié)果相比具有競(jìng)爭(zhēng)力。

考慮到二維預(yù)訓(xùn)練模型的普及,由于昂貴的數(shù)據(jù)采集和勞動(dòng)密集型標(biāo)注,大規(guī)模三維數(shù)據(jù)集仍然缺乏預(yù)訓(xùn)練模型。廣泛采用的ShapeNet僅包含55個(gè)對(duì)象類別的5萬(wàn)個(gè)點(diǎn)云,遠(yuǎn)低于二維視覺(jué)中的1400萬(wàn)ImageNet和4億圖像-文本對(duì)??紤]到圖像和點(diǎn)云的同源性,它們都描述了物體的某些視覺(jué)特征,并通過(guò)2D-3D幾何映射相關(guān)聯(lián),我們提出了這樣一個(gè)問(wèn)題:現(xiàn)成的2D預(yù)訓(xùn)練模型能否通過(guò)將穩(wěn)健的2D知識(shí)轉(zhuǎn)移到3D領(lǐng)域來(lái)幫助3D表示學(xué)習(xí)?為了應(yīng)對(duì)這一挑戰(zhàn),我們提出了I2P-MAE,這是一種掩碼自動(dòng)編碼框架,可進(jìn)行圖像到點(diǎn)的知識(shí)轉(zhuǎn)移,用于自監(jiān)督三維點(diǎn)云預(yù)訓(xùn)練。具體來(lái)說(shuō),參考左中的三維MAE模型,我們首先采用非對(duì)稱編碼器-解碼器變換器作為三維預(yù)訓(xùn)練的基本架構(gòu),將隨機(jī)遮蔽點(diǎn)云作為輸入,并從可見(jiàn)點(diǎn)重建遮蔽點(diǎn)。然后,為了獲得三維形狀的二維語(yǔ)義,我們通過(guò)將點(diǎn)云有效地投射到多視角深度圖中來(lái)彌補(bǔ)模型差距。這不需要耗時(shí)的離線渲染,并在很大程度上保留了不同視角下的三維幾何圖形。在此基礎(chǔ)上,我們利用現(xiàn)成的二維模型獲得多視角二維特征以及點(diǎn)云的二維顯著性圖,并分別從兩個(gè)方面指導(dǎo)預(yù)訓(xùn)練,如右圖所示。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程!》。

本文的主要貢獻(xiàn)如下:

  • 我們提出了圖像到點(diǎn)掩碼自動(dòng)編碼器(I2P-MAE),這是一種利用二維預(yù)訓(xùn)練模型學(xué)習(xí)三維表征的預(yù)訓(xùn)練框架。

  • 我們引入了兩種策略:二維引導(dǎo)遮擋和二維語(yǔ)義重構(gòu),以有效地將學(xué)習(xí)到的二維知識(shí)轉(zhuǎn)移到三維領(lǐng)域。

  • 廣泛的實(shí)驗(yàn)表明了我們的圖像到點(diǎn)預(yù)訓(xùn)練的重要性。

二維預(yù)訓(xùn)練模型的日益成熟普及,而由于昂貴的數(shù)據(jù)采集和勞動(dòng)密集型標(biāo)注,大規(guī)模三維數(shù)據(jù)集仍然缺乏預(yù)訓(xùn)練模型。因此希望通過(guò)使用現(xiàn)成的2D預(yù)訓(xùn)練模型輔助3D模型訓(xùn)練。

作者:PCIPG-cc ?| 來(lái)源:3D視覺(jué)工坊

在公眾號(hào)「3D視覺(jué)工坊」后臺(tái),回復(fù)「原論文」即可獲取論文pdf和代碼。

添加微信:dddvisiona,備注:3D點(diǎn)云,拉你入群。文末附行業(yè)細(xì)分群。

I2P-MAE的整體流程如下圖所示,給定輸入點(diǎn)云,我們利用二維預(yù)訓(xùn)練模型從投影深度圖中生成兩個(gè)引導(dǎo)信號(hào):二維突出圖和二維視覺(jué)特征。我們分別進(jìn)行二維引導(dǎo)遮蔽和二維語(yǔ)義重構(gòu),將編碼的二維知識(shí)用于三維點(diǎn)云預(yù)訓(xùn)練。被綠筆圈起來(lái)的就是圖1的右圖部分,要訓(xùn)練的就是encoder和decoder,loss發(fā)生在L3D和L2D處 首先對(duì)input的點(diǎn)云P做最遠(yuǎn)點(diǎn)采樣,采樣后的點(diǎn)云記為T,對(duì)T進(jìn)行mask,即選取一些點(diǎn)蓋住,而選取哪些點(diǎn)蓋住由2D-guided Masking決定,將這些點(diǎn)輸入encoder encoder中,輸出網(wǎng)絡(luò)預(yù)測(cè)的未mask的點(diǎn)和mask的點(diǎn),然后將mask的點(diǎn)重建,和輸入P比較,讓它們盡量接近,并將未mask的點(diǎn)和2D網(wǎng)絡(luò)輸出的特征進(jìn)行比較,讓它們盡量接近 未被綠筆框起來(lái)的即為利用2D圖像去輔助的部分,這里直接用的現(xiàn)成的,訓(xùn)練好的網(wǎng)絡(luò),整個(gè)下面部分都是沒(méi)有訓(xùn)練的。先把點(diǎn)云在三個(gè)方向投影,做成深度圖,輸入訓(xùn)練好的圖像網(wǎng)絡(luò)中,生成重要性map和特征map,重要性map用于選擇mask點(diǎn),特征map用于比較decoder生成的特征

我們可以利用不同架構(gòu)的二維模型(ResNet[26]、ViT[12])和各種預(yù)訓(xùn)練方法(監(jiān)督[26, 42]和自監(jiān)督[5, 50])來(lái)輔助三維表示學(xué)習(xí)。為了對(duì)齊二維模型的輸入模態(tài),我們將輸入點(diǎn)云投影到多個(gè)圖像平面上以創(chuàng)建深度圖,然后將其編碼為多視角二維表示。**Efficient Projection. **將輸入點(diǎn)云P從三個(gè)正交視圖中分別沿x、y、z軸進(jìn)行投影。對(duì)于每一個(gè)點(diǎn),我們直接省略其三個(gè)坐標(biāo)中的每一個(gè)坐標(biāo),并將另外兩個(gè)坐標(biāo)向下舍入,從而得到其在相應(yīng)地圖上的二維位置。2D Visual Features. 我們利用預(yù)訓(xùn)練的二維模型,例如預(yù)訓(xùn)練的ResNet或ViT,提取具有C通道的點(diǎn)云特征,這種二維特征包含了從大規(guī)模圖像數(shù)據(jù)中學(xué)習(xí)到的足夠高層次語(yǔ)義。2D Saliency Maps. 我們還通過(guò)二維預(yù)訓(xùn)練模型獲取每個(gè)視圖的語(yǔ)義突出圖。單通道突出圖表示不同圖像區(qū)域的語(yǔ)義重要性。

在點(diǎn)云的二維預(yù)訓(xùn)練表示之上,I2P-MAE的預(yù)訓(xùn)練由兩個(gè)圖像-點(diǎn)學(xué)習(xí)設(shè)計(jì)引導(dǎo):編碼器之前的二維引導(dǎo)遮蔽和解碼器之后的二維語(yǔ)義重構(gòu)。2D-guided Masking. 傳統(tǒng)的掩碼策略是按照均勻分布隨機(jī)采樣被掩碼的標(biāo)記,這可能會(huì)阻止編碼器 "看到 "重要的空間特征,并使解碼器受到非重要結(jié)構(gòu)的干擾。因此,我們利用二維語(yǔ)義突出圖用于指導(dǎo)點(diǎn)標(biāo)記的屏蔽,從而采樣更多具有語(yǔ)義意義的三維部分進(jìn)行編碼。具體地說(shuō),我們以點(diǎn)標(biāo)記為索引,將多視角的2D Saliency Maps反向投影回三維空間,并將其聚合為點(diǎn)云S3D。I2P()表示圖5中2D到3D的反投影操作。

2D-semantic Reconstruction.屏蔽點(diǎn)標(biāo)記的三維坐標(biāo)重構(gòu)使網(wǎng)絡(luò)能夠探索低層次的三維模式。在此基礎(chǔ)上,我們進(jìn)一步利用
來(lái)重構(gòu)從不同視圖中提取的二維語(yǔ)義,從而有效地將二維預(yù)訓(xùn)練知識(shí)轉(zhuǎn)移到三維預(yù)訓(xùn)練中。

由于多視角深度圖從不同角度描繪了三維形狀,多視角二維特征之間的串聯(lián)可以更好地整合二維預(yù)訓(xùn)練模型所繼承的豐富語(yǔ)義。此處計(jì)算l2D損失為
3D-coordinate Reconstruction. 在解碼點(diǎn)令牌的基礎(chǔ)上,重建被遮擋令牌及其k個(gè)相鄰點(diǎn)的三維坐標(biāo)。通過(guò)倒角距離計(jì)算損失,并將其表示為
總損失可表示為

我們采用流行的ShapeNet進(jìn)行自我監(jiān)督三維預(yù)訓(xùn)練,其中包含57,448個(gè)合成點(diǎn)云和55個(gè)對(duì)象類別。為了進(jìn)行公平比較,我們采用了與Point-M2AE相同的MAE變換器架構(gòu):3級(jí)編碼器,每級(jí)5個(gè)塊;2級(jí)解碼器,每級(jí)1個(gè)塊;2,048個(gè)輸入點(diǎn)數(shù)(N);512個(gè)下采樣點(diǎn)數(shù)(M);16個(gè)近鄰點(diǎn)數(shù)(k);384個(gè)特征通道(C);掩碼率為80%。對(duì)于現(xiàn)成的二維模型,我們默認(rèn)使用由CLIP預(yù)訓(xùn)練的ViTBase,并在三維預(yù)訓(xùn)練時(shí)凍結(jié)其權(quán)重。我們將點(diǎn)云投影到三個(gè)224 × 224的深度圖中,得到二維特征尺寸H × W為14 × 14。I2P-MAE預(yù)訓(xùn)練了300個(gè)epochs,批量大小為64,學(xué)習(xí)率為10-3。采用AdamW優(yōu)化器,權(quán)重衰減為5×10-2,余弦調(diào)度器,預(yù)熱10個(gè)epoch。為了評(píng)估傳輸能力,我們直接將I2P-MAE編碼器提取的特征用于合成ModelNet40[66]和真實(shí)世界ScanObjectNN[60]的線性SVM,而不進(jìn)行任何微調(diào)或投票。對(duì)于這兩個(gè)領(lǐng)域的三維形狀分類,I2P-MAE都表現(xiàn)出了卓越的性能,準(zhǔn)確率分別超過(guò)第二名0.5%和3.0%。我們的SVM結(jié)果(93.4%, 87.1%)甚至超過(guò)了SVM。

在預(yù)訓(xùn)練之后,I2P-MAE針對(duì)真實(shí)世界和合成三維分類以及部件分割進(jìn)行微調(diào)。除ModelNet40外,我們不使用投票策略進(jìn)行評(píng)估。Real-world 3D Classification.

Synthetic 3D Classification
Part Segmentation.

EAI-Stereo在三個(gè)不同的視覺(jué)數(shù)據(jù)集上(Middlebury、ETH3D、KITTI-2015)的表現(xiàn)在多個(gè)指標(biāo)上表現(xiàn)最佳。在KITTI-2015數(shù)據(jù)集上,作者的方法通過(guò)在另一個(gè)數(shù)據(jù)集上的預(yù)訓(xùn)練和微調(diào),在稀疏Ground Truth值上也有良好表現(xiàn)。該方法在進(jìn)行簡(jiǎn)單的數(shù)據(jù)增強(qiáng)時(shí)也展現(xiàn)出了強(qiáng)大的泛化性能。2D-guided Masking. 在表5中,我們對(duì)I2P-MAE的掩碼自動(dòng)編碼進(jìn)行了不同掩碼策略的實(shí)驗(yàn)。第一行表示我們的I2P-MAE采用了二維引導(dǎo)掩碼,它為編碼器保留了更多語(yǔ)義上重要的標(biāo)記。與第二行的隨機(jī)屏蔽相比,二維顯著性圖的引導(dǎo)在兩個(gè)下游數(shù)據(jù)集上的分類準(zhǔn)確率分別提高了0.4%和0.9%。然后,我們反轉(zhuǎn)空間語(yǔ)義云中的標(biāo)記得分,轉(zhuǎn)而屏蔽最重要的標(biāo)記。如第三行所示,SVM的結(jié)果在很大程度上受到了損害,分別為-0.9%和-3.3%,這表明了在編碼器中對(duì)關(guān)鍵三維結(jié)構(gòu)進(jìn)行編碼的重要性。最后,我們以± 0.1的比例修改了掩碼比率,該比率控制了可見(jiàn)標(biāo)記和掩碼標(biāo)記之間的比例。性能衰減表明,二維語(yǔ)義重構(gòu)和三維坐標(biāo)重構(gòu)需要很好地平衡,才能完成具有適當(dāng)挑戰(zhàn)性的預(yù)文本任務(wù)。這里也推薦「3D視覺(jué)工坊」新課程《徹底搞懂基于Open3D的點(diǎn)云處理教程!》。

在本文中,我們提出了I2P-MAE,一種具有有效圖像到點(diǎn)學(xué)習(xí)方案的掩蔽點(diǎn)建模框架。我們介紹了兩種將學(xué)習(xí)到的二維知識(shí)轉(zhuǎn)移到三維領(lǐng)域的方法:二維引導(dǎo)遮擋和二維語(yǔ)義重建。在二維引導(dǎo)的幫助下,I2P-MAE學(xué)習(xí)到了卓越的三維表征,并在三維下游任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能,從而緩解了對(duì)大規(guī)模三維數(shù)據(jù)集的需求。在未來(lái)的工作中,不僅限于遮擋和重建,我們還將為三維遮擋自動(dòng)編碼器探索更充分的圖像-點(diǎn)學(xué)習(xí),例如點(diǎn)標(biāo)記采樣和二維-三維類標(biāo)記對(duì)比。此外,我們希望我們的預(yù)訓(xùn)練模型能夠使更多的三維任務(wù)受益。

6 參考

ICLR 2023 | 2D視覺(jué)或語(yǔ)言Foundation Model可以幫助3D表征學(xué)習(xí)嗎?_PaperWeekly的博客-CSDN博客

2D知識(shí)轉(zhuǎn)移到3D領(lǐng)域?MAE指導(dǎo)的點(diǎn)云學(xué)習(xí)架構(gòu)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
丹凤县| 文成县| 木里| 新河县| 池州市| 廊坊市| 福海县| 孝感市| 阜宁县| 福鼎市| 明水县| 宽城| 玛纳斯县| 通渭县| 永康市| 牟定县| 华池县| 金寨县| 禄劝| 南溪县| 庄河市| 高安市| 西盟| 临夏县| 新乡县| 张家口市| 开封市| 鲜城| 拉孜县| 团风县| 桂东县| 合川市| 昂仁县| 新安县| 庄河市| 七台河市| 观塘区| 株洲县| 贵溪市| 文成县| 吉安县|