最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?

2023-07-03 16:01 作者:3D視覺(jué)工坊  | 我要投稿

  • 論文題目:《Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning?》

  • 作者機(jī)構(gòu):西安交通大學(xué)、清華大學(xué)、曠視科技、上海AI實(shí)驗(yàn)室

  • 論文鏈接:https://arxiv.org/abs/2212.08320

  • 項(xiàng)目主頁(yè):https://github.com/RunpeiDong/ACT(基于 PyTorch

作者:HT| 來(lái)源:3D視覺(jué)工坊

在公眾號(hào)「3D視覺(jué)工坊」后臺(tái),回復(fù)「原論文」即可獲取論文pdf。

添加微信:dddvisiona,備注:Transformer,拉你入群。文末附行業(yè)細(xì)分群。

與2D視覺(jué)和NLP相比,基于基礎(chǔ)的視覺(jué)計(jì)算在3D社區(qū)中發(fā)展滯后。提出以下問(wèn)題:是什么使得3D表示學(xué)習(xí)比2D視覺(jué)或NLP更具挑戰(zhàn)性?

深度學(xué)習(xí)的成功在很大程度上依賴(lài)于具有全面標(biāo)簽的大規(guī)模數(shù)據(jù),在獲取3D數(shù)據(jù)方面比2D圖像或自然語(yǔ)言更昂貴且耗時(shí)。這促使我們有可能利用用于不同模態(tài)知識(shí)轉(zhuǎn)移的以3D數(shù)據(jù)為基礎(chǔ)的預(yù)訓(xùn)練模型作為教師。

本文以統(tǒng)一的知識(shí)蒸餾方式重新考慮了掩碼建模,并且展示了基于2D圖像或自然語(yǔ)言預(yù)訓(xùn)練的基礎(chǔ)Transformer模型如何通過(guò)訓(xùn)練作為跨模態(tài)教師的自編碼器(ACT)來(lái)幫助無(wú)監(jiān)督學(xué)習(xí)的3D表示學(xué)習(xí)。

本文首次證明了預(yù)訓(xùn)練的基礎(chǔ)Transformer可以幫助3D表示學(xué)習(xí),而無(wú)需訪問(wèn)任何2D、語(yǔ)言數(shù)據(jù)或3D下游標(biāo)注。

這篇論文的動(dòng)機(jī)是解決3D數(shù)據(jù)表示學(xué)習(xí)中存在的挑戰(zhàn),即3D數(shù)據(jù)與2D圖像或語(yǔ)言具有不同的結(jié)構(gòu),使得在細(xì)粒度知識(shí)的關(guān)聯(lián)方面存在困難。作者希望通過(guò)自監(jiān)督學(xué)習(xí)的方式,將來(lái)自圖像領(lǐng)域的豐富知識(shí)應(yīng)用于3D數(shù)據(jù)的表示學(xué)習(xí)中,從而提高3D任務(wù)的性能。作者提出一種自監(jiān)督學(xué)習(xí)框架,用于跨模態(tài)的知識(shí)傳遞和特征蒸餾,以改善3D數(shù)據(jù)的表示學(xué)習(xí)和下游任務(wù)性能。

核心創(chuàng)新點(diǎn)是框架中的ACT(Autoencoding Cross-Transformers),它將預(yù)訓(xùn)練的基礎(chǔ)Transformer模型轉(zhuǎn)化為跨模態(tài)的3D教師模型,并通過(guò)自編碼和掩碼建模將教師模型的特征蒸餾到3D Transformer學(xué)生模型中。

作者通過(guò)以下方式設(shè)計(jì)和實(shí)現(xiàn)ACT框架:

  1. 首先,使用3D自編碼器將預(yù)訓(xùn)練的基礎(chǔ)Transformer轉(zhuǎn)化為3D教師模型。這個(gè)自編碼器通過(guò)自監(jiān)督訓(xùn)練從3D數(shù)據(jù)中學(xué)習(xí)特征表示,并生成語(yǔ)義豐富的潛在特征。

  2. 接著,設(shè)計(jì)了掩碼建模方法,其中教師模型的潛在特征被用作3D Transformer學(xué)生模型的掩碼建模目標(biāo)。學(xué)生模型通過(guò)優(yōu)化掩碼建模任務(wù)來(lái)學(xué)習(xí)表示,以捕捉3D數(shù)據(jù)中的重要特征。

  3. 使用預(yù)訓(xùn)練的2D圖像Transformer作為教師模型,因?yàn)樗鼈冊(cè)?D圖像領(lǐng)域表現(xiàn)出色,并且作者認(rèn)為它們可以學(xué)習(xí)遷移的3D特征。

ACT框架包括以下主要部分:

  1. 預(yù)訓(xùn)練的2D圖像或語(yǔ)言Transformer:作為基礎(chǔ)Transformer模型,具有豐富的特征表示能力。作者選擇了先進(jìn)的2D Transformer模型作為基礎(chǔ)模型,例如Vision Transformers (ViTs) 或者語(yǔ)言模型(如BERT)。

    訓(xùn)練:使用大規(guī)模的2D圖像或語(yǔ)言數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,通過(guò)自監(jiān)督學(xué)習(xí)任務(wù)(如自編碼器或掩碼建模)來(lái)學(xué)習(xí)模型的特征表示能力。

  2. 3D自動(dòng)編碼器:通過(guò)自監(jiān)督學(xué)習(xí),將2D圖像或語(yǔ)言Transformer調(diào)整為3D自動(dòng)編碼器,用于學(xué)習(xí)3D幾何特征。作者將預(yù)訓(xùn)練的2D圖像或語(yǔ)言Transformer模型轉(zhuǎn)換為3D自動(dòng)編碼器。通過(guò)將2D模型的參數(shù)復(fù)制到3D模型中,并添加適當(dāng)?shù)膶踊蚰K來(lái)處理3D數(shù)據(jù)。

    使用3D數(shù)據(jù)集進(jìn)行自監(jiān)督學(xué)習(xí),例如預(yù)測(cè)點(diǎn)云數(shù)據(jù)的遮擋部分、點(diǎn)云重建或其他3D任務(wù)。通過(guò)自監(jiān)督學(xué)習(xí)任務(wù),3D自動(dòng)編碼器可以學(xué)習(xí)到3D數(shù)據(jù)的幾何特征。

  3. 跨模態(tài)教師模型:將預(yù)訓(xùn)練的3D自動(dòng)編碼器作為跨模態(tài)教師模型,通過(guò)掩碼建模的方式將潛在特征傳遞給3D Transformer學(xué)生模型。

    特征傳遞:通過(guò)掩碼建模的方式,將3D自動(dòng)編碼器的潛在特征傳遞給3D Transformer學(xué)生模型。教師模型生成的潛在特征被用作學(xué)生模型的蒸餾目標(biāo),以引導(dǎo)學(xué)生模型學(xué)習(xí)更好的3D表示。

  4. 3D Transformer學(xué)生模型:接收來(lái)自教師模型的潛在特征,并用于學(xué)習(xí)3D數(shù)據(jù)的表示。

    特征蒸餾:學(xué)生模型通過(guò)特征蒸餾的方式,利用教師模型的潛在特征作為監(jiān)督信號(hào),從而學(xué)習(xí)到更準(zhǔn)確和具有豐富語(yǔ)義的3D表示。

這種設(shè)計(jì)和實(shí)現(xiàn)帶來(lái)了多個(gè)好處:

  1. ACT框架能夠?qū)崿F(xiàn)跨模態(tài)的知識(shí)傳遞,將來(lái)自圖像領(lǐng)域的知識(shí)應(yīng)用于3D數(shù)據(jù)中的表示學(xué)習(xí),提高了3D任務(wù)的性能。

  2. 通過(guò)使用預(yù)訓(xùn)練的2D圖像Transformer作為教師模型,ACT能夠利用圖像領(lǐng)域已有的豐富特征表示,提供更有語(yǔ)義的特征編碼。

  3. 自編碼和掩碼建模任務(wù)使得學(xué)生模型能夠通過(guò)無(wú)監(jiān)督學(xué)習(xí)捕捉3D數(shù)據(jù)中的重要特征,從而更好地泛化到不同的下游任務(wù)。

總的來(lái)說(shuō),ACT框架的核心創(chuàng)新在于將自監(jiān)督學(xué)習(xí)和特征蒸餾方法應(yīng)用于3D數(shù)據(jù)中,實(shí)現(xiàn)了知識(shí)傳遞和表示學(xué)習(xí)的改進(jìn),為跨模態(tài)學(xué)習(xí)和深度學(xué)習(xí)模型的發(fā)展提供了新的思路和方法。

深度學(xué)習(xí)的成功在很大程度上依賴(lài)于具有全面標(biāo)簽的大規(guī)模數(shù)據(jù),在獲取3D數(shù)據(jù)方面比2D圖像或自然語(yǔ)言更昂貴且耗時(shí)。這促使我們有可能利用用于不同模態(tài)知識(shí)轉(zhuǎn)移的以3D數(shù)據(jù)為基礎(chǔ)的預(yù)訓(xùn)練模型作為教師。

本文以統(tǒng)一的知識(shí)蒸餾方式重新考慮了掩碼建模,并且展示了基于2D圖像或自然語(yǔ)言預(yù)訓(xùn)練的基礎(chǔ)Transformer模型如何通過(guò)訓(xùn)練作為跨模態(tài)教師的自編碼器(ACT)來(lái)幫助無(wú)監(jiān)督學(xué)習(xí)的3D表示學(xué)習(xí)。

  • 預(yù)訓(xùn)練的Transformer模型通過(guò)使用離散變分自編碼的自監(jiān)督來(lái)作為跨模態(tài)的3D教師進(jìn)行轉(zhuǎn)移,在此過(guò)程中,Transformer模型被凍結(jié)并進(jìn)行提示調(diào)整,以實(shí)現(xiàn)更好的知識(shí)傳承。

  • 由3D教師編碼的潛在特征被用作掩碼點(diǎn)建模的目標(biāo),其中暗知識(shí)被提煉到作為基礎(chǔ)幾何理解的3D Transformer學(xué)生中。

預(yù)訓(xùn)練的ACT 3D學(xué)習(xí)者在各種下游基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的泛化能力,例如在ScanObjectNN上的 %整體準(zhǔn)確率。

圖1 ACT框架的概述。

  • (a)ACT利用在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的Transformer模型,例如使用2D圖像預(yù)訓(xùn)練的ViT或使用語(yǔ)言預(yù)訓(xùn)練的BERT。

  • (b)ACT的第一階段(第4.1節(jié)),預(yù)訓(xùn)練的Transformer模型通過(guò)帶提示的自監(jiān)督3D自編碼進(jìn)行微調(diào)。

  • (c)ACT的第二階段(第4.2節(jié)),3D自編碼器編碼器被用作跨模態(tài)教師,將潛在特征編碼為掩碼點(diǎn)建模目標(biāo),用于3D Transformer學(xué)生的表示學(xué)習(xí)。

近年來(lái),數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)在人工智能系統(tǒng)中得到廣泛應(yīng)用。計(jì)算硬件的進(jìn)步極大地推動(dòng)了機(jī)器智能的發(fā)展,并促進(jìn)了一種新興的范式,即基于廣泛數(shù)據(jù)訓(xùn)練的模型的知識(shí)轉(zhuǎn)移。

  • 自然語(yǔ)言處理 (NLP) 取得了巨大的成功,其中的模型旨在通過(guò)對(duì)極大規(guī)模數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)來(lái)獲取通用表示。

  • 自從Transformer在視覺(jué)領(lǐng)域取得成功后,人們已經(jīng)做出了許多努力,將這種趨勢(shì)從NLP領(lǐng)域擴(kuò)展到基于2D視覺(jué)理解的基礎(chǔ)模型中。

與2D視覺(jué)和NLP相比,基于基礎(chǔ)的視覺(jué)計(jì)算在3D社區(qū)中發(fā)展滯后。提出以下問(wèn)題:是什么使得3D表示學(xué)習(xí)比2D視覺(jué)或NLP更具挑戰(zhàn)性?

從以下三個(gè)角度提供一些分析性答案:

i. 架構(gòu)不統(tǒng)一。先驅(qū)性架構(gòu)如PointNet只能對(duì)3D坐標(biāo)進(jìn)行編碼,而無(wú)法應(yīng)用于在NLP和2D視覺(jué)中取得成功的掩碼去噪自編碼(DAE)。然而,Transformer架構(gòu)現(xiàn)在已經(jīng)彌補(bǔ)了這種架構(gòu)上的差距,實(shí)現(xiàn)了跨所有模態(tài)格式的統(tǒng)一表示,并為擴(kuò)展3D中的DAE帶來(lái)了巨大潛力。

ii. 數(shù)據(jù)稀缺。與圖像和自由形式語(yǔ)言相比,收集和標(biāo)注3D或4D數(shù)據(jù)更加困難,通常需要更昂貴且密集的工作。此外,考慮到數(shù)據(jù)規(guī)模,3D數(shù)據(jù)嚴(yán)重匱乏。這促使了跨模態(tài)知識(shí)轉(zhuǎn)移的使用。最近的研究要么與其他模態(tài)一起進(jìn)行聯(lián)合訓(xùn)練以實(shí)現(xiàn)更有效的對(duì)比,要么直接對(duì)在圖像數(shù)據(jù)上預(yù)訓(xùn)練的2D Transformers進(jìn)行微調(diào)。

iii. 模式差異。表1顯示了語(yǔ)言、2D圖像和3D點(diǎn)云的數(shù)據(jù)模式比較??梢杂^察到:

  • (i)3D點(diǎn)云通常是非結(jié)構(gòu)化的,包含稀疏語(yǔ)義,不同于語(yǔ)言。這導(dǎo)致在點(diǎn)云上進(jìn)行掩碼去噪自編碼更加困難;

  • (ii)2D圖像在網(wǎng)格上均勻分布,而3D點(diǎn)云則是從對(duì)象表面不規(guī)則采樣。這種結(jié)構(gòu)上的差異導(dǎo)致了單模態(tài)增強(qiáng)和跨模態(tài)對(duì)應(yīng)的對(duì)比目標(biāo)構(gòu)建的困難;

  • (iii)如何設(shè)計(jì)具有豐富語(yǔ)義的更好表示成為自監(jiān)督3D理解的主要目標(biāo)。

在上述分析的推動(dòng)下,作者提出了將Autoencoders作為跨模態(tài)教師進(jìn)行訓(xùn)練。

  • ACT利用基于2D圖像或自然語(yǔ)言預(yù)訓(xùn)練的基礎(chǔ)Transformers作為跨模態(tài)教師,具有豐富的知識(shí)和強(qiáng)大的表示能力。通過(guò)這種方式,3D中的數(shù)據(jù)稀缺問(wèn)題得到緩解。

  • Transformer被用作通用的3D學(xué)習(xí)器,彌補(bǔ)了掩碼建模表示學(xué)習(xí)方面的架構(gòu)差距。通過(guò)以自監(jiān)督的方式在3D數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練的Transformers作為自編碼器,Transformers可以將3D點(diǎn)云轉(zhuǎn)化為具有豐富語(yǔ)義的表示形式。為了保留和繼承預(yù)訓(xùn)練的基礎(chǔ)知識(shí),使用了提示微調(diào)。

因此,ACT使預(yù)訓(xùn)練的Transformers成為自發(fā)的跨模態(tài)教師,為3D點(diǎn)云提供了語(yǔ)義豐富的掩碼建模目標(biāo)。

  • 由于預(yù)訓(xùn)練的Transformers被微調(diào)為3D自編碼器,在這種跨模態(tài)Transformer轉(zhuǎn)移過(guò)程中不需要任何圖像、語(yǔ)言數(shù)據(jù)或3D下游標(biāo)注。

  • 此外,由于調(diào)整后的Transformers僅用作3D Transformer學(xué)生的教師,該方法在下游特征轉(zhuǎn)移過(guò)程中不會(huì)引入額外的計(jì)算或存儲(chǔ)成本。

此外,進(jìn)行了各種任務(wù)的大量實(shí)驗(yàn)證明了ACT預(yù)訓(xùn)練3D Transformers具有出色的泛化性能。

  • 例如,在ScanObjectNN數(shù)據(jù)集上實(shí)現(xiàn)了平均準(zhǔn)確率提高%。

據(jù)知,本文首次證明了預(yù)訓(xùn)練的基礎(chǔ)Transformer可以幫助3D表示學(xué)習(xí),而無(wú)需訪問(wèn)任何2D、語(yǔ)言數(shù)據(jù)或3D下游標(biāo)注。ACT是一個(gè)自監(jiān)督的框架,可以推廣到其他模態(tài)和任務(wù),期望這能夠推動(dòng)更多類(lèi)似ACT風(fēng)格的表示學(xué)習(xí)的探索。

表1: 數(shù)據(jù)模式比較

自監(jiān)督的3D幾何處理表示學(xué)習(xí)目前在學(xué)術(shù)界引起了極大的興趣。

  • 傳統(tǒng)方法是基于重建的幾何理解預(yù)任務(wù)構(gòu)建的,例如點(diǎn)云部分重排序,方向估計(jì),局部和全局重建,流一致性,變形和遮擋。

  • 與此同時(shí),Xie等人在PointContrast中提出了學(xué)習(xí)增強(qiáng)點(diǎn)云之間的區(qū)分性視角一致性的方法。在這個(gè)方向上,還提出了許多相關(guān)工作。

最近,許多工作提出了應(yīng)用點(diǎn)云Transformer的自編碼器(DAE)預(yù)訓(xùn)練的方法,并取得了顯著的成功。

  • Yu等人通過(guò)擴(kuò)展BERT-style預(yù)訓(xùn)練的思想,結(jié)合全局對(duì)比目標(biāo),開(kāi)創(chuàng)了這個(gè)方向。

  • Liu等人提出了添加一些噪聲點(diǎn),并對(duì)每個(gè)掩碼位置的掩碼標(biāo)記進(jìn)行真假分類(lèi)的方法,這與Selfie的模式相似,后者對(duì)掩碼圖像塊進(jìn)行真假分類(lèi)。

  • Pang等人提出了通過(guò)對(duì)3D點(diǎn)云坐標(biāo)進(jìn)行掩碼建模,在點(diǎn)云上探索MAE的方法。

作者遵循這種DAE-style表示學(xué)習(xí)范式,但與之前的方法不同,工作旨在使用由預(yù)訓(xùn)練基礎(chǔ)Transformer編碼的潛在特征作為掩碼建模目標(biāo)。

跨模態(tài)的3D表示學(xué)習(xí)旨在利用除了3D點(diǎn)云之外的更多模態(tài)內(nèi)在的學(xué)習(xí)信號(hào),例如,2D圖像被認(rèn)為具有豐富的上下文和紋理知識(shí),而自由形式的語(yǔ)言則具有密集的語(yǔ)義信息。主流方法基于全局特征匹配的對(duì)比學(xué)習(xí)進(jìn)行開(kāi)發(fā)。

  • 例如,Jing等人提出了一種判別性中心損失函數(shù),用于點(diǎn)云、網(wǎng)格和圖像的特征對(duì)齊。

  • Afham等人提出了一種在增強(qiáng)的點(diǎn)云和相應(yīng)渲染的2D圖像之間進(jìn)行的模態(tài)內(nèi)和模態(tài)間對(duì)比學(xué)習(xí)框架。

通過(guò)利用幾何先驗(yàn)信息進(jìn)行密集關(guān)聯(lián),另一項(xiàng)工作探索了細(xì)粒度的局部特征匹配。

  • Liu等人提出了一種對(duì)比知識(shí)蒸餾方法,用于對(duì)齊細(xì)粒度的2D和3D特征。

  • Li等人提出了一個(gè)簡(jiǎn)單的對(duì)比學(xué)習(xí)框架,用于模態(tài)內(nèi)和模態(tài)間的密集特征對(duì)比,并使用匈牙利算法進(jìn)行更好的對(duì)應(yīng)。

最近,通過(guò)直接使用經(jīng)過(guò)監(jiān)督微調(diào)的預(yù)訓(xùn)練2D圖像編碼器取得了很大的進(jìn)展。

  • Image2Point 提出了通過(guò)卷積層膨脹來(lái)傳遞預(yù)訓(xùn)練權(quán)重的方法。

  • P2P 提出了將3D點(diǎn)云投影到2D圖像,并通過(guò)可學(xué)習(xí)的上色模塊將其作為圖像主干網(wǎng)絡(luò)的輸入。

一些工作也探索了預(yù)訓(xùn)練基礎(chǔ)模型是否可以幫助3D學(xué)習(xí)。然而,本文作者的方法:

(1)不使用預(yù)訓(xùn)練的2D或語(yǔ)言模型作為推斷的主干模型;

(2)在無(wú)下游3D標(biāo)注的自監(jiān)督預(yù)訓(xùn)練過(guò)程中探索使用來(lái)自其他模態(tài)的預(yù)訓(xùn)練基礎(chǔ)模型;

(3)不需要成對(duì)的點(diǎn)-圖像或點(diǎn)-語(yǔ)言數(shù)據(jù)。

除了2D圖像之外,還有一些工作提出利用自然語(yǔ)言進(jìn)行對(duì)比的3D表示學(xué)習(xí),零樣本學(xué)習(xí),以及場(chǎng)景理解。

與規(guī)則網(wǎng)格上的圖像不同,點(diǎn)云被認(rèn)為是不規(guī)則和結(jié)構(gòu)較弱的。許多工作致力于為點(diǎn)云數(shù)據(jù)設(shè)計(jì)深度學(xué)習(xí)架構(gòu),利用點(diǎn)集的排列和平移不變性進(jìn)行特征學(xué)習(xí)。

  • 不僅僅依賴(lài)于這樣的專(zhuān)門(mén)主干,還利用Transformer主干,這樣更容易與其他模態(tài)(如圖像和語(yǔ)言)統(tǒng)一,并促進(jìn)跨模態(tài)的知識(shí)傳遞。

  • 使用專(zhuān)門(mén)的點(diǎn)網(wǎng)絡(luò)計(jì)算局部幾何塊嵌入,并將其饋送給Transformer以輸出更有效的幾何表示。


假設(shè)有一個(gè)點(diǎn)云 ,其中N個(gè)坐標(biāo)編碼在 笛卡爾空間中,

  • 按照Yu等人(2022)的方法,首先使用最遠(yuǎn)點(diǎn)采樣(FPS)選擇個(gè)種子點(diǎn)。

  • 然后將點(diǎn)云 P 分組為 個(gè)鄰域 ,其中種子點(diǎn)集 的中心作為組的中心。每個(gè)鄰域包含 K 個(gè)點(diǎn),這些點(diǎn)是通過(guò)搜索對(duì)應(yīng)種子點(diǎn)的K個(gè)最近鄰點(diǎn)生成的。

  • 在每個(gè)種子點(diǎn) ? 周?chē)?jì)算局部幾何特征 ,通過(guò)在鄰域內(nèi)對(duì)每個(gè)點(diǎn)的特征進(jìn)行最大池化得到:

其中:

  • 是一個(gè)具有參數(shù) θ 的點(diǎn)特征提取器,例如中的逐點(diǎn)MLP,是鄰域 中第 j 個(gè)鄰點(diǎn) 的特征。

  • 將鄰域特征作為標(biāo)記特征,用于輸入接下來(lái)的Transformer塊。

使用標(biāo)準(zhǔn)的Transformer塊作為編碼器,進(jìn)一步轉(zhuǎn)換局部塊嵌入 ,其中C是嵌入大小。

按照Yu等人的方法,使用一個(gè)具有可學(xué)習(xí)參數(shù)ρ的兩層MLP 作為位置嵌入,應(yīng)用于每個(gè)塊以實(shí)現(xiàn)穩(wěn)定的訓(xùn)練。

式中,MSA表示多頭自注意的交替層,LN表示分層范數(shù),MLP為兩層,其中GELU為非線(xiàn)性。 是一種可學(xué)習(xí)的全局表示嵌入,以 作為其可學(xué)習(xí)的位置嵌入。

掩碼建模可以看作是經(jīng)典自編碼器(DAE)的擴(kuò)展,其中采用了掩碼損失,最近已經(jīng)在語(yǔ)言模型和視覺(jué)領(lǐng)域進(jìn)行了探索。

  • 形式上,給定一個(gè)由 個(gè) token 組成的序列 ,例如RGB圖像或點(diǎn)云數(shù)據(jù)的標(biāo)記嵌入。

  • 目標(biāo)是訓(xùn)練一個(gè)學(xué)生編碼器 ? 來(lái)預(yù)測(cè)/重建來(lái)自教師編碼器 ? 的輸出,其中教師可以是離散變分自編碼器(dVAE)或簡(jiǎn)單的恒等映射。

通過(guò)這種方式,學(xué)生在教師的指導(dǎo)下學(xué)習(xí)數(shù)據(jù)中的深層知識(shí)。

  • 為了損壞輸入數(shù)據(jù),為每個(gè)位置生成一組掩碼 ,指示標(biāo)記是否被掩碼。

  • 使用可學(xué)習(xí)的損壞嵌入 來(lái)替換被掩碼的位置,將損壞的表示 輸入到編碼器或解碼器。這里,表示Hadamard乘積, 是指示函數(shù)。

在某個(gè)度量空間 ? 中定義了距離函數(shù) ,作為解碼器,目標(biāo)是最小化以下距離:

解碼器隨著建模目標(biāo)的不同而變化,例如,它是BERT的非線(xiàn)性投影,帶有softmax ,其中度量函數(shù)變成交叉熵??梢钥醋魇茄谀=5慕y(tǒng)一公式。

因此,考慮如何在掩碼3D建模中建立一個(gè)知識(shí)淵博的老師是很自然的。作者的想法是利用2D或語(yǔ)言基礎(chǔ)模型中的跨模式教師。

目標(biāo)是通過(guò)預(yù)訓(xùn)練的2D圖像或語(yǔ)言Transformer來(lái)促進(jìn)3D表示學(xué)習(xí),該模型具備從大規(guī)模數(shù)據(jù)中吸收的深層知識(shí)。

然而,3D點(diǎn)云與2D圖像或語(yǔ)言具有不同的結(jié)構(gòu),這使得細(xì)粒度知識(shí)的關(guān)聯(lián)變得困難。

為了解決這個(gè)問(wèn)題,采用了一個(gè)兩階段的訓(xùn)練過(guò)程。ACT框架的概述如圖1所示。

  • 階段I:調(diào)整預(yù)訓(xùn)練的2D或語(yǔ)言Transformer作為3D自編碼器,通過(guò)自監(jiān)督的提示調(diào)整來(lái)學(xué)習(xí)理解3D幾何。

  • 階段II:使用預(yù)訓(xùn)練的3D自編碼器作為跨模態(tài)教師,通過(guò)掩碼建模將潛在特征蒸餾到3D點(diǎn)云Transformer學(xué)生中。

Transformer是最近在各個(gè)領(lǐng)域中主導(dǎo)的架構(gòu),可以以統(tǒng)一的方式對(duì)任何模態(tài)的序列數(shù)據(jù)進(jìn)行建模。

  • 因此,可以直接使用預(yù)訓(xùn)練的Transformer塊,將順序標(biāo)記與輸入點(diǎn)云的3D位置嵌入一起進(jìn)行輸入。

  • 本文使用輕量級(jí)的DGCNN對(duì)點(diǎn)云進(jìn)行處理,其中的邊緣卷積層通過(guò)參數(shù) θ 表示。

  • 首先,使用DGCNN風(fēng)格的補(bǔ)丁嵌入網(wǎng)絡(luò)對(duì)點(diǎn)云進(jìn)行編碼,產(chǎn)生一組標(biāo)記嵌入:。

  • 然后,通過(guò)提示這些標(biāo)記嵌入,并將其輸入到預(yù)訓(xùn)練且凍結(jié)的Transformer塊的D層中,例如2D Transformer:。在這里,使用 來(lái)表示 2DTransformer 的第 層。

使用 個(gè)可學(xué)習(xí)的提示嵌入 ,應(yīng)用于Transformer 的每一層。具體來(lái)說(shuō),Transformer的第 層 將隱含表示 從第 層轉(zhuǎn)換為 ,如下所示:

使用這種參數(shù)高效的快速調(diào)整策略,能夠調(diào)整預(yù)訓(xùn)練的基礎(chǔ)Transformer,同時(shí)保留盡可能多的預(yù)訓(xùn)練知識(shí)。

另一個(gè)DGCNN網(wǎng)絡(luò) 用于從基礎(chǔ)Transformer嵌入的隱藏表示中提取局部幾何特征。然后,利用FoldingNet 對(duì)輸入點(diǎn)云進(jìn)行重構(gòu)。

將以上3D自編碼器作為離散變分自編碼器(dVAE)進(jìn)行訓(xùn)練,以最大化對(duì)數(shù)似然 。這里 表示原始和重構(gòu)的點(diǎn)云。

整體優(yōu)化目標(biāo)是最大化證據(jù)下界(ELBO),當(dāng)時(shí)成立:

其中:

  1. 表示離散的3D dVAE tokenizer;

  2. 是給定離散點(diǎn)標(biāo)記的dVAE解碼器;

  3. 以自編碼方式重構(gòu)輸入點(diǎn)云。

通過(guò)訓(xùn)練3D自編碼器,預(yù)訓(xùn)練Transformer的強(qiáng)表示被轉(zhuǎn)化為3D特征空間,使自編碼器自動(dòng)成為一個(gè)跨模態(tài)教師。

將在4.1節(jié)中介紹的預(yù)訓(xùn)練點(diǎn)云編碼器作為教師 ,將3D Transformer 作為學(xué)生。

通過(guò)掩碼建模作為跨模態(tài)知識(shí)蒸餾,最小化編碼后的教師特征與學(xué)生特征之間的負(fù)余弦相似度 ?:

在分類(lèi)任務(wù)中使用遷移學(xué)習(xí)的三種變體:

(a) FULL: 通過(guò)更新所有骨干和分類(lèi)頭來(lái)微調(diào)預(yù)訓(xùn)練模型。

(b) MLP- linear: 分類(lèi)頭是單層線(xiàn)性MLP,只在微調(diào)時(shí)更新該分類(lèi)頭參數(shù)。

(c) MLP-3: 分類(lèi)頭是一個(gè)三層非線(xiàn)性MLP(與FULL中使用的相同),只在微調(diào)時(shí)更新這個(gè)頭的參數(shù)。

首先展示了在具有挑戰(zhàn)性的現(xiàn)實(shí)數(shù)據(jù)集ScanObjectNN上對(duì)3D形狀識(shí)別的評(píng)估。結(jié)果如表2所示,其中可以觀察到:

(i) 與FULL調(diào)優(yōu)協(xié)議下從頭開(kāi)始的Transformer基線(xiàn)相比,ACT在三個(gè)不同的ScanObjectNN基準(zhǔn)測(cè)試上平均獲得了+10.4%的顯著改進(jìn)。此外,通過(guò)簡(jiǎn)單的點(diǎn)云旋轉(zhuǎn),ACT實(shí)現(xiàn)了+11.9%的平均改進(jìn);

(ii) 與明確以三維幾何理解為目的設(shè)計(jì)的方法相比,ACT`始終取得更好的結(jié)果。

(iii) 與其他自監(jiān)督學(xué)習(xí)(SSL)方法相比,在ScanObjectNN上,ACT在所有方法中實(shí)現(xiàn)了最好的泛化。此外,在ScanObjectNN上使用純3D Transformer架構(gòu)的方法中,ACT成功地達(dá)到了最先進(jìn)(SOTA)的性能,例如,在最具挑戰(zhàn)性的PB_T50_RS基準(zhǔn)測(cè)試中,ACTPoint-MAE的準(zhǔn)確率高出+3.0%。

表2:ScanObjectNN上的分類(lèi)結(jié)果。our1:沒(méi)有數(shù)據(jù)增強(qiáng)的訓(xùn)練結(jié)果。

Ours2:簡(jiǎn)單點(diǎn)云旋轉(zhuǎn)訓(xùn)練的結(jié)果。DA:在微調(diào)訓(xùn)練期間使用數(shù)據(jù)增強(qiáng)。報(bào)告總體精度,即OA(%)。

大規(guī)模3D場(chǎng)景的語(yǔ)義分割具有挑戰(zhàn)性,需要對(duì)上下文語(yǔ)義和局部幾何關(guān)系的理解。在表4中,報(bào)告了S3DIS數(shù)據(jù)集的結(jié)果??梢钥吹?

(i) ACT顯著提高了從零開(kāi)始的基線(xiàn),mAcc和mIoU分別提高了+2.5%和+1.2%。

(ii) ACT比SSL對(duì)應(yīng)的Point-MAE分別高出+1.2%和+0.4%的mAcc和mIoU,在大場(chǎng)景數(shù)據(jù)集上顯示出優(yōu)越的傳輸能力。

(iii) 僅使用幾何輸入xyz, ACT可以實(shí)現(xiàn)與使用xyz+rgb數(shù)據(jù)進(jìn)行細(xì)致設(shè)計(jì)的架構(gòu)相當(dāng)或更好的性能,包括3d特定的Transformer架構(gòu)。

表4:S3DIS區(qū)域5上的語(yǔ)義分割結(jié)果。報(bào)告了所有類(lèi)別的平均準(zhǔn)確性和平均IoU,即mAcc(%)和mIoU(%)。使用Xyz:點(diǎn)云坐標(biāo)。xyz+rgb:同時(shí)使用坐標(biāo)和rgb顏色。

展示了在合成數(shù)據(jù)集ModelNet40上對(duì)三維形狀分類(lèi)的評(píng)估。為了證明在有限的訓(xùn)練樣例下ACT的數(shù)據(jù)效率特性,首先遵循Sharma & Kaul(2020)來(lái)評(píng)估 few-shot 學(xué)習(xí)。

從表5中,可以看到:

(i) 與從頭開(kāi)始的FULL轉(zhuǎn)移基線(xiàn)相比,ACT在四種設(shè)置下分別帶來(lái)了+9.0%,+4.7%,+8.7%,+6.2%的顯著改進(jìn)。

(ii) 與其他SSL方法相比,ACT始終實(shí)現(xiàn)最佳性能。

然后,在表3中展示了完整數(shù)據(jù)集上的結(jié)果,在表3中我們觀察到,與FULL協(xié)議下的從頭基線(xiàn)相比,ACT實(shí)現(xiàn)了+2.5%的準(zhǔn)確率提高,并且結(jié)果與所有協(xié)議中的其他自監(jiān)督學(xué)習(xí)方法相當(dāng)或更好。

表3:ModelNet40數(shù)據(jù)集上的分類(lèi)結(jié)果。報(bào)告總體精度,即OA(%)。[ST]:標(biāo)準(zhǔn)Transformer架構(gòu)。

表5:在ModelNet40上的Few-shot分類(lèi),報(bào)告了總體準(zhǔn)確率(%)。

表6展示了使用不同解碼器深度的ACTScanObjectNN上的平均微調(diào)準(zhǔn)確率??梢钥闯?,性能對(duì)解碼器深度不敏感,我們發(fā)現(xiàn)具有2個(gè)塊的解碼器取得了最高的結(jié)果。

  • 需要注意的是,當(dāng)解碼器深度為0時(shí),我們采用了類(lèi)似BERT的掩碼建模架構(gòu),其中沒(méi)有解碼器,編碼器可以看到所有的標(biāo)記,包括被掩碼的標(biāo)記。

  • 我們發(fā)現(xiàn)這導(dǎo)致了較差的結(jié)果,與在2D上觀察到的數(shù)據(jù)的低語(yǔ)義性需要一個(gè)非平凡解碼器的觀察一致。

表6: 預(yù)訓(xùn)練解碼器深度的消融研究。

圖2: 掩碼比 消融研究和跨模 Transformer 教師選擇。

圖2(a)展示了使用不同掩碼策略在ScanObjectNN上的平均微調(diào)準(zhǔn)確率。

  • 可以觀察到,使用隨機(jī)掩碼的較高掩碼比例會(huì)產(chǎn)生更好的結(jié)果,而塊掩碼則對(duì)較低掩碼比例更為適用。

  • 需要注意的是,當(dāng)掩碼比例為零時(shí),對(duì)所有標(biāo)記使用基準(zhǔn)知識(shí)蒸餾,并且導(dǎo)致性能較差。

  • 圖2(b)展示了使用不同教師TransformerACTScanObjectNN上的平均微調(diào)準(zhǔn)確率,包括Vision Transformers、全MLP架構(gòu)、語(yǔ)言模型和視覺(jué)語(yǔ)言模型。觀察到較大的教師模型始終能夠獲得更好的性能。

此外,令人驚訝的是,ACT使用語(yǔ)言模型BERTB(即BERTbase)作為跨模態(tài)教師,可以達(dá)到平均準(zhǔn)確率85.12±0.54%(最高可達(dá)85.88%),這表明ACT可以推廣到任何模態(tài)。

表7: dVAE標(biāo)記器不同訓(xùn)練策略的消融研究。

  • 報(bào)告了F-Score,使用l1范數(shù)和l2范數(shù)的倒角距離,即CD- l1和CD- l2

表7展示了使用預(yù)訓(xùn)練的2D圖像Transformer進(jìn)行不同訓(xùn)練配置的3D自編碼器的重構(gòu)結(jié)果。觀察到:

(i)帶有預(yù)訓(xùn)練圖像Transformer的3D dVAE模型在重構(gòu)結(jié)果上明顯優(yōu)于Point-BERT。這表明預(yù)訓(xùn)練的2D圖像Transformer具有強(qiáng)大的對(duì)3D的表示能力。

(ii) 提示調(diào)整或凍結(jié)模型可以獲得比完全調(diào)整更好的結(jié)果,我們認(rèn)為這是因?yàn)槟承╊A(yù)訓(xùn)練的2D知識(shí)被遺忘了,而提示調(diào)整有效地解決了這個(gè)問(wèn)題。重構(gòu)可視化結(jié)果可以在附錄D中找到。

為了了解預(yù)訓(xùn)練的2D圖像Transformer在3D dVAE模型中的必要性,我們用不同的dVAE教師和掩模建模配置進(jìn)行了實(shí)驗(yàn)。

從表8中,可以看到:

(i) 當(dāng)使用沒(méi)有預(yù)訓(xùn)練的2D圖像變壓器的Point-BERT dVAE模型時(shí),通過(guò)提取潛在特征而不是離散令牌,可以實(shí)現(xiàn)+0.62%的改進(jìn)。分析認(rèn)為,離散令牌識(shí)別學(xué)習(xí)起來(lái)更具挑戰(zhàn)性3D數(shù)據(jù)。

(ii) 當(dāng)使用Point-BERT離散標(biāo)記作為掩碼建模目標(biāo)時(shí),通過(guò)應(yīng)用帶有預(yù)訓(xùn)練2D圖像Transformer的dVAE模型,得到了最差的性能。這表明,無(wú)論標(biāo)記器有多強(qiáng)大,離散標(biāo)記都不適用于語(yǔ)義稀疏的點(diǎn)云數(shù)據(jù)。

(iii) 當(dāng)使用ACT時(shí),性能顯著提高。這表明,帶有預(yù)訓(xùn)練2D圖像Transformer`的3D dVAE能夠編碼具有豐富語(yǔ)義的特征,更適合于掩碼點(diǎn)建模。

表10: 二維圖像轉(zhuǎn)換器在dVAE模型中不同位置嵌入的研究。

(a)無(wú):不使用位置嵌入。(b) 2D/z:僅使用2D xy平面坐標(biāo)的位置嵌入。

(c) 3D:所有3D xyz坐標(biāo)的位置嵌入。

報(bào)告了F-Score,使用l1范數(shù)和l2范數(shù)的倒角距離,即CD- l1和CD-l2,以及ScanObjectNN上的OA。

由于ACT使用編碼特征作為掩碼建模目標(biāo),它具有將我們的方法作為輔助特征蒸餾的潛力。

表9顯示了在Point-MAE模型中,使用ACT作為中間特征的輔助深度監(jiān)督訓(xùn)練的結(jié)果,其中ACT編碼的潛在特征被蒸餾到Point-MAE的編碼器特征中。

可以觀察到,ACT能夠顯著提高Point-MAEScanObjectNN上的準(zhǔn)確率,提高了0.87%,表明ACT作為一種知識(shí)蒸餾方法具有可擴(kuò)展性和有效性。

為了更好地理解2D圖像Transformer如何通過(guò)自編碼器訓(xùn)練理解3D輸入,研究了ViT-B在我們的ACT dVAE模型中使用的位置嵌入的效果。從表10可以看出:

(i) 在沒(méi)有任何位置嵌入的情況下,預(yù)訓(xùn)練的ViT仍然可以學(xué)習(xí)可遷移的3D特征(準(zhǔn)確率為84.21±0.45%)。我們認(rèn)為這是因?yàn)槲恢脦缀涡畔⒁呀?jīng)包含在輸入的3D坐標(biāo)中,預(yù)訓(xùn)練的2D Transformer可以通過(guò)幾何特征純粹處理3D數(shù)據(jù),而不需要顯式的位置提示。

(ii) 當(dāng)僅使用2D xy平面坐標(biāo)的位置嵌入時(shí),準(zhǔn)確率顯著提高了0.89%。我們認(rèn)為2D位置嵌入是為了適應(yīng)凍結(jié)的圖像Transformer而學(xué)習(xí)的,使圖像Transformer能夠?qū)?D輸入編碼為具有高語(yǔ)義的預(yù)訓(xùn)練2D特征空間。

(iii) 當(dāng)使用所有3D坐標(biāo)進(jìn)行位置嵌入時(shí),2D圖像Transformer成功利用了附加坐標(biāo)信息來(lái)進(jìn)行更好的特征編碼。

本文提出了一種自監(jiān)督學(xué)習(xí)框架ACT,通過(guò)預(yù)訓(xùn)練的基礎(chǔ)Transformer進(jìn)行掩碼建模,將特征蒸餾傳遞給3D Transformer學(xué)生模型。ACT首先通過(guò)自監(jiān)督的3D自編碼將預(yù)訓(xùn)練的基礎(chǔ)Transformer轉(zhuǎn)化為跨模態(tài)的3D教師模型。

然后,來(lái)自調(diào)整后的3D自編碼器的語(yǔ)義豐富的潛在特征被用作3D Transformer學(xué)生模型的掩碼建模目標(biāo),展現(xiàn)了在各種下游3D任務(wù)上卓越的泛化性能。作為一種通用的自監(jiān)督學(xué)習(xí)框架,相信ACT可以輕松擴(kuò)展到除3D數(shù)據(jù)之外的其他模態(tài)。

這種自監(jiān)督方式展示了跨模態(tài)知識(shí)轉(zhuǎn)移的巨大潛力,這可能在數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)時(shí)代極大地促進(jìn)了基礎(chǔ)建模的發(fā)展。

圖3比較了基于2D圖像Transformer的3D dVAE和Point-BERT 3D dVAE模型的重建結(jié)果。

  • 實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的三維自編碼器能夠高質(zhì)量地重建物體細(xì)節(jié)。

  • 對(duì)于一些相對(duì)簡(jiǎn)單的物體,如第二行矩形表,我們的方法和Point-BERT都可以很好地重建它們。然而,對(duì)于細(xì)節(jié)相對(duì)復(fù)雜的點(diǎn)集,如第三排的薄架子和扶手椅,我們的方法仍然可以用詳細(xì)的局部幾何信息重建物體。

  • 這些定性觀察結(jié)果與表7中的定量結(jié)果一致。

圖4顯示了t-SNE在ShapeNet上進(jìn)行預(yù)訓(xùn)練并在ModelNet40ScanObjectNN PB_T50_RS數(shù)據(jù)集上進(jìn)行微調(diào)后的模型特征可視化。

可以觀察到:

(i) 在ShapeNet上進(jìn)行預(yù)訓(xùn)練后,由于相對(duì)較小的域間隙,模型已經(jīng)可以在ModelNet上產(chǎn)生判別特征。

(ii) 在對(duì)下游數(shù)據(jù)集進(jìn)行微調(diào)后,在ModelNet40和具有挑戰(zhàn)性的ScanObjectNN數(shù)據(jù)集上都獲得了判別特征。

(iii) Shapenet預(yù)訓(xùn)練ACT在ScanObjectNN上提取的特征分布看起來(lái)不那么判別性。我們認(rèn)為有兩個(gè)原因?qū)е滤? (i)合成的ShapeNet和真實(shí)的ScanObjectNN數(shù)據(jù)集之間的大域差距,以及(ii) ACT使用的不是對(duì)比損失,例如區(qū)分(例如,Point-BERT使用的MoCo損失)。有趣的是,這在ScanObjectNN上產(chǎn)生了更好的泛化性能(ACT的OA為88.21%,而Point-BERT為83.07%)。

目前工坊已經(jīng)建立了3D視覺(jué)方向多個(gè)社群,包括SLAM、工業(yè)3D視覺(jué)、自動(dòng)駕駛方向,細(xì)分群包括:[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測(cè)、三維測(cè)量、TOF、相機(jī)標(biāo)定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺(jué)攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺(jué)產(chǎn)品落地等交流群。大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群。


ICLR2023 | 2D Transformer 可以幫助3D表示學(xué)習(xí)嗎?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
玉田县| 阿克陶县| 喀喇沁旗| 阿坝县| 宁武县| 灵石县| 方山县| 皮山县| 弥勒县| 沾化县| 呼玛县| 佛教| 青龙| 通州市| 兴海县| 娄底市| 固安县| 东丰县| 绵阳市| 汉源县| 田东县| 射阳县| 黄梅县| 孝感市| 红原县| 株洲县| 丹阳市| 遂川县| 左贡县| 连南| 新化县| 武强县| 巍山| 甘泉县| 理塘县| 通辽市| 石城县| 堆龙德庆县| 平武县| 方城县| 环江|