最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

NeurIPS 2022 | 3D點(diǎn)云自監(jiān)督預(yù)訓(xùn)練的自編碼器 :Point-M2AE

2023-06-12 22:41 作者:3D視覺(jué)工坊  | 我要投稿

NeurIPS 2022 | ?3D點(diǎn)云自監(jiān)督預(yù)訓(xùn)練的自編碼器 :Point-M2AE

作者:HT | 來(lái)源:微信公眾號(hào)「3DCV」

關(guān)注知乎@3DCV,第一時(shí)間看到3D視覺(jué)行業(yè)最新動(dòng)態(tài),包括工業(yè)3D視覺(jué)、SLAM和自動(dòng)駕駛。

  • 論文題目:《Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training

  • 作者機(jī)構(gòu):香港中文大學(xué)-商湯科技聯(lián)合實(shí)驗(yàn)室; 上海人工智能實(shí)驗(yàn)室; 感知與交互智能中心

  • 論文鏈接:https://arxiv.org/abs/2205.14401

  • 項(xiàng)目主頁(yè):https://github.com/ZrrSkywalker/Point-M2AE(基于 PyTorch

這篇論文介紹了一種新型自監(jiān)督預(yù)訓(xùn)練框架,用于學(xué)習(xí) 3D 點(diǎn)云的分層表示。Point-M2AE 通過(guò)掩碼自編碼器(MAE)來(lái)學(xué)習(xí) 3D 點(diǎn)云數(shù)據(jù)的不規(guī)則表示。關(guān)鍵的改進(jìn)包括以下幾點(diǎn):

  1. 與傳統(tǒng)的 MAE 中的標(biāo)準(zhǔn) Transformer 不同,Point-M2AE 將編碼器和解碼器修改為金字塔架構(gòu),這有助于逐步建??臻g幾何形狀,并捕獲 3D 形狀的細(xì)粒度和高級(jí)語(yǔ)義。

  2. 論文引入了一種多尺度掩蔽策略,該策略可以生成跨尺度一致的可見(jiàn)區(qū)域,保持局部幾何形狀的完整性和網(wǎng)絡(luò)的連貫性。在微調(diào)過(guò)程中,Point-M2AE 使用了局部空間自注意力機(jī)制,以便更好地關(guān)注相鄰的模式。

  3. 為了更好地從局部到全局的角度重建3D幾何形狀,論文提出了利用跳連接以補(bǔ)充解碼器中來(lái)自編碼器相應(yīng)階段的細(xì)粒度信息

Point-M2AE 顯示出強(qiáng)大的3D表示學(xué)習(xí)能力和優(yōu)越的遷移能力,表現(xiàn)出 SOTA 的性能。使用預(yù)訓(xùn)練后的編碼器,Point-M2AE 在 ModelNet40 上達(dá)到了 92.9% 的線性準(zhǔn)確率,這甚至超過(guò)了一些全監(jiān)督訓(xùn)練過(guò)的方法! 在對(duì)下游任務(wù)進(jìn)行微調(diào)后,在 ScanObjectNN 上的準(zhǔn)確率達(dá)到 86.43%。

論文提出了一種名為Point-M2AE的多尺度掩碼自編碼器,利用了分層架構(gòu)和掩蔽策略來(lái)學(xué)習(xí)和重建多尺度的3D點(diǎn)云表征。通過(guò)這種方法,論文旨在實(shí)現(xiàn)對(duì)3D點(diǎn)云的有效表示學(xué)習(xí),以提高3D相關(guān)任務(wù),如分類(lèi)、檢測(cè)和分割等的性能。

論文的核心動(dòng)機(jī)來(lái)源于解決現(xiàn)存的3D點(diǎn)云表征學(xué)習(xí)的挑戰(zhàn),特別是如何通過(guò)自監(jiān)督學(xué)習(xí)有效地獲取豐富而深層次的3D幾何信息。這些挑戰(zhàn)包括但不限于以下幾點(diǎn):

  1. 無(wú)序和不規(guī)則的數(shù)據(jù)格式:3D點(diǎn)云數(shù)據(jù)由于其無(wú)序和不規(guī)則的特性,使得傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法難以直接應(yīng)用。因此,需要設(shè)計(jì)新的學(xué)習(xí)框架來(lái)適應(yīng)這種數(shù)據(jù)格式。

  2. 需要大量標(biāo)注數(shù)據(jù):傳統(tǒng)的監(jiān)督學(xué)習(xí)方法需要大量的人工標(biāo)注數(shù)據(jù)來(lái)進(jìn)行模型訓(xùn)練。然而,對(duì)3D點(diǎn)云數(shù)據(jù)進(jìn)行人工標(biāo)注是一項(xiàng)既費(fèi)時(shí)又費(fèi)力的工作,尤其是在大規(guī)模3D數(shù)據(jù)中。因此,采用自監(jiān)督的學(xué)習(xí)方法,即通過(guò)設(shè)計(jì)一種無(wú)需人工標(biāo)注的訓(xùn)練機(jī)制,可以大大降低學(xué)習(xí)的成本。

  3. 缺乏考慮多尺度信息:3D物體往往包含多尺度的幾何和語(yǔ)義信息,例如從整體形狀到局部細(xì)節(jié)。然而,現(xiàn)有的方法往往忽視了這些信息的存在,導(dǎo)致表征的學(xué)習(xí)不夠充分和深入。

論文中,作者提出了一種名為Point-M2AE多尺度掩蔽自編碼器,主要的設(shè)計(jì)策略包括分層架構(gòu),多尺度掩蔽策略和自監(jiān)督預(yù)訓(xùn)練。

  1. 分層架構(gòu):作者設(shè)計(jì)了一個(gè)分層架構(gòu),用于編碼和解碼3D點(diǎn)云的多尺度表征。在編碼器端,模型先學(xué)習(xí)全局的粗粒度信息,然后逐級(jí)學(xué)習(xí)更加細(xì)致的局部信息。在解碼器端,模型采取相反的順序,先從細(xì)節(jié)開(kāi)始恢復(fù),然后逐步恢復(fù)全局信息。此外,作者還在編碼器和解碼器之間引入了跳連接,使解碼器能夠獲取編碼器在相同級(jí)別的特征。這這種架構(gòu)能夠自然地捕捉到3D物體從全局形狀到局部細(xì)節(jié)的多層次信息,也更適合處理其無(wú)序和不規(guī)則性。

    • 多尺度編碼:為了捕捉到3D點(diǎn)云數(shù)據(jù)中從全局到局部的多層次信息,作者提出了一種分層的多尺度編碼器。具體來(lái)說(shuō),編碼器由三個(gè)級(jí)別的編碼器組成,每個(gè)級(jí)別的編碼器都使用Transformer模塊來(lái)捕獲點(diǎn)云數(shù)據(jù)中的全局和局部關(guān)系。這種多尺度編碼器的設(shè)計(jì),使模型能夠更好地學(xué)習(xí)和表征3D點(diǎn)云數(shù)據(jù)中不同層次的特征,同時(shí)也能適應(yīng)不同的輸入尺度和點(diǎn)云密度,這對(duì)于處理復(fù)雜的3D數(shù)據(jù)非常關(guān)鍵。

    • 分層解碼:與多尺度編碼器相對(duì)應(yīng),作者提出了一種分層的解碼器。這個(gè)解碼器同樣由三個(gè)級(jí)別的解碼器組成,用于逐級(jí)地恢復(fù)被掩蔽的3D點(diǎn)云。為了在解碼過(guò)程中能夠利用編碼器學(xué)習(xí)到的特征,作者在編碼器和解碼器之間添加了跳連接。這種設(shè)計(jì)可以使解碼器在恢復(fù)被掩蔽點(diǎn)云時(shí),得到更豐富的信息源。

  2. 多尺度掩蔽策略:作者提出了一種在不同尺度上隨機(jī)掩蔽點(diǎn)云部分的策略,通過(guò)在不同尺度上隨機(jī)掩蔽點(diǎn)云的一部分,而在每個(gè)尺度上模型需要從剩余的可見(jiàn)點(diǎn)中預(yù)測(cè)被掩蔽的點(diǎn),從而在自監(jiān)督的情況下學(xué)習(xí)3D點(diǎn)云的表征。這種設(shè)計(jì)鼓勵(lì)模型從不同尺度的視角理解3D點(diǎn)云,以便更準(zhǔn)確地重建被掩蔽的部分

  3. 自監(jiān)督預(yù)訓(xùn)練:通過(guò)自編碼器的方式,作者設(shè)計(jì)了一個(gè)自監(jiān)督的預(yù)訓(xùn)練任務(wù),即重建被掩蔽的3D點(diǎn)云。這種方法無(wú)需人工標(biāo)注的訓(xùn)練數(shù)據(jù),大大降低了學(xué)習(xí)的成本。

作者設(shè)計(jì)這種方法的出發(fā)點(diǎn)主要是解決當(dāng)前3D點(diǎn)云表征學(xué)習(xí)中的一些主要挑戰(zhàn),包括數(shù)據(jù)的無(wú)序和不規(guī)則性,學(xué)習(xí)的高成本,以及忽視了多尺度信息等問(wèn)題。而作者選擇這種方法的理由主要是:

  • 分層架構(gòu)可以更好地處理3D數(shù)據(jù)的無(wú)序和不規(guī)則性,同時(shí)模型可以自然地捕捉到3D物體從全局形狀到局部細(xì)節(jié)的多層次信息。

  • 多尺度掩蔽策略通過(guò)增加模型的學(xué)習(xí)難度,可以鼓勵(lì)模型學(xué)習(xí)到更豐富和深層次的3D表征。模型可以從不同尺度的視角理解3D點(diǎn)云,以便更準(zhǔn)確地重建被掩蔽的部分。

  • 通過(guò)自監(jiān)督預(yù)訓(xùn)練,模型可以在無(wú)需人工標(biāo)注的情況下有效地學(xué)習(xí)3D點(diǎn)云的表征。

總的來(lái)說(shuō),這種方法旨在通過(guò)自監(jiān)督的方式,利用分層架構(gòu)和多尺度掩蔽策略,有效地學(xué)習(xí)3D點(diǎn)云的多尺度表征。

?

掩膜自編碼器(MAE) 在語(yǔ)言和 圖像變換的自監(jiān)督預(yù)訓(xùn)練中顯示出巨大的潛力。然而,如何利用掩模自編碼來(lái)學(xué)習(xí)不規(guī)則點(diǎn)云的 表示仍然是一個(gè)懸而未決的問(wèn)題。

本文提出了一種用于 點(diǎn)云分層自監(jiān)督學(xué)習(xí)的強(qiáng)多尺度MAE預(yù)訓(xùn)練框架 Point-M2AE。

  • MAE中的標(biāo)準(zhǔn) transformer 不同,作者將編碼器和解碼器修改為金字塔架構(gòu),以逐步建??臻g幾何形狀,并捕獲3D形狀的細(xì)粒度和高級(jí)語(yǔ)義。

  • 對(duì)于分階段下采樣點(diǎn) token 的編碼器,作者設(shè)計(jì)了一種多尺度掩蔽策略來(lái)生成跨尺度一致的可見(jiàn)區(qū)域,并在微調(diào)過(guò)程中采用局部空間自注意機(jī)制來(lái)聚焦相鄰模式。

  • 通過(guò)多尺度token傳播,輕量級(jí)解碼器逐步從編碼器上采樣具有互補(bǔ)跳連接的點(diǎn)token,進(jìn)一步促進(jìn)了從全局到局部的重構(gòu)

大量的實(shí)驗(yàn)證明了Point-M2AE在3D表示學(xué)習(xí)中的最先進(jìn)性能。

  • 使用預(yù)訓(xùn)練后的凍結(jié)編碼器,Point-M2AEModelNet40上對(duì)線性支持向量機(jī) SVM的準(zhǔn)確率達(dá)到了 ,甚至超過(guò)了一些完全訓(xùn)練過(guò)的方法。

  • 通過(guò)對(duì)下游任務(wù)的微調(diào),Point-M2AEScanObjectNN上的準(zhǔn)確率達(dá)到 ,次之為 ,極大地有利于分級(jí)預(yù)訓(xùn)練方案的few-shot分類(lèi)、部件分割和3D目標(biāo)檢測(cè)。

?

圖1: MAE(上) 和Point-M2AE(下) 的比較。 用于 圖像預(yù)訓(xùn)練的MAE采用的是普通編碼器-解碼器的標(biāo)準(zhǔn) transformer,而Point-M2AE則引入了帶跳連接的分層 transformer進(jìn)行多尺度點(diǎn)云預(yù)訓(xùn)練。

在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和多模態(tài)學(xué)習(xí)等領(lǐng)域,學(xué)習(xí)從沒(méi)有標(biāo)注的數(shù)據(jù)中進(jìn)行表示被稱為自監(jiān)督學(xué)習(xí)。通過(guò)對(duì)大規(guī)模原始數(shù)據(jù)的預(yù)訓(xùn)練,該網(wǎng)絡(luò)具有魯棒的表示能力,并且可以通過(guò)微調(diào)顯著地有利于下游任務(wù)。

基于掩模語(yǔ)言建模,MAE等方法采用非對(duì)稱編碼器-解碼器 transformer 對(duì) 圖像進(jìn)行自監(jiān)督學(xué)習(xí)的掩模自編碼。

  • 它們將輸入圖像表示為多個(gè)局部小塊,并以高比例隨機(jī)掩碼來(lái)構(gòu)建重建的代理任務(wù)。

  • 具體來(lái)說(shuō),編碼器旨在從有限的可見(jiàn) patch 中捕獲高級(jí)潛在表示,而輕量級(jí)解碼器則重建被掩蔽patch的RGB值上面。

盡管它在基于網(wǎng)格的圖像上具有優(yōu)勢(shì),但我們提出了一個(gè)問(wèn)題: MAE風(fēng)格的掩碼自編碼能否作為一種強(qiáng)大的 表示學(xué)習(xí)器適用于不規(guī)則點(diǎn)云?

為了解決這一挑戰(zhàn),我們提出了多尺度掩碼自編碼器,通過(guò)自監(jiān)督預(yù)訓(xùn)練 ( 稱為Point-M2AE) 來(lái)學(xué)習(xí)點(diǎn)云的分層表示。我們將點(diǎn)云表示為一組描繪不同空間局部區(qū)域的點(diǎn) token ,并繼承MAE的 pipeline ,首先對(duì)可見(jiàn)點(diǎn) token 進(jìn)行編碼,然后重建被遮擋的 坐標(biāo)。

與 圖像不同, 點(diǎn)云的掩模自編碼有三個(gè)特點(diǎn)需要特別考慮。

第一,了解局部部件與整體 形狀之間的關(guān)系至關(guān)重要,這些形狀具有很強(qiáng)的幾何和語(yǔ)義依賴性。

  • 例如,該網(wǎng)絡(luò)可以從機(jī)翼開(kāi)始識(shí)別飛機(jī),或者從飛機(jī)的全局特征中分割機(jī)翼部分。

  • 因此,我們認(rèn)為帶有普通編碼器和解碼器的標(biāo)準(zhǔn) 對(duì)于在 中捕獲這種局部-全局空間關(guān)系來(lái)說(shuō)是次優(yōu)的,它直接將輸入采樣到圖 (頂部) 所示的低分辨率表征中。

  • 我們將編碼器和解碼器都修改為多階段層次結(jié)構(gòu),以逐步編碼點(diǎn)云的多尺度特征,構(gòu)建如圖 (底部) 所示的非對(duì)稱U-Net架構(gòu)。

第二,與單尺度 圖像不同,Point-M2AE編碼的是多尺度點(diǎn)云,因此要求未遮擋的可見(jiàn)區(qū)域在一個(gè)尺度內(nèi)是逐塊的,在不同尺度之間是一致的,這分別是為了保留完整的局部幾何形狀和保證網(wǎng)絡(luò)的連貫特征學(xué)習(xí)。

  • 為此,引入了一種多尺度掩蔽策略,該策略在最終尺度上以高比率 (例如)生成隨機(jī)掩碼,并將未被掩蔽的位置反向投影到所有先前的尺度。

第三,為了從局部到全局的角度更好地重建 幾何形狀,我們利用跳連接來(lái)補(bǔ)充解碼器中來(lái)自編碼器相應(yīng)階段的細(xì)粒度信息。

  • 在下游任務(wù)的微調(diào)過(guò)程中,我們還采用了局部空間自注意機(jī)制,增加了編碼器不同階段點(diǎn) token 的 attention 范圍,從而將相鄰詳細(xì)結(jié)構(gòu)中的每個(gè) token 重新聚焦。

通過(guò)多尺度預(yù)訓(xùn)練,Point-M2AE可以從局部到全局的層次對(duì)點(diǎn)云進(jìn)行編碼,然后從全局到局部的角度重建掩蔽坐標(biāo),學(xué)習(xí)到強(qiáng)大的 表示,具有優(yōu)越的遷移能力。

  • ShapeNet上進(jìn)行自監(jiān)督預(yù)訓(xùn)練后,Point-M2AE使用凍結(jié)編碼器在ModelNet40上對(duì)線性支持向量機(jī) SVM的分類(lèi)準(zhǔn)確率達(dá)到,比亞軍 CroosPoint高出+,甚至優(yōu)于一些全監(jiān)督的方法。

  • 通過(guò)對(duì)各種下游任務(wù)進(jìn)行精細(xì)調(diào)整,Point-M2AEScanObjectNN上達(dá)到的精度,在ModelNet40上達(dá)到 的精度,在ShapeNetPart上達(dá)到的實(shí)例,在 -way -shot ModelNet40上達(dá)到的精度 few-shot 分類(lèi)。

  • 我們的多尺度掩碼自編碼也有利于+ AP和+ AP在 ScanNetV2上的物體檢測(cè),這為檢測(cè) backbone 提供了對(duì)點(diǎn)云的分層理解。

本文的貢獻(xiàn)總結(jié)如下:

  1. 提出了一種強(qiáng)掩模自編碼框架Point-M2AE,該框架對(duì)點(diǎn)云進(jìn)行分層編碼和重構(gòu),以更好地學(xué)習(xí) 形狀的多尺度空間幾何

  2. 引入了一種類(lèi)似U-Net的 架構(gòu),用于點(diǎn)云的MAE式預(yù)訓(xùn)練,并采用多尺度掩蔽策略來(lái)生成跨尺度一致的可見(jiàn)區(qū)域。

  3. Point-M2AE在各種下游任務(wù)的遷移學(xué)習(xí)中取得了最先進(jìn)的性能,這表明我們的方法是一個(gè)強(qiáng)大的3D點(diǎn)云表示學(xué)習(xí)器。

?

與從樣本間關(guān)系中學(xué)習(xí)的對(duì)比學(xué)習(xí)方法相比,通過(guò)掩蔽自編碼的自監(jiān)督預(yù)訓(xùn)練構(gòu)建代理任務(wù)來(lái)預(yù)測(cè)輸入信號(hào)的掩蔽部分。

  • GPTBERT系列將掩模建模應(yīng)用于自然語(yǔ)言處理,并通過(guò)微調(diào)在下游任務(wù)上實(shí)現(xiàn)了非凡的性能提升。

  • 受此啟發(fā),BEiT提出通過(guò) dVAE 將圖像 patch 與離散token進(jìn)行匹配,并通過(guò)掩蔽圖像建模預(yù)訓(xùn)練標(biāo)準(zhǔn)視覺(jué) transformer。

最重要的是,MAE直接重建被掩碼token的原始像素值,具有很高的掩碼比,效率很高。后續(xù)工作通過(guò)動(dòng)量編碼器、對(duì)比學(xué)習(xí)和改進(jìn)重建目標(biāo)進(jìn)一步提高了MAE的性能。對(duì)于 3D 點(diǎn)云的自監(jiān)督預(yù)訓(xùn)練,掩碼自編碼尚未得到廣泛的應(yīng)用。

  • BEiT類(lèi)似,Point-BERT利用dVAE將3D patch映射到token進(jìn)行掩模點(diǎn)建模,但嚴(yán)重依賴于約束性學(xué)習(xí)、復(fù)雜的數(shù)據(jù)增強(qiáng)和昂貴的兩階段預(yù)訓(xùn)練。

相比之下,我們的Point-M2AE是一種純掩模自編碼的單階段預(yù)訓(xùn)練方法,采用MAE來(lái)重構(gòu)輸入信號(hào),不需要dVAE映射。與以往采用標(biāo)準(zhǔn)普通 的MAE方法不同,我們提出了一種分層 架構(gòu)和多尺度掩蔽策略,以更好地學(xué)習(xí) 點(diǎn)云的強(qiáng)通用表示。

主流方法主要是基于編碼的潛在向量,如旋轉(zhuǎn)、變形、重排部分、遮擋等,構(gòu)建借口任務(wù)來(lái)重構(gòu)變換后的輸入點(diǎn)云。

  • 從另一個(gè)角度來(lái)看,PointContrast利用來(lái)自不同視角的同一點(diǎn)的特征之間的對(duì)比學(xué)習(xí)來(lái)學(xué)習(xí)判別性的 表示。

  • DepthContrast進(jìn)一步擴(kuò)展了不同增強(qiáng)深度圖的對(duì)比度。

  • Crosspoint對(duì)點(diǎn)云與其對(duì)應(yīng)的渲染圖像進(jìn)行跨模態(tài)對(duì)比學(xué)習(xí),獲取豐富的自監(jiān)督信號(hào)。

  • Point-BERTPoint-M2AE分別為具有標(biāo)準(zhǔn) 網(wǎng)絡(luò)的 點(diǎn)云引入了bert風(fēng)格和MAE風(fēng)格的預(yù)訓(xùn)練方案,并在各種下游任務(wù)上進(jìn)行競(jìng)爭(zhēng),但兩者都只能以單一分辨率對(duì)點(diǎn)云進(jìn)行編碼,而忽略了 形狀之間的局部-全局關(guān)系。

在本文中,我們提出了Point-M2AE,這是一個(gè)具有層次 transformer 的MAE風(fēng)格的框架,用于多尺度點(diǎn)云預(yù)訓(xùn)練。我們通過(guò)學(xué)習(xí)點(diǎn)云的多尺度表示來(lái)實(shí)現(xiàn)最先進(jìn)的下游性能。

?

圖2: Point-M2AE的整體流程。在多尺度掩蔽之后,我們?cè)诘谝怀叨壬暇幋a點(diǎn) token ,并將可見(jiàn)的點(diǎn) token 饋送到分層編碼器-解碼器 transformer 中,該 transformer 在預(yù)訓(xùn)練期間捕獲點(diǎn)云的高級(jí)語(yǔ)義和細(xì)粒度模式。

?

Point-M2AE的整體流程如圖 2 所示,其中我們采用分層網(wǎng)絡(luò)架構(gòu)對(duì)點(diǎn)云進(jìn)行編碼和重構(gòu)。

為了構(gòu)建類(lèi)似U-Net的用于分層學(xué)習(xí)的掩碼自編碼器,我們對(duì)點(diǎn)云按 尺度進(jìn)行編碼,每個(gè)尺度上的點(diǎn)數(shù)不同,并將標(biāo)準(zhǔn)的普通編碼器相應(yīng)修改為 S-級(jí)架構(gòu)。

  • MAE之后,我們將點(diǎn)云嵌入到離散的點(diǎn)token中,并隨機(jī)掩蔽它們以進(jìn)行重建。

  • 重要的是,對(duì)于多尺度架構(gòu)中不規(guī)則分布的點(diǎn),要求暴露的可見(jiàn)空間區(qū)域不僅在一個(gè)尺度內(nèi)保持一致,而且在不同尺度之間保持一致。

  • 這是因?yàn)? 形狀的塊方向部分傾向于保留更完整的細(xì)粒度幾何形狀,并且為了編碼器的連貫特征學(xué)習(xí),在所有尺度上共享未被遮擋的位置更好。

因此,如圖 3 所示,我們首先構(gòu)建輸入點(diǎn)云的 s-尺度坐標(biāo)表示,并將隨機(jī)掩碼從最終 s尺度反投影到早期尺度,以避免碎片化的可見(jiàn)部分。

S-scale 表示

我們將輸入點(diǎn)云記為 ,并將其作為第 個(gè)尺度。

  • 對(duì)于第 個(gè)尺度,,我們利用最遠(yuǎn)點(diǎn)采樣 (FPS) 對(duì)第 個(gè)尺度的點(diǎn)進(jìn)行下采樣,對(duì) 個(gè)點(diǎn)的第 個(gè)尺度產(chǎn)生種子點(diǎn) 。

然后,我們采用 近鄰 ( ) 對(duì)每個(gè)種子點(diǎn)的相鄰 個(gè)點(diǎn)進(jìn)行聚合,得到相鄰指標(biāo) 。

  • 通過(guò)逐次降采樣和分組,我們獲得了 s-尺度表示 ? 關(guān)于輸入點(diǎn)云,其中點(diǎn)的個(gè)數(shù) 逐漸減少,尺度之間的包含關(guān)系記錄在 . 中。

反投影到可見(jiàn)位置

對(duì)于最終 尺度的種子點(diǎn) ?,我們隨機(jī)用大比例 (如 ?) 掩碼,剩余可見(jiàn)點(diǎn)記為 點(diǎn)的 。

然后,我們將未遮擋的位置 反投影,以確保跨尺度的可見(jiàn)區(qū)域一致。

對(duì)于第 個(gè)尺度,我們從索引 中檢索出 的所有 個(gè)最近的鄰居,作為 的可見(jiàn)位置,并掩蔽其他位置。

  • 通過(guò)遞歸反投影,我們得到了所有 尺度的可見(jiàn)和掩碼位置,記為 ? ,其中 且 .

圖3: 多尺度掩蔽策略。

  • 為了獲得跨尺度一致的可見(jiàn)區(qū)域,我們首先用多尺度坐標(biāo)表示輸入點(diǎn)云,并在最高處生成隨機(jī)掩碼。

  • 然后,我們將未遮擋的可見(jiàn)位置反向投影到所有早期尺度。

基于多尺度掩蔽,我們將第一尺度的可見(jiàn)點(diǎn) 的初始 token 嵌入到 S-級(jí)的分層編碼器中。

  • 每個(gè)階段配備 個(gè)堆疊編碼器塊,每個(gè)塊包含一個(gè)自注意層和一個(gè) **MLP 層的前饋網(wǎng)絡(luò) (FFN)**。

在每?jī)蓚€(gè)連續(xù)階段之間,我們引入空間token合并模塊來(lái)聚合相鄰的可見(jiàn)token,并擴(kuò)大接受域以進(jìn)行點(diǎn)云的下采樣。

token嵌入和合并

以 為索引,我們利用 mini-PointNet 提取并融合 中的每個(gè)種子點(diǎn)及其 個(gè)最近鄰居的特征。之后,我們獲得編碼器第 1 階段的初始點(diǎn)token ,該編碼器嵌入了3D形狀的 局部圖案。

在 -th 和 i-th 階段之間,我們合并 以獲得i-th階段的下采樣點(diǎn)token。我們利用MLP層和最大池化來(lái)整合最接近 的每 k 個(gè)token,以 為索引,輸出 。

由于我們的多尺度掩蔽,合并后的 對(duì)應(yīng)于 的相同可見(jiàn)部分,這使得在不同尺度上的特征編碼保持一致。對(duì)于較大的深度階段 ,我們?cè)O(shè)置了較高的特征維 ,使空間幾何編碼具有更豐富的語(yǔ)義

局部空間自注意

在預(yù)訓(xùn)練期間,我們期望多級(jí)編碼器中的點(diǎn) token 能夠捕獲3D形狀的全局線索,這有利于掩模部分的重建。

然而,當(dāng)對(duì)下游任務(wù)進(jìn)行無(wú)掩碼自編碼的微調(diào)時(shí),參考 局部性的歸納偏差,較淺階段的點(diǎn)token最好主要關(guān)注局部信息,而不受遠(yuǎn)程信號(hào)的干擾。

因此,在微調(diào)期間,我們使用局部空間約束修改編碼器中的原始自注意層,使得只有球查詢中的相鄰標(biāo)記可用于 attention 計(jì)算。在點(diǎn) tokens 分階段下采樣的基礎(chǔ)上,我們?cè)O(shè)置多尺度球查詢的遞增半徑函數(shù) ,逐步擴(kuò)大 attention 范圍,實(shí)現(xiàn)了局部到全局的特征聚合方案。

通過(guò)分層編碼器,我們得到所有尺度的編碼可見(jiàn)token

  • 從最高 S-th 尺度開(kāi)始,我們?yōu)樗斜谎诒挝恢? 分配一個(gè)共享的可學(xué)習(xí)掩碼token;

  • 并將它們與可見(jiàn)`token 連接起來(lái)。我們記為 ,坐標(biāo)為 ,作為分層解碼器的輸入。

我們將解碼器設(shè)計(jì)為輕量級(jí)的 階段,每個(gè)階段只有一個(gè)解碼器塊,這使得編碼器可以嵌入更多的點(diǎn)云語(yǔ)義。

  • 每個(gè)解碼器塊由一個(gè)普通的自注意層和一個(gè) FFN 組成。

  • 我們沒(méi)有將局部約束應(yīng)用于解碼器中的注意力,因?yàn)榭梢?jiàn)和掩碼token之間的全局理解對(duì)重建至關(guān)重要。

點(diǎn) token 上采樣

我們對(duì)階段之間的點(diǎn)標(biāo)記進(jìn)行上采樣,以便在重建之前逐步恢復(fù)3D形狀的細(xì)粒度幾何形狀。我們規(guī)定解碼器的第 級(jí)對(duì)應(yīng)于編碼器的 -級(jí),兩者都包含相同的 -階的點(diǎn)標(biāo)記,特征維數(shù) 。

在 (j?1) 和 j 階段之間,$1<j \leq="" s-1$,我們上采樣="" $\left\{h_{j-1}^v,="" h_{j-1}^m\right\}$="" 從坐標(biāo)="" $\left\{p_{s+2-j}^v,="" p_{s+2-j}^m\right\}$="" 變成="" $\left\{p_{s+1-j}^v,="" p_{s+1-j}^m\right\}$="" ,="" 通過(guò)token傳播模塊。

具體地說(shuō),我們得到了每個(gè)點(diǎn)標(biāo)記的 個(gè)近鄰: ? 以 為索引,參照PointNet++加權(quán)插值恢復(fù)相鄰特征,生成第 j 階段token。

跳連接

為了進(jìn)一步補(bǔ)充細(xì)粒度的幾何形狀,我們通過(guò)跳連接將解碼器的可見(jiàn)標(biāo)記 與編碼器的相應(yīng) ? 階段的 通道巧妙地連接起來(lái),并采用線性投影層融合它們的特征。

對(duì)于掩碼token,,我們保持它們不變,因?yàn)榫幋a器只包含可見(jiàn)token而不包含掩碼token。

點(diǎn)重建

經(jīng)過(guò)S - 1級(jí)解碼器,我們獲得 ,坐標(biāo)為 ? ;并從掩碼token 重構(gòu)掩碼值。

除了在輸入點(diǎn)云 P 的第 個(gè)尺度上預(yù)測(cè)值之外,我們重建了 的坐標(biāo),即從第 2 個(gè)尺度 中恢復(fù)第 1 個(gè)尺度 的掩模位置。

  • 這是因?yàn)?strong>第 1 尺度的 ? 可以很好地表示整體的3D形狀,同時(shí)保留足夠的局部模式,這已經(jīng)為預(yù)訓(xùn)練構(gòu)建了一個(gè)比較具有挑戰(zhàn)性的代理任務(wù)。

  • 如果我們進(jìn)一步上采樣 ? 轉(zhuǎn)化為 ,并從 重建被掩蓋的原始點(diǎn),額外的空間噪聲和計(jì)算開(kāi)銷(xiāo)會(huì)對(duì)我們的性能和效率產(chǎn)生不利影響。

因此,對(duì)于 ? 中的每一個(gè)token,我們通過(guò)一個(gè)線性投影層的重建頭重建 中記錄的 個(gè)最近鄰,并計(jì)算 倒角距離的損失,表示為:

和 表示從第 2 尺度到第 1 尺度的預(yù)測(cè)和ground-truth重建坐標(biāo)。

我們僅利用 進(jìn)行無(wú)對(duì)比損失的監(jiān)督,對(duì)自監(jiān)督預(yù)訓(xùn)練進(jìn)行純掩碼的自編碼。

?

在4.1節(jié)和4.2節(jié)中,介紹了Point-M2AE的預(yù)訓(xùn)練實(shí)驗(yàn),并報(bào)告了在各種下游任務(wù)上的微調(diào)性能。

在第4.3節(jié)中進(jìn)行了消融研究,以驗(yàn)證方法的有效性。

我們?cè)?strong>ShapeNet數(shù)據(jù)集上預(yù)訓(xùn)練Point-M2AE,該數(shù)據(jù)集包含 個(gè)類(lèi)別的 個(gè)合成 D形狀。我們將級(jí)數(shù) 設(shè)為 ,并構(gòu)造一個(gè) 級(jí)編碼器和一個(gè)分層學(xué)習(xí)的兩階段解碼器。

  • 我們?cè)诿總€(gè)編碼器階段采用 個(gè)塊,但輕量級(jí)解碼器每階段只采用 個(gè)塊。

  • 對(duì)于 尺度點(diǎn)云,我們將點(diǎn)數(shù)和token維度分別設(shè)置為 和 。我們還為 -nn 在不同的尺度上設(shè)置了不同的 ,分別是 。

  • 我們以 的高比例遮罩最高尺度的點(diǎn)云,并為所有注意力模塊設(shè)置 個(gè)頭。詳細(xì)的訓(xùn)練設(shè)置見(jiàn)附錄。

線性支持向量機(jī) SVM

ShapeNet上進(jìn)行預(yù)訓(xùn)練后,我們通過(guò)在ModelNet40上進(jìn)行線性評(píng)估來(lái)測(cè)試PointM2AE的 表示能力。我們從ModelNet40的每個(gè) 形狀中采樣 個(gè)點(diǎn),并利用我們的凍結(jié)編碼器提取其特征。

在此基礎(chǔ)上,我們訓(xùn)練了一個(gè)線性支持向量機(jī) SVM,并報(bào)告了表 中的分類(lèi)精度。如圖所示,在所有現(xiàn)有的點(diǎn)云自監(jiān)督方法中,Point-M2AE的性能最好,比第二好的 crosspoint高出 。Point-M2AE也比Point-BERT高出 。Point-M2AE是一種具有 MoCo 損失的掩蔽點(diǎn)建模方法,但采用的是標(biāo)準(zhǔn) ,進(jìn)行單尺度學(xué)習(xí)。

值得注意的是,即使我們凍結(jié)所有參數(shù),準(zhǔn)確率為 的Point-M2AE仍然優(yōu)于ModelNet40上許多完全訓(xùn)練的方法,例如PointNet++的準(zhǔn)確率為 ,DensePoint 的準(zhǔn)確率為 等。實(shí)驗(yàn)充分證明了我們的Point-M2AE具有優(yōu)越的 表示能力。

表1: 支持向量機(jī) SVM對(duì)ModelNet40的線性評(píng)價(jià)。我們報(bào)告了不同的自監(jiān)督學(xué)習(xí)方法,并強(qiáng)調(diào)了第二好的方法。

為了對(duì)下游任務(wù)進(jìn)行微調(diào),我們?cè)陬A(yù)訓(xùn)練中丟棄了分層解碼器,并為不同的任務(wù)在分層編碼器上附加了不同的頭。

形狀分類(lèi)

我們?cè)趦蓚€(gè)形狀分類(lèi)數(shù)據(jù)集上對(duì)Point-M2AE進(jìn)行微調(diào):廣泛采用的ModelNet40和具有挑戰(zhàn)性的ScanObjectNN。對(duì)于局部空間關(guān)注層,我們將 尺度點(diǎn)云的球查詢半徑設(shè)為 。我們遵循Point-BERT使用投票策略在ModelNet40上進(jìn)行公平比較。

為了處理有噪聲的空間結(jié)構(gòu),我們將 -nn 的 增加為 ,以便ScanObjectNN編碼具有更大接受域的局部模式。如表 所示,Point-M2AEModelNet40上達(dá)到了 的準(zhǔn)確率,每個(gè)樣本 點(diǎn),比Point-BERT微調(diào) 點(diǎn)的準(zhǔn)確率高 ,比 點(diǎn)的準(zhǔn)確率高 。

對(duì)于表 中的ScanObjectNN,我們的Point-M2AE比第二好的Point-BERT的性能有明顯的提升,在三個(gè)拆分中分別達(dá)到 , 和 ,表明我們?cè)趶?fù)雜情況下通過(guò)多尺度編碼有很大的優(yōu)勢(shì)。由于真實(shí)場(chǎng)景的ScanObjectNN與預(yù)訓(xùn)練的合成ShapeNet在語(yǔ)義上存在較大差距,Point-M2AE對(duì)另一個(gè)域的點(diǎn)云也具有較強(qiáng)的遷移能力。

表2: ModelNet40上的形狀分類(lèi)?!?points”和“Acc”。表示訓(xùn)練點(diǎn)數(shù)和總體準(zhǔn)確率。[S] 表示自監(jiān)督預(yù)訓(xùn)練后的微調(diào)。

表3: ScanObjectNN上的形狀分類(lèi)。我們報(bào)告ScanObjectNN的三類(lèi)數(shù)據(jù)集的準(zhǔn)確性(%)。[S]表示自監(jiān)督預(yù)訓(xùn)練后的微調(diào)。

部件分割

我們?cè)赻`ShapeNetPart上評(píng)估了Point-M2AE`的部件分割,它預(yù)測(cè)了每個(gè)點(diǎn)的部件標(biāo)簽,并且需要詳細(xì)了解局部模式。我們采用了一個(gè)非常簡(jiǎn)單的分割頭來(lái)驗(yàn)證我們的預(yù)訓(xùn)練的有效性,以很好地捕獲高級(jí)語(yǔ)義和細(xì)粒度細(xì)節(jié)。

  • 通過(guò)分層編碼器,我們得到 點(diǎn)的 尺度點(diǎn)token,在PointNet++中進(jìn)行特征傳播,將這些token獨(dú)立上采樣到輸入點(diǎn)云的 個(gè)點(diǎn)。

  • 然后,我們將每個(gè)點(diǎn)的上采樣 尺度特征連接起來(lái),并通過(guò)堆疊的線性投影層來(lái)預(yù)測(cè)部件標(biāo)簽。

如表 所示,在簡(jiǎn)單分割頭情況下,Point-M2AE達(dá)到了最佳的 實(shí)例,比第二好的Point-BERT高出 。注意,Point-BERT等方法采用分層分割頭從中間層逐步上采樣點(diǎn)特征,而我們的頭不包含分層結(jié)構(gòu),僅依靠預(yù)訓(xùn)練的編碼器捕獲點(diǎn)云的多尺度信息。結(jié)果充分說(shuō)明了Point-M2AE的多尺度預(yù)訓(xùn)練對(duì)分割任務(wù)的重要意義。

few-shot分類(lèi)

我們?cè)?strong>ModelNet40上進(jìn)行了few-shot分類(lèi)實(shí)驗(yàn),在有限的微調(diào)數(shù)據(jù)下評(píng)估Point-M2AE的性能。如表 所示,Point-M2AE在所有四種設(shè)置下均達(dá)到最佳性能,分別比Point-BERT高出 、、 和 。

我們的方法也比其他基于 的方法顯示出更小的偏差,這表明Point-M2AE已經(jīng)學(xué)會(huì)了產(chǎn)生更通用的 D 表示,可以很好地適應(yīng)低數(shù)據(jù)條件下的下游任務(wù)。

表4: 在ModelNet40上的few-shot分類(lèi)。我們報(bào)告了個(gè)獨(dú)立實(shí)驗(yàn)的平均準(zhǔn)確度(%)和標(biāo)準(zhǔn)偏差(%)。

表5: ShapeNetPart上的部件分割。' C '(%)和' I '(%)分別表示數(shù)據(jù)集中所有部件類(lèi)別和所有實(shí)例的平均IoU。

D 目標(biāo)檢測(cè)

為了進(jìn)一步評(píng)估我們?cè)?D 物體檢測(cè)上的分層預(yù)訓(xùn)練,我們應(yīng)用Point-M2AE作為室內(nèi)ScanNetV2數(shù)據(jù)集的特征主干。我們選擇 D ETR-m 作為基準(zhǔn),它由一個(gè) 塊編碼器和一個(gè) 解碼器組成。

考慮到ShapeNet有 k 個(gè)輸入點(diǎn),而ScanNetV2有 k 個(gè)輸入點(diǎn),我們采用與 DETR-m 相同的編碼器架構(gòu),并保持我們的分層解碼器與跳連接不變,在ScanNetV2上進(jìn)行自監(jiān)督預(yù)訓(xùn)練。

更多關(guān)于模型和訓(xùn)練的細(xì)節(jié)見(jiàn)附錄。如表 所示,與從頭開(kāi)始訓(xùn)練相比,我們的分層預(yù)訓(xùn)練使 DETR-m 的性能提高了 AP 和 AP 。實(shí)驗(yàn)證明了Point-M2AE在學(xué)習(xí)多尺度點(diǎn)云編碼用于目標(biāo)檢測(cè)方面的有效性,以及它在更廣泛的 D 應(yīng)用中的潛力。

表6: 在ScanNetV2上的 目標(biāo)檢測(cè)。我們報(bào)告了基于VoteNet3DETR-m的自監(jiān)督學(xué)習(xí)方法的性能(%)。

我們?cè)陬A(yù)訓(xùn)練中通過(guò)每次修改一個(gè)組件進(jìn)行消融研究,探索最佳掩蔽策略。我們報(bào)告了在 ModelNet40 上使用線性支持向量機(jī) SVM評(píng)估預(yù)訓(xùn)練表征的分類(lèi)精度。對(duì)于下游任務(wù),我們從頭開(kāi)始訓(xùn)練網(wǎng)絡(luò),以驗(yàn)證分層預(yù)訓(xùn)練的重要性。

分層模塊

如表 所示在我們的最終解決方案Point-M2AE之上的第一行,我們分別嘗試從框架中刪除分層編碼器、分層解碼器和跳連接。

  • 具體來(lái)說(shuō),我們將編碼器和解碼器替換為類(lèi)似于MAE的 級(jí)普通架構(gòu),其中分別包含 個(gè)和 個(gè)vanilla 塊。

  • 我們觀察到編碼器和解碼器中沒(méi)有多級(jí)結(jié)構(gòu)會(huì)影響性能,分層編碼器比解碼器發(fā)揮更好的作用。

  • 此外,跳連接通過(guò)為解碼器提供補(bǔ)充信息而很好地提高了準(zhǔn)確性。

表7: 分層模塊。' H '表示具有多階段層次結(jié)構(gòu)的編碼器和解碼器。' Skip C. '表示跳躍連接。

掩蔽策略

在表 中,我們報(bào)告了具有不同掩碼設(shè)置的Point-M2AE。如果沒(méi)有多尺度掩碼,我們?cè)诿總€(gè)尺度上隨機(jī)生成掩碼,導(dǎo)致所有尺度的可見(jiàn)區(qū)域都是碎片化的。

  • 使用這種策略,網(wǎng)絡(luò)會(huì)在不同階段“窺視”點(diǎn)云的不同部分,這會(huì)干擾表征學(xué)習(xí)并使性能降低 的準(zhǔn)確率。

  • 對(duì)于不同的掩碼比例,我們發(fā)現(xiàn) 的掩碼比例最適合構(gòu)建具有適當(dāng)挑戰(zhàn)性的自監(jiān)督預(yù)訓(xùn)練代理任務(wù)。

表8: 不同的掩蔽策略。“MS Mask”和“Ratio”表示多尺度掩碼和掩碼比率。

有和沒(méi)有預(yù)訓(xùn)練

我們?cè)诒? 中報(bào)告了有預(yù)訓(xùn)練和沒(méi)有預(yù)訓(xùn)練的Point-M2AE在下游任務(wù)上的性能。對(duì)于“w/o”,我們隨機(jī)初始化參數(shù)并從頭開(kāi)始訓(xùn)練網(wǎng)絡(luò)。

如圖所示,預(yù)訓(xùn)練可以在四個(gè)數(shù)據(jù)集上分別提高 ,, 和 的性能,這表明了我們分層預(yù)訓(xùn)練的優(yōu)越性和意義。

表9: 預(yù)訓(xùn)練前后。ModelNet40- FS 表示10-way 20-shotModelNet40few-shot分類(lèi)。

?

多尺度掩蔽

為了便于理解我們的多尺度掩蔽策略,我們?cè)趫D 的每一行中分別可視化了輸入點(diǎn)云、 尺度表示、重建點(diǎn)云和 尺度掩蔽點(diǎn)云。

如圖所示,不同的尺度可以表示點(diǎn)云不同層次的幾何細(xì)節(jié)和語(yǔ)義。通過(guò)多尺度掩蔽策略,我們觀察到掩蔽點(diǎn)云的可見(jiàn)位置在一個(gè)尺度內(nèi)是塊方向的,并且在不同的尺度上是一致的,這對(duì)我們的分層預(yù)訓(xùn)練有重要意義。

細(xì)粒度的信息

細(xì)粒度的 D 結(jié)構(gòu),例如植物的細(xì)枝,人的手指,飛機(jī)的引擎,對(duì)于區(qū)分相似的形狀非常重要,并且可以通過(guò)我們的分層表示很好地編碼。

在圖 中,我們通過(guò)可視化提取的點(diǎn)特征并在預(yù)訓(xùn)練期間重建點(diǎn)云,將我們的Point-M2AE與多階段和單尺度架構(gòu)進(jìn)行了比較。與單尺度網(wǎng)絡(luò)相比,多尺度網(wǎng)絡(luò)在細(xì)粒度結(jié)構(gòu)中表現(xiàn)出更高的特征響應(yīng),重構(gòu)出更精確的空間細(xì)節(jié)。

圖4: 細(xì)粒度信息的可視化。我們將分層和非分層架構(gòu)的輸出分別表示為[NH]和[H]。對(duì)于輸入點(diǎn)云(中),我們將其提取的特征 (左) 和重建結(jié)果 (右) 可視化。

圖5: 多尺度點(diǎn)云可視化。在每一行中,我們可視化了輸入點(diǎn)云、它們的多尺度表示、重建坐標(biāo)和多尺度掩蔽點(diǎn)云。

?

作者提出了一種多尺度掩碼自編碼器Point-M2AE,用于 點(diǎn)云的自監(jiān)督預(yù)訓(xùn)練。通過(guò)分層架構(gòu),Point-M2AE通過(guò)編碼多尺度點(diǎn)云并從全局到局部上采樣方案重建掩碼坐標(biāo)來(lái)學(xué)習(xí)生成強(qiáng)大的3D表示。

大量的實(shí)驗(yàn)證明了Point-M2AE作為一個(gè)強(qiáng)大的 表征學(xué)習(xí)器的優(yōu)越性。由于局限性和未來(lái)的工作,將專注于將Point-M2AE應(yīng)用于更廣泛的3D應(yīng)用,例如戶外和開(kāi)放世界場(chǎng)景理解。

?

圖6: 多尺度掩蔽的流程。首先利用FPS和 k-NN 得到輸入點(diǎn)云的多尺度表示。然后,隨機(jī)掩蔽最高級(jí)別的點(diǎn),并將可見(jiàn)位置反向投影到前例尺度中。

?

Transformer。

transformer 首先在自然語(yǔ)言處理中被提出,用于捕獲長(zhǎng)句子中的詞間關(guān)系,并且在大多數(shù)語(yǔ)言任務(wù)中占主導(dǎo)地位。

在此激勵(lì)下,Vision Transformers和DETR將transformer架構(gòu)引入計(jì)算機(jī)視覺(jué),并激發(fā)后續(xù)工作將 transformer 有效應(yīng)用于廣泛的視覺(jué)任務(wù),如圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割等。對(duì)于 理解,基于 transformer 的網(wǎng)絡(luò)還用于形狀分類(lèi)、部件分割、從點(diǎn)云和單眼圖像中檢測(cè) 物體。

  • PCT 利用相鄰嵌入層聚合局部特征,并通過(guò)transformer塊對(duì)下采樣點(diǎn)云進(jìn)行處理,是一項(xiàng)開(kāi)創(chuàng)性的工作。

  • PoinTrPoint-BERT將點(diǎn)云劃分為多個(gè)空間局部塊,并利用平面架構(gòu)的標(biāo)準(zhǔn) transformer 對(duì)這些塊進(jìn)行編碼。

在此基礎(chǔ)上,我們提出了帶有分層編碼器-解碼器 transformerPoint-M2AE,該 transformer 設(shè)計(jì)用于MAE風(fēng)格的自監(jiān)督點(diǎn)云預(yù)訓(xùn)練,可以很好地捕獲點(diǎn)云的多尺度特征。

?

位置編碼

為了補(bǔ)充 空間信息,我們對(duì)Point-M2AE中的所有注意層應(yīng)用位置編碼。

  • 對(duì)于點(diǎn)token 或 在第 階段,我們利用兩層MLP編碼其對(duì)應(yīng)的 坐標(biāo) 或

  • 將 轉(zhuǎn)換為 通道向量,并在進(jìn)入注意層之前明智地將它們與token特征一起添加。

Self-supervised 訓(xùn)練

根據(jù)之前的工作,我們?cè)?strong>ShapeNet中從每個(gè) D 形狀中抽取 個(gè)點(diǎn)進(jìn)行預(yù)訓(xùn)練Point-M2AE

  • 我們預(yù)訓(xùn)練網(wǎng)絡(luò) 次,批大小為 ,并采用 AdamW 作為優(yōu)化器。

  • 我們將初始學(xué)習(xí)率和權(quán)重衰減分別設(shè)置為 和 ,并采用余弦調(diào)度器和 epoch預(yù)熱。

在預(yù)訓(xùn)練過(guò)程中,我們利用常見(jiàn)的隨機(jī)縮放和隨機(jī)翻轉(zhuǎn)來(lái)增強(qiáng)數(shù)據(jù)。

對(duì)于ModelNet40上的線性支持向量機(jī) SVM,在分層編碼器之后,我們同時(shí)使用max和average池來(lái)聚合點(diǎn)token之間的特征,并將兩個(gè)池化的特征求和作為點(diǎn)云的編碼全局特征。

形狀分類(lèi)

我們?cè)趦蓚€(gè)數(shù)據(jù)集上對(duì)Point-M2AE進(jìn)行了微調(diào),用于形狀分類(lèi)。

  • 被廣泛采用的ModelNet40由40個(gè)類(lèi)別的合成 形狀組成,其中 個(gè)樣本用于訓(xùn)練, 個(gè)樣本用于驗(yàn)證。

  • 具有挑戰(zhàn)性的ScanObjectNN包含15個(gè)類(lèi)別的 個(gè)訓(xùn)練點(diǎn)云和 個(gè)驗(yàn)證點(diǎn)云,這些云是從嘈雜的現(xiàn)實(shí)世界場(chǎng)景中捕獲的,因此與預(yù)訓(xùn)練的ShapeNet數(shù)據(jù)集存在域差距。

  • ScanObjectNN分為OBJ-BG、OBJ-ONLY和PB-T50-RS三部分進(jìn)行評(píng)估,其中PB-T50-RS最難識(shí)別。

我們分別從ModelNet40ScanObjectNN的每個(gè)3D形狀中采樣 和 個(gè)點(diǎn),并且只使用 通道坐標(biāo)作為輸入。

  • 兩個(gè)數(shù)據(jù)集采用相同的訓(xùn)練設(shè)置。

  • 我們對(duì)網(wǎng)絡(luò)進(jìn)行了 個(gè)epoch的微調(diào),批大小為 ,并將學(xué)習(xí)率設(shè)置為 ,權(quán)重衰減 。

對(duì)于其他訓(xùn)練超參數(shù),我們保持它們與預(yù)訓(xùn)練實(shí)驗(yàn)相同。

部件分割

ShapeNetPart包含 個(gè)對(duì)象類(lèi)別和 個(gè)部件類(lèi)別的 個(gè)合成3D形狀,其中用于訓(xùn)練和驗(yàn)證的樣本分別為 個(gè)和 個(gè)。

  • 我們從每個(gè)形狀中抽取 個(gè)點(diǎn)作為輸入,并預(yù)測(cè)所有點(diǎn)的部件類(lèi)別。

  • 我們微調(diào)了 個(gè)epoch的Point-M2AE,批大小為 ,并將學(xué)習(xí)率設(shè)置為 ,權(quán)重衰減為 。

  • 其他訓(xùn)練設(shè)置與形狀分類(lèi)實(shí)驗(yàn)相同。

Few-shot分類(lèi)

我們遵循前人的研究,在ModelNet40上采用 “K-way N-shot” 設(shè)置進(jìn)行few-shot分類(lèi)。

  • 我們從 個(gè)類(lèi)中隨機(jī)選擇K個(gè),每個(gè)類(lèi)樣本 N+ 個(gè) 3D 形狀,個(gè)用于訓(xùn)練, 個(gè)用于測(cè)試。

  • 我們對(duì)Point-M2AE進(jìn)行了四種few-shot設(shè)置: -way -shot, -way -shot, -way -shot和 -way -shot。

為了減輕隨機(jī)抽樣的方差,我們對(duì)每個(gè)few-shot設(shè)置進(jìn)行了 次獨(dú)立運(yùn)行,并報(bào)告了平均精度和標(biāo)準(zhǔn)差。我們采用與形狀分類(lèi)實(shí)驗(yàn)相同的訓(xùn)練設(shè)置,但只微調(diào)了 個(gè)epoch的Point-M2AE。

3D對(duì)象檢測(cè)

我們?cè)?strong>ScanNetV2上對(duì)Point-MAE進(jìn)行預(yù)訓(xùn)練和微調(diào),用于3D物體檢測(cè)。

  • 該數(shù)據(jù)集包含 個(gè)掃描的室內(nèi)場(chǎng)景,包含 個(gè)類(lèi)別的軸對(duì)齊 3D 邊界框, 個(gè)用于訓(xùn)練, 個(gè)用于驗(yàn)證。

由于我們?cè)?DETR-m中采用了相同的2級(jí)編碼器架構(gòu),因此我們將解碼器的級(jí)數(shù)設(shè)置為 ,這符合S級(jí)編碼器和 級(jí)解碼器的規(guī)則。

ShapeNet預(yù)訓(xùn)練實(shí)驗(yàn)中,我們對(duì)Point-M2AE進(jìn)行了 個(gè)epoch的預(yù)訓(xùn)練,學(xué)習(xí)率為 ,并遵循其他超參數(shù)。對(duì)于微調(diào),我們采用了與原論文中從頭開(kāi)始訓(xùn)練 3der-m相同的設(shè)置,以進(jìn)行公平的比較。

圖7: 預(yù)訓(xùn)練前后的Point-M2AE學(xué)習(xí)曲線我們?cè)?strong>ModelNet40和ScanObjectNN上可視化準(zhǔn)確率(左)和損失曲線(右)。我們放大了收斂精度和損失進(jìn)行比較。

?

多尺度掩蔽流程

在圖6中,我們展示了簡(jiǎn)化的掩碼流程,它清楚地說(shuō)明了掩碼是如何在最高規(guī)模下生成的,并向后投影到先前的層。

學(xué)習(xí)曲線

為了比較有預(yù)訓(xùn)練和沒(méi)有預(yù)訓(xùn)練的訓(xùn)練,我們?cè)?strong>ModelNet40ScanObjectNN上給出了它們的損失和準(zhǔn)確率曲線。

如圖7.2所示,與未進(jìn)行預(yù)訓(xùn)練的曲線相比,經(jīng)過(guò)預(yù)訓(xùn)練的曲線收斂速度更快,分類(lèi)準(zhǔn)確率更高。這充分證明了Point-M2AE分層預(yù)訓(xùn)練的有效性。

t-SNE

在圖8中,我們將在ModelNet40上進(jìn)行微調(diào)前后,Point-M2AE提取的特征分布可視化。如圖所示,預(yù)訓(xùn)練后的Point-M2AE無(wú)需微調(diào),就可以產(chǎn)生不同類(lèi)別的判別特征。

然后,進(jìn)一步對(duì)同一類(lèi)別的特征進(jìn)行聚類(lèi),對(duì)不同類(lèi)別的特征進(jìn)行分離。

圖8: t-SNE 在ModelNet40上的可視化。我們展示了Point-M2AE在微調(diào)之前(左)和之后(后)提取的特征分布。

局部空間注意力

我們?cè)趫D9中可視化了ModelNet40上有和沒(méi)有局部 attention 的 attention 權(quán)重。

  • 如圖所示,在局部 attention 下,查詢點(diǎn)(星號(hào)標(biāo)記)只在局部空間范圍內(nèi)(黃色虛線圈標(biāo)記)具有較大的 attention 值,而不會(huì)分散在整個(gè)3D形狀上(黃色箭頭標(biāo)記)。

  • 這使得每個(gè)點(diǎn)在捕獲細(xì)節(jié)結(jié)構(gòu)的早期階段更多地集中在鄰近的局部特征上。

圖9: 局部空間注意力的可視化。我們將沒(méi)有(上)和有(下)局部空間注意的 attention 權(quán)重可視化。查詢點(diǎn)用星號(hào)標(biāo)記。 attention 范圍用箭頭和黃色虛線圈標(biāo)出。

部件分割結(jié)果

通過(guò)我們的分層架構(gòu)學(xué)習(xí)的細(xì)粒度3D模式在很大程度上有利于具有密集預(yù)測(cè)的3D下游任務(wù),例如部件分割。

  • 在圖10中,我們通過(guò)將提取的點(diǎn)特征和ShapeNetPart上的分割結(jié)果可視化,將我們的Point-M2AE與多階段和單尺度架構(gòu)進(jìn)行了比較。

  • 如圖所示,多尺度體系結(jié)構(gòu)為對(duì)象預(yù)測(cè)了更細(xì)粒度的部件標(biāo)簽。

圖10: 部件分割結(jié)果的可視化。我們將分層和非分層架構(gòu)的輸出分別表示為 [NH] 和 [H] 。對(duì)于輸入點(diǎn)云(中),我們將其提取的特征(左)和部件分割結(jié)果(右)可視化。

?

transformer級(jí)

Point-M2AE中的每個(gè)階段都對(duì)點(diǎn)云的相應(yīng)尺度進(jìn)行編碼。在表11中,我們探索了在預(yù)訓(xùn)練過(guò)程中學(xué)習(xí)多尺度點(diǎn)云特征的編碼器和解碼器的最佳級(jí)數(shù)??芍?, 級(jí)編碼器與 級(jí)解碼器表現(xiàn)最好。

如果像編碼器一樣,解碼器也有三級(jí),并在 級(jí)尺度上重建點(diǎn)云,則會(huì)對(duì)性能產(chǎn)生不利影響。

表11: transformer級(jí)數(shù)。我們?cè)?strong>Point-M2AE中實(shí)驗(yàn)了不同級(jí)數(shù)的分層編碼器和解碼器。

transformer塊數(shù)

在每個(gè)階段,我們應(yīng)用幾個(gè) transformer 塊來(lái)編碼點(diǎn)token的特征。我們?cè)诒?2的編碼器和解碼器的每個(gè)階段使用不同的塊數(shù)進(jìn)行實(shí)驗(yàn)。

我們觀察到,編碼器每級(jí)堆疊五個(gè)塊,解碼器每級(jí)只堆疊一個(gè)塊,可以達(dá)到最高的精度。這種非對(duì)稱結(jié)構(gòu)使得編碼器包含更多的點(diǎn)云語(yǔ)義信息,有利于提高Point-M2AE的傳輸能力。

表12: transformer塊。在3級(jí)編碼器和2級(jí)解碼器的基礎(chǔ)上,我們實(shí)驗(yàn)了每級(jí)不同的塊數(shù)。

微調(diào)設(shè)置

對(duì)于下游分類(lèi)任務(wù)的微調(diào),我們通過(guò)池化從點(diǎn)token中獲得全局特征,并應(yīng)用基于 mlp的分類(lèi)頭。在表10中,我們研究了不同的池化操作以及類(lèi)token方法,以集成所有點(diǎn)token的特性。

我們將一個(gè)可學(xué)習(xí)的類(lèi)標(biāo)記與第一個(gè)尺度的點(diǎn)標(biāo)記連接起來(lái),并將它們饋送到分層編碼器中。編碼后,我們直接利用這個(gè)類(lèi)標(biāo)記作為全局特征進(jìn)行分類(lèi)。可知,“max + ave. pooling”在微調(diào)方面表現(xiàn)最好,這是我們?cè)谒行螤罘诸?lèi)實(shí)驗(yàn)中的默認(rèn)值。我們還展示了沒(méi)有局部空間注意層的分類(lèi)結(jié)果,這說(shuō)明了增加接收域?qū)植刻卣鬟M(jìn)行編碼的重要性。

表10: 微調(diào)設(shè)置。對(duì)于“max + ave. pooling”,我們采用max和average pooling來(lái)獲得兩個(gè)全局特征,并將它們相加作為分類(lèi)頭的輸入。

預(yù)訓(xùn)練損失函數(shù)

除了 歸一化的倒角距離損失(L2范數(shù)CD)外,我們進(jìn)一步評(píng)估了 歸一化的倒角距離損失( 范數(shù)CD)、“推土機(jī)距離” (Earth Mover's Distance) (EMD)及其組合。

如表13所示,原始l2標(biāo)準(zhǔn)CD損耗比所有其他比較損耗表現(xiàn)得更好。我們將重構(gòu)點(diǎn)集和ground-truth 點(diǎn)集分別表示為 S1 和 S2 。

  • 與需要對(duì) S1 和 S2 之間的每個(gè)點(diǎn)進(jìn)行最優(yōu)映射的EMD損耗相比, 范數(shù)CD損耗僅優(yōu)化了單獨(dú)的對(duì)向距離,因此對(duì)3D結(jié)構(gòu)的變化更具魯棒性。

  • 與 范數(shù)CD損耗相比,歐氏距離的 范數(shù)能更好地描述空間分布,更關(guān)注遠(yuǎn)處的點(diǎn)。

表13: 預(yù)訓(xùn)練損失。“CD” 和 “EMD” 表示倒角距離和推土機(jī)距離(EMD)損失。

目前工坊已經(jīng)建立了3D視覺(jué)方向多個(gè)社群,包括SLAM、工業(yè)3D視覺(jué)、自動(dòng)駕駛方向,細(xì)分群包括:[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測(cè)、三維測(cè)量、TOF、相機(jī)標(biāo)定、綜合群;[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺(jué)攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。[三維重建方向]NeRF、colmap、OpenMVS等。除了這些,還有求職、硬件選型、視覺(jué)產(chǎn)品落地等交流群。大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群。


NeurIPS 2022 | 3D點(diǎn)云自監(jiān)督預(yù)訓(xùn)練的自編碼器 :Point-M2AE的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
革吉县| 山西省| 城固县| 金堂县| 措美县| 哈巴河县| 乌海市| 扎鲁特旗| 江华| 巴塘县| 娄底市| 盐津县| 合川市| 临清市| 嫩江县| 齐齐哈尔市| 虹口区| 浦县| 杭州市| 高雄县| 米易县| 麦盖提县| 广东省| 辽中县| 兰州市| 托克逊县| 湘潭市| 河津市| 巴彦淖尔市| 宜春市| 海晏县| 绥化市| 温州市| 昆明市| 高平市| 广宗县| 南平市| 渭源县| 平谷区| 固阳县| 任丘市|