手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 用于 3D 點(diǎn)云形狀分析的多視圖Vision-to-Geometry知識(shí)遷移

用于 3D 點(diǎn)云形狀分析的多視圖Vision-to-Geometry知識(shí)遷移

2022-09-04 20:33 作者:3D視覺工坊 0人讀過 | 我要投稿

論文標(biāo)題：Multi-View Vision-to-Geometry Knowledge Transfer for 3D Point Cloud Shape Analysis

作者：Qijian Zhang, Junhui Hou, Yue Qian

論文鏈接：https://arxiv.org/abs/2207.03128

論文日期：2022年7月7日

整理：HT ?| 來源：微信公眾號(hào)「3D視覺工坊」

摘要作為 3D 對象的兩種基本表示方式，2D 多視圖圖像和 3D 點(diǎn)云從視覺外觀和幾何結(jié)構(gòu)的不同方面反映了形狀信息。與基于深度學(xué)習(xí)的 2D 多視圖圖像建模不同，2D 多視圖已經(jīng)在各種 3D 形狀分析任務(wù)中表現(xiàn)出領(lǐng)先的性能，而基于 3D 點(diǎn)云的幾何建模仍然存在學(xué)習(xí)能力不足等問題。在本文中，我們創(chuàng)新性地構(gòu)建了一個(gè)跨模態(tài)知識(shí)遷移的統(tǒng)一架構(gòu)，將 2D 圖像中具有判別性的視覺描述符蒸餾成為 3D 點(diǎn)云的幾何描述符。從技術(shù)上講，在經(jīng)典的 teacher-student學(xué)習(xí)范式下，我們提出了多視圖 vision-to-geometry 蒸餾，由作為teacher的深度 2D 圖像encoder和作為 student的深度 3D 點(diǎn)云encoder組成。為了實(shí)現(xiàn)異構(gòu)特征的對齊，我們進(jìn)一步提出了可見性感知的特征投影，通過它可以將各點(diǎn) embeddings 聚合成多視圖幾何描述符。對 3D 形狀分類、部件分割和無監(jiān)督學(xué)習(xí)進(jìn)行了廣泛實(shí)驗(yàn)，驗(yàn)證了我們方法的優(yōu)越性。我們將會(huì)公開代碼和數(shù)據(jù)。

關(guān)鍵詞：3D 點(diǎn)云、多視圖 2D 圖像、知識(shí)遷移、跨模態(tài)蒸餾、3D 形狀分析

1 引言

在 3D 數(shù)據(jù)采集和感知方面的一些最新進(jìn)展的促進(jìn)下，基于深度學(xué)習(xí)的 3D 形狀分析在工業(yè)界和學(xué)術(shù)界受到越來越多的關(guān)注。根據(jù) 3D 形狀模型的不同表征方式，主流的學(xué)習(xí)范式可分為：

基于圖像的 [1]、[2]、[3]、[4]、[5]
基于體素的 [6 ]、[7]、[8]、[9]、[10]
基于點(diǎn)的 [11]、[12]、[13]、[14]、[15]

目前，3D 形狀理解沒有統(tǒng)一的建模范式，因?yàn)槊糠N方法都有不同的優(yōu)點(diǎn)和局限性。

基于圖像的方法

通過多個(gè)視點(diǎn)渲染出的多視圖 2D 圖像的集合，來表示 3D 模型。受益于先進(jìn)的圖像建模架構(gòu) [16]、[17]、[18]、[19] ，以及大規(guī)模存在豐富標(biāo)注的圖像數(shù)據(jù)集 [20]、[21]、[22]、[23]、[24]，多視圖學(xué)習(xí)在各種形狀識(shí)別任務(wù)中展示了主導(dǎo)性能 [2]、[25]、[26]。然而，形狀渲染是基于高質(zhì)量的人造的多邊形網(wǎng)格來實(shí)現(xiàn)的，這些網(wǎng)格不能直接從現(xiàn)實(shí)世界的傳感器或掃描儀中獲得，并且不可避免地會(huì)丟失內(nèi)部的幾何結(jié)構(gòu)和詳細(xì)的空間紋理信息。

基于體素的方法

使用體積網(wǎng)格來描述 3D 模型的空間占用，這樣標(biāo)準(zhǔn)的 3D 卷積架構(gòu)可以自然地?cái)U(kuò)展到用于特征提取，而無需額外去開發(fā)特定的學(xué)習(xí)算子。不幸的是，由于計(jì)算復(fù)雜度和內(nèi)存占用的指數(shù)增長，這種學(xué)習(xí)范式更適合處理低分辨率的volumes，并且需要精心配置的、復(fù)雜的分層 3D 索引結(jié)構(gòu) [8]、[9]、[10]，用于處理更密集的體素并獲取幾何細(xì)節(jié)信息。

基于點(diǎn)的方法

近年來，基于點(diǎn)的方法逐漸流行，能直接對非結(jié)構(gòu)化 3D 點(diǎn)云進(jìn)行操作而無需任何進(jìn)行預(yù)處理。作為最直接的幾何表征形式，點(diǎn)云是許多 3D 采集設(shè)備的原始輸出，并能夠充分的記錄空間信息。然而，與在規(guī)則網(wǎng)格上定義的圖像和體素不同，點(diǎn)云具有不規(guī)則和無序的特點(diǎn)，這給特征提取帶來了很大困難。因此，基于點(diǎn)的學(xué)習(xí)框架仍有很大的性能提升空間。受基于圖像的視覺建模和基于點(diǎn)的幾何建模之間互補(bǔ)特性的啟發(fā)，本文探索了從強(qiáng)大的深度圖像encoders中提取的知識(shí)遷移到深度點(diǎn)encoders，從而提高下游形狀分析任務(wù)的性能。在技術(shù)上，我們創(chuàng)新性地提出了多視圖vision-to-geometry蒸餾（MV-V2GD），這是一種遵循標(biāo)準(zhǔn)的 teacher-student架構(gòu)設(shè)計(jì)的統(tǒng)一處理pipeline，用于跨模態(tài)的知識(shí)遷移。如圖1所示，給定一個(gè) 3D shape，我們將一組多視圖 2D 圖像輸入到teacher分支的預(yù)訓(xùn)練深度 2D 圖像encoder中，進(jìn)而生成多視圖的視覺描述符。而在student分支中，我們將3D點(diǎn)云輸入一個(gè)深度點(diǎn)encoder，進(jìn)而產(chǎn)生高維的per-point embeddings。在相同的相機(jī)位姿下，我們計(jì)算特定視圖的point-wise可見性。在此基礎(chǔ)上，我們生成多視圖的幾何描述符。通過在多視圖視覺和幾何描述符之間執(zhí)行特征對齊，可以引導(dǎo)student模型學(xué)習(xí)更多有區(qū)分性的point-wise特征，進(jìn)而理解幾何形狀。為了驗(yàn)證提出的 MV-V2GD 框架的有效性，我們選擇了常見的深度點(diǎn)encoder作為 student模型的baseline [11]、[12]、[15] ，并在三個(gè)benchmark任務(wù)上進(jìn)行了實(shí)驗(yàn)，包括形狀分類、部件分割和無監(jiān)督學(xué)習(xí)，我們實(shí)現(xiàn)了明顯且穩(wěn)定的性能提升。總之，本文的主要貢獻(xiàn)有三方面：?我們提出了一個(gè)統(tǒng)一的 MV-V2GD 學(xué)習(xí)框架，首次嘗試從多視圖 2D 視覺建模將知識(shí)遷移到 3D 幾何建模，從而進(jìn)行 3D 點(diǎn)云的形狀分析。?為了促進(jìn)多視圖visual-geometric特征對齊，我們特別開發(fā)了一種簡單而有效的 VAFP 機(jī)制，該機(jī)制將 per-point embeddings聚合到特定視圖的幾何描述符中。?在大量下游任務(wù)和baseline模型中，我們觀察到性能的提升很大，這揭示了一種新的用于增強(qiáng)點(diǎn)云網(wǎng)絡(luò)學(xué)習(xí)能力的通用范式。本文的其余部分安排如下。在第2章中，我們討論了與多視圖 3D 形狀分析、deep set架構(gòu)以及 2D-3D 知識(shí)遷移等密切相關(guān)的研究工作。在第3章中，我們首先在3.1 節(jié)總結(jié)我們提出的方法的工作機(jī)制；在 3.2 節(jié)和3.3 節(jié)分別介紹了主流的深度 2D 圖像和 3D 點(diǎn)encoders的一般形式，且這也基于 3.4節(jié)中我們構(gòu)建的統(tǒng)一的多視圖跨模態(tài)的特征對齊方案。然后，介紹了一種新穎的 visibility-aware的特征投影機(jī)制（VAFP），它可以較好地生成特定視圖的 visual-geometric表示對。最后，在3.5節(jié)中我們總結(jié)了總體的訓(xùn)練目標(biāo)和策略。在第4章中，我們報(bào)告了不同baseline的深度點(diǎn)encoders和benchmark任務(wù)的實(shí)驗(yàn)結(jié)果。最后，我們在第5章中提出了一些批判性的討論，并在第6章中總結(jié)整篇論文。

圖 1提出的 MV-V2GD 跨模態(tài)知識(shí)遷移框架的總體流程圖，其中包括：一個(gè)預(yù)訓(xùn)練的基于圖像的teacher分支（右），一個(gè)基于點(diǎn)的、通過多視圖特征對齊進(jìn)行蒸餾的student分支（左）。在訓(xùn)練階段，整個(gè)teacher分支是固定的，用于提供discriminative knowledge。而在測試階段teacher分支被移除，以便我們僅從點(diǎn)云進(jìn)行推理。

2 相關(guān)工作多視圖 3D 形狀分析。

作為 2D 深度學(xué)習(xí)的擴(kuò)展，多視圖 3D 形狀建模，通常建立在多輸入的 2D 卷積神經(jīng)網(wǎng)絡(luò) (CNNs) 的各種變體之上。由 MVCNN [1] 開創(chuàng)，它輸入從預(yù)定義的相機(jī)位姿渲染出的多視圖圖像，并通過跨視圖的max-pooling來生成全局的形狀signature。許多后續(xù)的工作，致力于設(shè)計(jì)更高級的視圖聚合或選擇的策略。GVCNN [27] 構(gòu)建了一個(gè)三級分層的相關(guān)建?？蚣?，該框架將多視圖描述符自適應(yīng)地分組到不同的簇中。MHBN [3] 和 RelationNet [28] 進(jìn)一步利用patch-level的交互來豐富視圖間的關(guān)系。RotationNet [4] 將視點(diǎn)索引作為可學(xué)習(xí)的潛在變量，并提出聯(lián)合估計(jì)目標(biāo)姿態(tài)和類別。EMV [29] 提出了一種分組卷積的方法，該方法對旋轉(zhuǎn)組的離散子群進(jìn)行操作，并提取旋轉(zhuǎn)等變的形狀描述符。最近，View-GCN [5] 將多視圖視為圖節(jié)點(diǎn)，從而形成相應(yīng)的視圖graph，在該視圖graph上應(yīng)用圖卷積來學(xué)習(xí)多視圖關(guān)系。MVTN [30] 通過引入可微分渲染來自適應(yīng)地回歸得到最佳視點(diǎn)，從而實(shí)現(xiàn)端到端訓(xùn)練。

3D 點(diǎn)云的深度學(xué)習(xí)。

由 PointNet [11] 率先采用point-wise多層感知機(jī) (MLP)，實(shí)現(xiàn)了置換不變的特征提取，并直接在點(diǎn)云上進(jìn)行 3D 幾何建模，這樣的深度集architecture迅速流行。PointNet++ [12] 繼承了深度 CNN 的設(shè)計(jì)范式，引入了局部鄰域聚合，并采用漸進(jìn)式的下采樣進(jìn)行分層提取。在后來的工作中，已經(jīng)研究了各種各樣的高專業(yè)化的點(diǎn)卷積算子。通過學(xué)習(xí)核匹配的自適應(yīng)權(quán)重，進(jìn)而來模仿標(biāo)準(zhǔn)卷積 [31]、[13]、[32]、[14]、[33]。[34]、[35]、[36]、[37]、[38] 進(jìn)行了更復(fù)雜的點(diǎn)特征聚合策略，進(jìn)而增強(qiáng)網(wǎng)絡(luò)容量。DGCNN [15] 提出了一種基于圖的動(dòng)態(tài)特征更新機(jī)制，可以捕獲全局的上下文信息。[39]、[40]、[41] 探索了基于學(xué)習(xí)的，而不是啟發(fā)式的子集選擇技術(shù)。最近，transformer架構(gòu)也應(yīng)用于點(diǎn)云建模 [42]、[43]、[44]、[45]、[46]、[47] 。

2D 和 3D 之間的跨模態(tài)知識(shí)遷移。正如 [48] 中指出的那樣，盡管知識(shí)蒸餾研究激增，但由于缺乏配對樣本，在具有明顯模態(tài)差距的跨模態(tài)場景上的研究相對較少，而當(dāng)在 2D域和 3D 域之間進(jìn)行時(shí)，這項(xiàng)任務(wù)變得更具挑戰(zhàn)性。xMUDA [49] 提出通過基于pixel-point對應(yīng)關(guān)系來對齊 2D 和 3D 輸出，從單視圖圖像的源域和點(diǎn)云的目標(biāo)域?qū)崿F(xiàn)無監(jiān)督的域自適應(yīng)。PPKT [50] 構(gòu)建了一個(gè) 3D 預(yù)訓(xùn)練pipeline，將對比學(xué)習(xí)策略應(yīng)用于正負(fù)像素點(diǎn)對，從而利用 2D 預(yù)訓(xùn)練知識(shí)。在相反的遷移方向上，Pri3D [51] 探索了 3D 引導(dǎo)的對比預(yù)訓(xùn)練，用于提升 2D 感知方面。除了保持成對的 2D 像素和 3D 點(diǎn)之間的特征一致性外，這項(xiàng)工作還在于學(xué)習(xí)不變像素描述符，通過從不同視點(diǎn)捕獲的圖像掃描。在 [52] 有更靈活的3Dto-2D的蒸餾框架，通過特定維度的歸一化，進(jìn)而對齊 2D 和 3D CNN 特征的統(tǒng)計(jì)分布。特別地是，為了擺脫對 2D 和 3D 模態(tài)之間細(xì)粒度對應(yīng)關(guān)系的依賴，且這些模態(tài)通常獲取成本很高，這項(xiàng)工作還探索了一種語義感知的對抗訓(xùn)練方案，用來處理不成對的 2D 圖像和 3D 體積網(wǎng)格。通常，由于 2D 和 3D 數(shù)據(jù)之間的對應(yīng)信息的可用性，現(xiàn)有工作主要集中在場景級別的理解上。目前，據(jù)我們所知，之前沒有關(guān)于形狀分析任務(wù)的跨模態(tài)知識(shí)遷移的研究。

3 提出的方法

3.1 問題概述

我們考慮了兩種互補(bǔ)的 3D 形狀理解的學(xué)習(xí)范式，即由2D多視圖圖像驅(qū)動(dòng)的2D視覺建模和由 3D點(diǎn)云驅(qū)動(dòng)的3D幾何建模。如上所述，由于規(guī)則的數(shù)據(jù)結(jié)構(gòu)和強(qiáng)大的學(xué)習(xí)架構(gòu)，基于圖像的深度模型可以提取 discriminative feature表征，盡管丟失了部分幾何信息。相比之下，3D點(diǎn)云雖然保留了完整的3D幾何結(jié)構(gòu)，但其結(jié)構(gòu)的不規(guī)則性給特征提取帶來了很大挑戰(zhàn)，因此基于點(diǎn)的深度模型的學(xué)習(xí)能力相對不足。因此，我們的目標(biāo)是從深度 2D 圖像encoder中提取判別知識(shí)，蒸餾到深度 3D 點(diǎn)encoder中。這實(shí)際上是一個(gè)相當(dāng)具有挑戰(zhàn)性的問題，因?yàn)樵诰W(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)模態(tài)方面存在顯著的域差距。

我們的工作機(jī)制與多模態(tài)融合本質(zhì)上不同。在多模態(tài)融合中，多模態(tài)數(shù)據(jù)在訓(xùn)練和測試階段都被作為輸入。在功能上，我們強(qiáng)調(diào) MV-V2GD 作為一種通用的學(xué)習(xí)范式，可以自然地應(yīng)用于通用深度點(diǎn)的encoders，用于增強(qiáng)網(wǎng)絡(luò)容量。

3.2 用于 2D 圖像建模的Teacher網(wǎng)絡(luò)

深度卷積架構(gòu)，已經(jīng)展示了從 2D 圖像中學(xué)習(xí)discriminative視覺特征的顯著能力。在大規(guī)模圖像數(shù)據(jù)集上，受益于預(yù)訓(xùn)練的成熟的 2D CNN 的backbone網(wǎng)絡(luò)激增 [22]，我們可以方便地選擇合適且功能強(qiáng)大的現(xiàn)有深度 2D 圖像encoder作為我們的 2D teacher模型Mt ，它分別將多視圖圖像作為輸入，并相應(yīng)地生成高維卷積特征圖。形式上，我們可以將teacher模型的一般形式表述為：

3.3 3D 點(diǎn)云建模的Student網(wǎng)絡(luò)

與成熟的 2D 圖像建模相比，3D 點(diǎn)云的深度學(xué)習(xí)仍然是一個(gè)新興但快速發(fā)展的研究領(lǐng)域。受限于大規(guī)模形狀數(shù)據(jù)集的稀缺性和 3D 標(biāo)注的難度，當(dāng)前的深度set architectures實(shí)際上還遠(yuǎn)遠(yuǎn)不夠深，為了緩解參數(shù)過擬合，在應(yīng)用于下游任務(wù)時(shí)通常需要從頭開始訓(xùn)練。因此，基于點(diǎn)的學(xué)習(xí)模型，在捕獲discriminative幾何特征表征方面，表現(xiàn)出學(xué)習(xí)能力不足。

圖 2多視圖可見性checking示意圖。在預(yù)定義的相機(jī)位姿下，我們相應(yīng)地生成了一組多視圖圖像和部分點(diǎn)云，放置在第一行和第二行。在第三行中，我們還提供了從相反的方位角觀察時(shí)，可見點(diǎn)的可視化效果。我們將深度 3D 點(diǎn)encoder Ms視為 3D student模型，也就是被蒸餾的目標(biāo)。它使用一組不規(guī)則的空間點(diǎn)作為輸入，并產(chǎn)生高維的point-wise embeddings。不失一般性，我們可以將student模型的形式描述為：

3.4 多視圖可見性感知的特征對齊

通過單個(gè)全連接層 (FC)實(shí)現(xiàn)，實(shí)現(xiàn)了視覺和幾何描述符之間的通道對齊。在4.4節(jié)，我們驗(yàn)證了 VAFP 驅(qū)動(dòng)的知識(shí)遷移框架，相比于傳統(tǒng)蒸餾范式的優(yōu)越性。3.5 總體目標(biāo)

4 實(shí)驗(yàn)

我們評估了我們提出的 MV-V2GD 框架在三個(gè)應(yīng)用場景中的有效性，即形狀分類（第 4.1 節(jié)）、部件分割（第 4.2 節(jié)）和reconstruction-driven的無監(jiān)督學(xué)習(xí)（第 4.3 節(jié)）。在每個(gè)小節(jié)中，我們介紹了benchmark數(shù)據(jù)集和數(shù)據(jù)的準(zhǔn)備操作，之后我們提供了teacher和student模型架構(gòu)的主要實(shí)現(xiàn)技術(shù)。最后，我們提供了具體的對比實(shí)驗(yàn)和性能分析。

4.1 形狀分類數(shù)據(jù)準(zhǔn)備。

ModelNet40 [7] 是一個(gè)常見的 3D 對象數(shù)據(jù)集，包含 12311 個(gè)多邊形網(wǎng)格模型，涵蓋 40 個(gè)人造類別。在官方拆分之后，我們使用 9843 個(gè)形狀數(shù)據(jù)集進(jìn)行訓(xùn)練，其余 2468 個(gè)數(shù)據(jù)集進(jìn)行測試。

具體來說，我們采用輕量級的 2D CNN backbone（即 MobileNetV2 [57]），從輸入的多視圖圖像中提取深度卷積特征和矢量化視覺描述符。此外，除了從單個(gè)的全局形狀signature輸出最終的類別分?jǐn)?shù)（logits）外，我們還傾向于單獨(dú)預(yù)測來自所有視圖的形狀類別，通過添加側(cè)輸出的supervisions。

Student網(wǎng)絡(luò)的架構(gòu)。我們選擇了三種具有代表性的深度點(diǎn)云建模架構(gòu)，包括 1) PointNet [11]、2) PointNet++ [12] 和 3) DGCNN [15] 作為目標(biāo)student點(diǎn)encoder 。此外，我們還嘗試了 CurveNet [58 ]，一種更新的SOTA學(xué)習(xí)模型。在最初的實(shí)現(xiàn)中，分類頭由三個(gè)全連接層組成，它們將全局形狀signature轉(zhuǎn)換為類別 logits。而在我們所有的實(shí)驗(yàn)中，我們將統(tǒng)一簡化為單個(gè)線性層。請注意，在測試階段，我們沒有采用任何投票技術(shù) [36]、[33]、[59]、[58]，這些技術(shù)變得非常繁瑣且不穩(wěn)定。

定量結(jié)果。我們在表 1 中列出了原始模型和蒸餾模型的形狀分類準(zhǔn)確率。作為早期設(shè)計(jì)的簡單架構(gòu)的工作，PointNet 官方報(bào)告的整體準(zhǔn)確率為 89.2%，這被認(rèn)為遠(yuǎn)不能令人滿意。令人驚訝的是，在 MV-V2GD 的驅(qū)動(dòng)下，該模型的性能甚至比原來的 PointNet++ 還要好，后者涉及更復(fù)雜的學(xué)習(xí)patterns。得益于增強(qiáng)的建模能力，PointNet++ 在蒸餾后進(jìn)一步達(dá)到了極具競爭力的 93.3%。DGCNN 代表了一種常見的強(qiáng)大的graph-style點(diǎn)云建模范式，從 92.9% 提升到 93.7%，性能明顯提升 0.8%。即使對于SOTA的 CurveNet，我們的方法仍然獲得了令人滿意的性能提升，從 93.8% 提高到 94.1%

4.2 部件分割數(shù)據(jù)準(zhǔn)備。

ShapeNetPart [60] 是一個(gè)流行的 3D 對象的部分分割benchmark數(shù)據(jù)集，它提供了在 16 個(gè)對象類上定義的 50 個(gè)不同部件類別的語義標(biāo)注。官方拆分后，我們有 14007 個(gè)形狀數(shù)據(jù)集用于訓(xùn)練，其余 2874 個(gè)數(shù)據(jù)集用于測試。

Teacher分支的架構(gòu)。與許多已經(jīng)存在的成熟的多視圖學(xué)習(xí)框架的形狀分類或檢索相比，基于圖像的形狀分割方面的研究相對較少。因此，我們設(shè)計(jì)了一個(gè)標(biāo)準(zhǔn)的單圖像分割架構(gòu)作為teacher分支，如圖4所示。整體的架構(gòu)設(shè)計(jì)遵循經(jīng)典的encoder-decoder pipeline（例如：U-Net [19]），用來生成全分辨率分割圖。在這里，teacher分支單獨(dú)使用單視圖的圖像進(jìn)行預(yù)測，而不是同時(shí)對同一形狀模型的整組多視圖圖像進(jìn)行分割。因?yàn)槲覀儜{經(jīng)驗(yàn)發(fā)現(xiàn)，這種學(xué)習(xí)范式計(jì)算量大且在訓(xùn)練期間難以收斂。更具體地說，我們選擇 VGG11 [16] 作為backbone特征提取器，并移除了最后一個(gè)空間max-pooling層，從而擴(kuò)大了特征圖分辨率。為了增強(qiáng)網(wǎng)絡(luò)容量，我們將 [61] 中提出的位置和通道上的attention機(jī)制添加到了原始的卷積階段。然后，通過重建從訓(xùn)練shape渲染得到的視圖圖像，進(jìn)而fine-tune整個(gè)backbone網(wǎng)絡(luò)。遵循之前部件分割框架中的常見做法，我們還集成了一個(gè)分類向量，該向量將輸入圖像的對象類別，encode到中間視覺描述符中。Student分支的架構(gòu)。我們再次采用 PointNet、PointNet++ 和 DGCNN 作為student的點(diǎn)encodersMs ，并使用他們初始的head網(wǎng)絡(luò)Hs ，用來預(yù)測每個(gè)點(diǎn)的語義標(biāo)簽，而無需投票。定量結(jié)果。我們在表 2 中列出了原始模型和蒸餾模型的部件分割精度。從中我們可以觀察到，我們的方法始終增強(qiáng)了不同類型的深度set architectures。特別是，PointNet 從 83.7% 提高到 85.9%，在 mIoU 方面具有很大的獲益。另外兩個(gè)更強(qiáng)大的學(xué)習(xí)框架，即 PointNet++ 和 DGCNN，也從 MV-V2GD 中受益很多，分別有 1.3% 和 1.7% 的明顯性能提升。

圖 3用于2D多視圖圖像驅(qū)動(dòng)的形狀分類的的Teacher學(xué)習(xí)分支表 1 ?ModelNet40 上 3D 形狀分類的總體準(zhǔn)確率 (%)

圖 4用于 2D 圖像驅(qū)動(dòng)的目標(biāo)部件分割的Teacher學(xué)習(xí)分支表 2 ?ShapeNetPart 上目標(biāo)部件分割的實(shí)例平均mIoU(%)

圖 5用于單視圖圖像重建的 Teacher 學(xué)習(xí)分支表 3ModelNet40 上的Transfer分類準(zhǔn)確率 (%)

4.3 無監(jiān)督學(xué)習(xí)

以前的實(shí)驗(yàn)已經(jīng)證明了 MV-V2GD 在有監(jiān)督學(xué)習(xí)方面的有效性，這需要特定領(lǐng)域的數(shù)據(jù)和標(biāo)注。在本節(jié)中，我們探討了遷移通過無監(jiān)督特征學(xué)習(xí)獲得的通用 2D 視覺知識(shí)，從而促進(jìn) 3D 幾何建模的可能性。遵循與 [62] 中構(gòu)建的相同開發(fā)協(xié)議（稱為transfer classification），我們首先在源數(shù)據(jù)集（即 ShapeNetCoreV2 [63]）上預(yù)訓(xùn)練深度點(diǎn)云 auto-encoder。之后，我們部署預(yù)訓(xùn)練的encoder網(wǎng)絡(luò)，進(jìn)而從不同的目標(biāo)數(shù)據(jù)集（即 ModelNet40 [7]）生成矢量化的形狀signatures。最后，在目標(biāo)數(shù)據(jù)集上訓(xùn)練線性 SVM 分類器，用來評估形狀signatures的判別能力。

數(shù)據(jù)準(zhǔn)備。ShapeNetCoreV2 [63] 是一個(gè)大型 3D 對象數(shù)據(jù)集，包含 52472 個(gè)多邊形網(wǎng)格模型，涵蓋 55 個(gè)對象類別。對于幾何建模，我們應(yīng)用 PDS，從 ShapeNetCoreV2 數(shù)據(jù)集和 ModelNet40 數(shù)據(jù)集中統(tǒng)一采樣 2048 個(gè)空間點(diǎn)。對于視覺建模，我們采用了與第 4.2 節(jié)中描述相同的viewpoint配置，進(jìn)而在ShapeNetCoreV2 數(shù)據(jù)集上生成多視圖的圖像渲染。Teacher 分支的架構(gòu)。如圖 5所示。我們構(gòu)建了一個(gè)標(biāo)準(zhǔn)卷積的 auto-encoder，用于無監(jiān)督圖像的特征學(xué)習(xí)。在encode階段，我們應(yīng)用了與部件分割實(shí)驗(yàn)中采用的相同的backbone網(wǎng)絡(luò)，將輸入的視圖圖像緊湊地表征為一個(gè)矢量化的形狀signature。在decode階段，我們部署了一個(gè)全連接層來提升特征維度，以及多階段的反卷積層來實(shí)現(xiàn)全分辨率的圖像重建。Student分支的架構(gòu)。我們嘗試了一個(gè)經(jīng)典的點(diǎn)云驅(qū)動(dòng)的無監(jiān)督幾何特征學(xué)習(xí)的架構(gòu)，即 FoldingNet [62]，作為目標(biāo)student分支。從技術(shù)上講，它將給定的點(diǎn)encodes為一個(gè)緊湊的全局codeword向量，從而驅(qū)動(dòng)隨后的lattice deformation過程，用來重建輸入的點(diǎn)云。

定量結(jié)果。

我們在表 3 中列出了原始模型和蒸餾模型的transfer classification的準(zhǔn)確率，我們可以觀察到，F(xiàn)oldingNet 從 88.4% 提高到 89.1%。此外，在沒有特定任務(wù)預(yù)訓(xùn)練的情況下，我們對遷移從自然圖像統(tǒng)計(jì)中學(xué)習(xí)到的常見視覺線索的潛力感興趣。為此，我們直接部署了在 ImageNet 上預(yù)訓(xùn)練的原始 VGG11 的backbone網(wǎng)絡(luò)，用來提供teacher知識(shí)，這也增強(qiáng)了目標(biāo)student模型，精度提高了 0.4%。

4.4 額外探索

通過設(shè)計(jì)不同的架構(gòu)變體，并評估它們在 ModelNet40 上的分類性能，我們進(jìn)行了額外的探索。超參數(shù)分析。為了全面探索我們的學(xué)習(xí)框架的特點(diǎn)，我們通過調(diào)整兩個(gè)關(guān)鍵的超參數(shù)來修改原始 MV-V2GD 設(shè)置：1）視點(diǎn)數(shù)量K；2）加權(quán)因子Wt （等式 6）。

我們嘗試將原始點(diǎn)云而不是網(wǎng)格直接渲染到多視圖圖像中，以訓(xùn)練教師分支，進(jìn)一步部署為學(xué)生分支提供視覺知識(shí)。圖 6 顯示了基于點(diǎn)的渲染的一些典型視覺示例以及它們的網(wǎng)格驅(qū)動(dòng)對應(yīng)物。顯然，這種學(xué)習(xí)策略對于無法獲得高質(zhì)量的基于網(wǎng)格的幾何表示的應(yīng)用程序更加靈活和實(shí)用。如表 6 所示，該變體在所有蒸餾模型上仍然顯示出令人滿意的性能提升，這證明了我們提出的圖像到點(diǎn)知識(shí)轉(zhuǎn)移范式的普遍性。

基于點(diǎn)的渲染Pipeline。我們嘗試直接使用原始點(diǎn)云而不是網(wǎng)格，將其渲染到多視圖圖像中，從而訓(xùn)練teacher分支，并進(jìn)一步為student分支提供視覺知識(shí)。圖 6 顯示了基于點(diǎn)的渲染的一些典型視覺示例，以及它們的mesh-driven對應(yīng)物。顯然，對于無法獲得高質(zhì)量的基于網(wǎng)格的幾何表征的應(yīng)用程序，這種學(xué)習(xí)策略更加靈活和實(shí)用。如表 6 所示，該變體在所有蒸餾模型上仍然顯示出令人滿意的性能提升，這證明了我們提出的image-to-point知識(shí)遷移范式的普遍性。

從頭開始訓(xùn)練 Teacher 模型。所提出的跨模態(tài)（visual-togeometric）知識(shí)遷移框架的主要優(yōu)點(diǎn)之一是，我們可以方便地利用現(xiàn)成成熟的視覺識(shí)別網(wǎng)絡(luò)，這些網(wǎng)絡(luò)在大規(guī)模帶標(biāo)注的 2D 圖像數(shù)據(jù)集上充分預(yù)訓(xùn)練，例如：ImageNet。一個(gè)更有趣且有前景的問題是，探索 2D 視覺和 3D 幾何建模范式之間的交互機(jī)制本身是否有益。事實(shí)上，在我們的無監(jiān)督學(xué)習(xí)實(shí)驗(yàn)中，我們試圖通過從頭開始訓(xùn)練teacher分支來驗(yàn)證這個(gè)問題，這仍然帶來了性能提升。在這里，我們進(jìn)一步進(jìn)行了實(shí)驗(yàn)以在有監(jiān)督學(xué)習(xí)場景下加強(qiáng)此類主張。更具體地說，在這個(gè)基于點(diǎn)的渲染實(shí)驗(yàn)中，我們保持所有的開發(fā)協(xié)議不變。除了，我們沒有為teacher分支的backbone網(wǎng)絡(luò)加載 ImageNet 預(yù)訓(xùn)練權(quán)重。定量結(jié)果如表 7 所示，從中我們可以驚奇地觀察到，在點(diǎn)云渲染上，完全從頭開始訓(xùn)練teacher分支仍然顯示出極具競爭力的性能，甚至優(yōu)于其在 PointNet [11] 上的 ImageNet 預(yù)訓(xùn)練和mesh-driven對應(yīng)物。這種現(xiàn)象有力地證明了，所提出的visual-geometric學(xué)習(xí)范式的巨大潛力。表 4不同的渲染視點(diǎn)數(shù)量 (K) 的影響。

表 5不同加權(quán)方案 () 對訓(xùn)練目標(biāo)的影響

圖 6基于網(wǎng)格和基于點(diǎn)的渲染結(jié)果的可視化示例傳統(tǒng)蒸餾范式的適應(yīng)。為了揭示我們方法的必要性和優(yōu)越性，我們進(jìn)一步設(shè)計(jì)了兩個(gè)baseline知識(shí)遷移pipelines，它們直接改編自經(jīng)典的基于響應(yīng)的 [53] 和基于特征的 [64] 蒸餾范式。第一個(gè)baseline旨在對齊從teacher分支和student分支的最后一層輸出的最終類 logits，我們稱之為 Lgt-V2GD。第二個(gè)baseline稱為 Ftr-V2GD，它專注于feature-level的指導(dǎo)，通過對齊矢量化的全局視覺和幾何描述符，然后將它們輸入到后續(xù)的全連接分類器。我們在表 8 中列出了不同baseline框架的性能，并通過結(jié)合表 1 中報(bào)告的相應(yīng)實(shí)驗(yàn)結(jié)果，觀察了一致性趨勢的幾個(gè)方面。首先，我們的實(shí)驗(yàn)結(jié)果強(qiáng)烈表明，vision-to-geometry知識(shí)遷移，提供了一種增強(qiáng)點(diǎn)云學(xué)習(xí)模型的通用且穩(wěn)定的方法。即使是最直接的蒸餾框架 (Lgt-V2GD) ，也會(huì)在所有實(shí)驗(yàn)setups中獲得不同程度的性能提升。其次，特征級的teacher指導(dǎo)往往比軟目標(biāo)（即 logits）提供更多信息，因?yàn)槲覀儼l(fā)現(xiàn) Ftr-V2GD 總是優(yōu)于 LgtV2GD。第三，在我們提出的 MV-V2GD 處理pipeline下，考慮到所有蒸餾模型的性能顯著提升，許多現(xiàn)有點(diǎn)云學(xué)習(xí)框架的建模能力可能被低估了。表 6從原始點(diǎn)云渲染多視圖圖像的有效性

表 7ModelNet40 上 3D 形狀分類的總體準(zhǔn)確率 (%)，其中teacher模型是從頭開始訓(xùn)練的（即，未加載 ImageNet 預(yù)訓(xùn)練的權(quán)重）

表 8 logit-driven和feature-driven的蒸餾baselines的比較。

5 討論

在本節(jié)中，我們重新強(qiáng)調(diào)了我們在設(shè)計(jì)整體處理流程時(shí)的核心動(dòng)機(jī)和原則，以及我們論文帶來的新見解，在此基礎(chǔ)上，我們簡要討論了未來工作中可能的擴(kuò)展。最終，本文重點(diǎn)揭示了將知識(shí)從 2D 視覺領(lǐng)域遷移到 3D 幾何領(lǐng)域的潛力。因此，我們避免在整個(gè)工作流程中設(shè)計(jì)復(fù)雜的學(xué)習(xí)架構(gòu)或策略，因?yàn)槲覀兿嘈藕啙嵉募夹g(shù)實(shí)現(xiàn)和穩(wěn)定的性能提升可以有力地證明我們方法的價(jià)值?？梢灶A(yù)期，更先進(jìn)的多視圖 visual-geometric特征對齊技術(shù)，以及蒸餾目標(biāo)將進(jìn)一步增強(qiáng)當(dāng)前的 MV-V2GD 框架。在實(shí)驗(yàn)setups方面，我們注意到現(xiàn)有的多視圖學(xué)習(xí)方法主要針對全局幾何建模任務(wù)，例如分類和檢索。由于特定領(lǐng)域的數(shù)據(jù)集準(zhǔn)備不便，而該工作將應(yīng)用場景擴(kuò)展到部件分割和無監(jiān)督學(xué)習(xí)，形成了更全面的評估協(xié)議。更重要的是，我們令人鼓舞的結(jié)果激勵(lì)了研究和開發(fā)人員，在模型設(shè)計(jì)之外更加關(guān)注數(shù)據(jù)開發(fā)?？紤]到大規(guī)模豐富標(biāo)注的 2D 視覺數(shù)據(jù)的可用性，以及 3D 幾何對應(yīng)物的稀缺性，通過 image-to-point蒸餾來增強(qiáng)點(diǎn)云學(xué)習(xí)模型，這是一種非常有前景且低成本的方法。

6 結(jié)論

在本文中，我們最先嘗試并探索了將跨模態(tài)知識(shí)從多視圖 2D 視覺建模遷移到 3D 幾何建模，從而促進(jìn) 3D 點(diǎn)云形狀的理解。在技術(shù)上，我們研究了一個(gè)統(tǒng)一的 MV-V2GD 學(xué)習(xí)pipeline，適用于常見類型的、基于深度 3D 點(diǎn)云的學(xué)習(xí)范式，并專門定制了一種新穎的 VAFP 機(jī)制來實(shí)現(xiàn)多視圖圖像和點(diǎn)云之間的異構(gòu)特征對齊。在各種應(yīng)用上的大量實(shí)驗(yàn)，有力地證明了我們方法的優(yōu)越性、普遍性和穩(wěn)定性。我們相信，我們的工作將為發(fā)展強(qiáng)大的深度set architectures開辟新的可能性，并促使沿著這個(gè)有前景的方向進(jìn)行更多的探索。

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請聯(lián)系刪文。

3D視覺工坊精品課程官網(wǎng)：3dcver.com
1.面向自動(dòng)駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)
2.面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測全棧學(xué)習(xí)路線！(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
3.徹底搞透視覺三維重建：原理剖析、代碼講解、及優(yōu)化改進(jìn)
4.國內(nèi)首個(gè)面向工業(yè)級實(shí)戰(zhàn)的點(diǎn)云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM：基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)
9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]
10.單目深度估計(jì)方法：算法梳理與代碼實(shí)現(xiàn)
11.自動(dòng)駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)
12.相機(jī)模型與標(biāo)定(單目+雙目+魚眼）
13.重磅！四旋翼飛行器：算法與實(shí)戰(zhàn)
14.ROS2從入門到精通：理論與實(shí)戰(zhàn)
15.國內(nèi)首個(gè)3D缺陷檢測教程：理論、源碼與實(shí)戰(zhàn)
16.基于Open3D的點(diǎn)云處理入門與實(shí)戰(zhàn)教程

重磅！3DCVer-學(xué)術(shù)論文寫作投稿交流群已成立

掃碼添加小助手微信：dddvision，可申請加入3D視覺工坊-學(xué)術(shù)論文寫作與投稿微信交流群，旨在交流頂會(huì)、頂刊、SCI、EI等寫作與投稿事宜。

同時(shí)也可申請加入我們的細(xì)分方向交流群，目前主要有3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測、行人重識(shí)別、目標(biāo)跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識(shí)別、硬件選型、學(xué)術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計(jì)等微信群。

一定要備注：研究方向+學(xué)校/公司+昵稱，例如：”3D視覺 + 上海交大 + 靜靜“。請按照格式備注，可快速被通過且邀請進(jìn)群。原創(chuàng)投稿也請聯(lián)系。

標(biāo)簽：

用于 3D 點(diǎn)云形狀分析的多視圖Vision-to-Geometry知識(shí)遷移的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

用于 3D 點(diǎn)云形狀分析的多視圖Vision-to-Geometry知識(shí)遷移

用于 3D 點(diǎn)云形狀分析的多視圖Vision-to-Geometry知識(shí)遷移的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

用于 3D 點(diǎn)云形狀分析的多視圖Vision-to-Geometry知識(shí)遷移

本文作者的其他文章

用于 3D 點(diǎn)云形狀分析的多視圖Vision-to-Geometry知識(shí)遷移的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

用于 3D 點(diǎn)云形狀分析的多視圖Vision-to-Geometry知識(shí)遷移的評論 (共條)