最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

用于 3D 點(diǎn)云形狀分析的多視圖Vision-to-Geometry知識(shí)遷移

2022-09-04 20:33 作者:3D視覺工坊  | 我要投稿

論文標(biāo)題:Multi-View Vision-to-Geometry Knowledge Transfer for 3D Point Cloud Shape Analysis

作者:Qijian Zhang, Junhui Hou, Yue Qian

論文鏈接:arxiv.org/abs/2207.0312

論文日期:2022年7月7日

整理:HT ?| 來源:微信公眾號(hào)「3D視覺工坊」

摘要作為 3D 對象的兩種基本表示方式,2D 多視圖圖像和 3D 點(diǎn)云從視覺外觀和幾何結(jié)構(gòu)的不同方面反映了形狀信息。與基于深度學(xué)習(xí)的 2D 多視圖圖像建模不同,2D 多視圖已經(jīng)在各種 3D 形狀分析任務(wù)中表現(xiàn)出領(lǐng)先的性能,而基于 3D 點(diǎn)云的幾何建模仍然存在學(xué)習(xí)能力不足等問題。在本文中,我們創(chuàng)新性地構(gòu)建了一個(gè)跨模態(tài)知識(shí)遷移的統(tǒng)一架構(gòu),將 2D 圖像中具有判別性的視覺描述符蒸餾成為 3D 點(diǎn)云的幾何描述符。從技術(shù)上講,在經(jīng)典的 teacher-student學(xué)習(xí)范式下,我們提出了多視圖 vision-to-geometry 蒸餾,由作為teacher的深度 2D 圖像encoder和作為 student的深度 3D 點(diǎn)云encoder組成。為了實(shí)現(xiàn)異構(gòu)特征的對齊,我們進(jìn)一步提出了可見性感知的特征投影,通過它可以將各點(diǎn) embeddings 聚合成多視圖幾何描述符。對 3D 形狀分類、部件分割和無監(jiān)督學(xué)習(xí)進(jìn)行了廣泛實(shí)驗(yàn),驗(yàn)證了我們方法的優(yōu)越性。我們將會(huì)公開代碼和數(shù)據(jù)。

關(guān)鍵詞:3D 點(diǎn)云、多視圖 2D 圖像、知識(shí)遷移、跨模態(tài)蒸餾、3D 形狀分析

1 引言

在 3D 數(shù)據(jù)采集和感知方面的一些最新進(jìn)展的促進(jìn)下,基于深度學(xué)習(xí)的 3D 形狀分析在工業(yè)界和學(xué)術(shù)界受到越來越多的關(guān)注。根據(jù) 3D 形狀模型的不同表征方式,主流的學(xué)習(xí)范式可分為:

  1. 基于圖像的 [1]、[2]、[3]、[4]、[5]

  2. 基于體素的 [6 ]、[7]、[8]、[9]、[10]

  3. 基于點(diǎn)的 [11]、[12]、[13]、[14]、[15]

目前,3D 形狀理解沒有統(tǒng)一的建模范式,因?yàn)槊糠N方法都有不同的優(yōu)點(diǎn)和局限性。

基于圖像的方法

通過多個(gè)視點(diǎn)渲染出的多視圖 2D 圖像的集合,來表示 3D 模型。受益于先進(jìn)的圖像建模架構(gòu) [16]、[17]、[18]、[19] ,以及大規(guī)模存在豐富標(biāo)注的圖像數(shù)據(jù)集 [20]、[21]、[22]、[23]、[24],多視圖學(xué)習(xí)在各種形狀識(shí)別任務(wù)中展示了主導(dǎo)性能 [2]、[25]、[26]。然而,形狀渲染是基于高質(zhì)量的人造的多邊形網(wǎng)格來實(shí)現(xiàn)的,這些網(wǎng)格不能直接從現(xiàn)實(shí)世界的傳感器或掃描儀中獲得,并且不可避免地會(huì)丟失內(nèi)部的幾何結(jié)構(gòu)和詳細(xì)的空間紋理信息。

基于體素的方法

使用體積網(wǎng)格來描述 3D 模型的空間占用,這樣標(biāo)準(zhǔn)的 3D 卷積架構(gòu)可以自然地?cái)U(kuò)展到用于特征提取,而無需額外去開發(fā)特定的學(xué)習(xí)算子。不幸的是,由于計(jì)算復(fù)雜度和內(nèi)存占用的指數(shù)增長,這種學(xué)習(xí)范式更適合處理低分辨率的volumes,并且需要精心配置的、復(fù)雜的分層 3D 索引結(jié)構(gòu) [8]、[9]、[10],用于處理更密集的體素并獲取幾何細(xì)節(jié)信息。

基于點(diǎn)的方法

近年來,基于點(diǎn)的方法逐漸流行,能直接對非結(jié)構(gòu)化 3D 點(diǎn)云進(jìn)行操作而無需任何進(jìn)行預(yù)處理。作為最直接的幾何表征形式,點(diǎn)云是許多 3D 采集設(shè)備的原始輸出,并能夠充分的記錄空間信息。然而,與在規(guī)則網(wǎng)格上定義的圖像和體素不同,點(diǎn)云具有不規(guī)則和無序的特點(diǎn),這給特征提取帶來了很大困難。因此,基于點(diǎn)的學(xué)習(xí)框架仍有很大的性能提升空間。受基于圖像的視覺建模和基于點(diǎn)的幾何建模之間互補(bǔ)特性的啟發(fā),本文探索了從強(qiáng)大的深度圖像encoders中提取的知識(shí)遷移到深度點(diǎn)encoders,從而提高下游形狀分析任務(wù)的性能。在技術(shù)上,我們創(chuàng)新性地提出了多視圖vision-to-geometry蒸餾(MV-V2GD),這是一種遵循標(biāo)準(zhǔn)的 teacher-student架構(gòu)設(shè)計(jì)的統(tǒng)一處理pipeline,用于跨模態(tài)的知識(shí)遷移。如圖1所示,給定一個(gè) 3D shape,我們將一組多視圖 2D 圖像輸入到teacher分支的預(yù)訓(xùn)練深度 2D 圖像encoder中,進(jìn)而生成多視圖的視覺描述符。而在student分支中,我們將3D點(diǎn)云輸入一個(gè)深度點(diǎn)encoder,進(jìn)而產(chǎn)生高維的per-point embeddings。在相同的相機(jī)位姿下,我們計(jì)算特定視圖的point-wise可見性。在此基礎(chǔ)上,我們生成多視圖的幾何描述符。通過在多視圖視覺和幾何描述符之間執(zhí)行特征對齊,可以引導(dǎo)student模型學(xué)習(xí)更多有區(qū)分性的point-wise特征,進(jìn)而理解幾何形狀。為了驗(yàn)證提出的 MV-V2GD 框架的有效性,我們選擇了常見的深度點(diǎn)encoder作為 student模型的baseline [11]、[12]、[15] ,并在三個(gè)benchmark任務(wù)上進(jìn)行了實(shí)驗(yàn),包括形狀分類、部件分割和無監(jiān)督學(xué)習(xí),我們實(shí)現(xiàn)了明顯且穩(wěn)定的性能提升。總之,本文的主要貢獻(xiàn)有三方面:?我們提出了一個(gè)統(tǒng)一的 MV-V2GD 學(xué)習(xí)框架,首次嘗試從多視圖 2D 視覺建模將知識(shí)遷移到 3D 幾何建模,從而進(jìn)行 3D 點(diǎn)云的形狀分析。?為了促進(jìn)多視圖visual-geometric特征對齊,我們特別開發(fā)了一種簡單而有效的 VAFP 機(jī)制,該機(jī)制將 per-point embeddings聚合到特定視圖的幾何描述符中。?在大量下游任務(wù)和baseline模型中,我們觀察到性能的提升很大,這揭示了一種新的用于增強(qiáng)點(diǎn)云網(wǎng)絡(luò)學(xué)習(xí)能力的通用范式。本文的其余部分安排如下。在第2章中,我們討論了與多視圖 3D 形狀分析、deep set架構(gòu)以及 2D-3D 知識(shí)遷移等密切相關(guān)的研究工作。在第3章中,我們首先在3.1 節(jié)總結(jié)我們提出的方法的工作機(jī)制;在 3.2 節(jié)和3.3 節(jié)分別介紹了主流的深度 2D 圖像和 3D 點(diǎn)encoders的一般形式,且這也基于 3.4節(jié)中我們構(gòu)建的統(tǒng)一的多視圖跨模態(tài)的特征對齊方案。然后,介紹了一種新穎的 visibility-aware的特征投影機(jī)制(VAFP),它可以較好地生成特定視圖的 visual-geometric表示對。最后,在3.5節(jié)中我們總結(jié)了總體的訓(xùn)練目標(biāo)和策略。在第4章中,我們報(bào)告了不同baseline的深度點(diǎn)encoders和benchmark任務(wù)的實(shí)驗(yàn)結(jié)果。最后,我們在第5章中提出了一些批判性的討論,并在第6章中總結(jié)整篇論文。

圖 1提出的 MV-V2GD 跨模態(tài)知識(shí)遷移框架的總體流程圖,其中包括:一個(gè)預(yù)訓(xùn)練的基于圖像的teacher分支(右),一個(gè)基于點(diǎn)的、通過多視圖特征對齊進(jìn)行蒸餾的student分支(左)。在訓(xùn)練階段,整個(gè)teacher分支是固定的,用于提供discriminative knowledge。而在測試階段teacher分支被移除,以便我們僅從點(diǎn)云進(jìn)行推理。

2 相關(guān)工作多視圖 3D 形狀分析。

作為 2D 深度學(xué)習(xí)的擴(kuò)展,多視圖 3D 形狀建模,通常建立在多輸入的 2D 卷積神經(jīng)網(wǎng)絡(luò) (CNNs) 的各種變體之上。由 MVCNN [1] 開創(chuàng),它輸入從預(yù)定義的相機(jī)位姿渲染出的多視圖圖像,并通過跨視圖的max-pooling來生成全局的形狀signature。許多后續(xù)的工作,致力于設(shè)計(jì)更高級的視圖聚合或選擇的策略。GVCNN [27] 構(gòu)建了一個(gè)三級分層的相關(guān)建??蚣?,該框架將多視圖描述符自適應(yīng)地分組到不同的簇中。MHBN [3] 和 RelationNet [28] 進(jìn)一步利用patch-level的交互來豐富視圖間的關(guān)系。RotationNet [4] 將視點(diǎn)索引作為可學(xué)習(xí)的潛在變量,并提出聯(lián)合估計(jì)目標(biāo)姿態(tài)和類別。EMV [29] 提出了一種分組卷積的方法,該方法對旋轉(zhuǎn)組的離散子群進(jìn)行操作,并提取旋轉(zhuǎn)等變的形狀描述符。最近,View-GCN [5] 將多視圖視為圖節(jié)點(diǎn),從而形成相應(yīng)的視圖graph,在該視圖graph上應(yīng)用圖卷積來學(xué)習(xí)多視圖關(guān)系。MVTN [30] 通過引入可微分渲染來自適應(yīng)地回歸得到最佳視點(diǎn),從而實(shí)現(xiàn)端到端訓(xùn)練。

3D 點(diǎn)云的深度學(xué)習(xí)。

由 PointNet [11] 率先采用point-wise多層感知機(jī) (MLP),實(shí)現(xiàn)了置換不變的特征提取,并直接在點(diǎn)云上進(jìn)行 3D 幾何建模,這樣的深度集architecture迅速流行。PointNet++ [12] 繼承了深度 CNN 的設(shè)計(jì)范式,引入了局部鄰域聚合,并采用漸進(jìn)式的下采樣進(jìn)行分層提取。在后來的工作中,已經(jīng)研究了各種各樣的高專業(yè)化的點(diǎn)卷積算子。通過學(xué)習(xí)核匹配的自適應(yīng)權(quán)重,進(jìn)而來模仿標(biāo)準(zhǔn)卷積 [31]、[13]、[32]、[14]、[33]。[34]、[35]、[36]、[37]、[38] 進(jìn)行了更復(fù)雜的點(diǎn)特征聚合策略,進(jìn)而增強(qiáng)網(wǎng)絡(luò)容量。DGCNN [15] 提出了一種基于圖的動(dòng)態(tài)特征更新機(jī)制,可以捕獲全局的上下文信息。[39]、[40]、[41] 探索了基于學(xué)習(xí)的,而不是啟發(fā)式的子集選擇技術(shù)。最近,transformer架構(gòu)也應(yīng)用于點(diǎn)云建模 [42]、[43]、[44]、[45]、[46]、[47] 。

2D 和 3D 之間的跨模態(tài)知識(shí)遷移。正如 [48] 中指出的那樣,盡管知識(shí)蒸餾研究激增,但由于缺乏配對樣本,在具有明顯模態(tài)差距的跨模態(tài)場景上的研究相對較少,而當(dāng)在 2D域 和 3D 域之間進(jìn)行時(shí),這項(xiàng)任務(wù)變得更具挑戰(zhàn)性。xMUDA [49] 提出通過基于pixel-point對應(yīng)關(guān)系來對齊 2D 和 3D 輸出,從單視圖圖像的源域和點(diǎn)云的目標(biāo)域?qū)崿F(xiàn)無監(jiān)督的域自適應(yīng)。PPKT [50] 構(gòu)建了一個(gè) 3D 預(yù)訓(xùn)練pipeline,將對比學(xué)習(xí)策略應(yīng)用于正負(fù)像素點(diǎn)對,從而利用 2D 預(yù)訓(xùn)練知識(shí)。在相反的遷移方向上,Pri3D [51] 探索了 3D 引導(dǎo)的對比預(yù)訓(xùn)練,用于提升 2D 感知方面。除了保持成對的 2D 像素和 3D 點(diǎn)之間的特征一致性外,這項(xiàng)工作還在于學(xué)習(xí)不變像素描述符,通過從不同視點(diǎn)捕獲的圖像掃描。在 [52] 有更靈活的3Dto-2D的蒸餾框架,通過特定維度的歸一化,進(jìn)而對齊 2D 和 3D CNN 特征的統(tǒng)計(jì)分布。特別地是,為了擺脫對 2D 和 3D 模態(tài)之間細(xì)粒度對應(yīng)關(guān)系的依賴,且這些模態(tài)通常獲取成本很高,這項(xiàng)工作還探索了一種語義感知的對抗訓(xùn)練方案,用來處理不成對的 2D 圖像和 3D 體積網(wǎng)格。通常,由于 2D 和 3D 數(shù)據(jù)之間的對應(yīng)信息的可用性,現(xiàn)有工作主要集中在場景級別的理解上。目前,據(jù)我們所知,之前沒有關(guān)于形狀分析任務(wù)的跨模態(tài)知識(shí)遷移的研究。

3 提出的方法

3.1 問題概述

我們考慮了兩種互補(bǔ)的 3D 形狀理解的學(xué)習(xí)范式,即由2D多視圖圖像驅(qū)動(dòng)的2D視覺建模和由 3D點(diǎn)云驅(qū)動(dòng)的3D幾何建模。如上所述,由于規(guī)則的數(shù)據(jù)結(jié)構(gòu)和強(qiáng)大的學(xué)習(xí)架構(gòu),基于圖像的深度模型可以提取 discriminative feature表征,盡管丟失了部分幾何信息。相比之下,3D點(diǎn)云雖然保留了完整的3D幾何結(jié)構(gòu),但其結(jié)構(gòu)的不規(guī)則性給特征提取帶來了很大挑戰(zhàn),因此基于點(diǎn)的深度模型的學(xué)習(xí)能力相對不足。因此,我們的目標(biāo)是從深度 2D 圖像encoder中提取判別知識(shí),蒸餾到深度 3D 點(diǎn)encoder中。這實(shí)際上是一個(gè)相當(dāng)具有挑戰(zhàn)性的問題,因?yàn)樵诰W(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)模態(tài)方面存在顯著的域差距。



我們的工作機(jī)制與多模態(tài)融合本質(zhì)上不同。在多模態(tài)融合中,多模態(tài)數(shù)據(jù)在訓(xùn)練和測試階段都被作為輸入。在功能上,我們強(qiáng)調(diào) MV-V2GD 作為一種通用的學(xué)習(xí)范式,可以自然地應(yīng)用于通用深度點(diǎn)的encoders,用于增強(qiáng)網(wǎng)絡(luò)容量。

3.2 用于 2D 圖像建模的Teacher網(wǎng)絡(luò)

深度卷積架構(gòu),已經(jīng)展示了從 2D 圖像中學(xué)習(xí)discriminative視覺特征的顯著能力。在大規(guī)模圖像數(shù)據(jù)集上,受益于預(yù)訓(xùn)練的成熟的 2D CNN 的backbone網(wǎng)絡(luò)激增 [22],我們可以方便地選擇合適且功能強(qiáng)大的現(xiàn)有深度 2D 圖像encoder作為我們的 2D teacher模型Mt ,它分別將多視圖圖像作為輸入,并相應(yīng)地生成高維卷積特征圖。形式上,我們可以將teacher模型的一般形式表述為:



3.3 3D 點(diǎn)云建模的Student網(wǎng)絡(luò)

與成熟的 2D 圖像建模相比,3D 點(diǎn)云的深度學(xué)習(xí)仍然是一個(gè)新興但快速發(fā)展的研究領(lǐng)域。受限于大規(guī)模形狀數(shù)據(jù)集的稀缺性和 3D 標(biāo)注的難度,當(dāng)前的深度set architectures實(shí)際上還遠(yuǎn)遠(yuǎn)不夠深,為了緩解參數(shù)過擬合,在應(yīng)用于下游任務(wù)時(shí)通常需要從頭開始訓(xùn)練。因此,基于點(diǎn)的學(xué)習(xí)模型,在捕獲discriminative幾何特征表征方面,表現(xiàn)出學(xué)習(xí)能力不足。

圖 2多視圖可見性checking示意圖。在預(yù)定義的相機(jī)位姿下,我們相應(yīng)地生成了一組多視圖圖像和部分點(diǎn)云,放置在第一行和第二行。在第三行中,我們還提供了從相反的方位角觀察時(shí),可見點(diǎn)的可視化效果。我們將深度 3D 點(diǎn)encoder Ms視為 3D student模型,也就是被蒸餾的目標(biāo)。它使用一組不規(guī)則的空間點(diǎn)作為輸入,并產(chǎn)生高維的point-wise embeddings。不失一般性,我們可以將student模型的形式描述為:





3.4 多視圖可見性感知的特征對齊







通過單個(gè)全連接層 (FC)實(shí)現(xiàn),實(shí)現(xiàn)了視覺和幾何描述符之間的通道對齊。在4.4節(jié),我們驗(yàn)證了 VAFP 驅(qū)動(dòng)的知識(shí)遷移框架,相比于傳統(tǒng)蒸餾范式的優(yōu)越性。3.5 總體目標(biāo)



4 實(shí)驗(yàn)

我們評估了我們提出的 MV-V2GD 框架在三個(gè)應(yīng)用場景中的有效性,即形狀分類(第 4.1 節(jié))、部件分割(第 4.2 節(jié))和reconstruction-driven的無監(jiān)督學(xué)習(xí)(第 4.3 節(jié))。在每個(gè)小節(jié)中,我們介紹了benchmark數(shù)據(jù)集和數(shù)據(jù)的準(zhǔn)備操作,之后我們提供了teacher和student模型架構(gòu)的主要實(shí)現(xiàn)技術(shù)。最后,我們提供了具體的對比實(shí)驗(yàn)和性能分析。

4.1 形狀分類數(shù)據(jù)準(zhǔn)備。

ModelNet40 [7] 是一個(gè)常見的 3D 對象數(shù)據(jù)集,包含 12311 個(gè)多邊形網(wǎng)格模型,涵蓋 40 個(gè)人造類別。在官方拆分之后,我們使用 9843 個(gè)形狀數(shù)據(jù)集進(jìn)行訓(xùn)練,其余 2468 個(gè)數(shù)據(jù)集進(jìn)行測試。




具體來說,我們采用輕量級的 2D CNN backbone(即 MobileNetV2 [57]),從輸入的多視圖圖像中提取深度卷積特征和矢量化視覺描述符。此外,除了從單個(gè)的全局形狀signature輸出最終的類別分?jǐn)?shù)(logits)外,我們還傾向于單獨(dú)預(yù)測來自所有視圖的形狀類別,通過添加側(cè)輸出的supervisions。

Student網(wǎng)絡(luò)的架構(gòu)。我們選擇了三種具有代表性的深度點(diǎn)云建模架構(gòu),包括 1) PointNet [11]、2) PointNet++ [12] 和 3) DGCNN [15] 作為目標(biāo)student點(diǎn)encoder 。此外,我們還嘗試了 CurveNet [58 ],一種更新的SOTA學(xué)習(xí)模型。在最初的實(shí)現(xiàn)中,分類頭由三個(gè)全連接層組成,它們將全局形狀signature轉(zhuǎn)換為類別 logits。而在我們所有的實(shí)驗(yàn)中,我們將 統(tǒng)一簡化為單個(gè)線性層。請注意,在測試階段,我們沒有采用任何投票技術(shù) [36]、[33]、[59]、[58],這些技術(shù)變得非常繁瑣且不穩(wěn)定。

定量結(jié)果。我們在表 1 中列出了原始模型和蒸餾模型的形狀分類準(zhǔn)確率。作為早期設(shè)計(jì)的簡單架構(gòu)的工作,PointNet 官方報(bào)告的整體準(zhǔn)確率為 89.2%,這被認(rèn)為遠(yuǎn)不能令人滿意。令人驚訝的是,在 MV-V2GD 的驅(qū)動(dòng)下,該模型的性能甚至比原來的 PointNet++ 還要好,后者涉及更復(fù)雜的學(xué)習(xí)patterns。得益于增強(qiáng)的建模能力,PointNet++ 在蒸餾后進(jìn)一步達(dá)到了極具競爭力的 93.3%。DGCNN 代表了一種常見的強(qiáng)大的graph-style點(diǎn)云建模范式,從 92.9% 提升到 93.7%,性能明顯提升 0.8%。即使對于SOTA的 CurveNet,我們的方法仍然獲得了令人滿意的性能提升,從 93.8% 提高到 94.1%

4.2 部件分割數(shù)據(jù)準(zhǔn)備。

ShapeNetPart [60] 是一個(gè)流行的 3D 對象的部分分割benchmark數(shù)據(jù)集,它提供了在 16 個(gè)對象類上定義的 50 個(gè)不同部件類別的語義標(biāo)注。官方拆分后,我們有 14007 個(gè)形狀數(shù)據(jù)集用于訓(xùn)練,其余 2874 個(gè)數(shù)據(jù)集用于測試。



Teacher分支的架構(gòu)。與許多已經(jīng)存在的成熟的多視圖學(xué)習(xí)框架的形狀分類或檢索相比,基于圖像的形狀分割方面的研究相對較少。因此,我們設(shè)計(jì)了一個(gè)標(biāo)準(zhǔn)的單圖像分割架構(gòu)作為teacher分支,如圖4所示。整體的架構(gòu)設(shè)計(jì)遵循經(jīng)典的encoder-decoder pipeline(例如:U-Net [19]),用來生成全分辨率分割圖。在這里,teacher分支單獨(dú)使用單視圖的圖像進(jìn)行預(yù)測,而不是同時(shí)對同一形狀模型的整組多視圖圖像進(jìn)行分割。因?yàn)槲覀儜{經(jīng)驗(yàn)發(fā)現(xiàn),這種學(xué)習(xí)范式計(jì)算量大且在訓(xùn)練期間難以收斂。更具體地說,我們選擇 VGG11 [16] 作為backbone特征提取器,并移除了最后一個(gè)空間max-pooling層,從而擴(kuò)大了特征圖分辨率。為了增強(qiáng)網(wǎng)絡(luò)容量,我們將 [61] 中提出的位置和通道上的attention機(jī)制添加到了原始的卷積階段。然后,通過重建從訓(xùn)練shape渲染得到的視圖圖像,進(jìn)而fine-tune整個(gè)backbone網(wǎng)絡(luò)。遵循之前部件分割框架中的常見做法,我們還集成了一個(gè)分類向量,該向量將輸入圖像的對象類別,encode到中間視覺描述符中。Student分支的架構(gòu)。我們再次采用 PointNet、PointNet++ 和 DGCNN 作為student的點(diǎn)encodersMs ,并使用他們初始的head網(wǎng)絡(luò)Hs ,用來預(yù)測每個(gè)點(diǎn)的語義標(biāo)簽,而無需投票。定量結(jié)果。我們在表 2 中列出了原始模型和蒸餾模型的部件分割精度。從中我們可以觀察到,我們的方法始終增強(qiáng)了不同類型的深度set architectures。特別是,PointNet 從 83.7% 提高到 85.9%,在 mIoU 方面具有很大的獲益。另外兩個(gè)更強(qiáng)大的學(xué)習(xí)框架,即 PointNet++ 和 DGCNN,也從 MV-V2GD 中受益很多,分別有 1.3% 和 1.7% 的明顯性能提升。

圖 3用于2D多視圖圖像驅(qū)動(dòng)的形狀分類的的Teacher學(xué)習(xí)分支表 1 ?ModelNet40 上 3D 形狀分類的總體準(zhǔn)確率 (%)

圖 4用于 2D 圖像驅(qū)動(dòng)的目標(biāo)部件分割的Teacher學(xué)習(xí)分支表 2 ?ShapeNetPart 上目標(biāo)部件分割的實(shí)例平均mIoU(%)

圖 5用于單視圖圖像重建的 Teacher 學(xué)習(xí)分支表 3ModelNet40 上的Transfer分類準(zhǔn)確率 (%)

4.3 無監(jiān)督學(xué)習(xí)

以前的實(shí)驗(yàn)已經(jīng)證明了 MV-V2GD 在有監(jiān)督學(xué)習(xí)方面的有效性,這需要特定領(lǐng)域的數(shù)據(jù)和標(biāo)注。在本節(jié)中,我們探討了遷移通過無監(jiān)督特征學(xué)習(xí)獲得的通用 2D 視覺知識(shí),從而促進(jìn) 3D 幾何建模的可能性。遵循與 [62] 中構(gòu)建的相同開發(fā)協(xié)議(稱為transfer classification),我們首先在源數(shù)據(jù)集(即 ShapeNetCoreV2 [63])上預(yù)訓(xùn)練深度點(diǎn)云 auto-encoder。之后,我們部署預(yù)訓(xùn)練的encoder網(wǎng)絡(luò),進(jìn)而從不同的目標(biāo)數(shù)據(jù)集(即 ModelNet40 [7])生成矢量化的形狀signatures。最后,在目標(biāo)數(shù)據(jù)集上訓(xùn)練線性 SVM 分類器,用來評估形狀signatures的判別能力。

數(shù)據(jù)準(zhǔn)備。ShapeNetCoreV2 [63] 是一個(gè)大型 3D 對象數(shù)據(jù)集,包含 52472 個(gè)多邊形網(wǎng)格模型,涵蓋 55 個(gè)對象類別。對于幾何建模,我們應(yīng)用 PDS,從 ShapeNetCoreV2 數(shù)據(jù)集和 ModelNet40 數(shù)據(jù)集中統(tǒng)一采樣 2048 個(gè)空間點(diǎn)。對于視覺建模,我們采用了與第 4.2 節(jié)中描述相同的viewpoint配置,進(jìn)而在ShapeNetCoreV2 數(shù)據(jù)集上生成多視圖的圖像渲染。Teacher 分支的架構(gòu)。如圖 5所示。我們構(gòu)建了一個(gè)標(biāo)準(zhǔn)卷積的 auto-encoder,用于無監(jiān)督圖像的特征學(xué)習(xí)。在encode階段,我們應(yīng)用了與部件分割實(shí)驗(yàn)中采用的相同的backbone網(wǎng)絡(luò),將輸入的視圖圖像緊湊地表征為一個(gè)矢量化的形狀signature。在decode階段,我們部署了一個(gè)全連接層來提升特征維度,以及多階段的反卷積層來實(shí)現(xiàn)全分辨率的圖像重建。Student分支的架構(gòu)。我們嘗試了一個(gè)經(jīng)典的點(diǎn)云驅(qū)動(dòng)的無監(jiān)督幾何特征學(xué)習(xí)的架構(gòu),即 FoldingNet [62],作為目標(biāo)student分支。從技術(shù)上講,它將給定的點(diǎn)encodes為一個(gè)緊湊的全局codeword向量,從而驅(qū)動(dòng)隨后的lattice deformation過程,用來重建輸入的點(diǎn)云。

定量結(jié)果。

我們在表 3 中列出了原始模型和蒸餾模型的transfer classification的準(zhǔn)確率,我們可以觀察到,F(xiàn)oldingNet 從 88.4% 提高到 89.1%。此外,在沒有特定任務(wù)預(yù)訓(xùn)練的情況下,我們對遷移從自然圖像統(tǒng)計(jì)中學(xué)習(xí)到的常見視覺線索的潛力感興趣。為此,我們直接部署了在 ImageNet 上預(yù)訓(xùn)練的原始 VGG11 的backbone網(wǎng)絡(luò),用來提供teacher知識(shí),這也增強(qiáng)了目標(biāo)student模型,精度提高了 0.4%。

4.4 額外探索

通過設(shè)計(jì)不同的架構(gòu)變體,并評估它們在 ModelNet40 上的分類性能,我們進(jìn)行了額外的探索。超參數(shù)分析。為了全面探索我們的學(xué)習(xí)框架的特點(diǎn),我們通過調(diào)整兩個(gè)關(guān)鍵的超參數(shù)來修改原始 MV-V2GD 設(shè)置:1)視點(diǎn)數(shù)量K;2)加權(quán)因子Wt (等式 6)。



我們嘗試將原始點(diǎn)云而不是網(wǎng)格直接渲染到多視圖圖像中,以訓(xùn)練教師分支,進(jìn)一步部署為學(xué)生分支提供視覺知識(shí)。圖 6 顯示了基于點(diǎn)的渲染的一些典型視覺示例以及它們的網(wǎng)格驅(qū)動(dòng)對應(yīng)物。顯然,這種學(xué)習(xí)策略對于無法獲得高質(zhì)量的基于網(wǎng)格的幾何表示的應(yīng)用程序更加靈活和實(shí)用。如表 6 所示,該變體在所有蒸餾模型上仍然顯示出令人滿意的性能提升,這證明了我們提出的圖像到點(diǎn)知識(shí)轉(zhuǎn)移范式的普遍性。

基于點(diǎn)的渲染Pipeline。我們嘗試直接使用原始點(diǎn)云而不是網(wǎng)格,將其渲染到多視圖圖像中,從而訓(xùn)練teacher分支,并進(jìn)一步為student分支提供視覺知識(shí)。圖 6 顯示了基于點(diǎn)的渲染的一些典型視覺示例,以及它們的mesh-driven對應(yīng)物。顯然,對于無法獲得高質(zhì)量的基于網(wǎng)格的幾何表征的應(yīng)用程序,這種學(xué)習(xí)策略更加靈活和實(shí)用。如表 6 所示,該變體在所有蒸餾模型上仍然顯示出令人滿意的性能提升,這證明了我們提出的image-to-point知識(shí)遷移范式的普遍性。

從頭開始訓(xùn)練 Teacher 模型。所提出的跨模態(tài)(visual-togeometric)知識(shí)遷移框架的主要優(yōu)點(diǎn)之一是,我們可以方便地利用現(xiàn)成成熟的視覺識(shí)別網(wǎng)絡(luò),這些網(wǎng)絡(luò)在大規(guī)模帶標(biāo)注的 2D 圖像數(shù)據(jù)集上充分預(yù)訓(xùn)練,例如:ImageNet。一個(gè)更有趣且有前景的問題是,探索 2D 視覺和 3D 幾何建模范式之間的交互機(jī)制本身是否有益。事實(shí)上,在我們的無監(jiān)督學(xué)習(xí)實(shí)驗(yàn)中,我們試圖通過從頭開始訓(xùn)練teacher分支來驗(yàn)證這個(gè)問題,這仍然帶來了性能提升。在這里,我們進(jìn)一步進(jìn)行了實(shí)驗(yàn)以在有監(jiān)督學(xué)習(xí)場景下加強(qiáng)此類主張。更具體地說,在這個(gè)基于點(diǎn)的渲染實(shí)驗(yàn)中,我們保持所有的開發(fā)協(xié)議不變。除了,我們沒有為teacher分支的backbone網(wǎng)絡(luò)加載 ImageNet 預(yù)訓(xùn)練權(quán)重。定量結(jié)果如表 7 所示,從中我們可以驚奇地觀察到,在點(diǎn)云渲染上,完全從頭開始訓(xùn)練teacher分支仍然顯示出極具競爭力的性能,甚至優(yōu)于其在 PointNet [11] 上的 ImageNet 預(yù)訓(xùn)練和mesh-driven對應(yīng)物。這種現(xiàn)象有力地證明了,所提出的visual-geometric學(xué)習(xí)范式的巨大潛力。表 4不同的渲染視點(diǎn)數(shù)量 (K) 的影響。

表 5不同加權(quán)方案 () 對訓(xùn)練目標(biāo)的影響


圖 6基于網(wǎng)格和基于點(diǎn)的渲染結(jié)果的可視化示例傳統(tǒng)蒸餾范式的適應(yīng)。為了揭示我們方法的必要性和優(yōu)越性,我們進(jìn)一步設(shè)計(jì)了兩個(gè)baseline知識(shí)遷移pipelines,它們直接改編自經(jīng)典的基于響應(yīng)的 [53] 和基于特征的 [64] 蒸餾范式。第一個(gè)baseline旨在對齊從teacher分支和student分支的最后一層輸出的最終類 logits,我們稱之為 Lgt-V2GD。第二個(gè)baseline稱為 Ftr-V2GD,它專注于feature-level的指導(dǎo),通過對齊矢量化的全局視覺和幾何描述符,然后將它們輸入到后續(xù)的全連接分類器。我們在表 8 中列出了不同baseline框架的性能,并通過結(jié)合表 1 中報(bào)告的相應(yīng)實(shí)驗(yàn)結(jié)果,觀察了一致性趨勢的幾個(gè)方面。首先,我們的實(shí)驗(yàn)結(jié)果強(qiáng)烈表明,vision-to-geometry知識(shí)遷移,提供了一種增強(qiáng)點(diǎn)云學(xué)習(xí)模型的通用且穩(wěn)定的方法。即使是最直接的蒸餾框架 (Lgt-V2GD) ,也會(huì)在所有實(shí)驗(yàn)setups中獲得不同程度的性能提升。其次,特征級的teacher指導(dǎo)往往比軟目標(biāo)(即 logits)提供更多信息,因?yàn)槲覀儼l(fā)現(xiàn) Ftr-V2GD 總是優(yōu)于 LgtV2GD。第三,在我們提出的 MV-V2GD 處理pipeline下,考慮到所有蒸餾模型的性能顯著提升,許多現(xiàn)有點(diǎn)云學(xué)習(xí)框架的建模能力可能被低估了。表 6從原始點(diǎn)云渲染多視圖圖像的有效性

表 7ModelNet40 上 3D 形狀分類的總體準(zhǔn)確率 (%),其中teacher模型是從頭開始訓(xùn)練的(即,未加載 ImageNet 預(yù)訓(xùn)練的權(quán)重)

表 8 logit-driven和feature-driven的蒸餾baselines的比較。

5 討論

在本節(jié)中,我們重新強(qiáng)調(diào)了我們在設(shè)計(jì)整體處理流程時(shí)的核心動(dòng)機(jī)和原則,以及我們論文帶來的新見解,在此基礎(chǔ)上,我們簡要討論了未來工作中可能的擴(kuò)展。最終,本文重點(diǎn)揭示了將知識(shí)從 2D 視覺領(lǐng)域遷移到 3D 幾何領(lǐng)域的潛力。因此,我們避免在整個(gè)工作流程中設(shè)計(jì)復(fù)雜的學(xué)習(xí)架構(gòu)或策略,因?yàn)槲覀兿嘈藕啙嵉募夹g(shù)實(shí)現(xiàn)和穩(wěn)定的性能提升可以有力地證明我們方法的價(jià)值??梢灶A(yù)期,更先進(jìn)的多視圖 visual-geometric特征對齊技術(shù),以及蒸餾目標(biāo)將進(jìn)一步增強(qiáng)當(dāng)前的 MV-V2GD 框架。在實(shí)驗(yàn)setups方面,我們注意到現(xiàn)有的多視圖學(xué)習(xí)方法主要針對全局幾何建模任務(wù),例如分類和檢索。由于特定領(lǐng)域的數(shù)據(jù)集準(zhǔn)備不便,而該工作將應(yīng)用場景擴(kuò)展到部件分割和無監(jiān)督學(xué)習(xí),形成了更全面的評估協(xié)議。更重要的是,我們令人鼓舞的結(jié)果激勵(lì)了研究和開發(fā)人員,在模型設(shè)計(jì)之外更加關(guān)注數(shù)據(jù)開發(fā)??紤]到大規(guī)模豐富標(biāo)注的 2D 視覺數(shù)據(jù)的可用性,以及 3D 幾何對應(yīng)物的稀缺性,通過 image-to-point蒸餾來增強(qiáng)點(diǎn)云學(xué)習(xí)模型,這是一種非常有前景且低成本的方法。

6 結(jié)論

在本文中,我們最先嘗試并探索了將跨模態(tài)知識(shí)從多視圖 2D 視覺建模遷移到 3D 幾何建模,從而促進(jìn) 3D 點(diǎn)云形狀的理解。在技術(shù)上,我們研究了一個(gè)統(tǒng)一的 MV-V2GD 學(xué)習(xí)pipeline,適用于常見類型的、基于深度 3D 點(diǎn)云的學(xué)習(xí)范式,并專門定制了一種新穎的 VAFP 機(jī)制來實(shí)現(xiàn)多視圖圖像和點(diǎn)云之間的異構(gòu)特征對齊。在各種應(yīng)用上的大量實(shí)驗(yàn),有力地證明了我們方法的優(yōu)越性、普遍性和穩(wěn)定性。我們相信,我們的工作將為發(fā)展強(qiáng)大的深度set architectures開辟新的可能性,并促使沿著這個(gè)有前景的方向進(jìn)行更多的探索。

本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

3D視覺工坊精品課程官網(wǎng):3dcver.com
1.面向自動(dòng)駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)
2.面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)
4.國內(nèi)首個(gè)面向工業(yè)級實(shí)戰(zhàn)的點(diǎn)云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)
9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]
10.單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)
11.自動(dòng)駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)
12.相機(jī)模型與標(biāo)定(單目+雙目+魚眼)
13.重磅!四旋翼飛行器:算法與實(shí)戰(zhàn)
14.ROS2從入門到精通:理論與實(shí)戰(zhàn)
15.國內(nèi)首個(gè)3D缺陷檢測教程:理論、源碼與實(shí)戰(zhàn)
16.基于Open3D的點(diǎn)云處理入門與實(shí)戰(zhàn)教程

重磅!3DCVer-學(xué)術(shù)論文寫作投稿 交流群已成立

掃碼添加小助手微信:dddvision,可申請加入3D視覺工坊-學(xué)術(shù)論文寫作與投稿 微信交流群,旨在交流頂會(huì)、頂刊、SCI、EI等寫作與投稿事宜。

同時(shí)也可申請加入我們的細(xì)分方向交流群,目前主要有3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測、行人重識(shí)別、目標(biāo)跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識(shí)別、硬件選型、學(xué)術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計(jì)等微信群。

一定要備注:研究方向+學(xué)校/公司+昵稱,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進(jìn)群。原創(chuàng)投稿也請聯(lián)系。

用于 3D 點(diǎn)云形狀分析的多視圖Vision-to-Geometry知識(shí)遷移的評論 (共 條)

分享到微博請遵守國家法律
县级市| 七台河市| 凤阳县| 崇文区| 祁连县| 鄂伦春自治旗| 海原县| 巴青县| 封开县| 德安县| 勃利县| 平安县| 义乌市| 游戏| 玉龙| 合山市| 汤原县| 宣城市| 平邑县| 汉阴县| 莆田市| 东阿县| 黄冈市| 海原县| 福建省| 南丹县| 芦山县| 德州市| 淳安县| 南阳市| 渭南市| 阿拉善右旗| 沿河| 安西县| 陇西县| 太原市| 浙江省| 乐东| 登封市| 樟树市| 民丰县|