散文網(wǎng) » 生活 »日常 » RandomRooms：用于3D目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練方法（ICCV2021）

RandomRooms：用于3D目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練方法（ICCV2021）

2021-11-14 17:55 作者:3D視覺工坊 0人讀過 | 我要投稿

論文標(biāo)題：RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection

論文地址：
https://arxiv.org/abs/2108.07794

作者：夏初|來源微信公眾號：3D視覺工坊

摘要：近年來，三維點(diǎn)云理解取得了一定的進(jìn)展。然而，一個(gè)主要的瓶頸是有注釋的真實(shí)數(shù)據(jù)集的稀缺，尤其是與2D目標(biāo)檢測任務(wù)相比，因?yàn)閷ψ⑨寛鼍暗恼鎸?shí)掃描需要大量的人力。解決這一問題的一個(gè)方法是利用由計(jì)算機(jī)輔助設(shè)計(jì)對象模型組成的合成數(shù)據(jù)集來實(shí)現(xiàn)在真實(shí)數(shù)據(jù)集上的學(xué)習(xí)，上述方法可以采用預(yù)訓(xùn)練和微調(diào)程序?qū)崿F(xiàn)。但是，當(dāng)將在合成目標(biāo)上學(xué)習(xí)的特征轉(zhuǎn)移到真實(shí)世界中應(yīng)用時(shí)，往往會失敗。在這項(xiàng)工作中，研究人員提出了一種新的方法，通過利用合成計(jì)算機(jī)輔助設(shè)計(jì)數(shù)據(jù)集中的目標(biāo)來生成場景的隨機(jī)布局，并且通過對從同一組合成目標(biāo)生成的兩個(gè)隨機(jī)場景應(yīng)用object-level對比學(xué)習(xí)來學(xué)習(xí)3D場景表示，用于為后期微調(diào)提供更好的初始化。從經(jīng)驗(yàn)上看，該方法在幾個(gè)基本模型上的下游3D檢測任務(wù)上的性能具有提升，尤其是當(dāng)使用較少的訓(xùn)練數(shù)據(jù)時(shí)，上述結(jié)果證明了該研究方法的有效性和通用性。通過運(yùn)用豐富的語義知識和合成數(shù)據(jù)的多樣化對象，研究人員的方法在廣泛使用的3D檢測基準(zhǔn)ScanNetV2和SUN RGB-D上獲取了當(dāng)前最好的性能。研究人員期望該方法有望為目標(biāo)和場景級別的3D理解提供新的視角。

研究貢獻(xiàn)：

在這項(xiàng)工作中，研究人員提出了一個(gè)新的框架，旨在對下游3D對象檢測任務(wù)進(jìn)行微調(diào)之前，先使用合成CAD模型數(shù)據(jù)集(即ShapeNet)進(jìn)行三維預(yù)訓(xùn)練。為此，研究人員提出了RandomRooms的方法，其中，研究人員建議使用從ShapeNet數(shù)據(jù)集中隨機(jī)抽樣的一組對象生成兩種不同的場景布局，然后在object-level對兩者進(jìn)行對比學(xué)習(xí)。

研究方法：

1.合成對象

與ScanNetV2相比，ScanNetV2包含17個(gè)類別的15000個(gè)對象，ShapeNet提供更為豐富的數(shù)據(jù)源，包含55個(gè)類別的52000個(gè)對象。因此，本研究的主要目標(biāo)是研究如何使用ShapeNet收集的合成CAD模型來改進(jìn)下游任務(wù)，如真實(shí)數(shù)據(jù)集上的3D檢測和分割。

現(xiàn)有研究不足：之前的研究工作直接在ShapeNet上進(jìn)行預(yù)訓(xùn)練無法提高下游檢測和分割任務(wù)的性能，主要原因可能是ShapeNet上的單個(gè)對象分類任務(wù)與真實(shí)數(shù)據(jù)集上的多對象局部化任務(wù)之間存在差距。為了彌補(bǔ)這一差距，研究人員建議利用合成對象生成偽場景(RandomRooms)，以構(gòu)建有助于場景級理解的訓(xùn)練數(shù)據(jù)。

具體操作步驟：

1)對象增強(qiáng)：研究人員首先將對象調(diào)整為[0.5m，2.0m]的隨機(jī)大小，以確保對象與ScanNetV2中的對象具有相似的大小。然后，研究人員應(yīng)用了常用的對象點(diǎn)云掃描技術(shù)，包括旋轉(zhuǎn)等。

2)布局生成：為了便于生成布局，研究人員將對象放置在矩形房間中。房間的大小根據(jù)增強(qiáng)對象的總面積自適應(yīng)調(diào)整。布局基于兩個(gè)簡單的原則生成：(1)不重疊：任何兩個(gè)對象不應(yīng)占據(jù)房間中的同一空間；(2)根據(jù)重力原則，物體不應(yīng)漂浮在空中，較大的物體不應(yīng)置于較小的物體之上。對于每個(gè)對象，研究人員首先隨機(jī)選擇X-Y平面上滿足上述原則的位置，然后根據(jù)位置的當(dāng)前最大高度確定位置(Z值)。如果當(dāng)前位置的最大高度超過2米，物體將不會被放置在某個(gè)位置。

3)場景增強(qiáng)：研究人員對整個(gè)場景應(yīng)用數(shù)據(jù)增強(qiáng)，如繞Z軸旋轉(zhuǎn)等。為了使生成的場景更接近真實(shí)場景，研究人員還添加了地板和墻壁作為混淆因素。

示例圖像如下圖所示。

2.運(yùn)用Random Rooms進(jìn)行表示學(xué)習(xí)

為了利用生成的隨機(jī)房間，研究人員設(shè)計(jì)了一種object-level對比學(xué)習(xí)(OCL)方法，該方法學(xué)習(xí)區(qū)分性表示而無需類別標(biāo)注，整體框架如下圖所示。

研究中給定n個(gè)隨機(jī)采樣對象，根據(jù)上述步驟生成2個(gè)隨機(jī)房間，采用點(diǎn)云編碼器-解碼器網(wǎng)絡(luò)提取設(shè)定的2個(gè)場景中的特征。為了獲得每個(gè)對象的特征，研究中對屬于該對象的每點(diǎn)特征應(yīng)用平均池化操作：

然后類似于對比學(xué)習(xí)中的常見做法，使用多層感知器和L2歸一化將對象特征投影到單位超球面上，Object-level對比學(xué)習(xí)目標(biāo)可以寫成：

實(shí)驗(yàn)：

表示學(xué)習(xí)的一個(gè)主要目標(biāo)是學(xué)習(xí)能夠轉(zhuǎn)移到下游任務(wù)的表征。為了將研究人員的Random Rooms方法應(yīng)用于對于場景級別的理解(如3D目標(biāo)檢測)，研究人員結(jié)合了無監(jiān)督預(yù)訓(xùn)練和監(jiān)督微調(diào)。具體來說，研究人員首先使用本研究方法在ShapeNet上預(yù)訓(xùn)練主干模型，然后使用預(yù)訓(xùn)練的權(quán)重作為初始化，并在下游3D對象檢測任務(wù)中進(jìn)一步微調(diào)模型。

(1) 預(yù)訓(xùn)練設(shè)置

研究人員對ShapeNet進(jìn)行了預(yù)訓(xùn)練，ShapeNet是一個(gè)由55個(gè)常見類別的3D CAD模型表示的具有豐富注釋的形狀組成的數(shù)據(jù)集。要生成隨機(jī)房間，研究人員首先需要從數(shù)據(jù)集中隨機(jī)采樣多個(gè)對象。研究人員采樣的對象數(shù)是一個(gè)從12到18的隨機(jī)整數(shù)，與ScanNetV2場景中的平均對象數(shù)相似。然后，對于每個(gè)采樣對象，研究人員執(zhí)行隨機(jī)房間生成算法，采用object-level對比學(xué)習(xí)損失以無監(jiān)督的方式對模型進(jìn)行訓(xùn)練.

對于下游3D目標(biāo)檢測任務(wù)，研究人員使用了其他研究中的主干模型，該模型以40000個(gè)點(diǎn)作為輸入點(diǎn)。根據(jù)相應(yīng)的網(wǎng)絡(luò)模型配置，研究人員使用1024點(diǎn)特征作為主干模型的輸出，并對該特征進(jìn)行對比學(xué)習(xí)。在訓(xùn)練期間，研究人員使用初始學(xué)習(xí)率為0.001的Adam優(yōu)化器，對模型進(jìn)行了300個(gè)epoch的訓(xùn)練，在第100次和第200次epoch時(shí)，學(xué)習(xí)率乘以0.1，batch size設(shè)置為16，這樣在每次迭代中，大約200~300個(gè)對象參與對比學(xué)習(xí)。

(2) 3D物體檢測

數(shù)據(jù)集：研究人員在兩個(gè)廣泛使用的3D檢測基準(zhǔn)上進(jìn)行了實(shí)驗(yàn)，ScanNetV2和SUNRGBD。ScanNetV2是一個(gè)具有豐富注釋的室內(nèi)場景三維重建網(wǎng)格數(shù)據(jù)集。它包含1513個(gè)掃描和重建的真實(shí)場景，由18個(gè)不同大小和形狀的不同類別的對象組成。目前，它是使用輕型RGB-D掃描程序創(chuàng)建的最大的一個(gè)數(shù)據(jù)集。然而，與2D視覺中的數(shù)據(jù)集相比，它的規(guī)模仍然小得多。研究人員將整個(gè)數(shù)據(jù)集劃分為兩個(gè)子集，分別有1201和312個(gè)場景，用于以下訓(xùn)練和測試。

SUN RGB-D是用于三維場景理解的單視圖RGB-D數(shù)據(jù)集。它包含10335個(gè)室內(nèi)RGB和深度圖像，帶有對象邊界框和帶有10種不同對象類別的語義標(biāo)簽。研究人員也嚴(yán)格遵循相應(yīng)的拆分方法，5285個(gè)樣本作為訓(xùn)練數(shù)據(jù)，5050個(gè)樣本作為測試數(shù)據(jù)。

檢測模型：研究人員將本方法與最近提出的兩種最先進(jìn)的方法進(jìn)行了比較：一種是VoteNet，另一個(gè)是H3DNet。它們都以無色的3D點(diǎn)云作為輸入。研究人員還將GSPN、3D-SIS、DSS、F-PointNet、2D-driven和Cloud of gradient等使用其他類型的信息進(jìn)行目標(biāo)檢測的信息納入比較。

消融研究：如下表所示，研究人員進(jìn)行了三組消融研究，都是在以VoteNet為主干的 ScanNetV2數(shù)據(jù)集上進(jìn)行的，使用mAP@0.25作為評估指標(biāo)。

首先研究執(zhí)行預(yù)訓(xùn)練的數(shù)據(jù)集的選擇。研究人員發(fā)現(xiàn)在ShapeNet或ScanNetV2上進(jìn)行預(yù)訓(xùn)練都可以提高性能，然而，由于ShapeNet的規(guī)模更大，即來自更多樣化類別的樣本，與ScanNetV2相比，對其進(jìn)行預(yù)訓(xùn)練可以獲得更好的結(jié)果。此外，研究中展示了組合兩個(gè)數(shù)據(jù)集以幫助預(yù)訓(xùn)練的可能性，擁有來自兩個(gè)數(shù)據(jù)集的對象，與使用單個(gè)數(shù)據(jù)集相比，可以獲得更好的微調(diào)結(jié)果。同時(shí)，研究人員研究了用于預(yù)訓(xùn)練的損失函數(shù)的影響。與PointContrast使用的point-level對比損失相比，可以通過instance-level對比損失獲得更好的預(yù)訓(xùn)練結(jié)果。這表明object-level對比學(xué)習(xí)可以通過結(jié)合更多instance-level知識更好地幫助下游定位任務(wù)。此外，由于ShapeNet中對象的標(biāo)簽易于訪問，還通過為對象的所有點(diǎn)分配相應(yīng)的對象標(biāo)簽來增加額外的分割損失。上述說明該研究中的無監(jiān)督預(yù)訓(xùn)練策略可以實(shí)現(xiàn)與合成數(shù)據(jù)集上的監(jiān)督預(yù)訓(xùn)練相當(dāng)?shù)男阅堋?/p>

可視化：通過可視化在VoteNet的檢測結(jié)果，如下圖所示，預(yù)訓(xùn)練的模型可以產(chǎn)生更準(zhǔn)確的檢測結(jié)果，錯(cuò)誤更少，并且更接近于真實(shí)邊界框。可視化的結(jié)果進(jìn)一步證實(shí)了所提出方法的有效性。

總結(jié)：

該研究提出了一種新的框架，RandomRoom，應(yīng)用于3D預(yù)訓(xùn)練，它可以利用合成的CAD模型數(shù)據(jù)集來幫助在高級3D對象檢測任務(wù)中學(xué)習(xí)真實(shí)數(shù)據(jù)集。與之前在點(diǎn)級別執(zhí)行對比學(xué)習(xí)的工作不同，該研究通過從CAD模型數(shù)據(jù)集中隨機(jī)采樣的同一組對象組合兩個(gè)不同的場景，在object-level執(zhí)行對比學(xué)習(xí)，并在多個(gè)基礎(chǔ)模型的3D檢測任務(wù)中提升了性能，尤其是在使用較少訓(xùn)練數(shù)據(jù)時(shí)。通過運(yùn)用豐富的語義知識和合成數(shù)據(jù)的多樣化對象，研究人員的方法在廣泛使用的3D檢測基準(zhǔn)ScanNetV2和SUN RGB-D上獲取了當(dāng)前最好的性能。除了這項(xiàng)工作，該研究可以為未來的研究開辟一條新途徑，即如何利用易于訪問的合成對象來執(zhí)行更復(fù)雜的3D場景理解任務(wù)。

備注：作者也是我們「3D視覺從入門到精通」特邀嘉賓：一個(gè)超干貨的3D視覺學(xué)習(xí)社區(qū)

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請聯(lián)系刪文。

標(biāo)簽：

RandomRooms：用于3D目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練方法（ICCV2021）的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

RandomRooms：用于3D目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練方法（ICCV2021）

RandomRooms：用于3D目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練方法（ICCV2021）的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

RandomRooms：用于3D目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練方法（ICCV2021）

本文作者的其他文章

RandomRooms：用于3D目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練方法（ICCV2021）的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

RandomRooms：用于3D目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練方法（ICCV2021）的評論 (共條)