最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

RandomRooms:用于3D目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練方法(ICCV2021)

2021-11-14 17:55 作者:3D視覺工坊  | 我要投稿

論文標(biāo)題:RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection

論文地址:
https://arxiv.org/abs/2108.07794

作者:夏初|來源微信公眾號:3D視覺工坊

CV2021)" data-size="708805" width="929" height="854">


摘要:近年來,三維點(diǎn)云理解取得了一定的進(jìn)展。然而,一個(gè)主要的瓶頸是有注釋的真實(shí)數(shù)據(jù)集的稀缺,尤其是與2D目標(biāo)檢測任務(wù)相比,因?yàn)閷ψ⑨寛鼍暗恼鎸?shí)掃描需要大量的人力。解決這一問題的一個(gè)方法是利用由計(jì)算機(jī)輔助設(shè)計(jì)對象模型組成的合成數(shù)據(jù)集來實(shí)現(xiàn)在真實(shí)數(shù)據(jù)集上的學(xué)習(xí),上述方法可以采用預(yù)訓(xùn)練和微調(diào)程序?qū)崿F(xiàn)。但是,當(dāng)將在合成目標(biāo)上學(xué)習(xí)的特征轉(zhuǎn)移到真實(shí)世界中應(yīng)用時(shí),往往會失敗。在這項(xiàng)工作中,研究人員提出了一種新的方法,通過利用合成計(jì)算機(jī)輔助設(shè)計(jì)數(shù)據(jù)集中的目標(biāo)來生成場景的隨機(jī)布局,并且通過對從同一組合成目標(biāo)生成的兩個(gè)隨機(jī)場景應(yīng)用object-level對比學(xué)習(xí)來學(xué)習(xí)3D場景表示,用于為后期微調(diào)提供更好的初始化。從經(jīng)驗(yàn)上看,該方法在幾個(gè)基本模型上的下游3D檢測任務(wù)上的性能具有提升,尤其是當(dāng)使用較少的訓(xùn)練數(shù)據(jù)時(shí),上述結(jié)果證明了該研究方法的有效性和通用性。通過運(yùn)用豐富的語義知識和合成數(shù)據(jù)的多樣化對象,研究人員的方法在廣泛使用的3D檢測基準(zhǔn)ScanNetV2和SUN RGB-D上獲取了當(dāng)前最好的性能。研究人員期望該方法有望為目標(biāo)和場景級別的3D理解提供新的視角。

研究貢獻(xiàn):

在這項(xiàng)工作中,研究人員提出了一個(gè)新的框架,旨在對下游3D對象檢測任務(wù)進(jìn)行微調(diào)之前,先使用合成CAD模型數(shù)據(jù)集(即ShapeNet)進(jìn)行三維預(yù)訓(xùn)練。為此,研究人員提出了RandomRooms的方法,其中,研究人員建議使用從ShapeNet數(shù)據(jù)集中隨機(jī)抽樣的一組對象生成兩種不同的場景布局,然后在object-level對兩者進(jìn)行對比學(xué)習(xí)。

研究方法:

1.合成對象

與ScanNetV2相比,ScanNetV2包含17個(gè)類別的15000個(gè)對象,ShapeNet提供更為豐富的數(shù)據(jù)源,包含55個(gè)類別的52000個(gè)對象。因此,本研究的主要目標(biāo)是研究如何使用ShapeNet收集的合成CAD模型來改進(jìn)下游任務(wù),如真實(shí)數(shù)據(jù)集上的3D檢測和分割。

現(xiàn)有研究不足:之前的研究工作直接在ShapeNet上進(jìn)行預(yù)訓(xùn)練無法提高下游檢測和分割任務(wù)的性能,主要原因可能是ShapeNet上的單個(gè)對象分類任務(wù)與真實(shí)數(shù)據(jù)集上的多對象局部化任務(wù)之間存在差距。為了彌補(bǔ)這一差距,研究人員建議利用合成對象生成偽場景(RandomRooms),以構(gòu)建有助于場景級理解的訓(xùn)練數(shù)據(jù)。

具體操作步驟

1)對象增強(qiáng):研究人員首先將對象調(diào)整為[0.5m,2.0m]的隨機(jī)大小,以確保對象與ScanNetV2中的對象具有相似的大小。然后,研究人員應(yīng)用了常用的對象點(diǎn)云掃描技術(shù),包括旋轉(zhuǎn)等。

2)布局生成:為了便于生成布局,研究人員將對象放置在矩形房間中。房間的大小根據(jù)增強(qiáng)對象的總面積自適應(yīng)調(diào)整。布局基于兩個(gè)簡單的原則生成:(1)不重疊:任何兩個(gè)對象不應(yīng)占據(jù)房間中的同一空間;(2)根據(jù)重力原則,物體不應(yīng)漂浮在空中,較大的物體不應(yīng)置于較小的物體之上。對于每個(gè)對象,研究人員首先隨機(jī)選擇X-Y平面上滿足上述原則的位置,然后根據(jù)位置的當(dāng)前最大高度確定位置(Z值)。如果當(dāng)前位置的最大高度超過2米,物體將不會被放置在某個(gè)位置。

3)場景增強(qiáng):研究人員對整個(gè)場景應(yīng)用數(shù)據(jù)增強(qiáng),如繞Z軸旋轉(zhuǎn)等。為了使生成的場景更接近真實(shí)場景,研究人員還添加了地板和墻壁作為混淆因素。

示例圖像如下圖所示。


2.運(yùn)用Random Rooms進(jìn)行表示學(xué)習(xí)

為了利用生成的隨機(jī)房間,研究人員設(shè)計(jì)了一種object-level對比學(xué)習(xí)(OCL)方法,該方法學(xué)習(xí)區(qū)分性表示而無需類別標(biāo)注,整體框架如下圖所示。

CV2021)" data-size="334315" width="1080" height="439">


研究中給定n個(gè)隨機(jī)采樣對象,根據(jù)上述步驟生成2個(gè)隨機(jī)房間,采用點(diǎn)云編碼器-解碼器網(wǎng)絡(luò)提取設(shè)定的2個(gè)場景中的特征。為了獲得每個(gè)對象的特征,研究中對屬于該對象的每點(diǎn)特征應(yīng)用平均池化操作:

CV2021)" data-size="48719" width="1080" height="79">


然后類似于對比學(xué)習(xí)中的常見做法,使用多層感知器和L2歸一化將對象特征投影到單位超球面上,Object-level對比學(xué)習(xí)目標(biāo)可以寫成:

CV2021)" data-size="99287" width="724" height="330">


實(shí)驗(yàn):

表示學(xué)習(xí)的一個(gè)主要目標(biāo)是學(xué)習(xí)能夠轉(zhuǎn)移到下游任務(wù)的表征。為了將研究人員的Random Rooms方法應(yīng)用于對于場景級別的理解(如3D目標(biāo)檢測),研究人員結(jié)合了無監(jiān)督預(yù)訓(xùn)練和監(jiān)督微調(diào)。具體來說,研究人員首先使用本研究方法在ShapeNet上預(yù)訓(xùn)練主干模型,然后使用預(yù)訓(xùn)練的權(quán)重作為初始化,并在下游3D對象檢測任務(wù)中進(jìn)一步微調(diào)模型。

(1) 預(yù)訓(xùn)練設(shè)置

研究人員對ShapeNet進(jìn)行了預(yù)訓(xùn)練,ShapeNet是一個(gè)由55個(gè)常見類別的3D CAD模型表示的具有豐富注釋的形狀組成的數(shù)據(jù)集。要生成隨機(jī)房間,研究人員首先需要從數(shù)據(jù)集中隨機(jī)采樣多個(gè)對象。研究人員采樣的對象數(shù)是一個(gè)從12到18的隨機(jī)整數(shù),與ScanNetV2場景中的平均對象數(shù)相似。然后,對于每個(gè)采樣對象,研究人員執(zhí)行隨機(jī)房間生成算法,采用object-level對比學(xué)習(xí)損失以無監(jiān)督的方式對模型進(jìn)行訓(xùn)練.

對于下游3D目標(biāo)檢測任務(wù),研究人員使用了其他研究中的主干模型,該模型以40000個(gè)點(diǎn)作為輸入點(diǎn)。根據(jù)相應(yīng)的網(wǎng)絡(luò)模型配置,研究人員使用1024點(diǎn)特征作為主干模型的輸出,并對該特征進(jìn)行對比學(xué)習(xí)。在訓(xùn)練期間,研究人員使用初始學(xué)習(xí)率為0.001的Adam優(yōu)化器,對模型進(jìn)行了300個(gè)epoch的訓(xùn)練,在第100次和第200次epoch時(shí),學(xué)習(xí)率乘以0.1,batch size設(shè)置為16,這樣在每次迭代中,大約200~300個(gè)對象參與對比學(xué)習(xí)。

(2) 3D物體檢測

數(shù)據(jù)集:研究人員在兩個(gè)廣泛使用的3D檢測基準(zhǔn)上進(jìn)行了實(shí)驗(yàn),ScanNetV2和SUNRGBD。ScanNetV2是一個(gè)具有豐富注釋的室內(nèi)場景三維重建網(wǎng)格數(shù)據(jù)集。它包含1513個(gè)掃描和重建的真實(shí)場景,由18個(gè)不同大小和形狀的不同類別的對象組成。目前,它是使用輕型RGB-D掃描程序創(chuàng)建的最大的一個(gè)數(shù)據(jù)集。然而,與2D視覺中的數(shù)據(jù)集相比,它的規(guī)模仍然小得多。研究人員將整個(gè)數(shù)據(jù)集劃分為兩個(gè)子集,分別有1201和312個(gè)場景,用于以下訓(xùn)練和測試。

SUN RGB-D是用于三維場景理解的單視圖RGB-D數(shù)據(jù)集。它包含10335個(gè)室內(nèi)RGB和深度圖像,帶有對象邊界框和帶有10種不同對象類別的語義標(biāo)簽。研究人員也嚴(yán)格遵循相應(yīng)的拆分方法,5285個(gè)樣本作為訓(xùn)練數(shù)據(jù),5050個(gè)樣本作為測試數(shù)據(jù)。

檢測模型:研究人員將本方法與最近提出的兩種最先進(jìn)的方法進(jìn)行了比較:一種是VoteNet,另一個(gè)是H3DNet。它們都以無色的3D點(diǎn)云作為輸入。研究人員還將GSPN、3D-SIS、DSS、F-PointNet、2D-driven和Cloud of gradient等使用其他類型的信息進(jìn)行目標(biāo)檢測的信息納入比較。

消融研究:如下表所示,研究人員進(jìn)行了三組消融研究,都是在以VoteNet為主干的 ScanNetV2數(shù)據(jù)集上進(jìn)行的,使用mAP@0.25作為評估指標(biāo)。

首先研究執(zhí)行預(yù)訓(xùn)練的數(shù)據(jù)集的選擇。研究人員發(fā)現(xiàn)在ShapeNet或ScanNetV2上進(jìn)行預(yù)訓(xùn)練都可以提高性能,然而,由于ShapeNet的規(guī)模更大,即來自更多樣化類別的樣本,與ScanNetV2相比,對其進(jìn)行預(yù)訓(xùn)練可以獲得更好的結(jié)果。此外,研究中展示了組合兩個(gè)數(shù)據(jù)集以幫助預(yù)訓(xùn)練的可能性,擁有來自兩個(gè)數(shù)據(jù)集的對象,與使用單個(gè)數(shù)據(jù)集相比,可以獲得更好的微調(diào)結(jié)果。同時(shí),研究人員研究了用于預(yù)訓(xùn)練的損失函數(shù)的影響。與PointContrast使用的point-level對比損失相比,可以通過instance-level對比損失獲得更好的預(yù)訓(xùn)練結(jié)果。這表明object-level對比學(xué)習(xí)可以通過結(jié)合更多instance-level知識更好地幫助下游定位任務(wù)。此外,由于ShapeNet中對象的標(biāo)簽易于訪問,還通過為對象的所有點(diǎn)分配相應(yīng)的對象標(biāo)簽來增加額外的分割損失。上述說明該研究中的無監(jiān)督預(yù)訓(xùn)練策略可以實(shí)現(xiàn)與合成數(shù)據(jù)集上的監(jiān)督預(yù)訓(xùn)練相當(dāng)?shù)男阅堋?/p>

CV2021)" data-size="207903" width="1080" height="249">


可視化:通過可視化在VoteNet的檢測結(jié)果,如下圖所示,預(yù)訓(xùn)練的模型可以產(chǎn)生更準(zhǔn)確的檢測結(jié)果,錯(cuò)誤更少,并且更接近于真實(shí)邊界框。可視化的結(jié)果進(jìn)一步證實(shí)了所提出方法的有效性。

CV2021)" data-size="439774" width="1080" height="404">


總結(jié):

該研究提出了一種新的框架,RandomRoom,應(yīng)用于3D預(yù)訓(xùn)練,它可以利用合成的CAD模型數(shù)據(jù)集來幫助在高級3D對象檢測任務(wù)中學(xué)習(xí)真實(shí)數(shù)據(jù)集。與之前在點(diǎn)級別執(zhí)行對比學(xué)習(xí)的工作不同,該研究通過從CAD模型數(shù)據(jù)集中隨機(jī)采樣的同一組對象組合兩個(gè)不同的場景,在object-level執(zhí)行對比學(xué)習(xí),并在多個(gè)基礎(chǔ)模型的3D檢測任務(wù)中提升了性能,尤其是在使用較少訓(xùn)練數(shù)據(jù)時(shí)。通過運(yùn)用豐富的語義知識和合成數(shù)據(jù)的多樣化對象,研究人員的方法在廣泛使用的3D檢測基準(zhǔn)ScanNetV2和SUN RGB-D上獲取了當(dāng)前最好的性能。除了這項(xiàng)工作,該研究可以為未來的研究開辟一條新途徑,即如何利用易于訪問的合成對象來執(zhí)行更復(fù)雜的3D場景理解任務(wù)。

備注:作者也是我們「3D視覺從入門到精通」特邀嘉賓:一個(gè)超干貨的3D視覺學(xué)習(xí)社區(qū)

本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。


RandomRooms:用于3D目標(biāo)檢測的無監(jiān)督預(yù)訓(xùn)練方法(ICCV2021)的評論 (共 條)

分享到微博請遵守國家法律
旺苍县| 大英县| 怀集县| 邵阳县| 宁化县| 屯门区| 四川省| 宣威市| 哈巴河县| 乐安县| 泾源县| 罗田县| 磐石市| 梓潼县| 鄄城县| 长治县| 都安| 怀远县| 庆云县| 蒲江县| 尉犁县| 浦东新区| 泸州市| 忻城县| 象州县| 博客| 天等县| 沁源县| 隆安县| 泾阳县| 郁南县| 武冈市| 汕头市| 太白县| 东阿县| 漯河市| 崇明县| 泽州县| 平泉县| 吉水县| 河津市|