ICCV 2023 I NDC-Scene:單目三維語義場景補全的新突破
作者:小張Tt ?| 來源:3D視覺工坊
在公眾號「3D視覺工坊」后臺,回復「原論文」可獲取論文pdf和代碼鏈接。
添加微信:dddvisiona,備注:三維測量,拉你入群。文末附行業(yè)細分群。
本文提出了一種新穎的歸一化設(shè)備坐標場景完成網(wǎng)絡(luò)(NDC-Scene),用于解決單目三維語義場景完成(SSC)中的幾個關(guān)鍵問題。通過將二維特征圖擴展到歸一化設(shè)備坐標空間,而不是直接擴展到世界空間,以及使用深度自適應(yīng)雙解碼器進行上采樣和融合,提出的方法在單目SSC任務(wù)中表現(xiàn)出色,并在室外SemanticKITTI和室內(nèi)NYUv2數(shù)據(jù)集上優(yōu)于最先進的方法。
讀者理解:
本文提出了一種新的方法,用于從單個圖像中預(yù)測復雜的語義和幾何形狀,而無需3D輸入。作者指出了當前最先進方法中存在的幾個關(guān)鍵問題,包括射線到3D空間中投影的2D特征的特征模糊性,3D卷積的姿態(tài)模糊性以及不同深度層次上3D卷積中的計算不平衡性。為了解決這些問題,作者設(shè)計了一種新穎的規(guī)范化設(shè)備坐標場景補全網(wǎng)絡(luò)(NDC-Scene),通過逐步恢復深度維度來將2D特征圖直接擴展到規(guī)范化設(shè)備坐標(NDC)空間,而不是直接擴展到世界空間。實驗結(jié)果表明,將大部分計算從目標3D空間轉(zhuǎn)移到提議的規(guī)范化設(shè)備坐標空間有助于單眼SSC任務(wù)。此外,作者設(shè)計了一個深度自適應(yīng)雙解碼器,用于同時上采樣和融合2D和3D特征圖,進一步提高了整體性能。廣泛的實驗證實了該方法在室外SemanticKITTI和室內(nèi)NYUv2數(shù)據(jù)集上始終優(yōu)于最先進的方法。這里也推薦「3D視覺工坊」新課程《保姆級線結(jié)構(gòu)光(單目&雙目)三維重建系統(tǒng)教程》。
作者貢獻如下:
根據(jù)在現(xiàn)有方法中注意到的關(guān)鍵問題,提出了一種基于歸一化設(shè)備坐標(NDC)空間的新方法,證明該空間是放置大部分3D計算單元的更好空間,而不是目標3D空間。
結(jié)合上述的相機空間預(yù)測,引入了一種創(chuàng)新的深度自適應(yīng)雙解碼器,用于聯(lián)合上采樣3D和2D特征并將它們進行整合,從而獲得更具韌性的表示。
實驗證明,所提出的方法在室內(nèi)外數(shù)據(jù)集上明顯優(yōu)于最先進的單目語義場景完成方法。
語義場景補全(SSC)是3D場景理解中的關(guān)鍵任務(wù),具有虛擬現(xiàn)實、具身人工智能、自動駕駛等廣泛應(yīng)用。然而,大部分現(xiàn)有的SSC解決方案依賴于RGB圖像和相應(yīng)的3D輸入,如深度圖像、截斷有符號距離函數(shù)(TSDF)等,以預(yù)測體積占用和對應(yīng)的語義標簽。最近,單目3D語義場景補全引起了越來越多的關(guān)注,旨在從單個RGB圖像重建3D場景,從而消除了對額外3D輸入的需求。然而,現(xiàn)有方法存在Feature-Size Ambiguity(FSA)、Feature-Depth Ambiguity(FDA)和Pose Ambiguity(PA)等模糊性。為了解決這些問題,作者提出了一種名為NDCScene的新型框架。作者使用歸一化設(shè)備坐標(NDC)空間直接恢復3D特征圖,從而解決了FSA和FDA產(chǎn)生的問題。此外,為了解決PA和CI問題,作者將大部分計算單元從目標3D空間轉(zhuǎn)移到NDC空間。在大規(guī)模的室內(nèi)和室外數(shù)據(jù)集上進行的實驗證明了作者方法的優(yōu)越性。


單視角三維重建的相關(guān)工作主要集中在從單個RGB圖像中推斷出物體級別或場景級別的三維幾何形狀。已有的方法主要關(guān)注單個物體的重建,通過編碼器-解碼器結(jié)構(gòu)學習顯式或隱式的三維物體表示,并重建物體的體積或表面幾何。一些工作將單個物體的三維重建擴展到多物體場景中。對于場景級重建,一些方法將整體布局和物體估計結(jié)合起來,得到場景稀疏整體的三維重建,也有一些方法將2D全景分割的特征提升到三維,實現(xiàn)室內(nèi)場景的密集估計。然而,現(xiàn)有方法在各種類型的場景中仍然存在一些問題,如稠密重建的性能和魯棒性。另外,還有一些關(guān)于3D語義場景完成的研究,旨在通過不完整的視覺觀察共同推斷場景的幾何和語義信息。一些先前的工作在室內(nèi)小規(guī)模場景上取得了令人滿意的結(jié)果,但是在大規(guī)模室外場景和室內(nèi)場景中仍存在一定局限性。此外,許多現(xiàn)有方法需要額外的幾何輸入,如深度圖像、激光雷達點云和截斷有符號距離函數(shù),但這些要求限制了方法的應(yīng)用范圍。最近的一些工作嘗試通過僅使用單視角RGB圖像作為輸入進行場景完善,實現(xiàn)了不錯的性能和泛化能力。但是現(xiàn)有方法在將共享的2D特征提升到3D射線中時仍存在一些局限性。為了解決這些問題,本方法提出了一種深度自適應(yīng)雙解碼器,以更加穩(wěn)健的方式在不同深度上恢復體素特征,從而在所有深度上具有強大的占用和語義表示能力。
本文介紹了一種針對單目3D語義場景補全任務(wù)的方法。所提出的方法通過在歸一化設(shè)備坐標空間中進行深度重建操作,避免了投影中的大小和深度的模糊性問題,并通過對3D卷積的2D投影進行均勻分配,捕捉了接近場景中豐富細節(jié)的結(jié)構(gòu)表示。同時,通過深度自適應(yīng)的雙解碼器,實現(xiàn)了更強大的3D語義表示。實驗證明將大部分的3D計算成本轉(zhuǎn)移到歸一化設(shè)備坐標空間中,可以顯著提升性能。

本文提出了一種解決單目SSC中特征模糊性、姿態(tài)模糊性和不平衡的計算分配問題的方法。通過引入標準化設(shè)備坐標空間,使得3D卷積操作具有一致的范圍,并在2D空間中均勻分配計算資源。此外,通過深度的漸進恢復,提供了更強的語義表示能力。實驗證明,該方法在單目SSC任務(wù)中取得了良好的性能。
本文介紹了一種深度自適應(yīng)雙解碼器(DADD),用于在規(guī)范化設(shè)備坐標空間中實現(xiàn)穩(wěn)健的語義表示。DADD通過在兩個解碼器層的兩個分支中同時進行2D和3D特征圖的上采樣,并使用深度自適應(yīng)注意力模塊將2D特征融合到3D特征中。通過實驗證明,這種方法在性能上有明顯的提升。此外,文章還介紹了深度自適應(yīng)注意力模塊的設(shè)計,以便于靈活地決定每個視野深度的3D特征在2D特征中的投影位置。這種方法有助于恢復深度場景的穩(wěn)健表示。


本文介紹了NDC-Scene的實驗評估,使用了NYUv2和SemanticKITTI數(shù)據(jù)集,對比了不同的SSC基線方法,并展示了NDC-Scene在幾何和語義方面的優(yōu)越性能。定性評估結(jié)果顯示,NDC-Scene能夠處理多樣化形狀的物體,實現(xiàn)更精確的場景布局和實例級信息。此外,消融研究驗證了NDC-Scene在解決特征模糊、姿態(tài)模糊和計算不平衡問題方面的能力。這里也推薦「3D視覺工坊」新課程《保姆級線結(jié)構(gòu)光(單目&雙目)三維重建系統(tǒng)教程》。


本研究全面探討了單目三維語義場景補全中當前最先進技術(shù)所面臨的關(guān)鍵挑戰(zhàn)。為了克服這些挑戰(zhàn),提出了一種新穎的標準化設(shè)備坐標(Normalized Device Coordinates,NDC)空間預(yù)測技術(shù),通過逐步使用反卷積操作恢復深度維度,將二維特征圖有效地擴展到三維空間。通過將大部分計算從目標三維空間轉(zhuǎn)移到提出的標準化設(shè)備坐標空間,所提出的方法在單目SSC任務(wù)中實現(xiàn)了性能的提升。此外,本研究還提出了一種深度自適應(yīng)雙解碼器,通過同時上采樣和融合二維和三維特征圖,進一步提高了整體性能。
ICCV 2023 I NDC-Scene:單目三維語義場景補全的新突破的評論 (共 條)
