化繁為簡:從復(fù)雜RGB場景中抽象出簡單的3D幾何基元(CVPR 2021)
Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images (CVPR 2021)代碼地址:https://github.com/fkluger/cuboids_revisited
作者:PCB_Segmen |來源:微信公眾號「3D視覺工坊」
1、背景
如何用簡單的基于部分的表示來抽象表達(dá)出復(fù)雜3D場景中的幾何基元布局一直是計算機(jī)視覺領(lǐng)域的目標(biāo)之一。人類可以通過簡單形狀基元(如立方體或幾何圖形)的渲染來理解復(fù)雜的場景。例如,一所房子是由磚塊和方木制成的,一本書是由長方形組合而成的立方體。同時,人類還可以通過將環(huán)境分解為立方體、圓柱體、橢圓體和其他簡單的體積基元的排列組合,實現(xiàn)在視覺上抽象的表征現(xiàn)實世界的環(huán)境。這種3D世界的抽象表達(dá)對于具有視覺感知的機(jī)器人也非常有用。自計算機(jī)視覺問世以來,基于幾何形狀基元的場景表示一直都是一個值得研究的話題。人類總是希望感知現(xiàn)實世界并將其構(gòu)建為簡單幾何參數(shù)模型的組合,如圖1所示。尤其是在一些人造環(huán)境,我們總是可以看到由幾何元素基元組成的實體,例如立方體或圓柱體。因此正確推斷出這些幾何基元是獲得高級抽象場景描述的重要步驟。


圖1 簡單的3D幾何基元分析近年來,隨著深度學(xué)習(xí)領(lǐng)域的快速發(fā)展,從單張圖像進(jìn)行高質(zhì)量3D重建已經(jīng)成為可能。大多數(shù)方法可以從RGB圖像中恢復(fù)3D信息,例如深度和網(wǎng)格信息。但很少有工作考慮更簡潔的3D形狀描述。現(xiàn)有工作的3D形狀解析器適用于孤立對象,但不能推廣到更復(fù)雜的現(xiàn)實世界場景(參見圖2)。以前的方法直接從2D或3D輸入端估計形狀參數(shù),并且只能再現(xiàn)簡單的幾何對象,但無法在更復(fù)雜的3D場景實現(xiàn)物體的準(zhǔn)確解析。相比之下,本文提出了一種用于幾何基元擬合的魯棒估計器,它可以使用立方體有意義地抽象現(xiàn)實世界環(huán)境。由神經(jīng)網(wǎng)絡(luò)引導(dǎo)的RANSAC估計器將這些幾何基元擬合到3D特征上,例如深度信息。作者根據(jù)之前檢測到的部分場景來調(diào)節(jié)網(wǎng)絡(luò),從而逐一解析它。為了從單個RGB圖像中獲取3D特征,作者還以端到端的方式優(yōu)化了特征提取CNN。然而,直接最小化點到原始距離會導(dǎo)致大的或錯誤的立方體遮擋后面的部分場景。因此,作者還提出了一種能夠正確處理不透明場景的遮擋感知距離度量。所提出的算法不需要大量的標(biāo)簽用于訓(xùn)練。在具有挑戰(zhàn)性的 NYU Depth v2 數(shù)據(jù)集上的結(jié)果表明,所提出的算法成功地抽象出了雜亂真實世界中的3D場景布局。

圖2 基于幾何基元的場景抽象:研究者通過解析現(xiàn)實世界場景的圖像(a),使用立方體(c)生成其3D結(jié)構(gòu)的抽象。同時該方法能夠比以前基于超二次曲線的工作(b)更準(zhǔn)確地捕獲場景結(jié)構(gòu)。
本文主要貢獻(xiàn)如下:
?提出了一種3D場景解析器,可以處理比以前的3D場景抽象工作更復(fù)雜的真實場景。
?提出了一種針對不透明場景的遮擋感知距離度量。
?解決了關(guān)于輸入特征立方體梯度的解析推導(dǎo),可以通過提出的最小求解器規(guī)避不可行的反向傳播,從而實現(xiàn)端到端訓(xùn)練。
?方法不需要大量的立方體或?qū)ο笞⑨寴?biāo)簽,從而可以在現(xiàn)成的數(shù)據(jù)上進(jìn)行訓(xùn)練。
2、核心思想
作者通過將一組形狀基元M擬合到特征Y來解決抽象目標(biāo)場景Z的問題,這些特征Y可以直接提供,也可以從觀測數(shù)據(jù)X中提取。這里,Z表示GT深度或其對應(yīng)的點云,X是與Z對齊的場景的RGB圖像。特征Y等于Z,或者如果Z未知,則通過函數(shù)Y=fv (X)估計。函數(shù)fv通過具有參數(shù)v的神經(jīng)網(wǎng)絡(luò)實現(xiàn)。每個基元h∈M是一個具有可變大小和位姿的立方體。有關(guān)X、Y和M的處理流程示例,見圖3。

圖3 ? 方法概述:給定觀察值X(RGB圖像),本文使用參數(shù)為v的神經(jīng)網(wǎng)絡(luò)預(yù)測3D特征Y(深度圖)。對于每個特征y∈Y,以狀態(tài)s為條件,參數(shù)為w的第二個神經(jīng)網(wǎng)絡(luò)預(yù)測采樣權(quán)重p(y|s;w)∈Q。使用這些權(quán)重,基于RANSAC的估計器對最小的特征集進(jìn)行采樣,并生成基元(立方體)假設(shè)H。選擇最佳假設(shè)h^∈H并將其附加到先前的集合中恢復(fù)幾何基元集M。最后根據(jù)M,更新狀態(tài)s并重復(fù)該過程以逐步恢復(fù)場景中所有幾何基元。對于幾何基元擬合,作者在Kluger等人的魯棒多模型估計器的基礎(chǔ)上建立估計模型。該估計器通過具有參數(shù)w的神經(jīng)網(wǎng)絡(luò)從觀測值Y和狀態(tài)s預(yù)測采樣權(quán)重p=fw(Y,s),這些參數(shù)是從數(shù)據(jù)中學(xué)習(xí)得到的。所提方法根據(jù)p從Y中采樣最小特征集,并通過最小求解器fh擬合基元假設(shè)集H。從這些假設(shè)中,作者根據(jù)內(nèi)部標(biāo)準(zhǔn)選擇最佳基元h^∈H,并將其添加到當(dāng)前基元集M中。然后基于M更新狀態(tài)s并預(yù)測新的采樣權(quán)重p以便采樣和選擇下一個基元。如圖3所示,這個過程被重復(fù),直到所有的幾何基元都被一一地找到。與Kluger工作不同的是,作者以端到端的方式與特征提取器fv聯(lián)合學(xué)習(xí)采樣權(quán)重預(yù)測器fw的參數(shù)。需要指出的是,在這項工作中處理的場景是使用RGB-D相機(jī)拍攝的,只有2.5D信息,即場景只包含可見部分的3D信息,而沒有關(guān)于被遮擋部分的信息。因此,沒有完整的3D形狀可用作場景的GT。這一事實可能會導(dǎo)致計算過程中選擇錯誤、過大或不合適的基元,出于這個原因,作者提出了遮擋感知距離和內(nèi)部指標(biāo),如圖4所示。

圖4 遮擋情況說明:給定一個點云(?)、兩個立方體(A和B)和一個觀察場景的攝像機(jī)。立方體A更適合,因為它不遮擋任何點。
A.特征提?。?/strong>為了將3D形狀(例如立方體)擬合到RGB圖像X中,必須從X中提取3D特征Y。這里使用深度估計器fv,它以像素深度圖的形式為我們提供所需的特征Y=fv(X)。深度估計器通過具有參數(shù)v的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)。然后使用已知的相機(jī)內(nèi)參K通過反向投影將Y轉(zhuǎn)換為點云。
B.立方體參數(shù)化:立方體由其形狀(ax,ay,az)和位姿(R,t)描述。形狀對應(yīng)于以立方體為中心的坐標(biāo)系中的寬度、高度和長度,而其位姿將后者轉(zhuǎn)換為世界坐標(biāo)系。作者用角軸符號r=θu表示旋轉(zhuǎn)R。旋轉(zhuǎn)矩陣有9個未知量,因此需要至少9個點集來估計基元。
點到立方體的距離。在計算點y=(x,y,z)T和立方體h=(ax,ay,az,R,t)之間的距離時,作者首先將y轉(zhuǎn)換為以立方體為中心的坐標(biāo)系:y^=R(y-t)。然后計算它到立方體表面的平方距離:。

類似地,可以計算點到立方體六個獨立邊中的任何一個的距離。例如,將與 x 軸正方向正交的平面定義為第一邊,可以將點 y 到它的距離定義為:

距離立方體的其他邊的距離 dP2, . . . , dP6以此類推完成計算。
遮擋處理。在處理僅具包含場景可見部分的2.5D數(shù)據(jù)時,只計算最小的點到立方體的距離是不夠的。圖4給出了一個直觀的例子:所有點到立方體A或B的最近表面的平均距離是相同的。但是,立方體B的可見表面會遮擋所有點,而無法表示場景中存在的任何結(jié)構(gòu)。另一方面,立方體A不遮擋任何點,其可見表面非常適合場景中的實際結(jié)構(gòu)。盡管其表面的其他部分也不代表任何結(jié)構(gòu),但它們是自遮擋的,因此不會影響結(jié)果。綜上,立方體A比立方體B更適合。
遮擋感知點到立方體距離。為了正確評估有遮擋的場景,作者提出了一個遮擋感知的點到立方體距離:給定一個點y和一組立方體 M = {h1, . . . , h|M|},作者計算它到最遠(yuǎn)端的遮擋表面的距離。

如果y完全沒有被遮擋,這個距離自然會變?yōu)榱?。因此將點到一組立方體的遮擋感知距離定義為:

C.魯棒的擬合:為了在可能有噪聲的3D特征y∈Y中更加魯棒地擬合一組立方體M={h1, . . . ,h|M|},作者在Kluger等人的魯棒多模型擬合方法的基礎(chǔ)上,構(gòu)建以下過程:
1.采樣。使用神經(jīng)網(wǎng)絡(luò)fw從數(shù)據(jù)Y中預(yù)測采樣權(quán)重集合p。在Kluger等人的工作中,每一步都預(yù)測一組采樣權(quán)重p(Y|M)。理想情況下,這些權(quán)重應(yīng)該突出Y中的單個結(jié)構(gòu)并抑制其余結(jié)構(gòu)。但是,一個場景中往往存在多個重要結(jié)構(gòu)。因此,首先需要強(qiáng)調(diào)和采樣的結(jié)構(gòu)可能無法被正確識別。為了解決這個問題,作者將網(wǎng)絡(luò)改為預(yù)測幾組采樣權(quán)重Q={p1, . . . ,pQ}和相應(yīng)的選擇概率q(Y|M)∈RQ,如圖5所示。首先,根據(jù)q隨機(jī)選擇一個抽樣權(quán)重集p∈Q。然后根據(jù)選定的采樣權(quán)重p對最小的特征集進(jìn)行采樣,以生成立方體假設(shè)。這樣就可以實現(xiàn)網(wǎng)絡(luò)一次突出顯示多個結(jié)構(gòu),而不會相互干擾。使用這些采樣權(quán)重,基于RANSAC的估計器會生成一個立方體實例h,我們將其附加到M。

圖5 采樣權(quán)重:對于每張圖像,預(yù)測多組采樣權(quán)重 Q = {p1, . . . ,pQ}和相應(yīng)的選擇概率q= [q1, . . . ,qQ]。在這個例子中,前三個采樣權(quán)重集大致覆蓋了場景的不同部分。第四組 p4 沒有覆蓋大部分場景,但其被選擇的概率也最低。
2. 擬合。給定最小的采樣特征集S = {y1, . . . ,yC} ? Y,作者想要找到一個立方體h = fh(S)的參數(shù),使其最適合擬合這些場景特征。為此作者通過一個目標(biāo)函數(shù)定義最小求解器fh:

3. 以M為條件,通過fw更新采樣權(quán)重p并生成下一個立方體實例。多次重復(fù)這些步驟,直到所有立方體都被一一恢復(fù)。圖3給出了算法的概述,圖6更詳細(xì)地描述了采樣和擬合階段。

圖6 采樣和擬合:(1)使用采樣權(quán)重Q對最小的特征集S?Y進(jìn)行采樣。(2)通過最小求解器fh內(nèi),初始化立方體參數(shù)h0。(3)使用方程迭代優(yōu)化參數(shù),產(chǎn)生一個假設(shè)h。(4)同時計算多個立方體假設(shè),產(chǎn)生一組假設(shè)H。(5)使用遮擋感知內(nèi)點數(shù)量,選擇最佳假設(shè)h^(6)將假設(shè)集添加到恢復(fù)的立方體集合M中。
3、主要實驗結(jié)果展示
數(shù)據(jù)集。本文的實驗主要在NYU Depth v2 數(shù)據(jù)集進(jìn)行定性和定量結(jié)果分析。該場景它包含1449張室內(nèi)場景圖像,并使用Kinect相機(jī)記錄相應(yīng)的GT深度。其中654幅圖像用于測試,795幅圖像用于訓(xùn)練,其中作者保留195幅用于實驗驗證。實
施細(xì)節(jié)。對于RGB圖像輸入的實驗,作者使用在NYU預(yù)訓(xùn)練的BTS深度估計器作為特征提取網(wǎng)絡(luò)。以GT深度作為輸入對樣本權(quán)重估計網(wǎng)絡(luò)進(jìn)行20個epoch的預(yù)訓(xùn)練,這也是用于深度輸入實驗的網(wǎng)絡(luò)。然后,繼續(xù)使用RGB輸入對兩個網(wǎng)絡(luò)進(jìn)行25個epoch的端到端訓(xùn)練。對于立方體擬合,作者通過應(yīng)用Adam優(yōu)化器執(zhí)行梯度下降來實現(xiàn)最小求解器。
評價標(biāo)準(zhǔn)。以前的方法使用倒角距離和體積IoU評估結(jié)果。然而,這些工作處理的是完整3D形狀,而本文是將3D幾何基元擬合到只有2.5D數(shù)據(jù)的真實場景中。因此,作者使用提出的遮擋感知距離度量(簡稱OA-L2)進(jìn)行評估。具體為計算每個場景中所有真實點到恢復(fù)的幾何基元的遮擋感知距離。使用這些距離標(biāo)準(zhǔn),計算多個上限(50cm、20cm、10cm、5cm)的召回曲線下的相對面積(AUC,百分比)。與平均距離相比,AUC值受異常值的影響較小。此外,作者還對比了平均OA-L2以及常規(guī)L2距離的平均值。由于所提方法是基于隨機(jī)采樣的,因此計算了所有指標(biāo)在五次運行中的均值和方差。
A.定性評估:
在圖7的第3-5行中,作者展示了所提方法預(yù)測的測試場景的立方體抽象渲染結(jié)果。第三行是從與原始圖像相同的角度渲染的,而第四行和第五行分別顯示俯視圖和側(cè)視圖。正如這些示例所示,作者的方法能夠恢復(fù)場景關(guān)鍵元素的立方體,例如墻壁、地板、櫥柜、柜臺或桌子。所提方法通常首先恢復(fù)覆蓋圖像較大部分的立方體。但該方法也并不總能成功捕獲所有對象的體積屬性,例如第五列中的冰箱,它由兩個幾乎在同一平面的立方體表示。此外,偶爾會出現(xiàn)錯誤的、非常薄的立方體估計,例如最后一列中與桌子相交的立方體。

圖7 ? 定性結(jié)果。第一行:RGB輸入圖像。第二行和第三行:使用提出的方法獲得的立方體(分別與原始圖像和俯視圖相同的視圖)。顏色代表選擇立方體的順序,分別為:紅色、藍(lán)色、綠色、紫色、青色、橙色。覆蓋大部分圖像的立方體通常優(yōu)先選擇。第四行:立方體與真實深度之間的OA-L2距離。較大的距離是由于缺少或遮擋立方體。最后一行:超二次曲線結(jié)果。該方法獲取的抽象基元非?;靵y,幾乎不能代表原始場景。作者提出的算法可以推斷出更緊密地代表原始場景的抽象基元。
B.定量評估:
表1 NYU上的定量結(jié)果:在 NYU Depth v2上評估RGB和深度輸入。將所提的方法與SQ-Parsing和SequentialRANSAC的變體進(jìn)行比較。作者提出了遮擋感知(OA)L2距離的各種上限的AUC值(越高越好)。同時還對比了平均OA-L2和常規(guī)L2距離(越低越好)。

表 ?1 給出了在 NYU Depth v2 ? 測試集上的RGB和深度輸入的定量分析結(jié)果。對于深度輸入,所提方法比SequentialRANSAC實現(xiàn)了明顯更高的AUC值。Sequential ? RANSAC在AUC上的性能優(yōu)于SQ-Parsing。所提方法在整個范圍內(nèi)也比SQ-Parsing有著更高的AUC值。作者的方法具有較低的平均L2和遮擋感知L2距離,分別提高了3.0cm(14.3%)和13.9cm(40.0%)。對于RGB輸入,表1顯示SQ-Parsing+BTS,即深度輸入與單目深度估計器的組合,比[45]的RGB變體表現(xiàn)更好。這意味著[45]的基于圖像的編碼器網(wǎng)絡(luò)不能像[30]那樣從圖像中提取3D信息。然而,所提的方法也大大優(yōu)于SQParsing+BTS,AUC提高了8.9到26.9個百分點。所提方法將平均L2和OA-L2距離分別提高了4.0cm(11.8%)和31.5cm(47.8%)??偠灾髡叩姆椒ㄔ谒兄笜?biāo)上的所有設(shè)置都優(yōu)于[45]在NYU數(shù)據(jù)上的結(jié)果,為這項具有挑戰(zhàn)性的任務(wù)提供了SOTA結(jié)果。
4、總結(jié)
本文中作者提出了一個3D場景解析器,它將復(fù)雜的現(xiàn)實世界場景抽象為更簡單的體積幾何基元的集合。該方法建立在基于學(xué)習(xí)的魯棒估計器之上,作者對其進(jìn)行擴(kuò)展以便從RGB圖像中恢復(fù)立方體。為此,作者提出了一種遮擋感知距離度量,使該方法能夠正確處理遮擋的場景。同時通過最小求解器繞過反向傳播并推導(dǎo)原始參數(shù)的梯度來促進(jìn)端到端訓(xùn)練,分析輸入特征。所提的算法既不需要已知的GT原始參數(shù),也不需要任何其他昂貴的注釋過程。因此,該方法可以直接應(yīng)用于缺乏此信息的其他數(shù)據(jù)集。在未來的工作中,作者計劃通過用更具表現(xiàn)力的3D特征替換深度估計并使用匹配數(shù)據(jù)進(jìn)行訓(xùn)練,解決常見的故障情況,即平面和錯誤立方體。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
干貨下載與學(xué)習(xí)
在公眾號「3D視覺工坊」后臺回復(fù):巴塞羅那自治大學(xué)課件,即可下載國外大學(xué)沉淀數(shù)年3D Vison精品課件
在公眾號「3D視覺工坊」后臺回復(fù):計算機(jī)視覺書籍,即可下載3D視覺領(lǐng)域經(jīng)典書籍pdf
在公眾號「3D視覺工坊」后臺回復(fù):3D視覺課程,即可學(xué)習(xí)3D視覺領(lǐng)域精品課程
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
3D視覺工坊精品課程官網(wǎng):3dcver.com
1.面向自動駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)
2.面向自動駕駛領(lǐng)域的3D點云目標(biāo)檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)
4.國內(nèi)首個面向工業(yè)級實戰(zhàn)的點云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM +LIO-SAM)
9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實踐]
10.單目深度估計方法:算法梳理與代碼實現(xiàn)
11.自動駕駛中的深度學(xué)習(xí)模型部署實戰(zhàn)
12.相機(jī)模型與標(biāo)定(單目+雙目+魚眼)
13.重磅!四旋翼飛行器:算法與實戰(zhàn)
14.ROS2從入門到精通:理論與實戰(zhàn)
15.國內(nèi)首個3D缺陷檢測教程:理論、源碼與實戰(zhàn)
16.基于Open3D的點云處理入門與實戰(zhàn)教程
重磅!3DCVer-學(xué)術(shù)論文寫作投稿 交流群已成立
掃碼添加小助手微信:dddvision,可申請加入3D視覺工坊-學(xué)術(shù)論文寫作與投稿 微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細(xì)分方向交流群,目前主要有3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標(biāo)跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、學(xué)術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計等微信群。
一定要備注:研究方向+學(xué)校/公司+昵稱,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進(jìn)群。原創(chuàng)投稿也請聯(lián)系。