論文解讀|用于從RGB-D數(shù)據(jù)進行3D物體檢測的Frustum PointNets
原創(chuàng) | 文 BFT機器人

01
摘要
論文研究了室內(nèi)和室外場景中基于RGBD數(shù)據(jù)的3D目標檢測。論文的方法不僅僅依賴于3D方案,而是利用成熟的2D對象檢測器和先進的3D深度學習進行對象定位,即使是小對象也能實現(xiàn)高效率和高召回。
直接在原始點云中學習,可以在強遮擋或非常稀疏的點下也能夠精確地估計3D邊界框。在KITTI和SUN RGB-D 3D檢測基準測試中,此方法展現(xiàn)出顯著的優(yōu)勢,不僅具有實時能力,而且在性能上表現(xiàn)出色。
02
介紹
這篇論文介紹了一種用于從RGB-D數(shù)據(jù)中進行3D物體檢測的新框架,稱為"Frustum PointNets"。該方法通過將深度圖像轉(zhuǎn)換為3D點云并利用PointNets網(wǎng)絡處理點云數(shù)據(jù),實現(xiàn)了在三維空間中對物體進行分類和定位的任務。
與以往的方法不同,該方法以3D為中心,直接在3D空間中操作點云數(shù)據(jù),而不是將RGB-D數(shù)據(jù)視為2D地圖。通過在3D坐標上連續(xù)應用變換,點云被對齊成一系列更受約束和規(guī)范的幀,使得3D幾何圖案更加明顯,從而更容易進行3D物體檢測。此外,該方法可以更好地利用3D空間的幾何和拓撲結(jié)構(gòu),使得學習者可以更自然地參數(shù)化和捕獲許多幾何結(jié)構(gòu),如重復、平面性和對稱性。
論文展示了該方法在KITTI 3D物體檢測和鳥瞰圖檢測等基準測試中取得了領先地位。與之前的技術相比,"Frustum PointNets"在3D汽車AP上的效率提高了8.04%,運行速度高達5 fps。同時,在室內(nèi)RGBD數(shù)據(jù)上,該方法在SUN-RGBD基準測試中也取得了顯著的性能提升。
論文的主要貢獻包括提出了新的框架"Frustum PointNets",展示了如何訓練3D物體探測器并在基準測試中實現(xiàn)了最先進的性能,同時提供了廣泛的定量評估和定性結(jié)果來驗證該方法的優(yōu)勢和局限性。
二維目標檢測器:

03
相關工作
基于RGB-D數(shù)據(jù)的3D目標檢測
此節(jié)介紹了解決3D檢測問題的不同方法,包括基于前視圖像的方法、基于鳥瞰圖的方法以及基于3D的方法。前視圖像的方法利用RGB圖像和形狀先驗或遮擋模式進行三維邊界框推斷,而基于鳥瞰圖的方法則將LiDAR點云投影到鳥瞰圖中,使用區(qū)域建議網(wǎng)絡進行三維邊界框建議。然而,這些方法在檢測小物體和多物體場景方面存在一定滯后和適應性不足。
相比之下,研究人員提出了基于3D點云的方法。一些方法使用支持向量機訓練手工設計的幾何特征來進行3D目標分類,然后使用滑動窗口搜索定位目標。其他方法將整個場景的點云轉(zhuǎn)換為體積網(wǎng)格,并使用3D體積CNN進行目標提議和分類。
然而,由于高昂的三維卷積成本和大的搜索空間,這些方法的計算成本較高。最近,也有一些2D驅(qū)動的3D目標檢測方法,但他們使用的是手工制作的特征和簡單的全連接網(wǎng)絡,速度和性能上都不是最優(yōu)的。
相較于這些方法,該研究提出了一種更靈活有效的解決方案,即使用深度3D特征學習(PointNets)。將深度數(shù)據(jù)表示為點云,并利用先進的3D深度網(wǎng)絡(PointNets)能更有效地利用3D幾何結(jié)構(gòu)。這種方法在解決3D檢測問題上具有優(yōu)勢。
點云上的深度學習
此節(jié)總結(jié)了現(xiàn)有的在點云處理方面的方法。大多數(shù)方法在進行特征學習之前都會將點云轉(zhuǎn)換為圖像或體積的形式。有些方法采用體網(wǎng)格方法將點云轉(zhuǎn)換為體網(wǎng)格,并將圖像CNN泛化為3D CNN。
另一些方法設計了更高效的3D CNN或神經(jīng)網(wǎng)絡架構(gòu)來利用點云的稀疏性。然而,這些基于CNN的方法仍然需要對點云進行量化處理。最近出現(xiàn)了一些新型的網(wǎng)絡架構(gòu),如PointNets,直接使用原始的點云數(shù)據(jù)而不進行轉(zhuǎn)換。PointNets已經(jīng)在單個對象分類和語義分割方面得到了應用,而本文則探索了如何將這種架構(gòu)擴展應用于3D對象檢測。
04
三維檢測與Frustum PointNets

如圖所示,三維目標檢測系統(tǒng)包括三個模塊:截錐體建議、三維實例分割和三維模態(tài)邊界框估計。首先,使用二維CNN對象檢測器對二維圖像區(qū)域進行檢測和分類。然后,將這些二維區(qū)域轉(zhuǎn)換為3D截錐體提案。
對于每個截錐體內(nèi)的點云(每個點具有n個點和c個通道,如XYZ坐標和強度),通過對每個點進行二值分類來分割出對象實例。根據(jù)分割后的目標點云(具有m個點和c個通道),使用輕量級回歸點網(wǎng)(T-Net)進行平移對齊,使其質(zhì)心接近模態(tài)盒(3D邊界框)的中心。最后,使用盒估計網(wǎng)絡對目標的模態(tài)三維邊界框進行估計。
Frustum建議
利用二維目標檢測器在RGB圖像中提取二維目標區(qū)域,并對這些區(qū)域進行分類。然后,利用相機投影矩陣,將這些二維邊界框提升到3D截錐體中,定義了物體的3D搜索空間。接下來,他們收集截錐內(nèi)的所有點,形成一個截錐點云。
由于截錐可能朝向多個方向,點云的位置變化較大,所以為了提高算法的旋轉(zhuǎn)不變性,他們通過旋轉(zhuǎn)截錐體的中心軸使其與圖像平面正交。這個過程被稱為從RGB-D數(shù)據(jù)中提取截錐體點云的截錐體建議生成。
他們采用了基于FPN的模型,并在ImageNet分類和COCO目標檢測數(shù)據(jù)集上預訓練模型權(quán)重。然后,在KITTI 2D目標檢測數(shù)據(jù)集上進一步微調(diào)模型權(quán)重,以分類和預測3D模態(tài)邊界框。有關二維檢測器訓練的更多細節(jié)可在論文附錄中找到。
三維實例分割
在給定一個二維圖像區(qū)域及其對應的三維圖像的情況下,實現(xiàn)三維目標檢測的方法。論文指出直接在深度圖上使用二維CNN回歸三維對象位置并不容易,因為遮擋和混亂的情況在自然場景中很常見,可能導致嚴重的3D定位問題。
為了解決這個問題,論文建議在3D點云中進行實例分割,而不是在2D圖像中進行。通過基于點云的圓錐體網(wǎng)絡實現(xiàn)三維實例分割,然后能夠?qū)崿F(xiàn)基于殘差的三維定位,預測三維邊界框的中心在一個局部坐標系中。這種方法可以應對不同傳感器設置下物體距離的變化。

該網(wǎng)絡在截錐體中提取點云,并預測每個點屬于感興趣對象的概率。每個截錐體只包含一個感興趣的對象,而其他點可能是不相關的區(qū)域、遮擋物體或位于感興趣對象后面的實例。
網(wǎng)絡通過學習遮擋和雜波模式,并識別某一類物體的幾何形狀來進行分割。在多類檢測情況下,還利用2D檢測器的語義信息進行更好的實例分割。經(jīng)過3D實例分割后,提取被分類為感興趣對象的點,并進一步規(guī)范化其坐標以提高算法的平移不變性。作者故意不縮放點云,以保持局部點云的實際大小,有助于框大小的估計。

三維模態(tài)邊界框估計
給定分割的對象點(在3D掩模坐標中),該模塊通過使用盒回歸PointNet和預處理變壓器網(wǎng)絡來估計對象的面向模態(tài)的3D邊界框。
論文提出了基于T-Net的學習三維對齊方法。盡管我們已經(jīng)對被分割的對象點按照質(zhì)心位置對齊,但發(fā)現(xiàn)掩模坐標框的原點可能離模態(tài)盒中心很遠。
為此,論文引入了輕量級回歸PointNet(T-Net),用于估計完整對象的真實中心,并通過轉(zhuǎn)換坐標,將預測的中心調(diào)整為原點。T-Net的架構(gòu)和訓練與之前的工作類似,可以看作是一種特殊類型的空間變壓器網(wǎng)絡(STN)。與原始STN不同的是,論文采用顯式監(jiān)督來預測從掩模坐標原點到真實物體中心的中心殘差。

對于給定3D物體坐標中的物體點云,盒估計網(wǎng)絡用于預測給定3D物體點云中的物體的模態(tài)邊界框,即使該物體的一部分不可見也能進行預測。網(wǎng)絡架構(gòu)類似于對象分類,但不再輸出對象分類分數(shù),而是輸出3D邊界框的參數(shù)。
在參數(shù)化3D邊界框時,論文采用中心(cx, cy, cz)、大?。╤, w, l)和朝向角θ(沿上軸)來表示。我們采用"殘差"方法對框的中心進行估計。盒估計網(wǎng)絡預測的中心殘差與之前的T-Net中心殘差和被掩點的質(zhì)心結(jié)合,從而恢復絕對中心。
對于盒的大小和航向角度,我們采用之前的工作中的方法,使用分類和回歸混合公式。具體來說,我們預定義了N個大小的模板和N個相等間隔角度的框。論文的模型將尺寸/角度分類到預定義的類別,并預測每個類別的殘差值來調(diào)整高度、寬度、長度和角度。最后,凈輸出總共為3 + 4×NS + 2×NH數(shù)。

多任務損失訓練
論文優(yōu)化了涉及的三個網(wǎng)絡(3D實例分割PointNet, T-Net和模態(tài)盒估計PointNet)的多任務損失。

針對最終的三維框精度進行優(yōu)化,引入了一種新的正則化損失,即角損失。該損失旨在優(yōu)化所有三個參數(shù)(中心、大小和方向),以獲得最佳的三維框估計,特別是在IoU度量下,避免航向角度的偏離對三維框的精度產(chǎn)生主導影響。通過角損失的加入,可以實現(xiàn)對中心、大小和方向等參數(shù)的共同優(yōu)化,從而提高三維框的準確度。

05
實驗
實驗分為三個部分。首先,比較了KITTI和SUN-RGBD上最先進的3D目標檢測方法。其次,論文提供了深入的分析來驗證我們的設計選擇。最后,展示了定性結(jié)果,并討論了論文方法的優(yōu)勢和局限性。

Frustum PointNet模型的實驗結(jié)果和觀察。主要觀察如下:
對于合理距離內(nèi)未遮擋物體的簡單情況,模型輸出的3D實例分割蒙版和3D邊界框非常準確。
模型甚至可以從部分數(shù)據(jù)中預測正確的模態(tài)3D框,即使使用很少的點。這些結(jié)果對于人類來說,僅僅使用點云數(shù)據(jù)來注釋是困難的。
在一些情況下,雖然在圖像中定位具有許多附近甚至重疊的2D框的物體可能具有挑戰(zhàn)性,但轉(zhuǎn)換到3D空間后,定位變得更容易。
模型的一些失敗模式表明可能需要改進的方向。例如,在稀疏點云中,姿態(tài)和大小估計可能不準確,圖像特征可能有助于解決這個問題。
當一個截錐體中有來自同一類別的多個實例時,模型可能會輸出混合的分割結(jié)果。如果能夠在每個截錐體中提出多個3D邊界框,可能可以緩解這個問題。
2D檢測器有時會因為光線較暗或遮擋較強而錯過目標,但三維實例分割和模態(tài)三維框估計PointNets并不局限于RGB視圖建議,也可以擴展到鳥瞰圖中提出的3D區(qū)域。
總的來說,該模型在許多情況下表現(xiàn)良好,但也面臨一些挑戰(zhàn)和改進的空間。
作者?| 淳豪
排版 | 居居手
更多精彩內(nèi)容請關注公眾號:BFT機器人
本文為原創(chuàng)文章,版權(quán)歸BFT機器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應。