3D全景分割新SOTA!LCPS:首篇LiDAR-Camera融合框架(ICCV23)
今天自動(dòng)駕駛之心很榮幸邀請(qǐng)到Zhiwei Zhang來分享ICCV 2023最新中稿的激光雷達(dá)-相機(jī)全景分割的算法—LCPS,如果您有相關(guān)工作需要分享,請(qǐng)?jiān)谖哪┞?lián)系我們!
論文作者?|?Zhiwei Zhang
編輯 | 自動(dòng)駕駛之心
大家好我是Zhiwei Zhang,很榮幸受邀來自動(dòng)駕駛之心平臺(tái)分享我們ICCV2023最新中稿的激光雷達(dá)-相機(jī)3D全景分割算法!

1. 任務(wù)簡(jiǎn)述
3D場(chǎng)景感知已經(jīng)成為廣泛應(yīng)用在自動(dòng)駕駛和機(jī)器人導(dǎo)航領(lǐng)域。3D全景分割是一項(xiàng)綜合任務(wù),需要同時(shí)進(jìn)行語(yǔ)義分割和實(shí)例分割。目前主流的方法僅使用激光雷達(dá)數(shù)據(jù),但圖像數(shù)據(jù)可以提供豐富的紋理、顏色和區(qū)分信息來補(bǔ)充激光雷達(dá)信息。這啟發(fā)我們使用圖像作為額外輸入以提高場(chǎng)景理解,而且自動(dòng)駕駛系統(tǒng)通常配備RGB攝像頭,這使得激光雷達(dá)-攝像頭融合來進(jìn)行全景分割更加可行。

圖1 激光雷達(dá)點(diǎn)云與圖像的區(qū)別。(a) 點(diǎn)云中的一個(gè)車輛段(橙色點(diǎn)),(b) 右下角綠色掩碼顯示使用“兩階段概率檢測(cè)”方法有效檢測(cè)到的車輛特征和密集的紋理、顏色特征,(b) 左上角藍(lán)色掩碼(部分遮擋)顯示輔助檢測(cè)遠(yuǎn)處小目標(biāo)的圖像特征。
2. 方法
目前,領(lǐng)先的3D全景分割方法僅使用激光雷達(dá)數(shù)據(jù)作為輸入源。但是,我們觀察到僅用激光雷達(dá)數(shù)據(jù)進(jìn)行感知存在一些不足:1) 激光雷達(dá)點(diǎn)云通常稀疏且分布不均勻,如圖1(a)所示,這使得3D網(wǎng)絡(luò)很難捕獲前景和背景之間的顯著差異;2) 占用很少點(diǎn)的遠(yuǎn)處目標(biāo)在視野中出現(xiàn)很小,不能有效檢測(cè)到。
雖然激光雷達(dá)傳感器和攝像頭可以互補(bǔ),但它們的融合策略仍然具有挑戰(zhàn)性?,F(xiàn)有的融合策略通常可以分為方案級(jí)融合、結(jié)果級(jí)融合和點(diǎn)級(jí)融合。然而,方案級(jí)融合和結(jié)果級(jí)融合側(cè)重于集成2D和3D方案(或邊界框結(jié)果)進(jìn)行目標(biāo)檢測(cè),這限制了它們?cè)谙穹指钊蝿?wù)這樣的密集預(yù)測(cè)中的泛化能力。點(diǎn)級(jí)融合方法也存在問題:1) 激光雷達(dá)和攝像頭傳感器之間的不同工作頻率沒有考慮到,這可能導(dǎo)致特征對(duì)應(yīng)關(guān)系錯(cuò)配;2) 點(diǎn)級(jí)融合是一對(duì)一的融合機(jī)制,大量圖像區(qū)域無法映射到稀疏的激光雷達(dá)點(diǎn),導(dǎo)致豐富的密集像素特征被浪費(fèi);例如,對(duì)于32線激光雷達(dá),只有約5%的像素可以映射到相關(guān)點(diǎn),而95%的像素特征會(huì)被丟棄。3) 點(diǎn)級(jí)融合方法通常使用簡(jiǎn)單的串聯(lián),這將排除投影落在圖像平面之外的點(diǎn),因?yàn)閳D像特征無法支持它們。
為了解決上述問題,我們提出了第一個(gè)激光雷達(dá)-攝像頭全景分割網(wǎng)絡(luò)LCPS。我們的方法在三個(gè)階段進(jìn)行激光雷達(dá)-攝像頭融合:1)異步補(bǔ)償像素對(duì)齊模塊校準(zhǔn)由傳感器異步引起的坐標(biāo)錯(cuò)位;2)語(yǔ)義感知區(qū)域?qū)R模塊將一對(duì)一的點(diǎn)-像素映射擴(kuò)展為一對(duì)多的語(yǔ)義關(guān)系;3)點(diǎn)云到體素特征傳播模塊整合幾何和語(yǔ)義信息到全部點(diǎn)云。
實(shí)驗(yàn)表明,我們的方法以5.1%的PQ(79.8%對(duì)74.7%)超過了當(dāng)前最好的Panoptic-PHNet在驗(yàn)證集上的表現(xiàn)。我們還證明了我們的融合策略的健壯性和有效性。
3. 方法詳解
3.1. 概述
問題定義



圖2 我們的激光雷達(dá)-攝像頭全景分割網(wǎng)絡(luò)(LCPS)的總體流程。LCPS由多模態(tài)編碼、特征融合和全景預(yù)測(cè)模塊組成。編碼模塊提取圓柱特征、MLP特征和圖像特征。在融合階段,MLP特征在ACPA和SARA的作用下與像素特征進(jìn)行幾何和語(yǔ)義對(duì)齊。接下來,PVP模塊將融合的點(diǎn)特征與原始圓柱特征合并以獲得融合特征。最后,全景預(yù)測(cè)模塊輸出四個(gè)頭的預(yù)測(cè),經(jīng)后處理獲得全景分割結(jié)果。
流程架構(gòu)
我們的框架由多模態(tài)編碼模塊、激光雷達(dá)-攝像頭特征融合模塊和全景預(yù)測(cè)模塊組成。在編碼階段,激光雷達(dá)點(diǎn)分別由圓柱體素編碼器和MLP編碼器編碼,而圖像由SwiftNet 編碼。在融合階段,MLP特征和圖像特征首先通過擬議的異步補(bǔ)償和語(yǔ)義感知區(qū)域?qū)R進(jìn)行對(duì)齊,然后被串聯(lián)成融合的點(diǎn)特征。隨后,我們的點(diǎn)到體素傳播模塊(PVP)接受融合的點(diǎn)特征,并輸出最終的圓柱表示。在預(yù)測(cè)階段,骨干網(wǎng)絡(luò)包括擬議的FOG頭、語(yǔ)義分割頭、熱力圖頭和偏移頭。后兩個(gè)頭遵循Panoptic-Polarnet ,其中我們回歸一個(gè)二值對(duì)象中心掩模和BEV網(wǎng)格之間的2D偏移量。在推理期間,后處理將預(yù)測(cè)的前景BEV網(wǎng)格移位到其最近的中心,并將網(wǎng)格內(nèi)的點(diǎn)集群到實(shí)例中。
3.2. 異步補(bǔ)償像素對(duì)齊
將激光雷達(dá)和攝像機(jī)直接建立點(diǎn)與像素的映射,這樣點(diǎn)就可以直接投影到圖像平面并附上像素特征,這是一個(gè)直接的解決方案。但是,這種映射會(huì)由于攝像頭和激光雷達(dá)傳感器之間的異步頻率導(dǎo)致錯(cuò)誤映射。例如,在NuScenes數(shù)據(jù)集上,每個(gè)攝像頭的操作頻率為12Hz,而激光雷達(dá)傳感器的操作頻率為20Hz。
我們通過加入額外的異步補(bǔ)償來改進(jìn)點(diǎn)級(jí)融合,以實(shí)現(xiàn)一致的幾何對(duì)齊?;舅枷胧菍⒓す饫走_(dá)點(diǎn)變換到對(duì)應(yīng)圖像捕獲時(shí)的新的3D坐標(biāo)系中。變換矩陣是通過考慮自主車輛的運(yùn)動(dòng)矩陣獲得的。具體地,令和分別表示捕獲激光雷達(dá)點(diǎn)云和相關(guān)圖像的時(shí)間。然后我們有:



這些齊次變換步驟可以總結(jié)為以下方程:

總之,我們使用方程1為每個(gè)點(diǎn)獲得像素對(duì)齊特征。我們的方法采用步驟2中的自運(yùn)動(dòng)補(bǔ)償,實(shí)現(xiàn)了一個(gè)簡(jiǎn)單但更準(zhǔn)確的幾何一致特征對(duì)齊。

圖3 (a) SARA模塊概述,其采用逐像素語(yǔ)義分類器,構(gòu)建CAMs并定位語(yǔ)義區(qū)域,(b) PVP模塊概述,其涉及融合點(diǎn)特征的圓柱劃分和注意力傳播。
3.3. 語(yǔ)義感知區(qū)域?qū)R
由于激光雷達(dá)點(diǎn)云的稀疏性和有限的視野,只有一小部分圖像特征可以與激光雷達(dá)點(diǎn)匹配。為解決這個(gè)問題,我們提出找到語(yǔ)義相關(guān)區(qū)域,將一對(duì)一映射擴(kuò)展為一對(duì)多關(guān)系。我們通過使用圖像CAM定位相關(guān)語(yǔ)義區(qū)域,提出語(yǔ)義感知區(qū)域?qū)R模塊,如圖3(a)所示。









最后,我們對(duì)區(qū)域特征集進(jìn)行平均以獲得單個(gè)向量,然后將其與MLP輸出和像素對(duì)齊特征連接以構(gòu)成融合的點(diǎn)特征??傊c幾何投影的一對(duì)一像素對(duì)齊不同,圖像區(qū)域是以一對(duì)多的語(yǔ)義感知方式直接收集的。
3.4. 點(diǎn)云到體素特征傳播
圖像特征不支持?jǐn)z像機(jī)視錐體之外的點(diǎn);因此,這些點(diǎn)通常被排除。為了解決這個(gè)問題,我們提出點(diǎn)到體素特征傳播模塊,以便為整個(gè)點(diǎn)云整合幾何和語(yǔ)義信息。為此,我們選擇圓柱體素作為橋梁來完成融合過程,因?yàn)轶w素表示的張量形狀與點(diǎn)數(shù)的改變不變,這自然地在原始點(diǎn)云和圖像相關(guān)的點(diǎn)云子集之間提供了對(duì)齊。





3.5. 改進(jìn)的全景分割

損失設(shè)計(jì)??倱p失如下:


4. 實(shí)驗(yàn)


表1 NuScenes驗(yàn)證集上的3D全景分割結(jié)果。評(píng)價(jià)指標(biāo)為PQ%。

表2 NuScenes測(cè)試集上的3D全景分割結(jié)果。我們的結(jié)果與其他不使用測(cè)試時(shí)增強(qiáng)和集成的方法進(jìn)行了比較。

圖4 NuScenes驗(yàn)證集上各類別的PQ%結(jié)果。
表3展示了SemanticKITTI驗(yàn)證集的比較結(jié)果。由于SemanticKITTI僅有兩個(gè)前視攝像頭,與NuScenes相比,更少的點(diǎn)可以與圖像特征匹配,從而增加了激光雷達(dá)-攝像頭融合的難度。盡管如此,我們的方法比僅用激光雷達(dá)的基準(zhǔn)提高了3.3%的PQ,證明了我們的融合策略的健壯性和有效性。

表3 SemanticKITTI驗(yàn)證集上的3D全景分割結(jié)果。
5. 結(jié)論
我們第一個(gè)提出幾何一致和語(yǔ)義感知的激光雷達(dá)-攝像頭全景網(wǎng)絡(luò)。作為一個(gè)新范式,我們有效利用了激光雷達(dá)-攝像頭傳感器的互補(bǔ)信息,并通過異步補(bǔ)償像素對(duì)齊(ACPA)、語(yǔ)義感知區(qū)域?qū)R(SARA)和點(diǎn)到體素特征傳播(PVP)以及前景對(duì)象選擇門(FOG)掩模等模塊,對(duì)點(diǎn)融合方法中的異步和利用問題做出了重要努力。這些模塊增強(qiáng)了整體可區(qū)分性和性能。? ? ??
? ?
① 全網(wǎng)獨(dú)家視頻課程
BEV感知、毫米波雷達(dá)視覺融合、多傳感器標(biāo)定、多傳感器融合、多模態(tài)3D目標(biāo)檢測(cè)、點(diǎn)云3D目標(biāo)檢測(cè)、目標(biāo)跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語(yǔ)義分割、自動(dòng)駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測(cè)等多個(gè)方向?qū)W習(xí)視頻(掃碼學(xué)習(xí))

視頻官網(wǎng):www.zdjszx.com
② 國(guó)內(nèi)首個(gè)自動(dòng)駕駛學(xué)習(xí)社區(qū)
近2000人的交流社區(qū),涉及30+自動(dòng)駕駛技術(shù)棧學(xué)習(xí)路線,想要了解更多自動(dòng)駕駛感知(2D檢測(cè)、分割、2D/3D車道線、BEV感知、3D目標(biāo)檢測(cè)、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計(jì))、自動(dòng)駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動(dòng)駕駛規(guī)劃控制/軌跡預(yù)測(cè)等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動(dòng)態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動(dòng)駕駛之心知識(shí)星球,這是一個(gè)真正有干貨的地方,與領(lǐng)域大佬交流入門、學(xué)習(xí)、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!

自動(dòng)駕駛之心是首個(gè)自動(dòng)駕駛開發(fā)者社區(qū),聚焦目標(biāo)檢測(cè)、語(yǔ)義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、車道線、目標(biāo)跟蹤、3D目標(biāo)檢測(cè)、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點(diǎn)云處理、端到端自動(dòng)駕駛、SLAM、光流估計(jì)、深度估計(jì)、軌跡預(yù)測(cè)、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動(dòng)駕駛仿真測(cè)試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請(qǐng)入群,備注:學(xué)校/公司+方向+昵稱(快速入群方式)

④【自動(dòng)駕駛之心】平臺(tái)矩陣,歡迎聯(lián)系我們!
