兩大榜單SOTA!OccFormer:雙路徑Transformer下的高效語(yǔ)義占用
今天自動(dòng)駕駛之心很榮幸邀請(qǐng)到鑒智機(jī)器人的Yunpeng Zhang來(lái)分享刷新兩大權(quán)威數(shù)據(jù)集的新SOTA—OccFormer!如果您有相關(guān)工作需要分享,請(qǐng)?jiān)谖哪┞?lián)系我們!
論文作者?| Yunpeng Zhang
編輯 | 自動(dòng)駕駛之心
今天自動(dòng)駕駛之心很榮幸地邀請(qǐng)到鑒智機(jī)器人的Yunpeng Zhang分享ICCV 2023最新中稿的OccFormer。OccFormer實(shí)現(xiàn)了對(duì)復(fù)雜三維場(chǎng)景特征的長(zhǎng)距離、動(dòng)態(tài)、高效編碼,在SemanticKITTI數(shù)據(jù)集的語(yǔ)義場(chǎng)景補(bǔ)全和nuScenes數(shù)據(jù)集的點(diǎn)云語(yǔ)義分割任務(wù)上都取得了SOTA性能,可顯著提升自動(dòng)駕駛系統(tǒng)對(duì)復(fù)雜場(chǎng)景的感知、理解和決策能力。
如果您有相關(guān)工作需要分享,請(qǐng)?jiān)谖哪┞?lián)系我們!

論文鏈接:https://arxiv.org/abs/2304.05316
項(xiàng)目鏈接:https://github.com/zhangyp15/OccFormer
1.整體概述
近來(lái),隨著特斯拉AI Day的介紹和學(xué)術(shù)界的相關(guān)進(jìn)展,occupancy預(yù)測(cè)任務(wù)正在成為新一輪的研究熱點(diǎn)之一。具體來(lái)講,occupancy指三維網(wǎng)格下的語(yǔ)義占用任務(wù),其輸出形式與SemanticKITTI數(shù)據(jù)集早期提出的semantic scene completion任務(wù)完全相同。相較于現(xiàn)有的二維BEV(Bird-Eye-View)特征表示,occupancy能夠進(jìn)一步提供細(xì)粒度的三維結(jié)構(gòu)信息,同時(shí)具有泛化到廣義障礙物的能力,在自動(dòng)駕駛應(yīng)用領(lǐng)域具有較大的潛力。考慮到純視覺(jué)系統(tǒng)在語(yǔ)義感知上的能力,本文主要關(guān)注基于環(huán)視圖像的三維occupancy預(yù)測(cè)任務(wù)。
在occupancy預(yù)測(cè)方向,大多數(shù)現(xiàn)有工作會(huì)首先從傳感器輸入構(gòu)建三維場(chǎng)景特征,然后基于三維卷積進(jìn)行特征編碼和解碼過(guò)程,最終預(yù)測(cè)三維語(yǔ)義占用結(jié)果,代表工作如 MonoScene。然而三維卷積仍然存在一些局限性:(1)三維卷積的感受野相對(duì)固定,然而不同類(lèi)別的語(yǔ)義可能遵循差異較大的空間分布。(2)現(xiàn)有的視覺(jué)三維特征建立方案,如LSS、BEVDet,其產(chǎn)生的三維特征是稀疏、不連續(xù)的,并不利于平移不變的三維卷積。(3)三維卷積核需要消耗大量的網(wǎng)絡(luò)參數(shù)。因此,本文的出發(fā)點(diǎn)是建立一種長(zhǎng)距離建模、動(dòng)態(tài)感受野并且更為高效的三維場(chǎng)景特征處理方案。

具體地,我們使用了transformer方案來(lái)構(gòu)建用于三維語(yǔ)義占用預(yù)測(cè)的編碼器-解碼器網(wǎng)絡(luò)。對(duì)于編碼器部分,我們提出了dual-path transformer encoder,通過(guò)引入局部和全局兩條路徑,將三維特征提取分解為以二維注意力機(jī)制為主的一系列處理,從而降低整體復(fù)雜度。對(duì)于解碼器部分,我們首先實(shí)驗(yàn)了基于query和transformer的occupancy預(yù)測(cè)方案,并通過(guò)兩個(gè)簡(jiǎn)單改進(jìn)顯著提升了解碼器性能,包括保留池化和類(lèi)別引導(dǎo)采樣。
實(shí)驗(yàn)結(jié)果方面,OccFormer在SemanticKITTI數(shù)據(jù)集的語(yǔ)義場(chǎng)景補(bǔ)全和nuScenes數(shù)據(jù)集的點(diǎn)云語(yǔ)義分割兩個(gè)任務(wù)上都取得了SOTA性能。定性來(lái)講,OccFormer產(chǎn)生的occupancy預(yù)測(cè)對(duì)于不同類(lèi)別的結(jié)構(gòu)化預(yù)測(cè)更合理,語(yǔ)義占用更加逼真。
2.方法介紹
(1)整體框架
OccFormer的總體流程如圖1所示。以單目圖像或環(huán)視圖像作為輸入,首先由圖像編碼器提取多尺度特征,然后基于深度預(yù)測(cè)和體素池化得到三維場(chǎng)景特征。隨后,該三維特征首先經(jīng)過(guò)dual-path transformer encoder進(jìn)行三維視角下的特征提取,得到多尺度體素特征。最終transformer occupancy decoder融合多尺度特征,預(yù)測(cè)不同類(lèi)別的binary mask并結(jié)合得到最終的occupancy預(yù)測(cè)。在這里我們主要介紹所提出的dual-path transformer encoder和transformer occupancy decoder。
(2)Dual-path Transformer Encoder
如圖1所示,dual-path transformer encoder以dual-path transformer block為主要結(jié)構(gòu)進(jìn)行搭建,在兩個(gè)block之間我們插入了一個(gè)三維卷積層以增強(qiáng)編碼器的局部先驗(yàn)性且實(shí)現(xiàn)特征的下采樣。

由于駕駛場(chǎng)景中沿著水平方向的信息變化最劇烈,而高度方向上信息密度相對(duì)較低,因此三維特征編碼的重點(diǎn)應(yīng)該放在水平方向上。但由于occupancy需要三維的細(xì)粒度信息,將三維特征完全壓平進(jìn)行處理是不可取的。出于以上考慮,我們?cè)O(shè)計(jì)了dual-path transformer block,其結(jié)構(gòu)如圖2所示。具體地,輸入的三維特征會(huì)經(jīng)過(guò)局部和全局兩條路徑、沿著水平方向進(jìn)行語(yǔ)義特征提取,兩條路徑的輸出會(huì)通過(guò)自適應(yīng)融合得到輸出的三維場(chǎng)景特征。
一方面,局部路徑主要針對(duì)提取細(xì)粒度的語(yǔ)義結(jié)構(gòu)。由于水平方向包含最多的變化,我們相信通過(guò)一個(gè)共享編碼器并行處理所有BEV切片能夠保留大部分語(yǔ)義信息。具體而言,我們將高度維度合并到批處理維度,并使用窗口化自注意力作為局部特征提取器,它可以利用較小的計(jì)算量動(dòng)態(tài)地關(guān)注遠(yuǎn)距離區(qū)域;另一方面,全局路徑旨在高效捕獲場(chǎng)景級(jí)語(yǔ)義布局。為此,全局路徑首先通過(guò)沿高度維度進(jìn)行平均池化來(lái)獲取BEV特征,并采用相同的窗口化自注意力實(shí)現(xiàn)特征提取,為了進(jìn)一步增大全局感受野,我們還使用了ASPP結(jié)構(gòu)來(lái)捕獲全局上下文。
盡管dual-path設(shè)計(jì)僅在水平方向上實(shí)施二維的特征提取,但它們的組合有效地聚合了用于語(yǔ)義推理的關(guān)鍵信息,包括局部語(yǔ)義結(jié)構(gòu)和全局語(yǔ)義布局。
(3)Transformer Occupancy Decoder
受啟發(fā)于Mask2Former在圖像分割領(lǐng)域的進(jìn)展,我們將其結(jié)構(gòu)拓展至三維語(yǔ)義占用預(yù)測(cè)的應(yīng)用場(chǎng)景下,這部分主要包括三維multi-scale deformable attention的實(shí)現(xiàn)。然而我們發(fā)現(xiàn)簡(jiǎn)單的拓展并不能很好地處理occupancy任務(wù)的稀疏性,為此我們提出了保持池化和類(lèi)別引導(dǎo)采樣兩個(gè)改進(jìn)措施,顯著提升了模型在稀疏設(shè)置下的性能表現(xiàn)。
Mask2Former采用了基于掩碼的注意力機(jī)制,這使得每個(gè)query僅與其類(lèi)別對(duì)應(yīng)的前景區(qū)域進(jìn)行信息交互,從而極大地提升了收斂速度和性能表現(xiàn)。然而,我們發(fā)現(xiàn)這一過(guò)程中會(huì)涉及到三維語(yǔ)義預(yù)測(cè)結(jié)果的下采樣,而一般的三線性插值在稀疏三維網(wǎng)格下會(huì)導(dǎo)致微小結(jié)構(gòu)直接消失,嚴(yán)重影響了注意力機(jī)制的準(zhǔn)確性。于是,我們采用最大池化代替了原本的三線性插值以保持三維網(wǎng)格中的微小結(jié)構(gòu),我們將這一改進(jìn)記為保留池化。

另一方面,Mask2Former在訓(xùn)練過(guò)程中會(huì)均勻地采樣一部分點(diǎn)以計(jì)算匹配成本和損失函數(shù),這一措施能夠有效地降低訓(xùn)練顯存。然而三維語(yǔ)義占用任務(wù)的特點(diǎn)在于:一方面三維空間搜索范圍成倍上升,另一方面occupancy的前景區(qū)域非常稀疏、只占到整個(gè)三維空間的一小部分。因此,簡(jiǎn)單的均勻采樣難以關(guān)注到三維場(chǎng)景中被占用的前景區(qū)域,這導(dǎo)致算法收斂速度和性能大大下降?;谝陨戏治?,我們提出了類(lèi)別引導(dǎo)采樣這一改進(jìn)措施,根據(jù)每個(gè)體素的標(biāo)注類(lèi)別自適應(yīng)地分配其采樣權(quán)重,這使得網(wǎng)絡(luò)能夠更加關(guān)注到前景區(qū)域、尤其是長(zhǎng)尾類(lèi)別的優(yōu)化上。圖3給出了類(lèi)別引導(dǎo)采樣與均勻采樣兩種設(shè)置下、不同類(lèi)別的采樣頻率,可以看到我們的改進(jìn)措施顯著提升了行人、自行車(chē)等類(lèi)別的采樣頻率。
3.實(shí)驗(yàn)結(jié)果
(1)與現(xiàn)有SOTA方法的對(duì)比
與TPVFormer保持一致,我們主要在SemanticKITTI的語(yǔ)義場(chǎng)景補(bǔ)全和nuScenes的點(diǎn)云語(yǔ)義分割任務(wù)上對(duì)OccFormer進(jìn)行了評(píng)測(cè),OccFormer在兩個(gè)評(píng)測(cè)上都取得了比較明顯的性能提升。


(2)三維編碼器的對(duì)比實(shí)驗(yàn)
如表3所示:一方面,dual-path transformer encoder中的局部和全局兩條分支對(duì)于語(yǔ)義場(chǎng)景補(bǔ)全任務(wù)都有明顯的性能提升;另一方面,所提出編碼器在計(jì)算復(fù)雜度-性能的trade-off上略優(yōu)于通用的三維卷積或三維swin transformer,證明了該模塊的有效性。

(3)三維解碼器的對(duì)比實(shí)驗(yàn)
如表4所示,在三維解碼器中采用multi-scale deformable attention能夠?qū)崿F(xiàn)更加動(dòng)態(tài)的多尺度特征融合,性能優(yōu)于一般的特征金字塔方法。

如表5所示,在對(duì)預(yù)測(cè)occupancy mask進(jìn)行下采樣的過(guò)程中,采用所提出的保留池化會(huì)明顯優(yōu)于一般的三線性采樣;而在采樣監(jiān)督的過(guò)程中,類(lèi)別引導(dǎo)采樣會(huì)顯著優(yōu)于默認(rèn)的均勻采樣。二者結(jié)合相對(duì)于 baseline 提升將近 2% mIoU,證明了簡(jiǎn)單拓展 mask2former 并不能取得理想的性能,而本文所提出的兩個(gè)優(yōu)化是必不可少的。

(4)三維語(yǔ)義占用預(yù)測(cè)可視化
最后,我們?cè)赟emanticKITTI和nuScenes數(shù)據(jù)集上對(duì)OccFormer和對(duì)比方法的occupancy預(yù)測(cè)結(jié)果做了可視化對(duì)比。相對(duì)于MonoScene,OccFormer預(yù)測(cè)的occupancy在結(jié)構(gòu)上更加規(guī)整,對(duì)于道路、植被等需要大范圍感受野的語(yǔ)義類(lèi)別效果提升非常顯著。相對(duì)于TPVFormer,盡管在訓(xùn)練時(shí)都只采用了稀疏的點(diǎn)云語(yǔ)義分割標(biāo)簽,OccFormer產(chǎn)生的occupancy更加稠密、結(jié)構(gòu)更加完整、語(yǔ)義準(zhǔn)確性也更好。


① 全網(wǎng)獨(dú)家視頻課程
BEV感知、毫米波雷達(dá)視覺(jué)融合、多傳感器標(biāo)定、多傳感器融合、多模態(tài)3D目標(biāo)檢測(cè)、點(diǎn)云3D目標(biāo)檢測(cè)、目標(biāo)跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語(yǔ)義分割、自動(dòng)駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測(cè)等多個(gè)方向?qū)W習(xí)視頻(掃碼學(xué)習(xí))

視頻官網(wǎng):www.zdjszx.com
② 國(guó)內(nèi)首個(gè)自動(dòng)駕駛學(xué)習(xí)社區(qū)
近2000人的交流社區(qū),涉及30+自動(dòng)駕駛技術(shù)棧學(xué)習(xí)路線,想要了解更多自動(dòng)駕駛感知(2D檢測(cè)、分割、2D/3D車(chē)道線、BEV感知、3D目標(biāo)檢測(cè)、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計(jì))、自動(dòng)駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動(dòng)駕駛規(guī)劃控制/軌跡預(yù)測(cè)等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動(dòng)態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動(dòng)駕駛之心知識(shí)星球,這是一個(gè)真正有干貨的地方,與領(lǐng)域大佬交流入門(mén)、學(xué)習(xí)、工作、跳槽上的各類(lèi)難題,日常分享論文+代碼+視頻,期待交流!

③【自動(dòng)駕駛之心】技術(shù)交流群
自動(dòng)駕駛之心是首個(gè)自動(dòng)駕駛開(kāi)發(fā)者社區(qū),聚焦目標(biāo)檢測(cè)、語(yǔ)義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、車(chē)道線、目標(biāo)跟蹤、3D目標(biāo)檢測(cè)、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點(diǎn)云處理、端到端自動(dòng)駕駛、SLAM、光流估計(jì)、深度估計(jì)、軌跡預(yù)測(cè)、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動(dòng)駕駛仿真測(cè)試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車(chē)人助理微信邀請(qǐng)入群,備注:學(xué)校/公司+方向+昵稱(chēng)(快速入群方式)

④【自動(dòng)駕駛之心】平臺(tái)矩陣,歡迎聯(lián)系我們!
