BEVSegFormer:一個(gè)來(lái)自任意攝像頭的BEV語(yǔ)義分割方法

今天給大家分享一篇小湯前同事在分割方向的近期新工作BEVSegFormer,論文已經(jīng)上傳在arXiv上,完整題目是"BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs"。

論文鏈接:https://arxiv.org/abs/2203.04050。
文章作者除了“Zhangjie Fu”小湯不認(rèn)識(shí)之外,其他都是我在紐勱科技Nullmax 實(shí)習(xí)期間的同事。
關(guān)于紐勱科技的介紹可以看下面文章:(點(diǎn)擊進(jìn)入)
自動(dòng)駕駛 | 紐勱科技與黑芝麻智能戰(zhàn)略合作,共推自動(dòng)駕駛量產(chǎn)落地
對(duì)于自動(dòng)駕駛而言,BEV(鳥(niǎo)瞰圖)下的語(yǔ)義分割是一項(xiàng)十分重要的任務(wù)。盡管這項(xiàng)任務(wù)已經(jīng)吸引了大量的研究投入,但靈活處理自動(dòng)駕駛車輛上安裝的任意相機(jī)配置(單個(gè)或多個(gè)攝像頭),仍舊是一個(gè)不小的挑戰(zhàn)。
為此,提出了BEVSegFormer,這一基于Transformer的BEV語(yǔ)義分割方法,可面向任意配置的相機(jī)進(jìn)行BEV語(yǔ)義分割。
具體來(lái)說(shuō),BEVSegFormer首先使用共享backbone對(duì)來(lái)自任意相機(jī)的圖像特征進(jìn)行編碼,然后通過(guò)基于deformable transformer的編碼器進(jìn)行增強(qiáng)。此外,引入BEV transformer解碼模塊來(lái)解析BEV語(yǔ)義分割結(jié)果。文章設(shè)計(jì)了一種高效的多攝像機(jī)變形注意單元,實(shí)現(xiàn)了從BEV到圖像視圖的轉(zhuǎn)換。最后,根據(jù)BEV中網(wǎng)格的布局對(duì)查詢(queries)進(jìn)行重塑,并進(jìn)行上采樣,以有監(jiān)督的方式生成語(yǔ)義分割結(jié)果。
在自動(dòng)駕駛或者機(jī)器人導(dǎo)航系統(tǒng)中,以BEV形式對(duì)感知信息進(jìn)行表征十分關(guān)鍵,因?yàn)榻Y(jié)果可以為后續(xù)的規(guī)劃、控制模塊提供諸多的便利。
例如,在無(wú)地圖導(dǎo)航方案中,構(gòu)建本地的BEV地圖,不僅成了高精地圖外的另一種方案選擇,還對(duì)包括智體行為預(yù)測(cè)以及運(yùn)動(dòng)規(guī)劃等感知的下游任務(wù)而言,也相當(dāng)重要。同時(shí),利用相攝像頭的輸入進(jìn)行BEV語(yǔ)義分割,通常被視為構(gòu)建本地BEV地圖的第一步。
為了從攝像頭中獲得BEV語(yǔ)義分割,傳統(tǒng)方法一般會(huì)先在圖像空間生成分割結(jié)果,然后通過(guò)逆透視變換(IPM, inverse perspective mapping)函數(shù)將其轉(zhuǎn)變到BEV空間。雖然IPM是一種連接圖像空間和BEV空間的簡(jiǎn)單直接的方法,但它需要準(zhǔn)確的相機(jī)內(nèi)外參或?qū)崟r(shí)的相機(jī)位姿估計(jì)。所以,IPM視圖變換的實(shí)際效果很可能比較差。
以車道線分割為例,如下圖所示,在遮擋、遠(yuǎn)處區(qū)域等場(chǎng)景中,使用IPM的傳統(tǒng)方法提供的結(jié)果往往不夠準(zhǔn)確。
圖中,(a)為圖像空間的車道分割,(b)為通過(guò)IPM視圖變換的BEV分割,(c)為BEVSegFormer的車道分割。

近年來(lái),基于深度學(xué)習(xí)的方法已經(jīng)被廣泛用于BEV語(yǔ)義分割。Lift-Splat-Shoot通過(guò)逐像素深度估計(jì)結(jié)果完成了從圖像視圖到BEV的視圖變換。不過(guò)使用深度估計(jì),也增加了視圖變換過(guò)程的復(fù)雜度。此外,有一些方法應(yīng)用MLP或者FC算子來(lái)進(jìn)行視圖變換。這些固定的視圖變換方法,學(xué)習(xí)圖像空間和BEV空間之間的固定映射,所以不依賴于輸入的數(shù)據(jù)。
隨著近期Transformer在各個(gè)任務(wù)上的大放光彩,基于的Transformer在BEV空間下進(jìn)行感知,吸引力新的研究注意力。在目標(biāo)檢測(cè)任務(wù)中,DETR3D引入了一種3D邊界框檢測(cè)方法,直接從多個(gè)相機(jī)圖像的2D特征生成3D空間中的預(yù)測(cè)。3D空間和2D圖像空間之間的視圖變換,通過(guò)交叉注意模塊的3D到2D查詢來(lái)實(shí)現(xiàn)。
借鑒于DETR3D,提出了BEVSegFormer,通過(guò)在Transformer中使用交叉注意機(jī)制進(jìn)行BEV到圖像的查詢,來(lái)計(jì)算視圖變換。

如上圖所示,BevSegFormer由三部分組成:1) 一個(gè)用于處理任意相機(jī)和輸出特征圖的共享backbone;2)Transformer編碼器;3)BEV Transformer解碼器,通過(guò)交叉注意機(jī)制處理BEV查詢,解析得到BEV語(yǔ)義分割。
對(duì)于單個(gè)輸入圖像,backbone接收輸入并輸出多尺度特征圖。對(duì)于多個(gè)攝像頭配置,這些多個(gè)圖像共享同一backbone,并輸出相應(yīng)的特征圖。
Transformer編碼器部分,首先對(duì)共享backbone的C3、C4、C5級(jí)特征圖上使用1×1 卷積運(yùn)算來(lái)獲得多尺度特征。在每個(gè)攝像頭生成的特征圖上分別應(yīng)用Deformable Attention模塊。它不需要計(jì)算密集注意圖,只關(guān)注參考點(diǎn)附近的一組采樣點(diǎn)。Transformer編碼器為每個(gè)攝像頭輸出增強(qiáng)的多尺度特征。
將Deformable DETR中的Deformable Cross-Attention 模塊改進(jìn)為多攝像頭Deformable Cross-Attention 模塊,其能將多攝像頭的特征圖轉(zhuǎn)換為BEV查詢,不需要攝像頭的內(nèi)外參數(shù)。如下圖所示。

BEV Transformer解碼器部分,根據(jù)BEV中的網(wǎng)格布局對(duì)查詢進(jìn)行重塑,將Transformer解碼器轉(zhuǎn)換為二維空間特征。二維空間特征由BEV Upsample模塊進(jìn)行上采樣處理,以有監(jiān)督的方式計(jì)算語(yǔ)義分割結(jié)果。
實(shí)驗(yàn)結(jié)果、demo展示
為了評(píng)估BEVSegFormer的效果,作者在基準(zhǔn)數(shù)據(jù)集nuScenes和自采自建的數(shù)據(jù)集上,進(jìn)行了相關(guān)實(shí)驗(yàn)。其中,自采數(shù)據(jù)集包括3905張訓(xùn)練集圖片、976張驗(yàn)證集圖片,是采集的上海高速公路場(chǎng)景,包括了人群交通、進(jìn)出匝道、陰影、換道和切入等各種場(chǎng)景。自采數(shù)據(jù)集也對(duì)車道線進(jìn)行了標(biāo)注和評(píng)估。
實(shí)驗(yàn)表明,BEVSegFormer展示了對(duì)于任意相機(jī)配置都有出色的BEV語(yǔ)義分割結(jié)果。在基準(zhǔn)數(shù)據(jù)集nuScenes上實(shí)現(xiàn)了新的BEV分割SOTA。





連續(xù)幀的視頻demo:
BEVSegFormer:任意攝像頭配置的BEV語(yǔ)義分割方法
寫在最后:
歡迎對(duì)目標(biāo)跟蹤、目標(biāo)檢測(cè)、目標(biāo)分類、語(yǔ)義分割、深度估計(jì)等計(jì)算機(jī)視覺(jué)任務(wù)及自動(dòng)駕駛技術(shù)(感知、融合、規(guī)控、定位、建圖、傳感器等)感興趣的朋友,加入技術(shù)交流群4群,和眾多網(wǎng)友一起交流,一起玩!坑位不多,白嫖黨勿進(jìn),對(duì)群友問(wèn)題提供優(yōu)質(zhì)回答的有獎(jiǎng)勵(lì)?。ㄟM(jìn)群將上方視頻的置頂評(píng)論)
推薦閱讀:
自動(dòng)駕駛視覺(jué)感知之語(yǔ)義分割+車道線檢測(cè)demo