最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

BEVSegFormer:一個(gè)來(lái)自任意攝像頭的BEV語(yǔ)義分割方法

2022-05-02 18:09 作者:StrongerTang  | 我要投稿

今天給大家分享一篇小湯前同事在分割方向的近期新工作BEVSegFormer,論文已經(jīng)上傳在arXiv上,完整題目是"BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs"。

論文鏈接:https://arxiv.org/abs/2203.04050。

文章作者除了“Zhangjie Fu”小湯不認(rèn)識(shí)之外,其他都是我在紐勱科技Nullmax 實(shí)習(xí)期間的同事。

關(guān)于紐勱科技的介紹可以看下面文章:(點(diǎn)擊進(jìn)入)

自動(dòng)駕駛 | 紐勱科技與黑芝麻智能戰(zhàn)略合作,共推自動(dòng)駕駛量產(chǎn)落地


對(duì)于自動(dòng)駕駛而言,BEV(鳥(niǎo)瞰圖)下的語(yǔ)義分割是一項(xiàng)十分重要的任務(wù)。盡管這項(xiàng)任務(wù)已經(jīng)吸引了大量的研究投入,但靈活處理自動(dòng)駕駛車輛上安裝的任意相機(jī)配置(單個(gè)或多個(gè)攝像頭),仍舊是一個(gè)不小的挑戰(zhàn)。


為此,提出了BEVSegFormer,這一基于Transformer的BEV語(yǔ)義分割方法,可面向任意配置的相機(jī)進(jìn)行BEV語(yǔ)義分割。


具體來(lái)說(shuō),BEVSegFormer首先使用共享backbone對(duì)來(lái)自任意相機(jī)的圖像特征進(jìn)行編碼,然后通過(guò)基于deformable transformer的編碼器進(jìn)行增強(qiáng)。此外,引入BEV transformer解碼模塊來(lái)解析BEV語(yǔ)義分割結(jié)果。文章設(shè)計(jì)了一種高效的多攝像機(jī)變形注意單元,實(shí)現(xiàn)了從BEV到圖像視圖的轉(zhuǎn)換。最后,根據(jù)BEV中網(wǎng)格的布局對(duì)查詢(queries)進(jìn)行重塑,并進(jìn)行上采樣,以有監(jiān)督的方式生成語(yǔ)義分割結(jié)果。



在自動(dòng)駕駛或者機(jī)器人導(dǎo)航系統(tǒng)中,以BEV形式對(duì)感知信息進(jìn)行表征十分關(guān)鍵,因?yàn)榻Y(jié)果可以為后續(xù)的規(guī)劃、控制模塊提供諸多的便利。

例如,在無(wú)地圖導(dǎo)航方案中,構(gòu)建本地的BEV地圖,不僅成了高精地圖外的另一種方案選擇,還對(duì)包括智體行為預(yù)測(cè)以及運(yùn)動(dòng)規(guī)劃等感知的下游任務(wù)而言,也相當(dāng)重要。同時(shí),利用相攝像頭的輸入進(jìn)行BEV語(yǔ)義分割,通常被視為構(gòu)建本地BEV地圖的第一步。
為了從攝像頭中獲得BEV語(yǔ)義分割,傳統(tǒng)方法一般會(huì)先在圖像空間生成分割結(jié)果,然后通過(guò)逆透視變換(IPM, inverse perspective mapping)函數(shù)將其轉(zhuǎn)變到BEV空間。雖然IPM是一種連接圖像空間和BEV空間的簡(jiǎn)單直接的方法,但它需要準(zhǔn)確的相機(jī)內(nèi)外參或?qū)崟r(shí)的相機(jī)位姿估計(jì)。所以,IPM視圖變換的實(shí)際效果很可能比較差。


以車道線分割為例,如下圖所示,在遮擋、遠(yuǎn)處區(qū)域等場(chǎng)景中,使用IPM的傳統(tǒng)方法提供的結(jié)果往往不夠準(zhǔn)確。

圖中,(a)為圖像空間的車道分割,(b)為通過(guò)IPM視圖變換的BEV分割,(c)為BEVSegFormer的車道分割。

Comparison of lane segmentation results on image space and BEV space. (a) lane segmentation on image space, (b) BEV segmentation by IPM view transformation of (a), (c) our BEV lane segmentation.


近年來(lái),基于深度學(xué)習(xí)的方法已經(jīng)被廣泛用于BEV語(yǔ)義分割。Lift-Splat-Shoot通過(guò)逐像素深度估計(jì)結(jié)果完成了從圖像視圖到BEV的視圖變換。不過(guò)使用深度估計(jì),也增加了視圖變換過(guò)程的復(fù)雜度。此外,有一些方法應(yīng)用MLP或者FC算子來(lái)進(jìn)行視圖變換。這些固定的視圖變換方法,學(xué)習(xí)圖像空間和BEV空間之間的固定映射,所以不依賴于輸入的數(shù)據(jù)。


隨著近期Transformer在各個(gè)任務(wù)上的大放光彩,基于的Transformer在BEV空間下進(jìn)行感知,吸引力新的研究注意力。在目標(biāo)檢測(cè)任務(wù)中,DETR3D引入了一種3D邊界框檢測(cè)方法,直接從多個(gè)相機(jī)圖像的2D特征生成3D空間中的預(yù)測(cè)。3D空間和2D圖像空間之間的視圖變換,通過(guò)交叉注意模塊的3D到2D查詢來(lái)實(shí)現(xiàn)。


借鑒于DETR3D,提出了BEVSegFormer,通過(guò)在Transformer中使用交叉注意機(jī)制進(jìn)行BEV到圖像的查詢,來(lái)計(jì)算視圖變換。



如上圖所示,BevSegFormer由三部分組成1) 一個(gè)用于處理任意相機(jī)和輸出特征圖的共享backbone;2)Transformer編碼器;3)BEV Transformer解碼器,通過(guò)交叉注意機(jī)制處理BEV查詢,解析得到BEV語(yǔ)義分割。
對(duì)于單個(gè)輸入圖像,backbone接收輸入并輸出多尺度特征圖。對(duì)于多個(gè)攝像頭配置,這些多個(gè)圖像共享同一backbone,并輸出相應(yīng)的特征圖。


Transformer編碼器部分,首先對(duì)共享backbone的C3、C4、C5級(jí)特征圖上使用1×1 卷積運(yùn)算來(lái)獲得多尺度特征。在每個(gè)攝像頭生成的特征圖上分別應(yīng)用Deformable Attention模塊。它不需要計(jì)算密集注意圖,只關(guān)注參考點(diǎn)附近的一組采樣點(diǎn)。Transformer編碼器為每個(gè)攝像頭輸出增強(qiáng)的多尺度特征。


將Deformable DETR中的Deformable Cross-Attention 模塊改進(jìn)為多攝像頭Deformable Cross-Attention 模塊,其能將多攝像頭的特征圖轉(zhuǎn)換為BEV查詢,不需要攝像頭的內(nèi)外參數(shù)。如下圖所示。

Illustration of the Multi-Camera Deformable Cross-Attention module in BEV Transformer Decoder.

BEV Transformer解碼器部分,根據(jù)BEV中的網(wǎng)格布局對(duì)查詢進(jìn)行重塑,將Transformer解碼器轉(zhuǎn)換為二維空間特征。二維空間特征由BEV Upsample模塊進(jìn)行上采樣處理,以有監(jiān)督的方式計(jì)算語(yǔ)義分割結(jié)果。

實(shí)驗(yàn)結(jié)果、demo展示

為了評(píng)估BEVSegFormer的效果,作者在基準(zhǔn)數(shù)據(jù)集nuScenes和自采自建的數(shù)據(jù)集上,進(jìn)行了相關(guān)實(shí)驗(yàn)。其中,自采數(shù)據(jù)集包括3905張訓(xùn)練集圖片、976張驗(yàn)證集圖片,是采集的上海高速公路場(chǎng)景,包括了人群交通、進(jìn)出匝道、陰影、換道和切入等各種場(chǎng)景。自采數(shù)據(jù)集也對(duì)車道線進(jìn)行了標(biāo)注和評(píng)估。


實(shí)驗(yàn)表明,BEVSegFormer展示了對(duì)于任意相機(jī)配置都有出色的BEV語(yǔ)義分割結(jié)果。在基準(zhǔn)數(shù)據(jù)集nuScenes上實(shí)現(xiàn)了新的BEV分割SOTA。

Examples of BEV segmentation results of surrounding cameras on nuScenes val set.
Examples of BEV segmentation results of front camera on nuScenes val set.


連續(xù)幀的視頻demo:


BEVSegFormer:任意攝像頭配置的BEV語(yǔ)義分割方法


寫在最后:

歡迎對(duì)目標(biāo)跟蹤、目標(biāo)檢測(cè)、目標(biāo)分類、語(yǔ)義分割、深度估計(jì)等計(jì)算機(jī)視覺(jué)任務(wù)及自動(dòng)駕駛技術(shù)(感知、融合、規(guī)控、定位、建圖、傳感器等)感興趣的朋友,加入技術(shù)交流群4群,和眾多網(wǎng)友一起交流,一起玩!坑位不多,白嫖黨勿進(jìn),對(duì)群友問(wèn)題提供優(yōu)質(zhì)回答的有獎(jiǎng)勵(lì)?。ㄟM(jìn)群將上方視頻的置頂評(píng)論)

推薦閱讀:

自動(dòng)駕駛視覺(jué)感知之語(yǔ)義分割+車道線檢測(cè)demo

多目標(biāo)跟蹤MOT未來(lái)研究方向討論

BEVSegFormer:一個(gè)來(lái)自任意攝像頭的BEV語(yǔ)義分割方法的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
个旧市| 河源市| 昌乐县| 拜城县| 蒲城县| 呈贡县| 兴仁县| 乾安县| 文水县| 寻甸| 巴中市| 淮滨县| 太湖县| 玉树县| 柳河县| 忻州市| 武邑县| 伽师县| 娱乐| 峡江县| 九寨沟县| 惠安县| 丁青县| 昌乐县| 札达县| 宿迁市| 余庆县| 绵竹市| 祁门县| 封开县| 海淀区| 中阳县| 乌拉特后旗| 五台县| 灵丘县| 克什克腾旗| 龙江县| 海盐县| 永川市| 大竹县| 琼海市|