最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

超越UniAD!FusionAD:預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合方案

2023-08-14 19:19 作者:自動(dòng)駕駛之心  | 我要投稿

今天自動(dòng)駕駛之心很榮幸邀請(qǐng)到南亦來(lái)分享他們的多模態(tài)端到端模型FusionAD,針對(duì)預(yù)測(cè)與規(guī)劃任務(wù)的設(shè)計(jì)展開(kāi)了討論,如果您有相關(guān)工作需要分享,請(qǐng)?jiān)谖哪┞?lián)系我們!


>>點(diǎn)擊進(jìn)入→自動(dòng)駕駛之心【端到端自動(dòng)駕駛】技術(shù)交流群

論文作者?|?南亦


編輯 | 自動(dòng)駕駛之心


大家好,很開(kāi)心受邀來(lái)到自動(dòng)駕駛之心平臺(tái)分享我們的最新工作FusionAD,我們這項(xiàng)工作的作者來(lái)自Udeer.ai、西湖大學(xué)和和菜鳥(niǎo)網(wǎng)絡(luò)!


建立一個(gè)具有精確和魯棒性能的多模態(tài)多任務(wù)神經(jīng)網(wǎng)絡(luò)是自動(dòng)駕駛感知任務(wù)的標(biāo)準(zhǔn)。然而,利用來(lái)自多個(gè)傳感器的此類(lèi)數(shù)據(jù)來(lái)聯(lián)合優(yōu)化預(yù)測(cè)和規(guī)劃任務(wù)在很大程度上仍未得到探索。我們提出了FusionAD,這是第一個(gè)融合來(lái)自相機(jī)和激光雷達(dá)這兩個(gè)最關(guān)鍵傳感器的信息的統(tǒng)一框架(在感知之外)。FusionAD首先構(gòu)建了一個(gè)基于transformer的多模態(tài)融合網(wǎng)絡(luò),以有效地產(chǎn)生融合特征。與基于相機(jī)的端到端方法UniAD相比,我們建立了一個(gè)融合輔助的模態(tài)感知預(yù)測(cè)和狀態(tài)感知規(guī)劃模塊,稱(chēng)為FMSPnP。在常用的基準(zhǔn)nuScenes數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),F(xiàn)usionAD在檢測(cè)和跟蹤等感知任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能,平均超過(guò)基線15%,占用預(yù)測(cè)準(zhǔn)確率超過(guò)基線10%,ADE得分預(yù)測(cè)誤差從0.708降低到0.389,碰撞率從0.31%降低到僅0.12%。


背景介紹


在過(guò)去的幾年里,深度學(xué)習(xí)一直在加速自動(dòng)駕駛的發(fā)展。AD(Autonomous Driving )算法通常將Camera和激光雷達(dá)作為傳感輸入,并輸出控制命令。一般來(lái)說(shuō),AD任務(wù)通常分為感知、預(yù)測(cè)和planning,在傳統(tǒng)范式中,AD中的每個(gè)學(xué)習(xí)模塊都單獨(dú)使用自己的主干,并獨(dú)立地學(xué)習(xí)任務(wù)。此外,預(yù)測(cè)和規(guī)劃任務(wù)等下游任務(wù)通常依賴(lài)于感知結(jié)果的矢量化表示,而高級(jí)語(yǔ)義信息通常不可用,如圖1(頂部)所示!

以前,基于端到端學(xué)習(xí)的方法通常基于透視相機(jī)和激光雷達(dá)信息直接輸出控制命令或軌跡。最近的端到端學(xué)習(xí)方法開(kāi)始將端到端的學(xué)習(xí)公式化為多任務(wù)學(xué)習(xí)問(wèn)題,同時(shí)輸出中間信息和計(jì)劃的軌跡,這些方法只采用單一輸入模式。另一方面,特別是通過(guò)與激光雷達(dá)和相機(jī)信息融合進(jìn)行感知任務(wù),可以顯著改善感知結(jié)果!


最近,人們對(duì)BEV的興趣激增,特別是以視覺(jué)為中心的感知,如圖1(中)所示。這一發(fā)展顯著提高了自動(dòng)駕駛汽車(chē)的能力,并使視覺(jué)和激光雷達(dá)模式更加自然地融合在一起?;贐EV融合的方法已經(jīng)證明了有效性,特別是對(duì)于感知任務(wù)。然而,在預(yù)測(cè)和規(guī)劃任務(wù)中,以端到端的方式使用來(lái)自多模態(tài)傳感器的特征仍然未被探索。


本文提出了FusionAD,這是第一個(gè)統(tǒng)一的基于BEV多模態(tài)、多任務(wù)端到端學(xué)習(xí)框架,專(zhuān)注于自動(dòng)駕駛的預(yù)測(cè)和規(guī)劃任務(wù)。首先,我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的transformer架構(gòu),將多模態(tài)信息融合到一個(gè)transformer中,以在BEV空間中產(chǎn)生統(tǒng)一的特征。由于我們的主要重點(diǎn)是探索融合特征以增強(qiáng)預(yù)測(cè)和規(guī)劃任務(wù),因此我們制定了一個(gè)融合輔助的模態(tài)感知預(yù)測(cè)和狀態(tài)感知規(guī)劃模塊,稱(chēng)為FMSPnP,該模塊結(jié)合了漸進(jìn)交互和細(xì)化,并制定了基于融合的碰撞損失建模。FMSPnP模塊利用了圖1(底部)所示的分層金字塔公式,確保所有任務(wù)都能從中間感知特征中受益。所提出的方法可以更好地傳播高級(jí)語(yǔ)義信息,并在不同任務(wù)之間有效地共享特征。


在自動(dòng)駕駛基準(zhǔn)nuScenes數(shù)據(jù)集中進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果顯示FusionAD顯著超過(guò)了最先進(jìn)的方法:軌跡預(yù)測(cè)的誤差降低了37%,占用預(yù)測(cè)的誤差提高了29%,規(guī)劃的碰撞率降低了14%。


我們的主要貢獻(xiàn)概述如下:


  1. 針對(duì)自動(dòng)駕駛的主要任務(wù),我們提出了一種基于BEV融合、多感知、多任務(wù)、端到端的學(xué)習(xí)方法;與基于camera的BEV相比,基于融合的方法大大提高了性能;


  2. 我們提出了FMSPnP模塊,該模塊結(jié)合了用于預(yù)測(cè)任務(wù)的模態(tài)自注意和精化,以及用于規(guī)劃任務(wù)的放松碰撞損失和與矢量化自我信息的融合,實(shí)驗(yàn)研究驗(yàn)證了FMSPnP改進(jìn)了預(yù)測(cè)和規(guī)劃結(jié)果。


  3. 我們?cè)诙囗?xiàng)任務(wù)中進(jìn)行了廣泛的研究,以驗(yàn)證所提出方法的有效性;實(shí)驗(yàn)結(jié)果表明,F(xiàn)usionAD在預(yù)測(cè)和計(jì)劃任務(wù)中達(dá)到了SOTA的結(jié)果,而在中間感知任務(wù)中保持了有競(jìng)爭(zhēng)力的結(jié)果!


領(lǐng)域的子任務(wù)介紹


1)BEV感知


鳥(niǎo)瞰圖(BEV)感知方法在自動(dòng)駕駛中因感知周?chē)h(huán)境而受到關(guān)注?;谙鄼C(jī)的BEV方法將多視圖相機(jī)圖像特征轉(zhuǎn)換到BEV空間,實(shí)現(xiàn)端到端感知,而無(wú)需對(duì)重疊區(qū)域進(jìn)行后處理。LSS和BEVDet使用基于圖像的深度預(yù)測(cè)來(lái)構(gòu)建截頭體并提取圖像BEV特征,用于地圖分割和3D檢測(cè)。在此基礎(chǔ)上,BEVdet4D和SoloFusion通過(guò)將當(dāng)前幀BEV特征與對(duì)齊的歷史幀BEV特性相結(jié)合來(lái)實(shí)現(xiàn)時(shí)間融合。BEVFormer使用時(shí)空注意力和transformer來(lái)獲得時(shí)間融合的圖像BEV特征。這些方法提高了對(duì)動(dòng)態(tài)環(huán)境的理解,并增強(qiáng)了感知結(jié)果。


然而,基于相機(jī)的感知方法存在距離感知精度不足的問(wèn)題。激光雷達(dá)可以提供準(zhǔn)確的位置信息,但其點(diǎn)很少。為了解決這個(gè)問(wèn)題,以前的一些方法已經(jīng)探索了融合多模態(tài)數(shù)據(jù)進(jìn)行感知的好處。BEV是基于LiDAR的感知算法中的一個(gè)常見(jiàn)視角,將多模態(tài)特征轉(zhuǎn)換到BEV空間有助于這些特征的融合。BEV融合將通過(guò)LSS方法獲得的圖像BEV特征與通過(guò)Voxelnet獲得的LiDAR BEV特征連接起來(lái),以獲得融合的BEV特征,這提高了感知性能。SuperFusion進(jìn)一步提出了基于多模態(tài)地圖感知的多階段融合。


2)運(yùn)動(dòng)預(yù)測(cè)


繼VectorNet之后,主流的運(yùn)動(dòng)預(yù)測(cè)(或軌跡預(yù)測(cè))方法通常利用HD圖和基于向量的障礙物表示來(lái)預(yù)測(cè)代理的未來(lái)軌跡。在此基礎(chǔ)上,LaneGCN和PAGA通過(guò)細(xì)化地圖特征(如車(chē)道連接屬性)來(lái)增強(qiáng)軌跡地圖匹配。此外,某些基于錨的方法對(duì)地圖附近的目標(biāo)點(diǎn)進(jìn)行采樣,從而能夠基于這些點(diǎn)進(jìn)行軌跡預(yù)測(cè)。然而,這些方法在很大程度上依賴(lài)于預(yù)先收集的高清地圖,這使得它們不適合地圖不可用的地區(qū)。


矢量化預(yù)測(cè)方法往往缺乏高級(jí)語(yǔ)義信息,需要高清地圖,因此,最近的工作開(kāi)始使用原始感官信息進(jìn)行軌跡預(yù)測(cè)。PnPNet提出了一種新的跟蹤模塊,該模塊通過(guò)檢測(cè)在線生成目標(biāo)軌跡,并利用軌跡級(jí)特征進(jìn)行運(yùn)動(dòng)預(yù)測(cè),但總體而言該框架基于CNN,運(yùn)動(dòng)預(yù)測(cè)模塊相對(duì)簡(jiǎn)單,只有單模輸出。由于transformer被應(yīng)用于檢測(cè)和跟蹤,VIP3D成功地借鑒了以前的工作,并提出了第一個(gè)基于transformer的聯(lián)合感知預(yù)測(cè)框架。Uniad進(jìn)一步整合了更多的下游任務(wù),并提出了一種面向規(guī)劃的端到端自動(dòng)駕駛模型。在前人的基礎(chǔ)上,我們對(duì)運(yùn)動(dòng)預(yù)測(cè)任務(wù)進(jìn)行了更精細(xì)化的優(yōu)化,引入了精細(xì)化機(jī)制和模式關(guān)注,大大提高了預(yù)測(cè)指標(biāo)。


3)基于學(xué)習(xí)的planning


模仿學(xué)習(xí)(IL)和強(qiáng)化學(xué)習(xí)(RL)已被用于規(guī)劃,IL和RL常用于端到端方法(即使用圖像和/或激光雷達(dá)作為輸入)或矢量化方法(即,使用矢量化的感知結(jié)果作為輸入)。盡管使用中間感知結(jié)果進(jìn)行規(guī)劃可以提高泛化能力和透明度,但矢量化方法會(huì)受到后處理噪聲和感知結(jié)果變化的影響。早期的端到端方法,如ALVINN和PilotNet,通常直接輸出控制命令或軌跡,而缺乏中間結(jié)果/任務(wù)。相反,P3、MP3、UniAD學(xué)習(xí)了一個(gè)端到端的可學(xué)習(xí)網(wǎng)絡(luò),該網(wǎng)絡(luò)執(zhí)行聯(lián)合感知、預(yù)測(cè)和規(guī)劃,可以產(chǎn)生可解釋的中間表示并提高最終規(guī)劃性能。


然而,它們要么只使用激光雷達(dá)輸入,要么只使用相機(jī)輸入,這限制了它們的性能。

Transuser同時(shí)使用激光雷達(dá)和相機(jī)輸入,但不在BEV空間中,并且僅執(zhí)行少量AD學(xué)習(xí)任務(wù)作為輔助任務(wù)。為了解決這個(gè)問(wèn)題,我們提出了一種基于BEV融合的統(tǒng)一多模態(tài)多任務(wù)框架,該框架吸收了激光雷達(dá)和相機(jī)的輸入。


我們提出的方法


我們提出的FusionAD的整體網(wǎng)絡(luò)架構(gòu)如圖2所示。首先,使用基于Deformable Attention的融合模塊同時(shí)實(shí)現(xiàn)對(duì)相機(jī)圖像、BEV空間中的激光雷達(dá)特征和歷史幀BEV特征的融合。之后,融合的 BEV特征通過(guò)基于查詢的方法用于檢測(cè)、跟蹤和mapping任務(wù)。隨后,token被轉(zhuǎn)發(fā)到運(yùn)動(dòng)和占用預(yù)測(cè)任務(wù)以及規(guī)劃任務(wù),這里將我們的融合輔助模態(tài)感知預(yù)測(cè)和狀態(tài)感知規(guī)劃模塊簡(jiǎn)稱(chēng)為FMSPnP!


1)BEV編碼器和感知


這個(gè)靈感來(lái)自FusionFormer,我們提出了一種新的基于Transformer架構(gòu)的多模態(tài)時(shí)序融合框架。為了提高效率,采用了一種類(lèi)似于BEVFormer的遞歸時(shí)序融合技術(shù)。與FusionFormer不同,我們使用BEV格式的特征作為激光雷達(dá)分支的輸入,而不是體素特征。多模態(tài)時(shí)序融合模塊包括6個(gè)編碼層,如圖1所示。首先使用一組可學(xué)習(xí)的BEV查詢分別使用點(diǎn)交叉注意力和圖像交叉注意力來(lái)融合激光雷達(dá)特征和圖像特征。然后,我們通過(guò)時(shí)序自注意將產(chǎn)生的特征與前一幀的歷史BEV特征融合,最后,查詢?cè)谟汕梆伨W(wǎng)絡(luò)更新后用作下一層的輸入。經(jīng)過(guò)6層融合編碼后,為后續(xù)任務(wù)生成最終的多模態(tài)時(shí)序融合BEV特征。


激光雷達(dá):首先對(duì)原始激光雷達(dá)點(diǎn)云數(shù)據(jù)進(jìn)行體素化,然后通過(guò)SECOND網(wǎng)絡(luò)生成激光雷達(dá)BEV特征。


相機(jī):多視圖相機(jī)圖像首先通過(guò)backbone網(wǎng)絡(luò)進(jìn)行處理以進(jìn)行特征提取。然后,利用FPN網(wǎng)絡(luò)生成多尺度圖像特征。


我們進(jìn)一步開(kāi)發(fā)了以下技術(shù),以有效提高聚變模塊的性能:


Points Cross-Attention:在點(diǎn)交叉attention過(guò)程中,每個(gè)BEV查詢僅與其相應(yīng)參考點(diǎn)周?chē)腖iDAR BEV特征交互。這種互動(dòng)是通過(guò)可變形的注意力來(lái)實(shí)現(xiàn)的:



Image Cross-Attention:為了實(shí)現(xiàn)圖像交叉關(guān)注,我們采用了與BEVFormer類(lèi)似的方法。每個(gè)BEV查詢都以類(lèi)似于Pillar表示的高度維度展開(kāi)。在每個(gè)pillar中沿著其Z軸對(duì)固定數(shù)量的?3D參考點(diǎn)進(jìn)行采樣,圖像交叉關(guān)注過(guò)程如下所示:



Temporal Self-Attention:我們還利用BEVFormer的insights來(lái)實(shí)現(xiàn)時(shí)態(tài)自我注意。具體來(lái)說(shuō),我們的方法涉及 基于車(chē)輛在幀之間的運(yùn)動(dòng)的歷史幀BEV特征,然后利用時(shí)間自注意來(lái)融合歷史框架BEV特征,如下所示:



由于我們對(duì)預(yù)測(cè)和規(guī)劃增強(qiáng)感興趣,對(duì)于感知中的檢測(cè)、跟蹤和mapping任務(wù),主要遵循UniAD中的設(shè)置。


2)Prediction


得益于信息量更大的BEV特征,預(yù)測(cè)模塊接收到更穩(wěn)定、更細(xì)粒度的信息。為了進(jìn)一步捕捉多模態(tài)分布并提高預(yù)測(cè)精度,我們引入了模態(tài)自注意和精化網(wǎng)絡(luò),設(shè)計(jì)的細(xì)節(jié)可以在圖3中找到!


Context-Informed Mode attention:在UniAD中,使用數(shù)據(jù)集級(jí)別的統(tǒng)計(jì)anchors來(lái)輔助多模態(tài)軌跡學(xué)習(xí),并應(yīng)用anchor間的自我注意來(lái)提高anchor質(zhì)量。然而,由于這些anchor不考慮歷史狀態(tài)和地圖信息,它們對(duì)多模態(tài)學(xué)習(xí)的貢獻(xiàn)是有限的。因此,我們正在考慮稍后添加此操作。在運(yùn)動(dòng)查詢檢索所有場(chǎng)景上下文以捕獲agent、agent地圖和agent目標(biāo)點(diǎn)信息后,我們引入模式自關(guān)注,以實(shí)現(xiàn)各種模式之間的相互可見(jiàn)性,從而獲得更好的質(zhì)量和多樣性!



Refinement Network:可變形注意力使用統(tǒng)計(jì)anchors 作為參考軌跡來(lái)與Bev特征交互。如前所述,由于需要特定的場(chǎng)景信息,這種參考軌跡增加了后續(xù)學(xué)習(xí)的難度。我們引入了一個(gè)細(xì)化網(wǎng)絡(luò),將Motionformer生成的軌跡用作更準(zhǔn)確的空間先驗(yàn),查詢場(chǎng)景context,并預(yù)測(cè)該階段GT軌跡與先前軌跡之間的偏移,如下所示:



3)planning


在評(píng)估過(guò)程中,我們無(wú)法訪問(wèn)高清(HD)地圖或預(yù)定義路線。因此,依靠可學(xué)習(xí)的命令embedding來(lái)表示導(dǎo)航信號(hào)(包括向左轉(zhuǎn)彎、向右轉(zhuǎn)彎和保持前進(jìn)),以引導(dǎo)方向。為了獲得周?chē)膃mbedding,我們將由自我查詢和命令embedding組成的計(jì)劃查詢輸入到鳥(niǎo)瞰圖(BEV)特征中。然后,將其與自車(chē)的embedding相融合,該embedding由MLP網(wǎng)絡(luò)處理,以獲得狀態(tài)embedding,然后將該狀態(tài)embedding解碼為未來(lái)的航路點(diǎn)τ!



為了確保安全,在訓(xùn)練過(guò)程中,除了簡(jiǎn)單的imitation L2 loss外,我們還將碰撞損失的可微分collision loss納入,圖4中展示了完整的設(shè)計(jì)。



此外,在推理過(guò)程中,為了進(jìn)一步確保軌跡的安全性和平滑性,我們使用牛頓方法,使用占用預(yù)測(cè)模式的占用預(yù)測(cè)結(jié)果進(jìn)行軌跡優(yōu)化!


4)訓(xùn)練


利用三階段訓(xùn)練進(jìn)行多傳感器、多任務(wù)學(xué)習(xí)。對(duì)于第一階段,只訓(xùn)練BEV編碼器和感知任務(wù);對(duì)于第二階段,固定BEV編碼器并訓(xùn)練感知、預(yù)測(cè)和規(guī)劃任務(wù);而對(duì)于可選的第三階段,進(jìn)一步訓(xùn)練占用和規(guī)劃任務(wù),并修復(fù)所有其他組件!


實(shí)驗(yàn)對(duì)比


1)實(shí)驗(yàn)設(shè)置


我們?cè)贏100 GPU集群上進(jìn)行了所有實(shí)驗(yàn),使用32個(gè)A100 GPU進(jìn)行實(shí)驗(yàn)訓(xùn)練。使用nuScenes數(shù)據(jù)集,包括在波士頓和新加坡拍攝的1000個(gè)駕駛場(chǎng)景。每個(gè)場(chǎng)景大約持續(xù)20秒,nuScenes提供了一個(gè)巨大的140萬(wàn)個(gè)3D框的集合,包括23個(gè)不同的類(lèi)別,以2Hz采樣。在我們的工作中,我們使用了可用的相機(jī)、激光雷達(dá)和canbus數(shù)據(jù)。對(duì)于超參數(shù),使用0.075×0.075×0.2m(對(duì)于激光雷達(dá)點(diǎn)云);圖像分辨率為1600×900;BEV尺寸為200×;使用啟動(dòng)學(xué)習(xí)率為2e?4的AdamW優(yōu)化器,1000次迭代的warmup,并使用CosineAnnealing scheduling;由于高GPU內(nèi)存消耗,bs大小為1;


對(duì)于感知任務(wù)的度量,使用mAP和NDS來(lái)評(píng)估檢測(cè)任務(wù),使用AMOTA和AMOTP來(lái)評(píng)估跟蹤任務(wù),IoU來(lái)評(píng)估m(xù)apping任務(wù)。為了評(píng)估預(yù)測(cè)和規(guī)劃任務(wù),使用常用的指標(biāo),如端到端預(yù)測(cè)精度(EPA)、平均位移誤差(ADE)、最終位移誤差(FDE)和未命中率(MR)來(lái)評(píng)估運(yùn)動(dòng)預(yù)測(cè)的性能。對(duì)于未來(lái)占用率預(yù)測(cè),我們使用FIERY采用的近(30×30m)和遠(yuǎn)(100×100m)范圍的VPQ和IoU指標(biāo)。并采用位移誤差(DE)和碰撞率(CR)來(lái)評(píng)估規(guī)劃性能,其中碰撞率是衡量規(guī)劃性能的主要指標(biāo)!


2)實(shí)驗(yàn)結(jié)果


主要實(shí)驗(yàn)結(jié)果如表I所示??梢钥吹?,與UniAD基線相比,我們?nèi)诤舷鄼C(jī)和激光雷達(dá)感知信息的設(shè)計(jì)顯著提高了幾乎所有任務(wù)的性能。請(qǐng)注意,我們沒(méi)有包括任何數(shù)據(jù)增強(qiáng)方法,這些方法通常用于感知任務(wù)!



運(yùn)動(dòng)預(yù)測(cè)結(jié)果如表II所示,F(xiàn)usionAD顯著優(yōu)于現(xiàn)有方法。對(duì)于未來(lái)的占用預(yù)測(cè),還觀察到FusionAD的性能比現(xiàn)有方法要好得多,特別是在(100×100m)范圍內(nèi)的IoU-f和VPQ-f,如表III所示,這表明激光雷達(dá)信息的融合有助于更遠(yuǎn)的距離!


表IV顯示了規(guī)劃結(jié)果,表明FusionAD與現(xiàn)有方法相比具有卓越的性能,其平均碰撞率和總碰撞率最低。CRtraj表示整個(gè)3秒軌跡之間的碰撞率,而[3]中采用的CRavg表示1、2和3秒時(shí)trajecotory的平均碰撞率。此外,F(xiàn)usionAD實(shí)現(xiàn)了第二低的L2距離,這作為評(píng)估計(jì)劃軌跡和GT之間相似性的參考度量。需要注意的是,碰撞率是主要指標(biāo),而在現(xiàn)實(shí)世界中,可能存在多個(gè)可行的軌跡,因此L2距離是次要考慮因素。



3)消融實(shí)驗(yàn)


與FMSPnP模塊相關(guān)的消融研究如表五和表六所示。經(jīng)檢查,很明顯,細(xì)化網(wǎng)絡(luò)和模式注意力模塊對(duì)提高預(yù)測(cè)結(jié)果有顯著貢獻(xiàn)。就規(guī)劃結(jié)果而言,當(dāng)與過(guò)去軌跡和自我狀態(tài)的矢量化表示融合時(shí),觀察到顯著的改進(jìn)。



4)量化結(jié)果


FusionAD和UniAD之間的比較定性結(jié)果如圖5所示。激光雷達(dá)傳感輸入的集成和FusionAD中FMSPnP模塊的新穎設(shè)計(jì)證明了感知和預(yù)測(cè)性能的增強(qiáng)。例如,圖5a顯示了UniAD在公交車(chē)檢測(cè)中的一個(gè)顯著的航向誤差,這是由于攝像頭的失真,特別是在前攝像頭和右前攝像頭之間的重疊區(qū)域。相比之下,F(xiàn)usionAD可以準(zhǔn)確地識(shí)別公交車(chē)的行駛方向。圖5b顯示了一個(gè)涉及U型轉(zhuǎn)彎的預(yù)測(cè)場(chǎng)景,F(xiàn)usionAD始終預(yù)測(cè)U型轉(zhuǎn)彎軌跡,而UniAD則生成向前移動(dòng)、左轉(zhuǎn)和U型轉(zhuǎn)彎模式。請(qǐng)?jiān)谖覀兊捻?xiàng)目頁(yè)面,https://github.com/westlake-autolab/FusionAD,了解更多詳細(xì)信息。



5)一些討論


雖然所提出的方法表現(xiàn)出強(qiáng)大的定量和定性性能,但它仍然依賴(lài)于基于規(guī)則的系統(tǒng)來(lái)對(duì)輸出進(jìn)行后處理,以實(shí)現(xiàn)可靠的真實(shí)世界性能。此外,當(dāng)前的研究工作主要使用規(guī)劃任務(wù)的開(kāi)環(huán)結(jié)果來(lái)評(píng)估學(xué)習(xí)的規(guī)劃器,這可能無(wú)法有效地衡量其性能。用真實(shí)世界的感知數(shù)據(jù)以閉環(huán)方式評(píng)估規(guī)劃者帶來(lái)了挑戰(zhàn)。盡管如此,端到端框架下的預(yù)測(cè)結(jié)果仍然很有希望,并且有可能在該框架內(nèi)進(jìn)一步改進(jìn)規(guī)劃模塊。


參考


[1] FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving.


① 全網(wǎng)獨(dú)家視頻課程


BEV感知、毫米波雷達(dá)視覺(jué)融合、多傳感器標(biāo)定、多傳感器融合、多模態(tài)3D目標(biāo)檢測(cè)、點(diǎn)云3D目標(biāo)檢測(cè)、目標(biāo)跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語(yǔ)義分割、自動(dòng)駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測(cè)等多個(gè)方向?qū)W習(xí)視頻(掃碼學(xué)習(xí))


視頻官網(wǎng):www.zdjszx.com


② 國(guó)內(nèi)首個(gè)自動(dòng)駕駛學(xué)習(xí)社區(qū)


近2000人的交流社區(qū),涉及30+自動(dòng)駕駛技術(shù)棧學(xué)習(xí)路線,想要了解更多自動(dòng)駕駛感知(2D檢測(cè)、分割、2D/3D車(chē)道線、BEV感知、3D目標(biāo)檢測(cè)、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計(jì))、自動(dòng)駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動(dòng)駕駛規(guī)劃控制/軌跡預(yù)測(cè)等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動(dòng)態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動(dòng)駕駛之心知識(shí)星球,這是一個(gè)真正有干貨的地方,與領(lǐng)域大佬交流入門(mén)、學(xué)習(xí)、工作、跳槽上的各類(lèi)難題,日常分享論文+代碼+視頻,期待交流!

自動(dòng)駕駛之心是首個(gè)自動(dòng)駕駛開(kāi)發(fā)者社區(qū),聚焦目標(biāo)檢測(cè)、語(yǔ)義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、車(chē)道線、目標(biāo)跟蹤、3D目標(biāo)檢測(cè)、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點(diǎn)云處理、端到端自動(dòng)駕駛、SLAM、光流估計(jì)、深度估計(jì)、軌跡預(yù)測(cè)、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動(dòng)駕駛仿真測(cè)試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車(chē)人助理微信邀請(qǐng)入群,備注:學(xué)校/公司+方向+昵稱(chēng)(快速入群方式)



④【自動(dòng)駕駛之心】平臺(tái)矩陣,歡迎聯(lián)系我們!


超越UniAD!FusionAD:預(yù)測(cè)與規(guī)劃任務(wù)的多模態(tài)融合方案的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
永宁县| 大新县| 凤城市| 漳平市| 沽源县| 镇康县| 玛多县| 莱阳市| 漠河县| 临泽县| 金阳县| 巴南区| 兰坪| 岳普湖县| 阿瓦提县| 南涧| 息烽县| 易门县| 广灵县| 石阡县| 贵溪市| 泾阳县| 泽州县| 五指山市| 错那县| 阳新县| 左权县| 临西县| 正定县| 策勒县| 彰化县| 蒙阴县| 印江| 九江县| 拉孜县| 繁昌县| 石屏县| 东丽区| 桂平市| 武清区| 皮山县|