最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

自動(dòng)駕駛大一統(tǒng)?端到端自動(dòng)駕駛框架!

2023-08-23 09:08 作者:3D視覺工坊  | 我要投稿



3DCV有幸邀請(qǐng)到頂會(huì)作者Yihan Hu、Jiazhi Yang、Li Chen等與大家一起分享他們的最新文章,如果您有相關(guān)工作需要分享,文末可以聯(lián)系我們!

在公眾號(hào)「3D視覺工坊」后臺(tái),回復(fù)「原論文」即可獲取pdf或代碼。

添加微信:dddvisiona,備注:SLAM,拉你入群。文末附行業(yè)細(xì)分群。

1 背景

圖1 現(xiàn)代自動(dòng)駕駛系統(tǒng)的系統(tǒng)流程。作者首先分析了現(xiàn)代自動(dòng)駕駛系統(tǒng)的三大核心部分,分別是感知(Perception)、預(yù)測(cè)(prediction)和規(guī)劃(Planning),如圖1所示。已有的自動(dòng)駕駛方法,要么為單個(gè)任務(wù)部署獨(dú)立的模型。要么,基于統(tǒng)一的特征提取骨干網(wǎng)絡(luò),然后為不同的任務(wù)設(shè)計(jì)單獨(dú)的”任務(wù)頭“。但是這兩種方案都存在問題,例如獨(dú)立的模型在聯(lián)合起來以后可能會(huì)遭遇累積誤差的問題,而多任務(wù)聯(lián)合學(xué)習(xí)的方案則可能不同的任務(wù)會(huì)相互拉扯,并不能有一個(gè)統(tǒng)一的優(yōu)化目標(biāo)。因此,作者提出了統(tǒng)一自動(dòng)駕駛(UniAD)。這是一種最新的綜合框架,以最終的規(guī)劃(Planning)為目標(biāo)。將全棧駕駛?cè)蝿?wù)整合到一個(gè)網(wǎng)絡(luò)中。充分利用了每個(gè)模塊的優(yōu)勢(shì),并從全局角度為agents交互提供了互補(bǔ)的特征抽象。任務(wù)通過統(tǒng)一的查詢接口進(jìn)行溝通,方便彼此進(jìn)行規(guī)劃。作者在nuScenes數(shù)據(jù)集上對(duì)UniAD,選擇nuScenes的原因是目前只有nuScenes提供了面向自動(dòng)駕駛比較全面的任務(wù)標(biāo)注。最終的實(shí)驗(yàn)結(jié)果顯示,UniAD取得了優(yōu)異的性能,遠(yuǎn)超先前的方法。

這里推薦一下3D視覺工坊最新自動(dòng)駕駛課程:

[1]?深度剖析面向自動(dòng)駕駛領(lǐng)域的車載傳感器空間同步(標(biāo)定)

[2]?國(guó)內(nèi)首個(gè)面向自動(dòng)駕駛目標(biāo)檢測(cè)領(lǐng)域的Transformer原理與實(shí)戰(zhàn)課程

2 相關(guān)工作

圖2 為單個(gè)任務(wù)部署單獨(dú)模型的方案
圖3 多任務(wù)聯(lián)合學(xué)習(xí)方案
圖4 端到端的初步方案
圖5 集成了部分中間任務(wù)的端到端方案 圖2展示了為任務(wù)部署單獨(dú)模型的方案,這種方案在實(shí)驗(yàn)室中其實(shí)已經(jīng)有很多例子了。這種方案確實(shí)在有些任務(wù)中會(huì)把指標(biāo)刷的很高,例如,物體檢測(cè),語義分割等。但是在將所有的任務(wù)進(jìn)行聯(lián)合以后,可能會(huì)產(chǎn)生累積誤差,導(dǎo)致最終的自動(dòng)駕駛規(guī)劃結(jié)果并不是那么好。圖3展示了多任務(wù)聯(lián)合學(xué)習(xí)的方案,這種方案的優(yōu)勢(shì)是容易拓展且高效。但缺點(diǎn)是沒有一個(gè)統(tǒng)一的優(yōu)化目標(biāo),最終出來的結(jié)果可能會(huì)是多個(gè)任務(wù)“相互拉扯”的結(jié)果。圖4是端到端的初步方案,優(yōu)點(diǎn)是設(shè)計(jì)簡(jiǎn)單,且在模擬環(huán)境下性能表現(xiàn)不錯(cuò)。但是自動(dòng)駕駛畢竟事關(guān)人命,這種缺乏可解釋性的黑盒方案還是比較難落地到實(shí)際環(huán)境中。圖5展示了集成了部分中間任務(wù)的端到端方案,這種方案其實(shí)有點(diǎn)接近UniAD了。但是缺點(diǎn)是缺少了自動(dòng)駕駛的一些重要任務(wù)。

3 方法

圖6 UniAD的框架流程圖 如圖6所示,UniAD最終包括四個(gè)基于Transformer解碼器的感知和預(yù)測(cè)模塊以及一個(gè)規(guī)劃器。查詢 Q 起到連接各個(gè)任務(wù)的作用,以對(duì)駕駛場(chǎng)景中實(shí)體的不同交互進(jìn)行建模。具體來說,將一系列多攝像頭圖像輸入特征提取器,并通過 BEVFormer 中現(xiàn)成的 BEV 編碼器將所得視圖特征轉(zhuǎn)換為統(tǒng)一的鳥瞰圖 (BEV) 特征 B。這里的特征提取部分(Backbone)是可以替換的。TrackFormer,負(fù)責(zé)檢測(cè)和跟蹤任務(wù)。MapFormer的作用是執(zhí)行全景分割。MotionFormer 捕獲agents之間的交互,并繪制和預(yù)測(cè)每個(gè)agents的未來軌跡。由于每個(gè)agents的動(dòng)作都會(huì)顯著影響場(chǎng)景中的其他agents,因此該模塊對(duì)所有考慮的agents進(jìn)行聯(lián)合預(yù)測(cè)。同時(shí),設(shè)計(jì)了一個(gè)自我車輛查詢來顯式地建模車輛,并使其能夠在這種以場(chǎng)景為中心的范例中與其他agents進(jìn)行交互。OccFormer 采用 BEV 特征 B 作為查詢,預(yù)測(cè)未來其他agents的占用情況。最后,Planner預(yù)測(cè)規(guī)劃結(jié)果,并使其遠(yuǎn)離 OccFormer 預(yù)測(cè)的占用區(qū)域以避免碰撞。

這里推薦一下3D視覺工坊最新自動(dòng)駕駛課程:

[1]?深度剖析面向自動(dòng)駕駛領(lǐng)域的車載傳感器空間同步(標(biāo)定)

[2]?國(guó)內(nèi)首個(gè)面向自動(dòng)駕駛目標(biāo)檢測(cè)領(lǐng)域的Transformer原理與實(shí)戰(zhàn)課程

圖7 TrackFormer 流程圖 圖7TrackFormer得具體流程圖,該方法采用類似Motr和MUTR3D的查詢?cè)O(shè)計(jì)思路,在對(duì)象檢測(cè)中只使用傳統(tǒng)的檢測(cè)查詢,并引入跟蹤查詢來實(shí)現(xiàn)跨幀跟蹤代理,實(shí)現(xiàn)檢測(cè)查詢與跟蹤查詢相結(jié)合的范式。具體來說,每一時(shí)刻,初始化的檢測(cè)查詢負(fù)責(zé)檢測(cè)第一次感知到的新出現(xiàn)代理,跟蹤查詢對(duì)之前幀中已經(jīng)檢測(cè)到的代理進(jìn)行建模。檢測(cè)查詢和跟蹤查詢都通過考察BEV特征來獲取代理的抽象表達(dá)。隨著場(chǎng)景更新,當(dāng)前幀的跟蹤查詢與自注意力模塊中之前記錄的查詢進(jìn)行交互,從而聚合時(shí)序信息,直到相應(yīng)代理完全消失(在特定時(shí)間內(nèi)未被跟蹤到)。TrackFormer通過多層網(wǎng)絡(luò),最終輸出狀態(tài)表示,為下游任務(wù)提供對(duì)環(huán)境中有效代理的編碼表達(dá)。除了對(duì)自主駕駛車輛周圍其他代理的查詢?cè)O(shè)計(jì)外,還在查詢集中引入了對(duì)自主車輛的專門查詢,以顯式對(duì)自身進(jìn)行建模,這將在運(yùn)動(dòng)規(guī)劃中進(jìn)一步使用。

圖8 MapFormer流程圖 圖8是該MapFormer的流程圖,基于2D全景分割方法Panoptic SegFormer,將道路元素表示為地圖查詢,以幫助下游任務(wù)進(jìn)行預(yù)測(cè),并編碼位置和結(jié)構(gòu)知識(shí)。針對(duì)自動(dòng)駕駛場(chǎng)景,將車道線、分割線和十字路口設(shè)定為things類,將可行駛區(qū)域設(shè)定為stuff類。MapFormer的多層網(wǎng)絡(luò)都進(jìn)行監(jiān)督,只有最后一層包含的新的地圖查詢被向前傳播到MotionFormer,以進(jìn)行代理和地圖的交互。地圖查詢采用了稀疏表示,以編碼自動(dòng)駕駛場(chǎng)景的關(guān)鍵道路元素,輔助運(yùn)動(dòng)預(yù)測(cè)任務(wù)。

圖9 MotionFormer流程圖

圖9是MotionFormer流程圖。Transformer結(jié)構(gòu)對(duì)運(yùn)動(dòng)預(yù)測(cè)任務(wù)非常有效,基于此提出端到端的MotionFormer,它通過分別從TrackFormer和MapFormer對(duì)動(dòng)態(tài)代理和靜態(tài)地圖進(jìn)行高度抽象的查詢,以場(chǎng)景為中心的方式預(yù)測(cè)所有代理的多模態(tài)未來運(yùn)動(dòng),即每個(gè)代理可能的多條未來軌跡。這種范式通過一次前向傳播即可生成整個(gè)場(chǎng)景中多個(gè)代理的軌跡,大大減少了將整個(gè)場(chǎng)景與每個(gè)代理對(duì)齊的計(jì)算量。同時(shí),考慮到未來的動(dòng)態(tài)情況,MotionFormer還傳入了來自TrackFormer對(duì)自主車輛的編碼查詢,以使自主車輛與其他代理進(jìn)行交互。查詢抽象提供了場(chǎng)景編碼,輔助運(yùn)動(dòng)預(yù)測(cè)。

圖10 OccFormer流程圖 圖10是 OccFormer流程圖。Occupancy柵格地圖是一種離散化的BEV表示,其每個(gè)柵格單元包含一個(gè)標(biāo)志位指示其是否被占用。Occupancy預(yù)測(cè)任務(wù)是預(yù)測(cè)柵格地圖未來的變化。之前的方法利用RNN沿時(shí)間維展開當(dāng)前觀測(cè)到的BEV進(jìn)行預(yù)測(cè),高度依賴手工設(shè)計(jì)的聚類后處理來為每個(gè)代理生成Occupancy,其將BEV特征壓縮到RNN隱狀態(tài)作為整體表示,因此缺乏對(duì)代理的建模。這導(dǎo)致其難以預(yù)測(cè)全局所有代理的行為,而這對(duì)場(chǎng)景演變至關(guān)重要。UniAD提出OccFormer,從場(chǎng)景級(jí)和代理級(jí)兩個(gè)層面結(jié)合語義信息:1)稠密場(chǎng)景特征在時(shí)間維上展開時(shí),通過設(shè)計(jì)的注意力機(jī)制獲取代理級(jí)特征;2)通過代理特征和場(chǎng)景特征的矩陣乘法直接獲得實(shí)例級(jí)Occupancy,無需其他后處理。OccFormer可為運(yùn)動(dòng)規(guī)劃提供碰撞風(fēng)險(xiǎn)較低的Occupancy預(yù)測(cè)。

圖11 Planning流程圖 圖11是Planning流程圖。是在沒有高精度地圖或預(yù)定義路線的情況下,規(guī)劃通常需要高級(jí)命令指示前進(jìn)方向。因此,本文將原始導(dǎo)航信號(hào)轉(zhuǎn)換為三個(gè)可學(xué)習(xí)的embedding,稱為命令embedding。來自MotionFormer的自主車輛查詢已經(jīng)編碼了其多模態(tài)意圖,因此再配備命令embedding形成“規(guī)劃查詢”。該查詢作用于BEV特征,感知周圍環(huán)境,然后解碼得到未來的航點(diǎn)。命令embedding提供了高級(jí)導(dǎo)航意圖,輔助基于場(chǎng)景的無地圖導(dǎo)航規(guī)劃。規(guī)劃查詢結(jié)合自主車輛狀態(tài)和導(dǎo)航意圖,可實(shí)現(xiàn)端到端的條件路徑規(guī)劃。

4 實(shí)驗(yàn)

更詳細(xì)的結(jié)果作者放在了補(bǔ)充材料里面,UniAD在nuScenes數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),從以下三個(gè)方面驗(yàn)證了方法的有效性:

  1. 任務(wù)協(xié)同帶來的優(yōu)勢(shì)及其對(duì)規(guī)劃的影響。

  2. 和之前方法相比,每個(gè)子任務(wù)模塊的效果。

  3. 對(duì)特定模塊設(shè)計(jì)的消融實(shí)驗(yàn)分析。

  • 表1 每一個(gè)子任務(wù)有效性的消融實(shí)驗(yàn)

作者進(jìn)行了如表 1 所示的消融,以證明端到端管道中先前任務(wù)的有效性和必要性。此表的每一行顯示合并第二個(gè)模塊列中列出的任務(wù)模塊時(shí)的模型性能。第一行 (ID-0) 作為普通多任務(wù)基線,具有單獨(dú)的任務(wù)頭以進(jìn)行比較。每個(gè)指標(biāo)的最佳結(jié)果以粗體標(biāo)記,第二名結(jié)果在每列中用下劃線標(biāo)記。由于與感知相比,預(yù)測(cè)更接近于規(guī)劃,因此我們首先研究框架中的兩種類型的預(yù)測(cè)任務(wù),即運(yùn)動(dòng)預(yù)測(cè)和占用預(yù)測(cè)。在Exp.10-12中,只有當(dāng)同時(shí)引入兩個(gè)任務(wù)時(shí)(Exp.12),與沒有任何中間任務(wù)的樸素端到端規(guī)劃(Exp.10)相比,規(guī)劃L2和碰撞率的指標(biāo)都達(dá)到了最佳結(jié)果。因此,得出的結(jié)論是,這兩個(gè)預(yù)測(cè)任務(wù)都是安全規(guī)劃目標(biāo)所必需的。退一步來說,在實(shí)驗(yàn) 7-9 中,展示了兩種類型預(yù)測(cè)的協(xié)同效應(yīng)。當(dāng)兩個(gè)任務(wù)緊密集成時(shí),它們的性能都會(huì)得到提高(Exp.9,-3.5% minADE,-5.8% minFDE,-1.3 MR(%),+2.4 IoUf.(%),+2.4 VPQ-f.(%) )),這證明了包括代理和場(chǎng)景表示的必要性。為實(shí)現(xiàn)運(yùn)動(dòng)預(yù)測(cè),還探索感知模塊如何在實(shí)驗(yàn) 4-6 中做出貢獻(xiàn)。值得注意的是,結(jié)合跟蹤和繪圖節(jié)點(diǎn)可以顯著改善預(yù)測(cè)結(jié)果(-9.7% minADE、-12.9% minFDE、-2.3 MR(%))。此外,還提出了實(shí)驗(yàn) 1-3,它們表明一起訓(xùn)練感知子任務(wù)會(huì)產(chǎn)生與單個(gè)任務(wù)相當(dāng)?shù)慕Y(jié)果。此外,與樸素多任務(wù)學(xué)習(xí)(Exp.0)相比,Exp.12 在所有基本指標(biāo)上都顯著優(yōu)于它(-15.2% minADE、17.0% minFDE、-3.2 MR(% ))、+4.9 IoU-f.(%).、+5.9 VPQf.(%)、-0.15m avg.L2、-0.51 avg.Col.(%)),顯示了UniAD的優(yōu)越性。

按照感知預(yù)測(cè)規(guī)劃的順序,報(bào)告每個(gè)任務(wù)模塊的性能,并與 nuScenes 驗(yàn)證集上的現(xiàn)有技術(shù)進(jìn)行比較。UniAD 使用單個(gè)經(jīng)過訓(xùn)練的網(wǎng)絡(luò)聯(lián)合執(zhí)行所有這些任務(wù)。每個(gè)任務(wù)的主要指標(biāo)在表格中用灰色背景標(biāo)記。對(duì)于表2中的多目標(biāo)跟蹤,與 MUTR3D 和 ViP3D相比,UniAD 分別產(chǎn)生了 +6.5 和 +14.2 AMOTA(%) 的顯著改進(jìn)。此外,UniAD 獲得了最低的 ID 切換分?jǐn)?shù),顯示了每個(gè) tracklet 的時(shí)間一致性。對(duì)于表 3 中的在線地圖(Online mapping),UniAD 在分段車道上表現(xiàn)良好(與 BEVFormer 相比,+7.4 IoU(%)),這對(duì)于運(yùn)動(dòng)模塊中的下游智能道路交互至關(guān)重要。由于UniAD的跟蹤模塊遵循端到端范例,它仍然不如具有復(fù)雜關(guān)聯(lián)的檢測(cè)跟蹤方法,例如 Immortal Tracker,并且UniAD的映射結(jié)果落后于之前針對(duì)特定類別的面向感知的方法。作者認(rèn)為 UniAD 是通過感知信息來促進(jìn)最終規(guī)劃,而不是通過完整的模型能力來優(yōu)化感知。

表2 多目標(biāo)跟蹤結(jié)果
表3 Online mapping結(jié)果

運(yùn)動(dòng)預(yù)測(cè)結(jié)果如表4所示,其中 UniAD 明顯優(yōu)于之前基于視覺的端到端方法。與 PnPNet-vision 和 ViP3D相比,它在 minADE 上的預(yù)測(cè)誤差分別減少了 38.3% 和 65.4%。就表5中報(bào)告的Occupancy預(yù)測(cè)而言,UniAD 在附近區(qū)域取得了顯著的進(jìn)步,與大量增強(qiáng)的 FIERY和 BEVerse 相比,在 IoU-near(%) 上分別獲得了 +4.0 和 +2.0的提升。受益于自我車輛查詢和占用中豐富的時(shí)空信息,UniAD 與 ST-P3 相比,就規(guī)劃范圍的平均值而言,將規(guī)劃 L2 錯(cuò)誤和碰撞率降低了 51.2% 和 56.3% 。此外,它的性能明顯優(yōu)于幾種基于激光雷達(dá)的同類產(chǎn)品,這是非常難得的結(jié)果。

表4 運(yùn)動(dòng)預(yù)測(cè)結(jié)果
表5 Occupancy預(yù)測(cè)

表6 運(yùn)動(dòng)預(yù)測(cè)模塊中設(shè)計(jì)的消融。表6顯示了UniAD在論文第 2 節(jié)中描述的所有建議組件。2.2 為 minADE、minFDE、Miss Rate 和 minFDE-mAP 指標(biāo)的最終性能做出貢獻(xiàn)。值得注意的是,旋轉(zhuǎn)的場(chǎng)景級(jí)錨點(diǎn)顯示出顯著的性能提升(15.8% minADE、-11.2% minFDE、+1.9 minFDE-mAP(%)),表明以場(chǎng)景為中心的方式進(jìn)行運(yùn)動(dòng)預(yù)測(cè)是至關(guān)重要的。agents-目標(biāo)點(diǎn)交互通過面向規(guī)劃的視覺特征增強(qiáng)了運(yùn)動(dòng)查詢,周圍的agents可以從考慮自我車輛的意圖中進(jìn)一步受益。此外,非線性優(yōu)化策略通過考慮端到端的感知不確定性,提高了性能(-5.0% minADE、-8.4% minFDE、-1.0 MR(%)、+0.7 minFDE-mAP(%))。

表7 占用預(yù)測(cè)模塊中設(shè)計(jì)的消融。如表7所示,與無注意力基線(實(shí)驗(yàn) 1)相比,在沒有局部性約束的情況下關(guān)注所有代理的每個(gè)像素(實(shí)驗(yàn) 2)會(huì)導(dǎo)致性能稍差。The occupancy-guided attention mask解決了問題并帶來了增益,特別是對(duì)于附近區(qū)域(Exp.3,+1.0 IoU-n.(%),+1.4 VPQ-n.(%))。此外,重用掩模特征而不是代理特征來獲取占用特征進(jìn)一步增強(qiáng)了性能。

表8 規(guī)劃模塊中設(shè)計(jì)的消融。表8是對(duì)規(guī)劃模塊行了消融,即關(guān)注 BEV 特征、碰撞損失訓(xùn)練以及占用優(yōu)化策略。為了安全性,較低的碰撞率優(yōu)于樸素軌跡模仿(L2 度量),并且在 UniAD 中應(yīng)用的所有部件中,碰撞率都會(huì)降低。

5 總結(jié)與未來展望

本文討論自動(dòng)駕駛算法框架的系統(tǒng)級(jí)設(shè)計(jì)。面向規(guī)劃的終極追求,提出了以規(guī)劃為導(dǎo)向的管道,即UniAD。我們對(duì)感知和預(yù)測(cè)中每個(gè)模塊的必要性進(jìn)行了詳細(xì)的分析。為了統(tǒng)一任務(wù),提出了一種基于查詢的設(shè)計(jì)來連接 UniAD 中的所有節(jié)點(diǎn),從而受益于環(huán)境中代理交互的更豐富的表示。大量的實(shí)驗(yàn)從各個(gè)方面驗(yàn)證了所提出的方法。但是,協(xié)調(diào)這樣一個(gè)具有多個(gè)任務(wù)的綜合系統(tǒng)并非易事,需要大量的計(jì)算能力,尤其是計(jì)算能力。如何設(shè)計(jì)和管理系統(tǒng)以實(shí)現(xiàn)輕量級(jí)部署值得未來探索。此外,是否納入更多的任務(wù),如深度估計(jì)、行為預(yù)測(cè),以及如何將它們嵌入到系統(tǒng)中,也是未來值得研究的方向。

參考:

1、https://zhuanlan.zhihu.com/p/639336670

2、https://zhuanlan.zhihu.com/p/638820246

自動(dòng)駕駛大一統(tǒng)?端到端自動(dòng)駕駛框架!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
宁海县| 新巴尔虎右旗| 洪湖市| 渝中区| 汝州市| 曲松县| 天柱县| 永寿县| 文昌市| 新兴县| 韩城市| 晋中市| 建阳市| 九龙坡区| 蓝山县| 汉阴县| 瑞金市| 新竹市| 镇赉县| 卫辉市| 长宁区| 伽师县| 松江区| 清水县| 休宁县| 建瓯市| 永康市| 安阳市| 三门峡市| 师宗县| 武川县| 平山县| 报价| 三穗县| 东台市| 房山区| 乳山市| 皋兰县| 原平市| 平阳县| 河源市|