最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

上海AI Lab | 最新端到端自動駕駛綜述,來龍去脈詳盡梳理

2023-07-25 22:13 作者:自動駕駛之心  | 我要投稿

今天自動駕駛之心很榮幸邀請到Li Chen來分享端到端自動駕駛的最新綜述,如果您有相關(guān)工作需要分享,請?jiān)谖哪┞?lián)系我們!


>>點(diǎn)擊進(jìn)入→自動駕駛之心【大模型】技術(shù)交流群

論文作者?|?Li Chen


編輯 | 自動駕駛之心



今年的CVPR最佳論文頒給了端到端自動駕駛,在汽車人看來,這幾乎代表著一種共識:端到端自動駕駛是行業(yè)的未來。那端到端自動駕駛它的動機(jī)是什么,有哪些路線圖、方法論,其挑戰(zhàn)和未來趨勢是怎么樣的,今天自動駕駛之心帶來端到端自動駕駛領(lǐng)域綜述。自動駕駛社區(qū)見證了采用端到端算法框架方法的快速增長,利用原始傳感器輸入來生成車輛運(yùn)動規(guī)劃,而不是專注于檢測和運(yùn)動預(yù)測等單個任務(wù)。與模塊化pipeline相比,端到端系統(tǒng)受益于感知和規(guī)劃的聯(lián)合特征優(yōu)化。由于大規(guī)模數(shù)據(jù)集的可用性、閉環(huán)評估以及對自動駕駛算法在具有挑戰(zhàn)性的場景中有效執(zhí)行的日益增長的需求,該領(lǐng)域蓬勃發(fā)展。在這項(xiàng)調(diào)研中,通過對250多篇論文進(jìn)行了全面分析,涵蓋了端到端自動駕駛的動機(jī)、路線圖、方法、挑戰(zhàn)和未來趨勢。深入探討了幾個關(guān)鍵挑戰(zhàn),包括多模態(tài)、可解釋性、因果混淆、穩(wěn)健性和世界模型等。此外,討論了基礎(chǔ)模型和視覺預(yù)訓(xùn)練方面的最新進(jìn)展,以及如何將這些技術(shù)納入端到端駕駛框架。


1簡介


傳統(tǒng)的自動駕駛系統(tǒng)采用模塊化部署策略,其中每個功能,如感知、預(yù)測和規(guī)劃,都是單獨(dú)開發(fā)并集成到車載車輛中的。負(fù)責(zé)產(chǎn)生轉(zhuǎn)向和加速輸出的規(guī)劃或控制模塊在決定駕駛體驗(yàn)方面發(fā)揮著至關(guān)重要的作用。模塊化pipeline中最常見的規(guī)劃方法包括使用復(fù)雜的基于規(guī)則的設(shè)計,這些設(shè)計在解決駕駛時出現(xiàn)的大量情況時往往無效。因此,越來越多的趨勢是利用大規(guī)模數(shù)據(jù),并將基于學(xué)習(xí)的規(guī)劃作為一種可行的替代方案。


端到端自動駕駛系統(tǒng)可定義為完全可微的過程,以原始傳感器數(shù)據(jù)為輸入,并產(chǎn)生規(guī)劃和/或低級控制動作作為輸出。下圖1(a)-(b)說明了經(jīng)典范式和端到端范式之間的差異。



傳統(tǒng)范式將每個組件的輸出(如邊界框和車輛軌跡)直接輸入到后續(xù)單元(虛線箭頭)中。相反,端到端范式在組件之間傳播特征表示(灰色實(shí)心箭頭)。優(yōu)化的函數(shù)被設(shè)置為,例如,規(guī)劃性能,并且通過反向傳播將損失最小化(紅色箭頭)。在此過程中,任務(wù)得到了聯(lián)合和全局優(yōu)化。


在本次調(diào)研中,對這一新興主題進(jìn)行了廣泛的回顧。上面圖1概述了本工作。


  1. 首先討論端到端自動駕駛系統(tǒng)的動機(jī)和路線圖;


  2. 端到端方法可以大致分為模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí),對這些方法進(jìn)行了簡要的回顧;


  3. 涵蓋了閉環(huán)和開環(huán)評估的數(shù)據(jù)集和基準(zhǔn);


  4. 總結(jié)了一系列關(guān)鍵挑戰(zhàn),包括可解釋性、泛化、世界模型、因果混淆等;


  5. 討論了認(rèn)為應(yīng)該被社區(qū)接受的未來趨勢,以納入從數(shù)據(jù)引擎、大型基礎(chǔ)模型和V2X的最新發(fā)展等。


端到端系統(tǒng)的動機(jī)


在經(jīng)典pipeline中,每個模型都為一個獨(dú)立的組件服務(wù),并對應(yīng)于一個特定的任務(wù)(例如,紅綠燈檢測)。這樣的設(shè)計在可解釋性、可驗(yàn)證性和易于調(diào)試方面是有益的。然而,由于各模塊的優(yōu)化目標(biāo)不同,感知中的檢測追求平均精度(mAP),而規(guī)劃則以駕駛安全和舒適為目標(biāo),因此整個系統(tǒng)可能無法與統(tǒng)一的目標(biāo)(即最終規(guī)劃/控制任務(wù))保持一致。隨著順序程序的進(jìn)行,每個模塊的誤差可能會加劇,并導(dǎo)致自動駕駛系統(tǒng)的信息丟失。此外,多任務(wù)、多模型部署可能會增加計算負(fù)擔(dān),并可能導(dǎo)致計算的次優(yōu)使用。


與經(jīng)典范式相比,端到端的自動駕駛系統(tǒng)提供了幾個優(yōu)勢。


  1. 它簡單地將感知、預(yù)測和規(guī)劃結(jié)合到一個可以聯(lián)合訓(xùn)練的單一模型中。


  2. 整個系統(tǒng),包括其中間表示,都朝著最終任務(wù)進(jìn)行了優(yōu)化。


  3. 共享主干網(wǎng)提高了計算效率。


  4. 數(shù)據(jù)驅(qū)動的優(yōu)化有可能通過簡單地擴(kuò)展訓(xùn)練資源來改進(jìn)系統(tǒng)的能力。


請注意,端到端范式并不一定表示一個只有規(guī)劃/控制輸出的黑盒。它可以是具有中間表示和輸出的模塊化的(上圖1(b)),如在經(jīng)典方法中一樣。事實(shí)上,一些最先進(jìn)的系統(tǒng)提出了模塊化設(shè)計,但同時優(yōu)化了所有組件,以實(shí)現(xiàn)卓越的性能。


路線圖


下圖2描繪了端到端自動駕駛關(guān)鍵成就的時序路線圖,其中每個部分都表明了顯著的范式轉(zhuǎn)變或性能提升。



端到端自動駕駛的歷史可以追溯到1988年的ALVINN,其中輸入是來自相機(jī)和激光測距儀的兩個“視網(wǎng)膜”,以及一個簡單的神經(jīng)網(wǎng)絡(luò)生成的轉(zhuǎn)向輸出。Bojarski等人設(shè)計了一個用于模擬和道路測試的端到端CNN原型系統(tǒng),在GPU計算的新時代重新確立了這一理念。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,在模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方面都取得了顯著進(jìn)展。LBC和相關(guān)方法中提出的策略通過模仿行為良好的專家策略范式,顯著提高了閉環(huán)性能。由于專家策略和學(xué)習(xí)策略之間的差異,為了提高概括能力,幾篇論文建議在訓(xùn)練期間匯總策略數(shù)據(jù)。


端到端自動駕駛在2021年出現(xiàn)了一個重要的轉(zhuǎn)折點(diǎn)。在合理的計算預(yù)算內(nèi),有了各種各樣的傳感器配置,人們的注意力集中在結(jié)合更多的模態(tài)和高級架構(gòu)(例如,Transformer),以捕捉全局上下文和代表性特征,如TransFuser和許多變體。結(jié)合對模擬環(huán)境的更多見解,這些先進(jìn)的設(shè)計大大提高了閉環(huán)CARLA基準(zhǔn)的性能。為了提高自動駕駛系統(tǒng)的可解釋性和安全性,NEAT、NMP和BDD-X等方法明確納入了各種輔助模塊,以更好地監(jiān)督學(xué)習(xí)過程或利用注意力可視化。最近的工作優(yōu)先生成安全關(guān)鍵數(shù)據(jù),預(yù)訓(xùn)練為策略學(xué)習(xí)策劃的(大型)基礎(chǔ)模型或骨干,并倡導(dǎo)模塊化端到端規(guī)劃理念。同時,引入了新的、具有挑戰(zhàn)性的CARLAV2和nuPlan基準(zhǔn),以促進(jìn)對該領(lǐng)域的研究。


相關(guān)調(diào)研的比較


此次調(diào)研與以前的相關(guān)調(diào)研之間是有明顯差異的。之前的一些調(diào)研涵蓋了端到端系統(tǒng)意義上與本文類似的內(nèi)容。然而,它們沒有涵蓋隨著該領(lǐng)域最近的重大過渡而出現(xiàn)的新的基準(zhǔn)和方法,而對前沿和挑戰(zhàn)的重視程度較低。先前的其余工作集中在該領(lǐng)域的特定主題上,如模仿學(xué)習(xí)或強(qiáng)化學(xué)習(xí)。相比之下,作者的調(diào)研提供了有關(guān)該領(lǐng)域最新發(fā)展和技術(shù)的最新信息,涵蓋了廣泛的主題,并對關(guān)鍵挑戰(zhàn)進(jìn)行了深入討論。


貢獻(xiàn)


總之,本次調(diào)研有三個關(guān)鍵貢獻(xiàn):


  1. 首次對端到端自動駕駛進(jìn)行了全面分析,包括高級動機(jī)、方法、基準(zhǔn)等。提倡將算法框架作為一個整體來設(shè)計,最終目標(biāo)是實(shí)現(xiàn)安全舒適的駕駛,而不是優(yōu)化單個模塊。


  2. 廣泛調(diào)研了并行方法所面臨的關(guān)鍵挑戰(zhàn)。在調(diào)研的250多篇論文中,作者總結(jié)了主要方面并進(jìn)行了深入分析,包括可推廣性、語言指導(dǎo)學(xué)習(xí)、因果混淆等主題。


  3. 涵蓋了如何接受大型基礎(chǔ)模型和數(shù)據(jù)引擎的更廣泛影響。


這一研究路線及其提供的大規(guī)模高質(zhì)量數(shù)據(jù)可以大大推動這一領(lǐng)域的發(fā)展。為了促進(jìn)未來的研究,筆者保持了一個活躍的存儲庫,更新了新的文獻(xiàn)和開源項(xiàng)目。


2方法


本節(jié)回顧了大多數(shù)現(xiàn)有的端到端自動駕駛方法背后的基本原理。


模仿學(xué)習(xí)


模仿學(xué)習(xí)(IL),也稱為從演示中學(xué)習(xí),通過模仿專家的行為來訓(xùn)練智能體學(xué)習(xí)最優(yōu)策略。IL需要一個數(shù)據(jù)集ξ,其中包含根據(jù)專家策略πβ收集的軌跡,其中每個軌跡是狀態(tài)-動作對,,,,的序列。IL的目標(biāo)是學(xué)習(xí)與πβ匹配的智能體策略π。IL的一個重要且廣泛使用的類別是行為克隆(BC),它將問題簡化為監(jiān)督學(xué)習(xí)。逆最優(yōu)控制(IOC),也稱為逆強(qiáng)化學(xué)習(xí)(IRL)是另一種利用專家演示學(xué)習(xí)獎勵函數(shù)的IL方法。


行為克隆


在行為克隆中,將智能體的策略與專家的策略相匹配的目標(biāo)是通過最小化規(guī)劃損失來實(shí)現(xiàn)的,這是一個在選定數(shù)據(jù)集上的監(jiān)督學(xué)習(xí)問題:πθ。在這里πθ表示損失函數(shù),用于測量智能體動作和專家動作之間的距離。


BC在駕駛?cè)蝿?wù)中的早期應(yīng)用利用端到端神經(jīng)網(wǎng)絡(luò)從相機(jī)輸入中生成控制信號。已經(jīng)提出了進(jìn)一步的增強(qiáng),如多傳感器輸入、輔助任務(wù)和改進(jìn)的專家設(shè)計,以使基于BC的端到端駕駛模型能夠處理具有挑戰(zhàn)性的城市駕駛場景。行為克隆由于其簡單高效而具有優(yōu)勢,因?yàn)樗恍枰止ぶ谱鞯莫剟钤O(shè)計,這對RL至關(guān)重要。但是,行為克隆存在一些常見問題。在訓(xùn)練過程中,行為克隆將每個狀態(tài)視為獨(dú)立且相同的分布,從而產(chǎn)生一個重要的問題,稱為協(xié)變量移位。對于一般的IL,已有了幾種策略上的方法來解決這個問題。在端到端自動駕駛的背景下,DAgger已在中被采用。行為克隆的另一個常見問題是因果混淆,模仿者利用并依賴于某些輸入組件和輸出信號之間的虛假相關(guān)性。中已經(jīng)在端到端自動駕駛的背景下討論了這個問題。


逆最優(yōu)控制


傳統(tǒng)的IOC算法從專家演示中學(xué)習(xí)馬爾可夫決策過程(MDP)中的未知獎勵函數(shù)R(s,a),其中專家的獎勵函數(shù)可以表示為特征的線性組合。然而,在連續(xù)的高維自動駕駛場景中,獎勵的定義是隱含的,很難優(yōu)化。


生成對抗性模仿學(xué)習(xí)(GAIL)是IOC中的一種專門方法,它將獎勵函數(shù)設(shè)計為對抗性目標(biāo),以區(qū)分專家和學(xué)習(xí)的策略,類似于生成對抗性網(wǎng)絡(luò)(GANs)的概念。最近,一些工作提出了使用輔助感知任務(wù)來優(yōu)化成本量或代價函數(shù)。由于成本是報酬的替代表示,作者將這些方法歸類為屬于IOC領(lǐng)域。將成本學(xué)習(xí)框架定義如下:端到端方法結(jié)合其他輔助任務(wù)學(xué)習(xí)合理的成本c(·),并使用簡單的不可學(xué)習(xí)算法軌跡采樣器來選擇成本最小的軌跡τ*,如下圖3所示。



因此,成本學(xué)習(xí)范式分為兩個方面:如何設(shè)計成本和如何對軌跡進(jìn)行采樣,以端到端的方式進(jìn)行優(yōu)化。


關(guān)于成本設(shè)計,NMP利用鳥瞰圖(BEV)中的學(xué)習(xí)成本量。它還并行地進(jìn)行目標(biāo)檢測,但不將成本與檢測輸出直接聯(lián)系起來。Wang等人預(yù)測所有智能體的未來運(yùn)動,并使用聯(lián)合能量作為交互成本來生成最終規(guī)劃結(jié)果。建議估計一組概率語義占用或freespace層作為中間表示,這為車輛不應(yīng)在何處機(jī)動以確保安全提供了明確的線索。另一方面,軌跡通常從固定的專家軌跡集中采樣,或通過運(yùn)動學(xué)模型的參數(shù)采樣進(jìn)行處理。然后,像經(jīng)典IOC方法一樣,采用最大邊際損失,以獎勵專家演示的成本最低,而其他演示的成本較高。


成本學(xué)習(xí)方法仍然存在一些挑戰(zhàn)。特別是,為了產(chǎn)生更現(xiàn)實(shí)的成本,通常會結(jié)合高精地圖、輔助感知任務(wù)和多個傳感器,這增加了學(xué)習(xí)和構(gòu)建多模態(tài)多任務(wù)框架數(shù)據(jù)集的難度。為了解決這一問題,MP3、ST-P3和IVMP放棄了先前工作中使用的HD Map輸入,并利用預(yù)測的BEV地圖來計算交通規(guī)則的成本,例如保持靠近中心線和避免與道路邊界碰撞。一般來說,上述成本學(xué)習(xí)方法顯著提高了自動駕駛汽車決策的安全性和可解釋性,作者認(rèn)為,受行業(yè)啟發(fā)的端到端系統(tǒng)設(shè)計是現(xiàn)實(shí)世界應(yīng)用的可行方法。


強(qiáng)化學(xué)習(xí)


強(qiáng)化學(xué)習(xí)(RL)是一個通過試錯進(jìn)行學(xué)習(xí)的領(lǐng)域。深度Q網(wǎng)絡(luò)(DQN)在Atari 2600基準(zhǔn)上實(shí)現(xiàn)人類級控制的成功普及了深度強(qiáng)化學(xué)習(xí)。DQN訓(xùn)練一個稱為critic(或Q網(wǎng)絡(luò))的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將當(dāng)前狀態(tài)和一個動作作為輸入,并預(yù)測該動作的未來獎勵折扣(當(dāng)之后遵循相同的策略時)。當(dāng)時的策略是通過選擇具有最高Q值的動作來隱含地定義。RL需要一個允許執(zhí)行潛在不安全操作的環(huán)境,因?yàn)樗枰剿?例如,有時在數(shù)據(jù)收集期間執(zhí)行隨機(jī)操作)。此外,與監(jiān)督學(xué)習(xí)相比,RL需要更多的數(shù)據(jù)來進(jìn)行訓(xùn)練。因此,現(xiàn)代RL方法通常在多個環(huán)境中并行化數(shù)據(jù)收集。在現(xiàn)實(shí)世界的汽車中滿足這些要求帶來了巨大的挑戰(zhàn)。因此,幾乎所有在自動駕駛中使用RL的論文都只研究了模擬技術(shù)。大多數(shù)工作都使用了DQN的不同擴(kuò)展。到目前為止,社區(qū)還沒有就特定的RL算法達(dá)成一致。


強(qiáng)化學(xué)習(xí)已經(jīng)證明,在一條空蕩蕩的街道上,在一輛真正的汽車上成功地學(xué)習(xí)了車道跟隨。盡管早期取得了令人鼓舞的結(jié)果,但必須注意的是,三十年前通過模仿學(xué)習(xí)已經(jīng)完成了類似的任務(wù)。到目前為止,還沒有報告顯示使用RL進(jìn)行端到端訓(xùn)練的結(jié)果與模仿學(xué)習(xí)具有競爭力。在與CARLA模擬器的發(fā)布一起進(jìn)行的直接比較中,強(qiáng)化學(xué)習(xí)遠(yuǎn)遠(yuǎn)落后于模塊化pipeline和端到端模仿學(xué)習(xí)。這種失敗的原因可能是通過RL獲得的梯度不足以訓(xùn)練駕駛所需的深度感知架構(gòu)(ResNet規(guī)模)。RL成功的Atari等基準(zhǔn)測試中使用的模塊相對較淺,僅由幾層組成。


當(dāng)與監(jiān)督學(xué)習(xí)相結(jié)合時,強(qiáng)化學(xué)習(xí)已成功應(yīng)用于自動駕駛。隱含可供性和GRI都使用監(jiān)督學(xué)習(xí)和語義分割、分類等輔助任務(wù)來預(yù)訓(xùn)練其架構(gòu)的CNN編碼器部分。在第二階段,預(yù)訓(xùn)練的編碼器被凍結(jié),并且淺策略頭被使用現(xiàn)代版本的Q學(xué)習(xí)在來自凍結(jié)圖像編碼器的隱含可供性上進(jìn)行訓(xùn)練。在撰寫本文時,這兩件工作都在CARLA排行榜上報道了最先進(jìn)的表現(xiàn)。強(qiáng)化學(xué)習(xí)也已成功用于微調(diào)CARLA上的完整架構(gòu),這些架構(gòu)是使用模仿學(xué)習(xí)預(yù)訓(xùn)練的。


RL還有效地應(yīng)用于規(guī)劃或控制任務(wù),其中網(wǎng)絡(luò)可以訪問特權(quán)模擬器信息。本著同樣的精神,RL已被應(yīng)用于自動駕駛數(shù)據(jù)集管理。Roach在BEV語義分割上訓(xùn)練RL方法,并使用該策略自動收集用于訓(xùn)練下游模仿學(xué)習(xí)智能體的數(shù)據(jù)集。WoR采用Q函數(shù)和表格動態(tài)編程為靜態(tài)數(shù)據(jù)集生成附加或改進(jìn)的標(biāo)簽。


該領(lǐng)域未來的挑戰(zhàn)是將研究結(jié)果從模擬轉(zhuǎn)移到現(xiàn)實(shí)世界。在RL中,目標(biāo)被表示為獎勵函數(shù),大多數(shù)算法要求這些獎勵函數(shù)是密集的,并在每個環(huán)境步驟提供反饋。當(dāng)前的工作通常使用簡單的目標(biāo),如前進(jìn)和避免碰撞,并將它們線性組合。這些過于簡單的獎勵函數(shù)因鼓勵冒險行為而受到批評。設(shè)計或?qū)W習(xí)更好的獎勵函數(shù)仍然是一個懸而未決的問題。另一個方向是開發(fā)可以處理稀疏獎勵的RL算法,從而直接實(shí)現(xiàn)相關(guān)指標(biāo)的優(yōu)化。RL可以與世界模型有效結(jié)合,盡管這帶來了具體挑戰(zhàn)。當(dāng)前的自動駕駛RL解決方案嚴(yán)重依賴于場景的低維表示。


3基準(zhǔn)


自動駕駛系統(tǒng)需要對其可靠性進(jìn)行全面評估,以確保安全。為了適應(yīng)這一點(diǎn),研究人員必須使用適當(dāng)?shù)臄?shù)據(jù)集、模擬器和指標(biāo)對這些系統(tǒng)進(jìn)行基準(zhǔn)測試。本節(jié)描述了端到端自動駕駛系統(tǒng)的兩種大規(guī)模基準(zhǔn)測試方法:(1)模擬中的在線或閉環(huán)評估,以及(2)人類駕駛數(shù)據(jù)集上的離線或開環(huán)評估。作者特別關(guān)注更有原則的在線設(shè)置,并簡要總結(jié)了離線評估的完整性。


在線評估(閉環(huán))


在現(xiàn)實(shí)世界中進(jìn)行自動駕駛系統(tǒng)測試成本高昂且風(fēng)險巨大。為了應(yīng)對這一挑戰(zhàn),模擬是一種可行的替代方案。模擬器有助于快速原型設(shè)計和測試,實(shí)現(xiàn)思想的快速迭代,并提供對廣泛場景的低成本訪問。此外,模擬器還提供了可靠、準(zhǔn)確地測量性能的工具。然而,它們的主要缺點(diǎn)是,在模擬環(huán)境中獲得的結(jié)果不一定能推廣到現(xiàn)實(shí)世界。


閉環(huán)評估涉及構(gòu)建一個模擬現(xiàn)實(shí)世界駕駛環(huán)境的模擬環(huán)境。駕駛系統(tǒng)的評估需要將系統(tǒng)部署在模擬環(huán)境中,并隨著時間的推移測量其性能。該系統(tǒng)必須在模擬交通中安全導(dǎo)航,同時向指定的目標(biāo)位置前進(jìn)。開發(fā)此類評估模擬器主要涉及三個子任務(wù):參數(shù)初始化、交通模擬和傳感器模擬。作者在下面簡要介紹了這些子任務(wù),然后總結(jié)了當(dāng)前可用的閉環(huán)基準(zhǔn)測試開源模擬器。


參數(shù)初始化


模擬提供了對環(huán)境的高度控制的好處,包括天氣和照明條件、地圖和3D資源,以及低級別屬性,如交通場景中模擬的排列和姿態(tài)。雖然功能強(qiáng)大,但這些參數(shù)的數(shù)量是巨大的,這導(dǎo)致了一個具有挑戰(zhàn)性的設(shè)計問題。目前的模擬器通過兩種方式來解決這個問題:


程序生成:?傳統(tǒng)上,初始參數(shù)由3D藝術(shù)家和工程師手動調(diào)整,稱之為程序生成。每個道具通常都是用手動設(shè)置的參數(shù)從概率分布中采樣的,這是一個耗時的過程,需要大量的專業(yè)知識。這限制了可擴(kuò)展性。盡管如此,這仍然是最常用的初始化方法之一。過程生成算法將規(guī)則、啟發(fā)式和隨機(jī)化相結(jié)合,以創(chuàng)建不同的道路網(wǎng)絡(luò)、交通模態(tài)、照明條件和模擬布局。


數(shù)據(jù)驅(qū)動:?模擬初始化的數(shù)據(jù)驅(qū)動方法旨在學(xué)習(xí)所需的參數(shù)。可以說,最簡單的數(shù)據(jù)驅(qū)動初始化方法是直接從真實(shí)世界的駕駛數(shù)據(jù)日志中進(jìn)行采樣。在該方法中,直接從預(yù)先記錄的數(shù)據(jù)集中提取諸如道路地圖或交通模態(tài)之類的參數(shù)。日志采樣的優(yōu)勢在于它能夠捕捉真實(shí)世界數(shù)據(jù)中存在的自然變化,從而產(chǎn)生比程序生成更真實(shí)的模擬場景。然而,它可能不包括對測試自動駕駛系統(tǒng)的穩(wěn)健性至關(guān)重要的罕見或極端情況。可以對初始參數(shù)進(jìn)行優(yōu)化,以增加此類場景的表示。另一種先進(jìn)的數(shù)據(jù)驅(qū)動的初始化方法是生成建模,其中利用機(jī)器學(xué)習(xí)算法來學(xué)習(xí)真實(shí)世界數(shù)據(jù)的底層結(jié)構(gòu)和分布。然后,這些算法可以生成與現(xiàn)實(shí)世界相似但未包含在原始數(shù)據(jù)中的新場景。


交通模擬


交通模擬涉及在具有真實(shí)運(yùn)動的環(huán)境中生成和定位虛擬實(shí)體。這些實(shí)體通常包括車輛(如卡車、汽車、摩托車、自行車等)和行人。交通模擬器必須考慮速度、加速度、制動、障礙物和其他實(shí)體行為的影響。此外,紅綠燈狀態(tài)必須定期更新,以模擬真實(shí)的城市駕駛。有兩種流行的交通模擬方法,作者將在下面進(jìn)行描述。


基于規(guī)則:?基于規(guī)則的交通模擬器使用預(yù)先定義的規(guī)則來生成交通實(shí)體的運(yùn)動。這種方法實(shí)現(xiàn)起來很簡單,但產(chǎn)生的運(yùn)動可能不太現(xiàn)實(shí)。這一概念最突出的實(shí)現(xiàn)是智能驅(qū)動程序模型(IDM)。IDM是一個跟車模型,它根據(jù)每輛車的當(dāng)前速度、前車的速度和所需的安全距離來計算每一輛車的加速度。盡管IDM被廣泛使用,但它可能不足以捕捉城市環(huán)境中復(fù)雜的相互作用。


數(shù)據(jù)驅(qū)動:?真實(shí)的人類交通行為是高度互動和復(fù)雜的,包括變道、并線、突然停車等。為了對這種行為進(jìn)行建模,數(shù)據(jù)驅(qū)動的交通模擬利用了從真實(shí)世界駕駛中收集的數(shù)據(jù)。這些模型可以捕捉更細(xì)微、更真實(shí)的行為,但需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。針對這項(xiàng)任務(wù),已經(jīng)有了各種各樣的基于學(xué)習(xí)的技術(shù)。


傳感器仿真


傳感器仿真對于評估端到端的自動駕駛系統(tǒng)至關(guān)重要。這涉及生成仿真的原始傳感器數(shù)據(jù),例如駕駛系統(tǒng)將從仿真器中的不同視點(diǎn)從環(huán)境接收的相機(jī)圖像或激光雷達(dá)掃描。這個過程需要考慮噪聲和遮擋,以便真實(shí)地評估自動駕駛系統(tǒng)的性能。關(guān)于傳感器仿真的文獻(xiàn)中有兩個分支,如下所述。


基于圖形:?最近的計算機(jī)圖形模擬器使用環(huán)境的3D模型,以及車輛和交通實(shí)體模型,通過傳感器中物理渲染過程的近似來生成傳感器數(shù)據(jù)。例如,在模擬相機(jī)圖像時,這可以考慮真實(shí)世界環(huán)境中存在的遮擋、陰影和反射。然而,基于圖形的模擬的真實(shí)性通常較差,或者以極其繁重的計算為代價,這使得并行化變得很有意義。它與3D模型的質(zhì)量以及傳感器建模中使用的近似值密切相關(guān)。中提供了基于圖形的駕駛數(shù)據(jù)渲染的全面綜述。


數(shù)據(jù)驅(qū)動:?數(shù)據(jù)驅(qū)動的傳感器仿真利用并調(diào)整真實(shí)世界的傳感器數(shù)據(jù),以創(chuàng)建一個新的仿真,其中自車輛和背景交通的移動方式可能與原始數(shù)據(jù)中的移動方式不同。一種流行的方法是使用神經(jīng)輻射場(NeRF),它可以通過學(xué)習(xí)場景幾何和外觀的隱式表示來生成場景的新視圖。這些方法可以產(chǎn)生比基于圖形的方法更真實(shí)的傳感器數(shù)據(jù),但它們有局限性,例如渲染時間長,或者需要對每個重建的場景進(jìn)行獨(dú)立訓(xùn)練。數(shù)據(jù)驅(qū)動傳感器仿真的另一種方法是域自適應(yīng),旨在最大限度地減少真實(shí)和基于圖形的仿真?zhèn)鞲衅鲾?shù)據(jù)之間的分布偏移。機(jī)器學(xué)習(xí)技術(shù),如GANs或風(fēng)格轉(zhuǎn)移,可以用來提高真實(shí)感。


基準(zhǔn)


作者在下表1中簡要概述了最新的駕駛基準(zhǔn)。



2019年,CARLA發(fā)布的原始基準(zhǔn)以近乎完美的成績解決了。隨后的NoCrash基準(zhǔn)涉及在特定天氣條件下對一個CARLA城鎮(zhèn)(Town01)進(jìn)行訓(xùn)練,并測試對另一個城鎮(zhèn)和一組天氣的概括。Town05基準(zhǔn)涉及對CARLA所有可用城鎮(zhèn)的訓(xùn)練,而不是單個城鎮(zhèn),同時保留Town05進(jìn)行測試。同樣,Town02和Town05保留用于測試,以增加測試路線的多樣性。Roach擴(kuò)展到一個有3個測試城鎮(zhèn)的環(huán)境,盡管都是在訓(xùn)練期間見過的,并且沒有Town05和LAV中使用的安全關(guān)鍵場景。最后,Longest6基準(zhǔn)使用了6個測試城鎮(zhèn)。為CARLA代理商提供兩個在線提交服務(wù)器被稱為排行榜(v1和v2),可在上獲得。排行榜通過對評估路線保密來確保公平的比較。排行榜v2由于路線長度超長(平均超過8公里,而v1為1-2公里)和各種各樣的新交通場景而極具挑戰(zhàn)性。目前還沒有對任何方法進(jìn)行基準(zhǔn)測試。


由于傳感器數(shù)據(jù)和相應(yīng)的傳感器模擬方面尚未公開,目前端到端系統(tǒng)無法訪問nuPlan模擬器。然而,有兩個現(xiàn)有的基準(zhǔn),智能體通過nuPlan的數(shù)據(jù)驅(qū)動參數(shù)初始化直接輸入可用的地圖和模擬屬性。中提出的Val14使用了nuPlan的可公開訪問的驗(yàn)證拆分。排行榜是一個在私人測試集上進(jìn)行測試的提交服務(wù)器,用于2023年的nuPlan挑戰(zhàn)。不幸的是,這已不再公開供提交。


離線評估(開環(huán))


開環(huán)評估涉及根據(jù)預(yù)先記錄的專家駕駛行為評估系統(tǒng)的性能。該方法需要評估數(shù)據(jù)集,包括(1)傳感器讀數(shù)、(2)目標(biāo)位置和(3)相應(yīng)的未來駕駛軌跡,通常從人類駕駛員那里獲得。給定來自數(shù)據(jù)集的傳感器輸入和目標(biāo)位置作為輸入,通過將系統(tǒng)預(yù)測的未來軌跡與人類在駕駛?cè)罩局械能壽E進(jìn)行比較來測量性能。系統(tǒng)的評估基于其軌跡預(yù)測與人類真值的匹配程度,以及輔助指標(biāo),如與其他智能體的碰撞概率。開環(huán)評估的優(yōu)點(diǎn)在于,它易于實(shí)現(xiàn),并且不需要模擬器,因此可以獲得真實(shí)的交通和傳感器數(shù)據(jù)。然而,關(guān)鍵的缺點(diǎn)是,它不能測量系統(tǒng)在部署過程中遇到的實(shí)際測試分布中的性能。在測試過程中,駕駛系統(tǒng)可能會偏離專家駕駛通道,驗(yàn)證系統(tǒng)從這種漂移中恢復(fù)的能力至關(guān)重要。此外,預(yù)測軌跡和觀測軌跡之間的距離不是多模態(tài)場景中性能的合適指標(biāo)。例如,在并入轉(zhuǎn)彎車道的情況下,立即或稍后并入的兩個選項(xiàng)都同樣有效,但開環(huán)評估會懲罰數(shù)據(jù)中未觀察到的選項(xiàng)。類似地,預(yù)測的軌跡可能取決于僅在未來可用的觀測結(jié)果,例如,在仍然是綠色但很快就會變?yōu)榧t色的燈處停止,這種情況無法用單一的真值軌跡進(jìn)行評估。


這種方法需要一個全面的模擬數(shù)據(jù)集。為此目的,最流行的數(shù)據(jù)集包括nuScenes、Argoverse、Waymo和nuPlan。所有這些數(shù)據(jù)集都包含了來自現(xiàn)實(shí)世界駕駛環(huán)境的大量帶注釋的軌跡,這些軌跡具有不同程度的困難。然而,由于上述缺點(diǎn),開環(huán)結(jié)果并不能提供閉環(huán)中駕駛行為改善的確鑿證據(jù)??偟膩碚f,如果可行且適用,建議在未來的研究中采用現(xiàn)實(shí)的閉環(huán)基準(zhǔn)。


4挑戰(zhàn)


輸入模態(tài)


多傳感器融合


盡管早期的工作[3,8]成功地實(shí)現(xiàn)了簡單的自動駕駛?cè)蝿?wù),如使用單目跟蹤車道,但這種單一的輸入模態(tài)不足以處理復(fù)雜的場景。因此,在最近的自動駕駛汽車上引入并配備了各種傳感器,如下圖4所示。



特別是,來自相機(jī)的RGB圖像自然地復(fù)制了人類如何通過豐富的語義視覺信息感知世界;激光雷達(dá)或雙目相機(jī)提供精確的3D空間知識。此外,來自速度計和IMU的速度和加速度等車輛狀態(tài),以及高級導(dǎo)航命令,是引導(dǎo)端到端系統(tǒng)的其他輸入線。然而,各種傳感器具有不同的視角和數(shù)據(jù)分布,它們之間的巨大差距給有效融合它們以互補(bǔ)自動駕駛帶來了巨大挑戰(zhàn)。多傳感器融合主要在感知相關(guān)領(lǐng)域進(jìn)行了討論,例如,模擬檢測、跟蹤和語義分割,通常分為三組:早期、中期以及后融合。端到端自動駕駛算法探索類似的融合方案。早期融合意味著在將感知信息輸入特征提取器之前對其進(jìn)行組合。連接是融合各種輸入的常見方式,如圖像和深度、BEV點(diǎn)云和HD地圖等,然后使用共享特征提取器對其進(jìn)行處理。在BEV上繪制與透視圖圖像大小相同的激光雷達(dá)點(diǎn),并將其組合為輸入。為了解決視圖差異,一些工作試圖在2D圖像上投影點(diǎn)云,或者通過提前預(yù)測圖像中的語義標(biāo)簽為每個激光雷達(dá)點(diǎn)附加一個額外的通道。另一方面,后融合方案結(jié)合了來自多模態(tài)的多個結(jié)果。由于其較差的性能,它很少被討論。


與這些方法相反,中融合通過分別對輸入進(jìn)行編碼,然后在特征級別將它們組合來實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)的多傳感器融合。簡單的串聯(lián)也經(jīng)常被用來融合來自不同模態(tài)的特征。最近,一些工作采用了Transformer來對特征對之間的交互進(jìn)行建模。Transfuser使用兩個獨(dú)立的卷積編碼器處理圖像和激光雷達(dá)輸入,將每個特征解決方案與Transformer編碼器互連,從而實(shí)現(xiàn)四階段特征融合。自注意力層用于傳感器token、關(guān)注感興趣區(qū)域和更新來自其他模態(tài)的信息。MMFN進(jìn)一步將OpenDrive地圖和雷達(dá)輸入結(jié)合在Transformer的頂部。采用一級Transformer編碼器架構(gòu)來融合最后一個編碼器塊之后的各種特征。注意力機(jī)制在聚合不同傳感器輸入的上下文和實(shí)現(xiàn)更安全的端到端駕駛性能方面表現(xiàn)出了極大的有效性。


不同的模態(tài)通常會增加視野和感知精度,但將它們?nèi)诤弦蕴崛《说蕉俗詣玉{駛的關(guān)鍵信息需要進(jìn)一步探索。至關(guān)重要的是,在統(tǒng)一的空間中對這些模態(tài)進(jìn)行建模,如BEV,識別與策略相關(guān)的上下文,并丟棄不相關(guān)的感知信息。此外,充分利用強(qiáng)大的Transformer架構(gòu)仍然是一個挑戰(zhàn)。自注意力層將所有token互連,以自由地對其感興趣的區(qū)域進(jìn)行建模,但它會產(chǎn)生巨大的計算成本,并且不能保證有用的信息提取。感知領(lǐng)域中更先進(jìn)的基于Transformer的多傳感器融合機(jī)制,如,有望應(yīng)用于端到端駕駛?cè)蝿?wù)。


語言作為輸入


人類駕駛汽車時使用視覺感知和內(nèi)在知識,如交通規(guī)則和所需路線,它們共同形成因果行為。在一些與自動駕駛相關(guān)的領(lǐng)域,如機(jī)器人和室內(nèi)導(dǎo)航(也稱為嵌入式人工智能),將自然語言作為細(xì)粒度指令來控制視覺運(yùn)動智能體已經(jīng)取得了顯著進(jìn)展。然而,在以下情況下,與室內(nèi)機(jī)器人應(yīng)用相比,室外自動駕駛?cè)蝿?wù)具有不同的特點(diǎn):


(1)室外環(huán)境未知,車輛無法來回探索。


(2) 很少有獨(dú)特的地標(biāo),這對基礎(chǔ)語言教學(xué)提出了巨大挑戰(zhàn)。


(3) 駕駛場景要復(fù)雜得多,有連續(xù)的行動空間和高度動態(tài)的智能體。


安全是操縱過程中的首要任務(wù)。為了將語言知識融入駕駛行為,Talk2Car數(shù)據(jù)集為在戶外環(huán)境中定位參考模擬提供了一個基準(zhǔn)。Talk2Nav、TouchDown和Map2Seq數(shù)據(jù)集引入了使用谷歌街景的視覺語言導(dǎo)航任務(wù)。它們將世界建模為離散連接圖,并需要以節(jié)點(diǎn)選擇格式導(dǎo)航到目標(biāo)。HAD首先采用人對車的建議,并通過基于LSTM的控制器添加了視覺基礎(chǔ)任務(wù)。Sriram等人將自然語言指令編碼為高級行為,包括左轉(zhuǎn)、右轉(zhuǎn)、不左轉(zhuǎn)等,并在CARLA模擬器中驗(yàn)證其語言引導(dǎo)導(dǎo)航方法。通過關(guān)注文本操作需求來解決低級別的實(shí)時控制問題。最近,CLIP-MC和LM Nav利用CLIP,這得益于大規(guī)模的視覺語言預(yù)訓(xùn)練,從結(jié)構(gòu)中提取語言知識,從圖像中提取視覺特征。它們展示了預(yù)訓(xùn)練模型的優(yōu)勢,并為解決多模態(tài)模型的復(fù)雜導(dǎo)航任務(wù)提供了一個有吸引力的原型。


盡管使用CLIP進(jìn)行地標(biāo)性特征提取的嘗試取得了成功,但GPT-3等大語言模型或ChatGPT等指導(dǎo)性語言模型在自動駕駛領(lǐng)域的應(yīng)用仍不清楚。現(xiàn)代LLM提供了更多處理復(fù)雜語言指令的機(jī)會。然而,考慮到它們的推理時間長且不穩(wěn)定,確定道路應(yīng)用的交互模態(tài)也至關(guān)重要。此外,當(dāng)前的語言引導(dǎo)導(dǎo)航工作驗(yàn)證了它們在模擬或特定機(jī)器人實(shí)施例中的有效性,并且缺少包括有意義的語言提示的大規(guī)模基準(zhǔn)。


視覺抽象


端到端自動駕駛系統(tǒng)大致分兩個階段完成操縱任務(wù):將狀態(tài)空間編碼為潛在特征表示,然后用中間特征解碼駕駛策略。在城市駕駛的情況下,與電子游戲等常見的策略學(xué)習(xí)基準(zhǔn)相比,輸入狀態(tài),即周圍環(huán)境和自狀態(tài),更加多樣化和高維。因此,首先使用智能體預(yù)訓(xùn)練任務(wù)對網(wǎng)絡(luò)的視覺編碼器進(jìn)行預(yù)訓(xùn)練是有幫助的。這使得網(wǎng)絡(luò)能夠有效地提取有用的駕駛信息,從而促進(jìn)后續(xù)的策略解碼階段,同時滿足所有端到端算法的內(nèi)存和模型大小限制。此外,這可以提高RL方法的采樣效率。


視覺抽象或表示學(xué)習(xí)的過程通常包含某些歸納或先驗(yàn)信息。為了實(shí)現(xiàn)比原始圖像更緊湊的表示,一些方法直接利用來自預(yù)訓(xùn)練的分割網(wǎng)絡(luò)的語義分割mask作為后續(xù)策略訓(xùn)練的輸入表示。SESR通過VAE將分割掩模編碼為類解糾纏表示,進(jìn)一步提高了這一點(diǎn)。在中,預(yù)測的綠化指標(biāo),如紅綠燈狀態(tài)、速度、到車道中心的偏移、危險指標(biāo)和到領(lǐng)先車輛的距離,被用作策略學(xué)習(xí)的表示。


在觀察到分割或可供性作為一種表征可能會造成人類定義的瓶頸并導(dǎo)致有用信息的損失后,一些人將預(yù)訓(xùn)練任務(wù)中的中間潛在特征作為有效表示。PIE-G已經(jīng)證明ImageNet預(yù)訓(xùn)練模型的早期層可以作為有效的表示。有的文章使用通過包括語義分割和/或可供性性預(yù)測在內(nèi)的任務(wù)預(yù)訓(xùn)練的潛在表示作為RL訓(xùn)練的輸入,并實(shí)現(xiàn)優(yōu)異的性能。在中,通過從分割的擴(kuò)散邊界獲得的注意力圖和深度圖來增強(qiáng)VAE中的潛在特征,以突出重要區(qū)域。PPGeo在未標(biāo)注的駕駛視頻上以自監(jiān)督的方式,通過運(yùn)動預(yù)測和深度估計來學(xué)習(xí)有效的表示。TARP利用來自一系列先前任務(wù)的數(shù)據(jù)來執(zhí)行不同的任務(wù)相關(guān)的預(yù)測任務(wù),以獲取有用的表示。在中,通過近似π-bisimulation度量來學(xué)習(xí)潛在表示,該度量由動力學(xué)模型的獎勵和輸出的差異組成。除了這些帶有監(jiān)督預(yù)測的預(yù)訓(xùn)練任務(wù)外,中還采用了基于增強(qiáng)視圖的無監(jiān)督對比學(xué)習(xí)。ACO進(jìn)一步將轉(zhuǎn)向角判別添加到對比學(xué)習(xí)結(jié)構(gòu)中。


由于目前的方法主要依賴于人工定義的預(yù)訓(xùn)練任務(wù),因此在學(xué)習(xí)表示中不可避免地存在可能的信息瓶頸,并且可能包括與駕駛決策無關(guān)的冗余信息。因此,如何在表征學(xué)習(xí)過程中更好地提取駕駛策略的關(guān)鍵信息仍然是一個懸而未決的問題。


世界模型和基于模型的RL


除了能夠更好地抽象感知表示之外,端到端模型還必須對未來做出合理的預(yù)測,以采取安全的策略。在本節(jié)中,作者主要討論當(dāng)前基于模型的策略學(xué)習(xí)工作的挑戰(zhàn),其中世界模型為策略模型提供了明確的未來預(yù)測。


深度強(qiáng)化學(xué)習(xí)通常面臨高樣本復(fù)雜性的挑戰(zhàn),由于樣本空間的大,這在自動駕駛等任務(wù)中尤為明顯?;谀P偷膹?qiáng)化學(xué)習(xí)(MBRL)通過允許智能體與學(xué)習(xí)世界模型而不是實(shí)際環(huán)境相互作用,為提高樣本效率提供了一個很有前途的方向。MBRL方法顯式地對世界模型/環(huán)境模型進(jìn)行建模,該模型由傳遞動力學(xué)和獎勵函數(shù)組成,并且智能體可以低成本與之交互。這對自動駕駛特別有幫助,因?yàn)橄馛ARLA這樣的3D模擬器相對較慢。


對駕駛中高度復(fù)雜和動態(tài)的環(huán)境進(jìn)行建模是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。為了簡化問題,Chen等人假設(shè)世界在軌道上,將過渡動力學(xué)分解為非反應(yīng)世界模型和自車的簡單運(yùn)動學(xué)自車模型。他們通過利用這個因子分解的世界模型和獎勵函數(shù)來豐富靜態(tài)數(shù)據(jù)集的標(biāo)簽,以通過動態(tài)編程優(yōu)化更好的標(biāo)簽。在文中,概率序列潛在模型被用作世界模型,以降低RL學(xué)習(xí)的樣本復(fù)雜性。為了解決學(xué)習(xí)世界模型的潛在不準(zhǔn)確度,使用多個世界模型的集合來提供不確定性評估?;诓淮_定性,世界模型和策略智能體之間的想象推出可能會被截斷并相應(yīng)調(diào)整。受成功的MBRL模型Dreamer的啟發(fā),ISO Dream考慮了環(huán)境中的非確定性因素,并將視覺動力學(xué)解耦為可控制和不可控制狀態(tài)。然后,在明確考慮不可控因素(如其他主體的運(yùn)動)的情況下,在解糾纏狀態(tài)上訓(xùn)練策略。


值得注意的是,在原始圖像空間中學(xué)習(xí)世界模型并不適合自動駕駛。重要的小細(xì)節(jié),如紅綠燈,很容易在預(yù)測的圖像中被遺漏。為了解決這一問題,MILE將世界模型納入BEV語義分割空間。它通過采用Dreamer風(fēng)格的世界模型學(xué)習(xí)作為輔助任務(wù),將世界建模與模擬學(xué)習(xí)相結(jié)合。SEM2還擴(kuò)展了Dreamer結(jié)構(gòu),但使用了BEV分割圖,并使用RL進(jìn)行訓(xùn)練。除了直接使用MBRL的學(xué)習(xí)世界模型外,DeRL還將model-freeactor-critic框架與世界模型相結(jié)合。具體而言,學(xué)習(xí)世界模型提供了對當(dāng)前動作的自評估,并將其與評論家的狀態(tài)值相結(jié)合,以更好地了解“actor”的表演。


端到端無人駕駛的世界模型學(xué)習(xí)(MBRL)是一個新興且有前途的方向,因?yàn)樗蟠蠼档土薘L的樣本復(fù)雜性,了解世界有助于駕駛。然而,由于駕駛環(huán)境高度復(fù)雜和動態(tài),仍需要進(jìn)一步研究,以確定需要建模的內(nèi)容以及如何有效地建模世界。


具有策略預(yù)測的多任務(wù)學(xué)習(xí)


多任務(wù)學(xué)習(xí)(MTL)涉及通過單獨(dú)的分支/頭基于共享表示聯(lián)合執(zhí)行多個相關(guān)任務(wù)。MTL通過對多個任務(wù)使用單個模型,顯著降低了計算成本。此外,相關(guān)領(lǐng)域知識在共享模型中共享,可以更好地利用任務(wù)關(guān)系來提高模型的泛化能力和魯棒性。因此,MTL非常適合端到端自動駕駛,其中最終的策略預(yù)測需要對當(dāng)前環(huán)境進(jìn)行全面的了解。


與需要密集預(yù)測的常見視覺任務(wù)相比,端到端自動駕駛預(yù)測稀疏信號。這里的稀疏監(jiān)督為輸入編碼器提取有用信息帶來了挑戰(zhàn)決策。對于圖像輸入,端到端自動駕駛模型中通常采用輔助任務(wù),如語義分割和深度估計。語義分割確保模型獲得對場景的高級理解,并識別不同類別的模擬;深度估計使模型能夠理解環(huán)境的3D幾何形狀,并更好地估計關(guān)鍵模擬的距離。通過執(zhí)行這些任務(wù),圖像編碼器可以更好地提取有用且有意義的特征表示,用于后續(xù)規(guī)劃。除了透視圖像的輔助任務(wù)外,3D模擬檢測也適用于激光雷達(dá)編碼器。隨著BEV成為自動駕駛的一種自然和流行的表示方式,HD地圖映射和BEV分割等任務(wù)被包括在模型中,這些模型聚集了BEV空間中的特征。此外,除了將這些視覺任務(wù)作為多任務(wù)外,還預(yù)測視覺可供性,包括紅綠燈狀態(tài)、到路口的距離和到對面車道的距離等。


端到端自動駕駛的多任務(wù)學(xué)習(xí)已證明其在提高性能和提供自動駕駛模型可解釋性方面的有效性。然而,輔助任務(wù)的最佳組合及其損失的適當(dāng)加權(quán)以實(shí)現(xiàn)最佳性能仍有待探索。此外,構(gòu)建具有多種類型的對齊和高質(zhì)量注釋的大規(guī)模數(shù)據(jù)集是一項(xiàng)重大挑戰(zhàn)。


策略蒸餾


由于模仿學(xué)習(xí)或其主要子類別行為克隆只是模仿專家行為的監(jiān)督學(xué)習(xí),因此相應(yīng)的方法通常遵循“師生”范式。教師,如CARLA提供的手工制作的專家自動駕駛儀,可以訪問周圍智能體和地圖元素的真值狀態(tài),而學(xué)生則僅通過原始傳感器輸入直接受到收集的專家軌跡或控制信號的監(jiān)督。這給學(xué)生模型帶來了巨大的挑戰(zhàn),因?yàn)樗麄儾粌H必須提取感知特征,還必須從頭開始學(xué)習(xí)駕駛策略。


為了解決上述困難,一些研究建議將學(xué)習(xí)過程分為兩個階段,即訓(xùn)練教師網(wǎng)絡(luò),然后將策略蒸餾為最終的學(xué)生網(wǎng)絡(luò)。特別是,Chen等人首先使用特權(quán)智能體來學(xué)習(xí)如何直接訪問環(huán)境狀態(tài)。然后,他們讓感覺運(yùn)動智能體(學(xué)生網(wǎng)絡(luò))密切模仿特權(quán)智能體,在輸出階段進(jìn)行蒸餾。有了更緊湊的BEV表示作為特權(quán)智能體的輸入,它提供了比原始專家更強(qiáng)的泛化能力和監(jiān)督能力。該過程如下圖5所示。



LAV進(jìn)一步使特權(quán)智能體能夠預(yù)測附近所有車輛的軌跡,并將這種能力提取到使用視覺特征的學(xué)生網(wǎng)絡(luò)中。


除了直接監(jiān)督規(guī)劃結(jié)果外,一些工作還通過提取特征級別的知識來訓(xùn)練其預(yù)測模型。例如,F(xiàn)M-Net采用現(xiàn)成的網(wǎng)絡(luò),包括分割和光流模型,作為輔助教師來指導(dǎo)特征訓(xùn)練。SAM增加了教師和學(xué)生網(wǎng)絡(luò)之間的L2特征損失,其中教師網(wǎng)絡(luò)從基本事實(shí)語義分割圖預(yù)測控制信號,并停止意圖值。WoR學(xué)習(xí)了一個基于模型的行動值函數(shù),然后用它來監(jiān)督視覺運(yùn)動策略。CaT最近在基于IL的特權(quán)專家訓(xùn)練中引入了BEV安全提示,并在BEV空間中進(jìn)行提取以對齊特征。Roach提出用RL訓(xùn)練更強(qiáng)的特權(quán)專家,消除了模仿學(xué)習(xí)的上限。它包含了多個蒸餾目標(biāo),即行動分布預(yù)測、價值估計和潛在特征。通過利用強(qiáng)大的RL專家,TCP在CARLA排行榜上以單目作為視覺輸入,實(shí)現(xiàn)了新的最先進(jìn)技術(shù)。


盡管在設(shè)計一個更強(qiáng)大的專家和將知識從教師傳遞給不同層次的學(xué)生方面付出了大量的努力,但師生范式仍然受到低效蒸餾的影響。如所有先前的工作所示,與特權(quán)智能體相比,視覺運(yùn)動網(wǎng)絡(luò)表現(xiàn)出很大的性能差距。例如,特權(quán)智能體可以訪問紅綠燈的真值狀態(tài),紅綠燈是圖像中的小模擬,對提取相應(yīng)的特征提出了挑戰(zhàn)。這可能會導(dǎo)致學(xué)生產(chǎn)生因果混淆。因此,如何從機(jī)器學(xué)習(xí)中的一般蒸餾方法中獲得更多靈感,以最大限度地縮小差距,值得探索。


可解釋性


可解釋性在自動駕駛中起著至關(guān)重要的作用。它使工程師和研究人員能夠更好地測試、調(diào)試和改進(jìn)系統(tǒng),從社會角度提供性能保證,增加用戶的信任,并促進(jìn)公眾的接受。然而,在端到端自動駕駛模型(通常被稱為黑匣子)中實(shí)現(xiàn)可解釋性是一項(xiàng)挑戰(zhàn)。給定一個經(jīng)過訓(xùn)練的自動駕駛模型,一些事后X-AI(可解釋的AI)技術(shù)可以應(yīng)用于學(xué)習(xí)模型以獲得顯著性圖。顯著性地圖突出顯示視覺輸入中的特定區(qū)域,模型主要依賴這些區(qū)域進(jìn)行規(guī)劃。然而,這種方法提供的信息有限,其有效性和有效性很難評估。相反,作者關(guān)注的是自動駕駛框架,這些框架在模型設(shè)計中直接增強(qiáng)了可解釋性。作者將在下面的圖6中介紹每一類可解釋性。



注意力可視化:?注意力機(jī)制通常提供一定程度的可解釋性。在中,學(xué)習(xí)的注意力權(quán)重被應(yīng)用于從中間特征圖中聚合重要特征。學(xué)習(xí)注意力權(quán)重以自適應(yīng)地組合來自不同模擬區(qū)域或固定網(wǎng)格的ROI pooling特征。NEAT迭代聚合特征以預(yù)測注意力權(quán)重并細(xì)化聚合特征。最近,Transformer注意力機(jī)制已被廣泛用于許多自動駕駛模型中。有文章中采用了Transformer注意力塊,以更好地聚合來自傳感器輸入的信息,注意力圖顯示了輸入中的重要區(qū)域,用于駕駛決策。在PlanT中,注意力層處理來自不同場景的特征,為相應(yīng)的動作提供可解釋的見解。與事后顯著性方法類似,盡管習(xí)得的注意力圖可以提供一些關(guān)于模型焦點(diǎn)的直接線索,但其忠實(shí)性和實(shí)用性仍然有限。


可解釋任務(wù):?在深度駕駛模型中,輸入最初被編碼為中間表示,用于后續(xù)預(yù)測。因此,許多基于IL的工作通過將潛在特征表示解碼為其他有意義的信息來引入可解釋性,例如語義分割、深度估計、模擬檢測、可供性預(yù)測、運(yùn)動預(yù)測和凝視圖估計。盡管這些方法提供了可解釋的信息,但大多數(shù)方法僅將這些預(yù)測視為輔助任務(wù),對最終駕駛決策沒有明確影響。有些確實(shí)將這些輸出用于最終駕駛動作,但它們僅用于執(zhí)行額外的安全檢查。


成本學(xué)習(xí):?如前所述,基于成本學(xué)習(xí)的方法與傳統(tǒng)的模塊化自動駕駛系統(tǒng)有一些相似之處,因此表現(xiàn)出一定程度的可解釋性。NMP和DSDNet結(jié)合檢測和運(yùn)動預(yù)測結(jié)果構(gòu)建成本體積。P3將預(yù)測的語義占用圖與舒適度和交通規(guī)則約束相結(jié)合來構(gòu)建代價函數(shù)。各種表示,如概率占用和時間運(yùn)動場、緊急占用和freespace,用于對采樣軌跡進(jìn)行評分。明確包括安全、舒適、交通規(guī)則和基于感知和預(yù)測輸出的路線等因素,以構(gòu)建成本量。


語言可解釋性:?由于可解釋性的一個方面是幫助人類理解系統(tǒng),因此自然語言是實(shí)現(xiàn)這一目的的合適選擇。Kim等人生成BDD-X數(shù)據(jù)集,將駕駛視頻與描述和解釋配對。他們還提出了一個帶有車輛控制器和解釋生成器的自動駕駛模型,并強(qiáng)制兩個模塊的空間注意力權(quán)重對齊。BEEF提出了一個解釋模塊,該模塊融合了預(yù)測的軌跡和中間感知特征,以預(yù)測決策的調(diào)整。有些文中,引入了一個名為BBD-OIA的數(shù)據(jù)集,該數(shù)據(jù)集包括駕駛決策的注釋和高密度交通場景的解釋。最近,ADAPT提出了一種基于Transformer的網(wǎng)絡(luò),以基于BBD-X數(shù)據(jù)集的駕駛視頻來聯(lián)合估計動作、敘述和推理。鑒于多模態(tài)和基礎(chǔ)模型的最新進(jìn)展,作者認(rèn)為,將語言與自動駕駛模型進(jìn)一步結(jié)合有望實(shí)現(xiàn)卓越的可解釋性和性能,如前所述。


不確定性建模:?不確定性是解釋模型輸出可靠性的一種定量方法。由于規(guī)劃結(jié)果并不總是準(zhǔn)確或最優(yōu)的,因此設(shè)計師和用戶必須確定不確定的情況以進(jìn)行改進(jìn)或必要的干預(yù)。對于深度學(xué)習(xí),有兩種類型的不確定性:先驗(yàn)不確定性和認(rèn)識不確定性。算術(shù)不確定性是任務(wù)固有的,而認(rèn)識不確定性是由于數(shù)據(jù)或建模能力有限。在中,對端到端自動駕駛系統(tǒng)的不確定性進(jìn)行了定量評估,利用模型中的某些隨機(jī)正則化來執(zhí)行多次前向傳遞作為樣本來測量不確定性。然而,多個前向傳遞的要求在實(shí)時場景中是不可行的。RIP提出用專家似然模型的集合捕獲認(rèn)知不確定性,并聚合結(jié)果以執(zhí)行安全規(guī)劃。關(guān)于建模任意不確定性的方法,有的文中明確預(yù)測了駕駛行為/規(guī)劃和不確定性(通常用方差表示)。對于預(yù)測的不確定性,從多個輸出中選擇不確定性最低的輸出,而生成建議動作的加權(quán)組合。VTGNet沒有直接使用不確定性進(jìn)行規(guī)劃,但證明了建模數(shù)據(jù)的不確定性可以提高總體性能。目前,預(yù)測的不確定性主要與硬編碼規(guī)則結(jié)合使用。探索更好的方法來建模和利用自動駕駛的不確定性是必要的。


因果混淆


駕駛是一項(xiàng)表現(xiàn)出時間平穩(wěn)性的任務(wù),這使得過去的運(yùn)動成為下一步行動的可靠預(yù)測因素。然而,使用多個幀訓(xùn)練的方法可能過于依賴于這種快捷方式,并在部署過程中遭受災(zāi)難性的失敗。在一些工作中,這個問題被稱為模仿問題,是因果混淆的表現(xiàn),即訪問更多信息會導(dǎo)致性能下降。LeCun等人是關(guān)于這種影響的最早報告之一。他們使用單一的輸入幀來指導(dǎo)預(yù)測,以避免這種推論。盡管過于簡單,但這仍然是當(dāng)前最先進(jìn)的模仿學(xué)習(xí)方法的首選解決方案[22,28,29]。不幸的是,使用單個幀的缺點(diǎn)是無法提取周圍障礙物的速度。造成混淆的另一個原因是速度測量。下圖7展示了一輛汽車在紅燈前等待的例子。



汽車的速度與剎車動作高度相關(guān),因?yàn)槠囌诘却S多幀,其中速度為零,而剎車動作就是剎車。只有在紅綠燈從紅色變?yōu)榫G色的單個幀處,這種相關(guān)性才會分解。當(dāng)使用多個框架時,有多種方法可以解決因果混淆問題。Chauffer-Net通過在BEV中使用中間視覺抽象來解決這個問題。一個抽象是自車的過去,而其他抽象則不包含這些信息。在訓(xùn)練過程中,自車的過去動作以50%的概率被放棄。然而,這種方法需要顯式的抽象才能有效地工作。在中,作者試圖通過訓(xùn)練預(yù)測自車過去動作的對抗性模型,從學(xué)習(xí)的中間瓶頸表示中去除虛假的時間相關(guān)性。這導(dǎo)致了最小-最大優(yōu)化問題,其中模仿?lián)p失最小化,對抗性損失最大化。直觀地說,這訓(xùn)練網(wǎng)絡(luò)從其中間層中消除其自身的過去。這種方法在MuJoCo中效果很好,但不能擴(kuò)展到復(fù)雜的基于視覺的駕駛。第一個研究駕駛復(fù)雜性的是。他們建議在訓(xùn)練損失中增加關(guān)鍵幀的權(quán)重。關(guān)鍵幀是決策發(fā)生變化的幀(因此無法通過推斷過去來預(yù)測)。為了找到關(guān)鍵幀,他們訓(xùn)練了一個策略,該策略僅以自車的過去作為輸入來預(yù)測動作。與關(guān)鍵幀相比,PrimeNet通過使用集合提高了性能,其中單幀模型的預(yù)測作為多幀模型的額外輸入。zhuang等人也做了同樣的事情,但用動作殘差而不是動作來監(jiān)督多幀網(wǎng)絡(luò)。OREO將圖像映射到表示語義模擬的離散代碼,并將隨機(jī)丟棄mask應(yīng)用于共享相同離散代碼的單元。這有助于在Confounded Atari中,在屏幕上呈現(xiàn)上一個動作。在自動駕駛中,只使用激光雷達(dá)歷史(單幀圖像)并將點(diǎn)云重新排列到同一坐標(biāo)系中,可以避免因果混淆的問題。這刪除了關(guān)于自運(yùn)動的信息,同時保留了關(guān)于其他車輛過去狀態(tài)的信息。這項(xiàng)技術(shù)已被用于多部工作,盡管其動機(jī)并非如此。


近二十年來,模仿學(xué)習(xí)中的因果混淆一直是一個持續(xù)的挑戰(zhàn)。近年來,重要的研究人員已經(jīng)開始研究這個問題。然而,這些研究使用了經(jīng)過修改的環(huán)境來簡化因果混淆問題的研究。在最先進(jìn)的環(huán)境中顯示性能改進(jìn)仍然是一個懸而未決的問題。


穩(wěn)健性


長尾分布


長尾分布問題的一個重要方面是數(shù)據(jù)集不平衡,其中少數(shù)類占大多數(shù),而許多其他類的樣本數(shù)量有限,如下圖8(a)段所示。



這給模型推廣到各種環(huán)境帶來了巨大的挑戰(zhàn)。各種方法通過數(shù)據(jù)處理來解決這個問題,包括過采樣、欠采樣和數(shù)據(jù)擴(kuò)充。此外,基于加權(quán)的方法也通常用于緩解數(shù)據(jù)集不平衡問題。


在端到端自動駕駛的背景下,長尾分布問題尤為嚴(yán)重。數(shù)據(jù)集不平衡在駕駛數(shù)據(jù)集中尤其成問題,因?yàn)榇蠖鄶?shù)典型的駕駛都是重復(fù)的和無趣的,例如,在許多幀中沿著一條車道行駛。相反,有趣的安全關(guān)鍵場景很少發(fā)生,但性質(zhì)多樣。為了解決這個問題,一些工作依賴于手工制作的場景,以在模擬中生成更多樣、更有趣的數(shù)據(jù)。LBC利用特權(quán)智能體來創(chuàng)建以不同導(dǎo)航命令為條件的假想超權(quán)限。LAV認(rèn)為,盡管用于數(shù)據(jù)收集的自車很少有事故發(fā)生的情況,其他智能體人可能經(jīng)歷過一些安全關(guān)鍵或有趣的情況。因此,它包括用于訓(xùn)練的其他智能體的軌跡,以促進(jìn)數(shù)據(jù)多樣性。在中,提出了一種模擬框架,以應(yīng)用重要性采樣策略來加速罕見事件概率的評估。


另一條研究路線通過虛擬攻擊以數(shù)據(jù)驅(qū)動的方式生成安全關(guān)鍵場景。在中,貝葉斯優(yōu)化被用于生成對抗性場景。學(xué)習(xí)碰撞將駕駛場景表示為構(gòu)建塊上的聯(lián)合分布,并應(yīng)用策略梯度RL方法生成風(fēng)險場景。AdvSim修改智能體的軌跡,同時仍然堅(jiān)持物理合理性,以導(dǎo)致故障,并相應(yīng)地更新激光雷達(dá)。最近的工作KING通過不同的運(yùn)動學(xué)模型提出了一種使用梯度的安全臨界擾動的優(yōu)化算法。一般來說,有效生成涵蓋長尾分布的現(xiàn)實(shí)安全關(guān)鍵場景仍然是一個重大挑戰(zhàn)。雖然許多工作側(cè)重于模擬器中的對抗性場景,但更好地利用真實(shí)世界的數(shù)據(jù)進(jìn)行關(guān)鍵場景挖掘和對模擬的潛在適應(yīng)也是至關(guān)重要的。此外,系統(tǒng)、嚴(yán)格、全面和現(xiàn)實(shí)的測試框架對于評估這些長尾分布式安全關(guān)鍵場景下的端到端自動駕駛方法至關(guān)重要。


協(xié)變量移位


如前所述,行為克隆的一個重要挑戰(zhàn)是協(xié)變量移位。專家策略和經(jīng)過訓(xùn)練的智能體策略的狀態(tài)分布不同,當(dāng)經(jīng)過訓(xùn)練的智能體部署在看不見的測試環(huán)境中時,或者當(dāng)來自其他智能體的反應(yīng)與訓(xùn)練時間不同時,會導(dǎo)致復(fù)合誤差。這可能導(dǎo)致經(jīng)過訓(xùn)練的智能體處于專家訓(xùn)練分布之外的狀態(tài),從而導(dǎo)致嚴(yán)重故障。如上面圖8(b)所示。DAgger(數(shù)據(jù)集聚合)是克服這一問題的常用方法。DAgger是一個迭代訓(xùn)練過程,其中在每次迭代中推出當(dāng)前訓(xùn)練的策略來收集新的數(shù)據(jù),并使用專家來標(biāo)注訪問的狀態(tài)。這通過添加如何從不完美策略可能訪問的次優(yōu)狀態(tài)中恢復(fù)的示例豐富了訓(xùn)練數(shù)據(jù)集。然后在增強(qiáng)的數(shù)據(jù)集上訓(xùn)練策略,并重復(fù)該過程。然而,DAgger的一個缺點(diǎn)是需要一個可用的專家來在線查詢。


對于端到端自動駕駛,中采用了DAgger,并配備了基于MPC的專家。為了降低持續(xù)查詢專家的成本并提高安全性,SafeDAgger通過學(xué)習(xí)估計當(dāng)前策略和專家策略之間偏差的安全策略來擴(kuò)展原始DAgger算法。只有當(dāng)偏差很大時才會詢問專家,而在那些危險的情況下,專家會接管。MetaDAgger將元學(xué)習(xí)與DAgger相結(jié)合,以聚合來自多個環(huán)境的數(shù)據(jù)。LBC采用DAgger并對數(shù)據(jù)進(jìn)行重新采樣,以便更頻繁地對具有較高損耗的樣本進(jìn)行采樣。在DARB中,對DAgger進(jìn)行了一些修改,以適應(yīng)駕駛?cè)蝿?wù)。為了更好地利用故障或安全相關(guān)樣本,它提出了幾種機(jī)制,包括基于任務(wù)的、基于策略的以及基于策略和專家的機(jī)制,來對這些關(guān)鍵狀態(tài)進(jìn)行采樣。它還使用固定大小的重放緩沖區(qū)進(jìn)行迭代訓(xùn)練,以增加多樣性并減少數(shù)據(jù)集偏差。


域自適應(yīng)


領(lǐng)域自適應(yīng)(DA)是一種遷移學(xué)習(xí),其中目標(biāo)任務(wù)與源任務(wù)相同,但域不同。在這里,作者討論的場景是,標(biāo)簽可用于源域,而目標(biāo)域沒有標(biāo)簽或標(biāo)簽數(shù)量有限。如前面圖8(c)所示,模擬駕駛?cè)蝿?wù)的領(lǐng)域自適應(yīng)包括幾種情況:


  1. 模擬到真實(shí):用于訓(xùn)練的模擬器和用于部署的真實(shí)世界之間的巨大差距。


  2. 地理到地理:不同的地理位置,不同的環(huán)境外觀。


  3. 天氣對天氣:由雨、霧和雪等天氣條件引起的傳感器輸入變化。


  4. 晝夜:傳感器輸入的照明變化。


  5. 傳感器與傳感器之間:傳感器特性的可能差異,例如分辨率和相對位置


傳感器與傳感器之間:傳感器特性的可能差異,例如分辨率和相對位置。請注意,上述情況經(jīng)常重疊。VISRI使用翻譯網(wǎng)絡(luò)將模擬圖像映射到真實(shí)圖像,分割圖作為中間表示?;诜g的模擬圖像來訓(xùn)練RL智能體。在中,使用圖像翻譯器和鑒別器實(shí)現(xiàn)了域不變特征學(xué)習(xí),以將來自兩個域的圖像映射到共同的潛在空間。類似地,LUSR采用循環(huán)一致VAE將圖像投影到由領(lǐng)域特定部分和領(lǐng)域一般部分組成的潛在表示中,在此基礎(chǔ)上學(xué)習(xí)策略。UAIL通過將不同天氣條件下的圖像分解為可區(qū)分的風(fēng)格空間和具有GAN的共享內(nèi)容空間,實(shí)現(xiàn)天氣對天氣的適應(yīng)。在SESR中,從語義分割掩碼中提取類解糾纏編碼,以減少模擬器中的圖像與現(xiàn)實(shí)世界之間的域間隙。領(lǐng)域隨機(jī)化也是模擬器中RL策略學(xué)習(xí)的模擬到真實(shí)自適應(yīng)的一種簡單有效的技術(shù),它進(jìn)一步適用于端到端的自動駕駛系統(tǒng)。它是通過對模擬器的渲染和物理設(shè)置進(jìn)行隨機(jī)化來實(shí)現(xiàn)的,以覆蓋訓(xùn)練過程中真實(shí)世界的可變性,并獲得具有良好泛化能力的訓(xùn)練策略。目前,通過源target圖像映射或域不變特征學(xué)習(xí)進(jìn)行模擬到真實(shí)的自適應(yīng)是端到端自動駕駛的重點(diǎn)。其他領(lǐng)域適應(yīng)情況,如地理到地理或天氣到天氣的適應(yīng),是通過訓(xùn)練數(shù)據(jù)集的多樣性和規(guī)模來處理的。由于激光雷達(dá)已成為一種流行的駕駛輸入模態(tài),鑒于目前的工作主要集中在基于圖像的自適應(yīng),還必須設(shè)計適合激光雷達(dá)特征的特定自適應(yīng)技術(shù)。此外,由于當(dāng)前的方法只關(guān)注圖像中的視覺差距,因此應(yīng)注意交通智能體的行為以及模擬器與現(xiàn)實(shí)世界之間的交通規(guī)則差距。通過NeRF等技術(shù)將真實(shí)世界的數(shù)據(jù)納入模擬是另一個有前景的方向。


5未來趨勢


考慮到所討論的挑戰(zhàn)和機(jī)遇,作者列出了未來研究的一些關(guān)鍵方向,這些方向可能會在該領(lǐng)域產(chǎn)生更廣泛的影響。


零樣本和少樣本學(xué)習(xí)


自動駕駛模型最終不可避免地會遇到超出訓(xùn)練數(shù)據(jù)分布范圍的真實(shí)場景。這就提出了一個問題,即作者是否能夠成功地將模型調(diào)整到一個看不見的目標(biāo)領(lǐng)域,在這個領(lǐng)域中,有限或沒有標(biāo)注的數(shù)據(jù)可用。實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵步驟是將這項(xiàng)任務(wù)形式化為端到端駕駛領(lǐng)域,并將零樣本/少樣本學(xué)習(xí)文獻(xiàn)中的相關(guān)技術(shù)納入其中。


模塊化端對端規(guī)劃


模塊化端到端規(guī)劃框架優(yōu)化了多個模塊,同時對下游規(guī)劃任務(wù)進(jìn)行了優(yōu)先排序,這具有可解釋性的優(yōu)勢,如第前所示。這在最近的文獻(xiàn)中得到了提倡,某些行業(yè)解決方案(特斯拉、Wayve等)也涉及類似的想法。在設(shè)計這些可區(qū)分的感知模塊時,會出現(xiàn)一些關(guān)于損失函數(shù)選擇的問題,例如3D邊界框用于目標(biāo)檢測的必要性,占用表示是否足以檢測一般障礙物,或者選擇BEV分割而不是車道拓?fù)溆糜陟o態(tài)場景感知的優(yōu)勢。


數(shù)據(jù)引擎


大規(guī)模、高質(zhì)量的數(shù)據(jù)對自動駕駛的重要性再怎么強(qiáng)調(diào)也不為過。建立一個帶有自動標(biāo)注pipeline的數(shù)據(jù)引擎可以極大地促進(jìn)數(shù)據(jù)和模型的迭代開發(fā)。自動駕駛的數(shù)據(jù)引擎,尤其是模塊化的端到端規(guī)劃系統(tǒng),需要在大型感知模塊的幫助下,以自動的方式簡化注釋高質(zhì)量感知標(biāo)簽的過程。它還應(yīng)支持挖掘困難/角落案例、場景生成和編輯,以簡化前面中討論的數(shù)據(jù)驅(qū)動評估,并促進(jìn)數(shù)據(jù)的多樣性和模型的泛化能力。數(shù)據(jù)引擎將使自動駕駛模型能夠做出一致的改進(jìn)。


基礎(chǔ)模型


語言和視覺方面的大型基礎(chǔ)模型的最新進(jìn)展對社會的各個方面產(chǎn)生了重大影響。大規(guī)模數(shù)據(jù)和模型能力的利用釋放了人工智能在高級推理任務(wù)中的巨大潛力。微調(diào)或即時學(xué)習(xí)、自監(jiān)督重建形式的優(yōu)化或?qū)Ρ葘σ约皵?shù)據(jù)pipeline等的范式都適用于端到端的自動駕駛領(lǐng)域。然而,作者認(rèn)為,將LLM直接用于自動駕駛似乎與這兩個目標(biāo)的不同目標(biāo)不一致。自主主體的輸出通常需要穩(wěn)定和準(zhǔn)確的測量,而語言模型中的生成序列輸出旨在表現(xiàn)得像人,無論其準(zhǔn)確性如何。開發(fā)大型自動駕駛模型的一個可行解決方案是訓(xùn)練一個視頻預(yù)測器,該預(yù)測器可以預(yù)測2D或3D環(huán)境的長期預(yù)測。為了在規(guī)劃等下游任務(wù)中表現(xiàn)出色,要為大型模型優(yōu)化的目標(biāo)需要足夠復(fù)雜,超出框架級別的感知。


V2X


遮擋和超出感知范圍的障礙物是現(xiàn)代計算機(jī)視覺技術(shù)的兩個基本挑戰(zhàn),當(dāng)人類駕駛員需要對穿越目標(biāo)做出快速反應(yīng)時,這甚至?xí)o他們帶來巨大困難。V2V、V2I和V2X系統(tǒng)提供了很有前途的解決方案來解決這一關(guān)鍵問題,其中來自不同觀點(diǎn)的信息補(bǔ)充了自盲點(diǎn)。見證了多智能體場景下信息傳輸機(jī)制的進(jìn)步,這些系統(tǒng)可以提供一種實(shí)現(xiàn)高級決策智能的解決方案。


6結(jié)論


在這項(xiàng)調(diào)研中,首先概述了端到端自動駕駛的基本方法,并總結(jié)了仿真和基準(zhǔn)測試的各個方面。然后深入分析了迄今為止廣泛的文獻(xiàn),并強(qiáng)調(diào)了一系列重大挑戰(zhàn)和有希望的解決方案。最后討論了未來如何采用快速發(fā)展的基礎(chǔ)模型和數(shù)據(jù)引擎。端到端自動駕駛同時面臨著巨大的機(jī)遇和挑戰(zhàn),最終目標(biāo)是打造多面手。在這個新興技術(shù)的時代,希望這項(xiàng)調(diào)研能作為一個起點(diǎn),為這一領(lǐng)域提供新的線索。


7參考


[1].End-to-end Autonomous Driving: Challenges and Frontiers


① 全網(wǎng)獨(dú)家視頻課程


BEV感知、毫米波雷達(dá)視覺融合、多傳感器標(biāo)定、多傳感器融合、多模態(tài)3D目標(biāo)檢測、點(diǎn)云3D目標(biāo)檢測、目標(biāo)跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語義分割、自動駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測等多個方向?qū)W習(xí)視頻(掃碼學(xué)習(xí))


視頻官網(wǎng):www.zdjszx.com


② 國內(nèi)首個自動駕駛學(xué)習(xí)社區(qū)


近2000人的交流社區(qū),涉及30+自動駕駛技術(shù)棧學(xué)習(xí)路線,想要了解更多自動駕駛感知(2D檢測、分割、2D/3D車道線、BEV感知、3D目標(biāo)檢測、Occupancy、多傳感器融合、多傳感器標(biāo)定、目標(biāo)跟蹤、光流估計)、自動駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動駕駛規(guī)劃控制/軌跡預(yù)測等領(lǐng)域技術(shù)方案、AI模型部署落地實(shí)戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球,這是一個真正有干貨的地方,與領(lǐng)域大佬交流入門、學(xué)習(xí)、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!



③【自動駕駛之心】技術(shù)交流群


自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標(biāo)檢測、語義分割、全景分割、實(shí)例分割、關(guān)鍵點(diǎn)檢測、車道線、目標(biāo)跟蹤、3D目標(biāo)檢測、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點(diǎn)云處理、端到端自動駕駛、SLAM、光流估計、深度估計、軌跡預(yù)測、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動駕駛仿真測試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請入群,備注:學(xué)校/公司+方向+昵稱(快速入群方式)


上海AI Lab | 最新端到端自動駕駛綜述,來龍去脈詳盡梳理的評論 (共 條)

分享到微博請遵守國家法律
商河县| 乌兰浩特市| 正镶白旗| 建瓯市| 武鸣县| 宁晋县| 文登市| 安平县| 米脂县| 玉林市| 临朐县| 新昌县| 南岸区| 淮阳县| 大连市| 翁牛特旗| 巴林左旗| 南安市| 石首市| 高淳县| 临颍县| 漯河市| 林甸县| 涞源县| 南澳县| 石狮市| 洛隆县| 体育| 慈溪市| 平安县| 麻阳| 依兰县| 措勤县| 波密县| 石泉县| 连云港市| 铁岭县| 麻阳| 高陵县| 呼伦贝尔市| 榆中县|