ECCV2022解讀:首篇基于環(huán)視相機的端到端自動駕駛框架!
原文鏈接:https://mp.weixin.qq.com/s/jmzI4uCGZue6IvWSeIgguQ
論文地址: https://arxiv.org/abs/2207.07601
項目地址: https://github.com/OpenPerceptionX/ST-P3
7月4日,ECCV 2022放榜,今年共收到8000多篇投稿,其中1629篇論文被接收,接收率不到20%。上海人工智能實驗室自動駕駛團隊與上海交通大學嚴駿馳副教授團隊合作的論文《ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning》被ECCV 2022接收。該論文提出了第一個基于環(huán)視相機的,具有顯示中間表征結(jié)果的端到端自動駕駛框架。針對感知-預測-規(guī)劃三個子模塊,團隊分別做了提升時空特征學習性能的特殊設(shè)計,包括:基于累積的靜態(tài)物體特征增加與動態(tài)物體特征對齊,結(jié)合歷史特征變化與未來不確定性建模的雙路預測模塊,網(wǎng)絡(luò)前部特征融合提升規(guī)劃性能。

端到端一體化的訓練方式下,三個模塊的性能在nuScenes上的感知、預測與開環(huán)規(guī)劃效果均超越相應(yīng)的方法達到SOTA,并且在CARLA上的測試也可以超越經(jīng)典的基于多模態(tài)的Transfuser方法,下面為大家對這篇文章進行解讀。
1如何提高視覺的時空特征性能實現(xiàn)端到端訓練?
自從1988的Alvinn開始,端到端自動駕駛便進入了人們的視野,隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,在近五年成為了學術(shù)及工業(yè)界的一個流行話題。基于RL/IL的一系列工作在CARLA等benchmark上展現(xiàn)了不俗的效果。但是這些方法大都只是簡單通過一個預測頭輸出控制信號,是一個黑盒模型。此類黑盒模型做出的駕駛決策的原因我們無從得知,在系統(tǒng)出現(xiàn)問題后也難以排查,這對安全駕駛形成了重大挑戰(zhàn)??紤]到端到端自動駕駛的安全性,一個具備良好可解釋能力的模型對于安全駕駛來說很有必要。
過去幾年,Uber ATG團隊在LiDAR的感知決策一體化方面作了充分的研究,有NMP[1]、DSDNet[2]、P3[3]、MP3[4]等工作,基于純視覺的端到端的感知決策一體化模型卻鮮有研究。但考慮到成本問題以及視覺方面的優(yōu)勢(交通燈、遠距離檢測等),基于純視覺的框架也具有較大的研究潛力。如果每個模塊都設(shè)計精巧,那么每個任務(wù)在感知、預測和規(guī)劃方面的性能應(yīng)該提高到什么程度,如何提高視覺的時空特征性能實現(xiàn)端到端訓練?
從以上的問題出發(fā),團隊提出了ST-P3網(wǎng)絡(luò)(ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning)。
2顯示中間表征的環(huán)視端到端自動駕駛框架
ST-P3 pipeline

ST-P3, 一個基于視覺的可解釋的端到端系統(tǒng),該系統(tǒng)可以改善感知、預測和規(guī)劃的特征學習,上圖描述了它的整體框架。多個時刻下的環(huán)視相機圖像會依次經(jīng)過感知、預測、規(guī)劃模塊,輸出最終的規(guī)劃路徑。其中,感知和預測模塊的feature輸出,可以經(jīng)過decoder得到不同類型的場景語義信息,增強可解釋性。團隊還通過每個模塊中特殊的設(shè)計來增強時空特征的學習,下面將對每個模塊進行詳細的介紹。
感知模塊(Egocentric Aligned Accumulation)

基于視覺的方法的第一個關(guān)鍵挑戰(zhàn)是將特征表示從透視圖適當?shù)剞D(zhuǎn)換為鳥瞰圖 (BEV) 空間。開創(chuàng)性的 LSS [5]方法從多視圖相機中提取透視特征,通過深度估計將它們提升為 3D 并融合到 BEV 空間中。而為了進一步提高特征的表征能力,可以將時間信息合并到框架中,我們在 3D 空間中累積所有過去對齊的特征,盡可能保留更多的幾何信息。
該模塊中我們分為空間融合和時序融合:
空間融合:在某一時刻時,我們首先將用LSS方法提取的各個視角的圖片特征統(tǒng)一轉(zhuǎn)化到以自車為中心的3D空間中,然后為了下游任務(wù)的處理方便,需將過去時刻的特征統(tǒng)一轉(zhuǎn)化到當前特征。最后我們將該3D空間的特征進行“壓扁”,在垂直坐標軸上進行累加從而將3維特征轉(zhuǎn)化為2維特征,大大減小后續(xù)的計算量。值得注意的是我們在3D空間進行特征對齊,是考慮到raw/pitch角不為0的時候BEV對齊方法會存在問題。
時序融合:注意到不同時刻的對應(yīng)的相同位置應(yīng)具有類似的特征,比如車道線,靜止的車輛等?;谶@個性質(zhì)我們首先進行自注意力機制來加強對靜態(tài)物體的識別能力,即每一個時刻的特征還要累加上之前處理的所有的特征,如下面公式所示。而為了更加精確的感知動態(tài)物體,我們隨后用3D卷積來進一步處理上述特征。

感知輸出的特征將與下一步的預測特征一起共同經(jīng)過decoder頭,根據(jù)中間表征結(jié)果進行監(jiān)督。同時,我們也對深度估計部分進行顯示監(jiān)督,這思路也與最近的BEVDepth[6]等工作不謀而合。我們也將會開源我們通過其它額外網(wǎng)絡(luò)訓練用以監(jiān)督的深度圖。
預測模塊(Dual Pathway Probabilistic Future Modelling)

為了適應(yīng) BEV 空間中的代表性特征,我們將預測任務(wù)制定為未來場景的實例/語義分割,這與 FIERY[7]中的設(shè)定相同。類似FIERY的設(shè)計,我們首先將未來不確定性建模成高斯分布,并將其作為hidden state輸入到時序模型中。但FIERY僅根據(jù)所有歷史信息融合后的一個feature進行預測,而為了提高未來預測,我們需要更顯示地考慮過去的運動變化,故本文引入一個具有融合單元的附加時間模型來推理過去和未來運動的概率性質(zhì)。
path_a 用之前生成的不確定度作為輸入且用當前時刻的狀態(tài)作為隱狀態(tài),path_b 則用歷史的特征作為GRU的輸入,并且使用最早時刻的特征初始化隱狀態(tài)。當預測t+1時刻的特征時,我們將兩條線路預測的狀態(tài)以混合高斯的形式進行混合,并將其作為下一時刻的輸入。
最終生成的所有狀態(tài)將會被送到各個decoder中生成不同的可解釋中間表示,具體來說包含8個decoder頭:
instance (centerness, offset, flow)
semantic (vehicle, pedestrian, drivable area, lanes)
cost volume

規(guī)劃模塊(Prior Knowledge Incorporation and Refinement)
作為最終目標,運動規(guī)劃器需要規(guī)劃一條朝向目標點的安全舒適的軌跡。它根據(jù)high-level command采樣一組不同的軌跡,并選擇一條最小化代價的路徑,其中cost分為(1)上一步通過學習得到的預測cost volume,(2)根據(jù)感知得到的場景表示人為設(shè)定的各項cost。且我們將通過額外的優(yōu)化步驟來整合目標點和交通信號燈的信息。其圖示過程如下:

特別地,人為設(shè)定的cost function構(gòu)造可充分利用先驗知識,例如:
安全性:軌跡不應(yīng)與道路上其他agents相撞;在道路上車輛通常會跟隨著前車并且保持著一定的安全距離;車輛應(yīng)盡可能在道路中心行駛等。
舒適性:會導致乘坐體驗不適的較大的徑向加速度或者側(cè)向加速度都應(yīng)具有較大的cost。
為了更好地將紅綠燈情況納入到軌跡生成的考慮中,我們將上一步選出來的具有最小成本的軌跡進一步細化。我們將encoder生成的前視攝像頭的特征作為隱特征,軌跡和目標點作為輸入輸入到GRU中,通過這種方式最終細化后的軌跡能夠較好的判斷出紅綠燈并且能夠正確地導向目標點。
3實驗結(jié)果
由于ST-P3具有顯示的中間表征,我們可以將每個模塊解碼出的結(jié)果與其它相應(yīng)方法進行比較,其中感知與預測模塊在nuScenes上比較,最終的規(guī)劃結(jié)果分為nuScenes上的開環(huán)任務(wù)與CARLA仿真環(huán)境中的閉環(huán)任務(wù)比較。
感知模塊結(jié)果
對于感知模塊而言,我們主要評估地圖模塊和語義分割的結(jié)果。感知到的地圖包括可行駛區(qū)域和車道線——這是駕駛行為的兩個最關(guān)鍵的元素,因為SDV需要在可行駛區(qū)域內(nèi)行駛并保持在車道中心。而語義分割側(cè)重于車輛和行人,兩者都是駕駛環(huán)境中的主要參與人。我們使用 IoU作為度量,將感知模塊建模為 BEV 分割任務(wù)。如下表格所示,我們的方法在nuScenes驗證集上取得了最高的平均值,使用我們的感知模塊超過了之前的SOTA。

預測模塊結(jié)果
在FIERY文章中首次提出預測 BEV 中的未來分割任務(wù),我們選擇它作為我們的baseline。我們通過 IoU、現(xiàn)有全景質(zhì)量 (PQ)、識別質(zhì)量 (RQ) 和分割質(zhì)量 (SQ) 來評估我們的模型,這些指標遵循視頻預測區(qū)域中的指標。由下表可知,由于預測模塊的新穎設(shè)計,我們的模型在所有指標中達到了最優(yōu)秀的水平。

最終規(guī)劃結(jié)果
可以看到,我們的ST-P3在開環(huán)nuScenes數(shù)據(jù)集和閉環(huán)CARLA上都取得了當前基于視覺方法下的最好結(jié)果。注意到在閉環(huán)實驗中,我們的方法在長程情況下在道路完成率上遠遠領(lǐng)先基于LiDAR方法的Transfuser,雖然另一方面長距離的運動導致了更高的懲罰系數(shù),總體來看ST-P3的設(shè)計符合道路行駛條件。

Ablation分析
下表格顯示了 ST-P3 中不同模塊的有效性。
Exp.1-3 展示了深度監(jiān)督信息和以特征累積(EAA.)對感知的影響。
Exp.4-6 展示了雙路GRU和相應(yīng)的訓練方式(對所有歷史狀態(tài)計算損失,LFA.)對預測任務(wù)的影響。由于雙路GRU同時考慮了不確定性和歷史連續(xù)性,因此過去特征的正確性在其中起著至關(guān)重要的作用。
Exp.7-9 則顯示了規(guī)劃中的采樣器和 GRU 細化單元的作用。沒有前視相機特征refinement(Exp.7)或沒有先驗采樣知識的隱式模型(Exp.8)都會導致較高的規(guī)劃誤差和碰撞率。

4可視化結(jié)果
下面展示nuScenes和CARLA上的可視化結(jié)果,更多的結(jié)果可以參考補充材料~


5下一步工作
總體來說,ST-P3作為第一個中間結(jié)果顯示設(shè)計的環(huán)視端到端自動駕駛網(wǎng)絡(luò),還是較為基礎(chǔ)的。同時我們的結(jié)果表明更好的中間結(jié)果表示對于最終規(guī)劃的精度提高有著重要的重要,證明了端到端設(shè)計最終結(jié)果的精度同樣依賴于中間結(jié)果的精度,這啟發(fā)著我們進一步提高中間結(jié)果的精度。近期隨著BEV vision learning任務(wù)的興起與流行,我們相信這些工作帶來的更好的感知/預測結(jié)果也能帶來在端到端任務(wù)上的性能提升。同時為了實現(xiàn)最終模型的部署應(yīng)用,多幀環(huán)視輸入模型的速度也需要進一步地提高。
6參考
^https://arxiv.org/abs/2101.06679
^https://arxiv.org/abs/2008.06041
^https://arxiv.org/abs/2008.05930
^https://arxiv.org/abs/2101.06806
^https://arxiv.org/abs/2008.05711
^https://arxiv.org/abs/2206.10092
^https://arxiv.org/abs/2104.10490
文章僅用于學術(shù)分享,如有侵權(quán),請聯(lián)系刪除。
獨家重磅課程官網(wǎng):cvlife.net

全國最大的機器人SLAM開發(fā)者社區(qū)

技術(shù)交流群
