一文讀懂基于Transformer的車輛多模態(tài)軌跡預測方法
本文來源:平行智能技術與系統(tǒng)團隊認知自動駕駛課題組
引言
軌跡預測是自動駕駛領域關注的熱點。對周圍車輛軌跡的精確預測可以輔助自動駕駛車輛做出合理的決策規(guī)劃,進而實現(xiàn)車輛在異構高動態(tài)復雜多變環(huán)境中安全駕駛。在車輛交互場景中,由于駕駛員意圖與環(huán)境的不確定性,車輛軌跡將呈現(xiàn)多模態(tài)屬性,即在相同歷史軌跡條件下,車輛的未來軌跡具有多種可能性。對車輛的多模態(tài)軌跡預測并保證預測的準確性與多樣性是當前自動駕駛領域研究的重點與難點。
近年來,Transformer在多模態(tài)預測領域取得突破性進展,其特有的完全基于注意力機制模塊能夠充分挖掘高動態(tài)場景下車輛之間的交互關系并有效建模軌跡的多模態(tài)分布。在近年來的一些研究中,基于Transformer的多模態(tài)軌跡預測顯示出比CNN,RNN等多模態(tài)預測模型更優(yōu)的準確性與多樣性。本文以基于Transformer的多模態(tài)車輛軌跡預測為主線,回顧近年來代表性的基于Transformer的多模態(tài)軌跡預測的算法,最后對基于Transformer的多模態(tài)軌跡預測做出總結與展望。
Transformer框架
2017年,Waswani等人提出Transformer[1],這是一種完全基于注意力機制的模型。注意力機制是一種捕捉向量之間相關性的方法,既可以考慮全局又可以聚焦重點,其在捕獲車輛之間交互信息有非常好的性能。
基于注意力機制的Transformer比經(jīng)典的深度學習模型CNN[12]和RNN[2]具備如下優(yōu)勢。注意力機制可以解決基于CNN方法中可解釋性差以及無法建模智能體間交互關系的問題。注意力機制可以解決基于RNN[2]方法中長距離依賴問題,可以有更好的記憶力,可以獲取更長距離的信息。相較于基于 RNN的方法在第t時間步的隱藏狀態(tài)Ht需要前一個時間步t-1的隱藏狀態(tài)輸出后才能處理,難以并行,Transformer模型可以實現(xiàn)并行計算, Transformer可以同時提取上下文信息,并且在信息傳遞過程中規(guī)避梯度爆炸或梯度遺忘問題。
Transformer框架主要包含編碼器、解碼器、注意力機制三個重要部分,以下具體介紹。
圖 1:Transformer框架[1]縮進點積注意力機制,多頭注意力機制
2.1編碼器-解碼器
編碼器用于將歷史軌跡和環(huán)境信息嵌入到上下文信息中并輸入到Transformer中,其輸入為車道信息,歷史軌跡,車輛交互信息等,輸出為具有這些信息的特征。編碼器由N=6個獨立層組成,每層有兩個子層,分別是多頭注意力和全連接前饋網(wǎng)絡,子層通過殘差結構連接后進行歸一化輸出,每層維度d_model=512確保輸入輸出維度不變。
解碼器用于生成預測軌跡,其輸入為編碼器的輸出,輸出為預測軌跡。解碼器由N=6個獨立層組成,每層有三個子層,除了多頭注意力和全連接前饋網(wǎng)絡,還插入第三個子層,掩碼多頭注意力(Masked Multi-head attention),用于對編碼器堆棧的輸出執(zhí)行多頭注意,掩碼用于未來時刻進行掩碼處理,確保當前位置的預測不會依賴于未來位置。
2.2注意力機制
注意力機制用于建模車輛間交互關系。注意力機制將查詢向量Q和一組鍵值對向量K-V映射到輸出,輸出值的加權和,權重則是通過Q和K相似度計算。Transformer框架主要由縮放點積注意力機制和多頭注意力機制組成,縮放點積注意力機制中輸入由向量query(dk),key(dk)以及value(dv)組成,如圖2,QK向量通過點積處理計算相似度,通過比例因子sqrt(dk)(用來求dk的平方根)處理避免QK內(nèi)積方差太大導致難以學習的情況,應用softmax函數(shù)獲取權重來獲得value的權重。掩碼(Mask)處理避免解碼器在訓練是獲取未來的信息影響預測。
多頭注意機制通過將Q,K,V分別線性投影到縮放點積注意機制中,投影h次后做h次注意力函數(shù)運算,通過并行計算,生成dv維輸出value,將每一個輸出值鏈接后再做一次投影得到最終value。通過多頭注意機制,Transformer模型可以聯(lián)合注意來自不同位置的不同子空間信息。
2.3小結
在這一節(jié)中主要介紹了Transformer框架中三個主要部分,編碼器,解碼器,注意力機制的輸入輸出及其在軌跡預測中的用途。下一節(jié)中將對基于Transformer的多模態(tài)軌跡方法介紹。
基于Transformer的多模態(tài)軌跡預測方法
上一部分介紹了Transformer中編碼器解碼器結構,縮放點積注意機制,多頭注意機制。這一部分中,將介紹近年來基于Transformer框架的可隨場景變化的自適應調整的多模態(tài)方法。多模態(tài)軌跡預測旨在為處于異構復雜高動態(tài)環(huán)境中的目標車輛生成多條可能的且具有安全性的軌跡,由于不確定性的存在,目標車輛即使在相同場景下也有可能表現(xiàn)不同,因此這也是多模態(tài)軌跡預測面臨的挑戰(zhàn)。實現(xiàn)多模態(tài)預測的另一個挑戰(zhàn)在于如何用有限的訓練樣本覆蓋給定場景中所有可能的結果。多智能體軌跡預測需要在兩個關鍵維度建模:(1)時間維度:將歷史信息對智能體未來狀態(tài)的影響建模 (2)社會維度:對每個智能體之間的交互關系建模。在時間維度層面,現(xiàn)有基于經(jīng)典深度學習的模型CNN,RNN無法建模長時間序列,會導致時間信息丟失問題,基于Transformer可以通過將位置編碼通過時間編碼的形式保存長歷史軌跡的信息。在社會維度層面,Transformer模型可以通過注意力機制建模人-車,車-車,車-環(huán)境之間的交互關系,可以通過分配權重的方式選擇影響力最大的交互,以此為基礎,Transformer可擴展到多智能體交互環(huán)境中。
現(xiàn)有基于概率的方法[3]和基于建議的啟發(fā)式[4]的方法雖然可以通過添加規(guī)則的方式輸出概率分布或通過添加具有強約束的錨點實現(xiàn)多模態(tài)軌跡預測,但是基于概率的方法過度依賴于先驗分布和損失函數(shù),容易出現(xiàn)優(yōu)化不穩(wěn)定或模式崩潰現(xiàn)象,基于建議的啟發(fā)式方法過度依賴于錨點質量,不能保證生成多模態(tài)情況?;赥ransformer的方法可以避免在設計先驗分布和損失函數(shù)過程中大量的人工工作,同時可以更好的捕捉到軌跡預測的多模態(tài)性質,實現(xiàn)多模態(tài)軌跡預測。
Liu[5]等針對如何實現(xiàn)多模態(tài)軌跡預測,提出mmTransformer框架,該方法在Argoverse基準排行榜排名第一名,框架由三個獨立的堆疊式的Transformer模型組成,分別聚合歷史軌跡,道路信息以及交互信息。如圖2所示,mmTransformer整體框架可由兩部分組成,第一部分僅由運動提取器和地圖聚合器分別對車輛的信息及環(huán)境信息進行性編碼,不考慮交互信息,第二部分通過社會構造函數(shù)對臨近信息進行聚合,并對車輛之間的依賴關系進行建模,整個過程是依照邏輯順序,即社會關系是基于每個車輛特征構建的。該方法還提出基于區(qū)域的訓練策略(RTS),在初始化建議后,將建議路徑分為空間群組,通過路徑分配計算路徑回歸損失和分類損失,以確保生成預測軌跡的多樣性。
圖2:mmTransformer模型框架
Yuan等針對時間和社會維度上獨立特征編碼信息丟失問題,提出AgentFormer[6]允許一個智能體在某個時間的狀態(tài)直接影響另一個智能體未來的狀態(tài),而不是通過在一個維度上編碼的中間特征,AgentFormer(圖3)可以同時學習時序信息和交互關系,智能體當前時刻的關系可以通過不同時刻關系體現(xiàn),解決了傳統(tǒng)Transformer注意力中各個輸入元素權重平等造成的時間和智能體信息損失,該模型采用時間編碼減少時間信息損失,通過獨特的Agent-aware注意力機制編碼智能體和時間的關系,采用CVAE形式,以概率形式描述,確保了生成軌跡的多模態(tài)性。
圖 3:AgentFormer模型框架
Huang[10]等針對如何編碼多智能體交互問題,使用TF編碼器(圖4)建模智能體與周圍車輛的交互關系,多頭注意機制可以幫助提取智能體交互的不同信息。通過矢量地圖表示和基于地車道集的地圖結構提取地圖和目標智能體之間的關系。
Zhao等針對傳統(tǒng)注意力機制無法捕獲多智能體之間交互的問題,提出Spatial-Channel Transformer[9]在基于Transformer框架的基礎上,插入了一個通道注意力(Channel-wise attention)模塊(圖5),即擠壓激勵網(wǎng)絡(SE)[8],并將SE網(wǎng)絡用于軌跡前途,以捕獲相鄰通道之間的相互作用。Zhang等針對多智能體軌跡預測問題,提出的Gatformer[11]相較于GNN,采用靈活的圖結構,相比基于圖神經(jīng)網(wǎng)絡的方法,降低了全連通圖造成的計算復雜性?;谙∈鑸D,Gatformer可以預測多智能體未來的軌跡,同時考慮智能體之間相互作用。目前基于GAN和CVAE方法導致模型存在可解釋性差的問題,Gatformer注意機制通過對交互權重分配可以提高性能并提高模型的可解釋性,該模型對模型在多環(huán)境下驗證了模型的魯棒性。
圖 4:Motion Prediction Model模型框架
圖5:Spatial-Channel Transformer框架
復雜的駕駛環(huán)境通常是靜態(tài)動態(tài)混合形式作為輸入信息,針對如何表示融合有關道路幾何形狀,車道連通性,時變交通信號燈狀態(tài),其他交通參與者狀態(tài)以及交互的歷史信息,并將其編碼,現(xiàn)有方法為了對多樣特征建模而設計的具有不同特定模塊集的復雜TF模型,由于注意對輸入序列長度是二次方,且位置前饋網(wǎng)絡是昂貴的自網(wǎng)絡因此導致TF難以規(guī)模化,質量和效率無法同時保證。針對此問題,Waymo提出WayFormer[7](圖6) 在Transformer框架的基礎上,研究了三種輸入模式:前融合,后融合和分層融合的利弊,對于每種融合類型,探索通過分解注意或潛在query注意來權衡效率和質量的策略。后融合中每種特征都有與之相對應的編碼器,前融合不是將注意編碼器專用于每個模態(tài),而是減少特定模態(tài)的參數(shù)到投影層,分層融合是前融合,后融合折中的模型,將場景信息分別通過注意編碼器編碼后聚合,將聚合特征輸入到最終的注意機制交叉模型中,有效的將場景編碼器的深度在模態(tài)特定編碼器和跨模態(tài)編碼器之間平均。本文還對如何將Transformer擴展到大型多維序列中提供了解決方案,減少了每個塊的注意分量和位置前饋網(wǎng)絡的計算成本。
圖6:Wayformer對編碼器結構的改進
總結與展望
綜上所述,現(xiàn)階段在多模態(tài)軌跡預測領域的整體框架已經(jīng)成型,都是由編碼器+交互+解碼器組成,針對多模態(tài)軌跡預測目前具有的挑戰(zhàn)性問題,基于Transformer軌跡預測在Argoverse數(shù)據(jù)集的平均位移誤差(ADE)和最終位移誤差(FDE)性能指標上取得了最優(yōu)水平。Transformer框架在交互部分,特別是對障礙物周圍信息交互效果相比CNN與RNN方法有明顯的提升,Transformer可以解決長歷史軌跡信息丟失問題,同時依靠注意力機制捕獲車輛之間交互信息。
然而Transformer模型雖然在自然語言處理及視覺領域均取得了非常顯著的成果,但是在自動駕駛軌跡預測方向的研究還是較少。目前還無法確Transformer算法可以應用到更為復雜多變的環(huán)境中,因為在現(xiàn)實環(huán)境中,由于傳感器限制,如果有其他交通參與者遮擋,或者出現(xiàn)缺失/過時/不準確的道路基礎設施信息,以及感知范圍有限,無法獲得實驗階段的理想數(shù)據(jù),會導致預測軌跡出現(xiàn)偏差。同時可解釋性低也是基于Transformer模型面臨的主要問題之一,現(xiàn)有方法中對于預測軌跡的置信度難以解釋,因此導致模型解釋性低。這些問題也將是未來使用Transformer做多模態(tài)軌跡預測的可繼續(xù)深入的方向。其次現(xiàn)有方法對于多模態(tài)的研究還不充分,相信在未來的發(fā)展中,基于Transformer的多模態(tài)軌跡預測方法會更加完善,軌跡預測技術走進現(xiàn)實生活一定可以實現(xiàn)。
更多精彩內(nèi)容,請搜索微信公眾平臺【智車科技】。
參考文獻:
[1]A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, “Attention is all you need,” CoRR, vol. abs/1706.03762, 2017.arXiv: 1706.03762. [Online]. Available: http://arxiv.org/abs/1706.03762.
[2]A. Graves, “Generating sequences with recurrent neural networks,” CoRR, vol. abs/1308.0850, 2013. arXiv: 1308 . 0850. [Online]. Available: http : / /arxiv.org/abs/1308.0850.
[3]N. Lee, W. Choi, P. Vernaza, C. B. Choy, P. H. S. Torr, and M. K. Chandraker, “DESIRE: distant future prediction in dynamic scenes with interacting agents,” CoRR, vol. abs/1704.04394, 2017. arXiv: 1704 . 04394. [Online]. Available: http://arxiv.org/abs/1704.04394.
[4]H. Zhao, J. Gao, T. Lan, C. Sun, B. Sapp, B. Varadarajan, Y. Shen, Y. Shen, Y. Chai, C. Schmid, C. Li, and D. Anguelov, “TNT: target-driven trajectory prediction,”CoRR, vol. abs/2008.08294, 2020. arXiv: 2008 . 08294. [Online]. Available:https://arxiv.org/abs/2008.08294.
[5]Y. Liu, J. Zhang, L. Fang, Q. Jiang, and B. Zhou, “Multimodal motion prediction with stacked transformers,” in 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 7573–7582. DOI: 10.1109/CVPR46437.2021.00749.
略......
- End -