最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

CVPR2023 軌跡預(yù)測冠軍方案!QCNeXt:新一代多智能體聯(lián)合軌跡預(yù)測框架

2023-06-27 15:41 作者:自動駕駛之心  | 我要投稿

今天自動駕駛之心為大家分享CVPR2023 軌跡預(yù)測挑戰(zhàn)冠軍方案—QCNeXt,如果您有相關(guān)工作需要分享,請在文末聯(lián)系我們!


>>點擊進入→自動駕駛之心【軌跡預(yù)測】技術(shù)交流群

論文作者?|?Zikang Zhou


編輯 | 自動駕駛之心


大家好,今天為大家分享下我們的軌跡預(yù)測方案QCNeXt,目前在CVPR23上Argoverse 2 multi-agent motion forecasting benchmark上取得了1st!


估計道路上智能體未來軌跡的聯(lián)合分布對于自動駕駛至關(guān)重要,我們提出了一種新一代的多智能體聯(lián)合軌跡預(yù)測框架,稱為QCNeXt。首先采用以查詢?yōu)橹行牡木幋a范式來進行聯(lián)合多智能體軌跡預(yù)測。在這種編碼方案的支持下,場景編碼器在集合元素上具有置換等變性,在空間維度上具有旋轉(zhuǎn)平移不變性,在時間維度上具有平移不變性。這些不變性不僅從根本上實現(xiàn)了準確的多智能體預(yù)測,而且使編碼器具有流處理的能力。其次,我們提出了一種類似多智能體DETR的解碼器,該解碼器通過建模智能體在未來時間步長的交互來促進聯(lián)合多智能體軌跡預(yù)測。


領(lǐng)域的難點分析


軌跡預(yù)測是自動駕駛中最棘手的問題之一。為了實現(xiàn)安全的自動駕駛,軌跡預(yù)測模型必須準確預(yù)測自動駕駛車輛周圍一個或多個目標主體(例如,車輛、行人、騎自行車的人等)的真實運動。當涉及到多智能體預(yù)測時,以前的大多數(shù)工作主要集中在估計目標智能體未來軌跡的邊際分布,即假設(shè)多個智能體的未來運動是有條件獨立的,這種假設(shè)對于自動駕駛中的場景理解和決策可能并不理想,因為agent之間的社交互動不僅發(fā)生在過去的時間步長,而且發(fā)生在未來的時間步長,其它一些工作則通過考慮未來的社會互動來關(guān)注聯(lián)合多智能體軌跡預(yù)測。然而,這些方法都不能在邊際度量上實現(xiàn)與邊際預(yù)測模型相同的性能水平。人們認為,聯(lián)合預(yù)測任務(wù)比邊際預(yù)測任務(wù)困難得多。


我們的解決方案


在這份技術(shù)報告中,我們提出了一種用于聯(lián)合多智能體軌跡預(yù)測的下一代建??蚣?,該框架可以準確估計多個目標智能體的聯(lián)合未來分布,將此框架稱為 QCNeXt,因為它是下一代QCNet,是目前最強大的邊際軌跡預(yù)測模型之一。QCNeXt采用基于Transformer的編碼器-解碼器架構(gòu)作為其前身,對于編碼器,我們繼承了HiVT和QCNet的對稱設(shè)計,該設(shè)計使模型具有集合元素上的置換等變性、空間維度上的旋轉(zhuǎn)平移不變性和時間維度上的平移不變性,這些不變性有助于模型實現(xiàn)準確的多智能體預(yù)測,并實現(xiàn)流式場景編碼。對于解碼器,我們將QCNet的解碼pipeline擴展到聯(lián)合預(yù)測變體,該變體可以明確地捕捉代理在未來時間步長的社交互動。此外,我們引入了一個場景評分模塊來估計所有目標代理的聯(lián)合未來軌跡的可能性。在Argoverse 2多智能體運動預(yù)測基準上的實驗表明,QCNeXt可以在場景級別準確預(yù)測軌跡,作為一個聯(lián)合預(yù)測模型,即使在邊際指標上,QCNeXt也可以優(yōu)于QCNet,這展示了我們提出方案的有效性。


以Query為中心的場景編碼器


場景編碼器與QCNet中使用的編碼器相同,QCNet是一個基于因子化注意力的轉(zhuǎn)換器,用于捕獲時間依賴關(guān)系、agent映射交互和social交互,編碼器總體架構(gòu) 如圖1所示。在QCNet中采用了以查詢?yōu)橹行牡姆妒絹韺鼍霸剡M行編碼,這種編碼范式背后的哲學是相對時空,它指導(dǎo)我們?yōu)槟P团鋫淇臻g維度上的旋轉(zhuǎn)-平移不變性和時間維度上的平移不變性。在這種范式中,為每個場景元素建立了一個局部時空坐標系,包括車道、人行橫道、車輛、行人等。然后,這些場景元素在其局部坐標系中被編碼,以產(chǎn)生不變的表示,并且場景元素之間的關(guān)系通過變換器在相對時空位置嵌入的幫助下被捕獲。在執(zhí)行QKV關(guān)注之前,關(guān)注層中的鍵/值元素與相對于查詢元素的時空位置嵌入相連接,在地圖-地圖注意力以及一系列時間注意力、agent-地圖注意力和social注意力之后,場景編碼器產(chǎn)生形狀為[M,D]的地圖編碼和形狀為[a,T,D],其中M,a,T,D分別是地圖多邊形、移動agent、歷史時間步長和隱藏單元的數(shù)量,這些編碼稍后將用作解碼器中的場景context ,有關(guān)場景編碼器的更多詳細信息,請參閱QCNet論文。


multi-agent DETR解碼器


解碼pipeline遵循QCNet解碼器的設(shè)計選擇,其中遞歸的無anchor軌跡proposal模塊以數(shù)據(jù)驅(qū)動的方式生成自適應(yīng)軌跡anchor,然后是基于anchor的軌跡細化模塊,該模塊預(yù)測軌跡anchor的偏移。然而,QCNet的原始解碼器沒有考慮agent之間在未來時間步長的社交互動,因為它只聚合當前時間步長的相鄰代理的編碼, 因此,QCNet解碼器僅適用于邊緣軌跡預(yù)測。為了解決這個問題,本文提出了一種新的類似DETR的解碼器,它可以捕捉未來的social互動,解碼器的詳細架構(gòu)如圖2所示。


anchor-free軌跡proposal:在訓(xùn)練之前,隨機初始化大小為D的K個嵌入。然后,將這些嵌入中的每一個重復(fù)A次,以形成張量f形狀[K,A,D],其中每一行用作K個聯(lián)合特征的初始種子。對于該張量的每一行,首先使用Mode2Time交叉關(guān)注模塊更新A嵌入,這使得每個嵌入負責場景中一個agent的預(yù)測。然后,Mode2Map交叉關(guān)注模塊用相鄰地圖信息更新嵌入,接下來將逐行自關(guān)注應(yīng)用于嵌入張量,該張量旨在對每個聯(lián)合場景中代理之間的soical互動進行建模。


這三個模塊交錯堆疊L_{dec}次,然后是一個逐列自注意模塊,該模塊使K個聯(lián)合場景能夠相互通信。使用MLP從更新的嵌入張量中解碼2秒的軌跡,為了預(yù)測接下來2秒的軌跡,讓更新后的嵌入張量再次成為Mode2Time交叉注意力模塊的輸入,并重復(fù)上述過程,該計算過程重復(fù)進行,直到6秒的軌跡完成為止。


基于anchor的軌跡優(yōu)化:由proposal模塊預(yù)測的軌跡用作細化模塊的anchor,與proposal模塊相比,細化模塊的初始嵌入張量是不可學習的,而是從proposal模塊輸出的軌跡中導(dǎo)出的,除了MLP預(yù)測器在不使用任何遞歸機制的情況下在single shot 中將偏移輸出到軌跡anchor之外,其余的架構(gòu)與proposal模塊的架構(gòu)類似!


場景評分模塊


與QCNet的解碼器通過應(yīng)用于后細化模式嵌入的MLP產(chǎn)生agent級軌跡得分相比,我們的解碼器需要產(chǎn)生場景級置信度得分以適應(yīng)聯(lián)合軌跡預(yù)測任務(wù)。場景評分模塊將場景中所有目標代理的后細化模式嵌入作為輸入。為了為每個聯(lián)合預(yù)測生成一個置信度得分,需要一些場景級池化算子來將所有目標agent的模式嵌入?yún)R總到一個場景嵌入中,并通過MLP從中解碼置信度得分。典型的池化方法包括平均池化、最大池化等,根據(jù)經(jīng)驗選擇了attentive ?pooling,因為我們注意到一些目標代理具有不感興趣的行為(例如,保持靜態(tài)),并且不應(yīng)該對場景得分的計算做出太大貢獻。


訓(xùn)練目標


將所有目標agent的聯(lián)合未來軌跡分布參數(shù)化為拉普拉斯分布的混合,其形式為:



實驗結(jié)果


隱藏特征尺寸為128,用于信息融合的所有層都具有相同的架構(gòu),這類似于HiVT中使用的注意力機制的門控變體。所有的多頭注意力層都使用8個頭,為了訓(xùn)練穩(wěn)定性,在細化模塊中使用anchor之前分離所提出的軌跡anchor的梯度。使用AdamW優(yōu)化器進行訓(xùn)練,訓(xùn)練過程持續(xù)50個epoch,bs大小為32。dropout rate和weight decay都設(shè)置為0.1。


使用不同的隨機種子來訓(xùn)練8個模型,總共產(chǎn)生48個場景級預(yù)測。對于每個場景,48個場景級預(yù)測用于基于加權(quán)k均值算法的集合,具體地,場景中所有目標agent的聯(lián)合端點被作為加權(quán)k均值算法的輸入,場景級得分被用作樣本權(quán)重。在指定簇之后,對每個簇內(nèi)的關(guān)節(jié)軌跡進行平均,這可以被視為邊緣軌跡預(yù)測常用集成策略的簡單擴展。


QCNeXt在Argoverse 2多智能體運動預(yù)測基準上的性能如表1所示,可以看到,我們的組合策略可以顯著提高模型的性能。但即使不使用集成,我們的方法也已經(jīng)表現(xiàn)出色,在所有度量上都有顯著的優(yōu)勢,這表明了我們建??蚣艿膬?yōu)越性。Argoverse 2驗證/測試集中約20%的場景僅評估一個agent的預(yù)測結(jié)果。在這種情況下,聯(lián)合軌跡分布和邊際軌跡分布的公式變得等價,因此我們對聯(lián)合預(yù)測模型和邊際預(yù)測模型在這些場景中的性能比較感到好奇。


參考


[1] QCNeXt: A Next-Generation Framework For Joint Multi-Agent Trajectory Prediction


① 全網(wǎng)獨家視頻課程


BEV感知、毫米波雷達視覺融合、多傳感器標定、多傳感器融合、3D目標檢測、目標跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語義分割、自動駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測等多個方向?qū)W習視頻(掃碼免費學習)


視頻官網(wǎng):www.zdjszx.com


② 國內(nèi)首個自動駕駛學習社區(qū)


近2000人的交流社區(qū),涉及30+自動駕駛技術(shù)棧學習路線,想要了解更多自動駕駛感知(2D檢測、分割、2D/3D車道線、BEV感知、3D目標檢測、Occupancy、多傳感器融合、多傳感器標定、目標跟蹤、光流估計)、自動駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動駕駛規(guī)劃控制/軌跡預(yù)測等領(lǐng)域技術(shù)方案、AI模型部署落地實戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球,這是一個真正有干貨的地方,與領(lǐng)域大佬交流入門、學習、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!



③【自動駕駛之心】技術(shù)交流群


自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標檢測、語義分割、全景分割、實例分割、關(guān)鍵點檢測、車道線、目標跟蹤、3D目標檢測、BEV感知、Occupancy、多傳感器融合、大模型、SLAM、光流估計、深度估計、軌跡預(yù)測、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動駕駛仿真測試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請入群,備注:學校/公司+方向+昵稱(快速入群方式)


CVPR2023 軌跡預(yù)測冠軍方案!QCNeXt:新一代多智能體聯(lián)合軌跡預(yù)測框架的評論 (共 條)

分享到微博請遵守國家法律
句容市| 安义县| 土默特左旗| 航空| 诸暨市| 赤壁市| 丹寨县| 元氏县| 五指山市| 晋中市| 茂名市| 贵定县| 营山县| 新巴尔虎右旗| 商都县| 社旗县| 彰化市| 茂名市| 通化县| 界首市| 江孜县| 逊克县| 泾源县| 上高县| 宁国市| 闽侯县| 金山区| 雅江县| 开封县| 丰宁| 四川省| 青海省| 绥江县| 玉屏| 郴州市| 东至县| 济南市| 左贡县| 天峻县| 安化县| 宜良县|