最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

大火的World Model是什么?DriveDreamer:首個真實世界驅動的自動駕駛世界模型

2023-09-28 15:50 作者:自動駕駛之心  | 我要投稿

今天自動駕駛之心為大家解讀一篇大火的世界模型相關文章DriveDreamer,文章一作是自動駕駛之心的好朋友王嘯峰博士,他們提出了首個真實世界驅動的自動駕駛world model,論文單位包括極佳科技GigaAI和清華大學!文章作者已經授權自動駕駛之心原創(chuàng),如果需要轉載,請在文末聯(lián)系!


>>點擊進入→自動駕駛之心【大模型】技術交流群???

編輯 | 自動駕駛之心


  • 作者:王嘯峰


  • 論文:https://arxiv.org/pdf/2309.09777


  • 代碼:https://github.com/JeffWang987/DriveDreamer


  • 項目地址:https://drivedreamer.github.io


1. 背景意義


世界模型(World Models)由于其理解環(huán)境、和環(huán)境交互的能力,正在自動駕駛領域引起廣泛關注。世界模型具有生成高質量駕駛視頻和用于端到端駕駛的巨大潛力。然而,目前在自動駕駛領域的世界模型研究主要關注游戲環(huán)境或模擬環(huán)境,缺乏對真實世界駕駛情景的表現(xiàn)。因此,我們引入了DriveDreamer,這是一個完全源自真實世界駕駛情境的開創(chuàng)性世界模型??紤]到在復雜駕駛場景中對世界進行建模涉及龐大的搜索空間,我們提出使用強大的擴散模型來構建對復雜環(huán)境的表征。此外,我們引入了一個兩階段的訓練流程。在初始階段,DriveDreamer獲得了對結構化交通約束的深刻理解,而隨后的階段則賦予了它預測未來狀態(tài)的能力。所提出的DriveDreamer是首個建立在真實世界駕駛情境之上的世界模型。我們在具有挑戰(zhàn)性的nuScenes基準上實例化了DriveDreamer,并進行了大量實驗,驗證了DriveDreamer能夠實現(xiàn)精確可控的視頻生成,忠實地捕捉了真實世界交通情景的結構約束。此外,DriveDreamer使得生成逼真和合理的駕駛策略成為可能,為互動和實際應用開辟了途徑。


圖1. 所提出的DriveDreamer展示了對自動駕駛場景的全面理解。它在可控駕駛視頻生成方面表現(xiàn)出色,能夠與文本提示和結構化交通約束完美配合。DriveDreamer還可以與駕駛場景互動,并根據(jù)輸入的駕駛動作預測不同的未來駕駛視頻。此外,DriveDreamer還擴展了其實用性,可以預測未來的駕駛動作。


2. 相關工作


2.1 擴散模型(Diffusion Models)


擴散模型代表了一類概率生成模型的家族,它們逐漸引入噪聲到數(shù)據(jù)中,隨后學習逆轉這一過程,以生成樣本。這些模型最近引起了廣泛關注,因為它們在各種應用中表現(xiàn)出卓越性能,為圖像合成、視頻生成和三維內容生成設定了新的基準。ControlNet、GLIGEN、T2I-Adapter和Composer等文章進一步引入了額外的學習參數(shù)來增強可控生成能力。它們利用了各種控制輸入,包括深度圖、分割圖、Canny邊緣和草圖。同時,BEVControl和CityDreamer加入了布局條件來增強圖像生成?;跀U散的生成模型的基本本質在于它們理解和理解世界的復雜性。借助這些擴散模型的力量,DriveDreamer旨在理解復雜的自動駕駛場景。


2.2 Video Generation


視頻生成和視頻預測是理解視覺世界的有效方法。在視頻生成領域,已經采用了幾種標準架構,包括變分自編碼器(VAEs)、自回歸模型、基于流的模型和生成對抗網絡(GANs)。最近,新興的擴散模型也已擴展到視頻生成領域,展示了更高質量的視頻生成能力,能夠生成逼真的幀和幀之間的連續(xù)過渡,同時提供可控的視頻生成能力。視頻預測模型代表了視頻生成模型的一種專門形式,它們共享許多相似之處。具體而言,視頻預測涉及根據(jù)歷史視頻觀察來預測未來視頻變化。DriveGAN通過指定未來的駕駛策略,建立了駕駛動作和像素之間的關聯(lián),從而預測未來的駕駛視頻。相比之下,DriveDreamer將結構化交通條件、文本提示和駕駛動作作為輸入,實現(xiàn)了與真實世界駕駛情景緊密對齊的精確、逼真的視頻和動作生成。


2.3 World Models


世界模型已在基于模型的模仿學習中得到廣泛探討,并在各種應用中取得了顯著的成功。這些方法通常利用VAE和LSTM來建模轉換動態(tài)和渲染功能。世界模型的目標是建立環(huán)境的動態(tài)模型,使代理能夠對未來有預測能力。在自動駕駛領域,這一方面至關重要,因為對未來的精確預測對安全操控至關重要。然而,在自動駕駛中構建世界模型面臨著獨特的挑戰(zhàn),主要是由于真實世界駕駛任務中固有的高樣本復雜性。為了解決這些問題,ISO-Dream引入了對視覺動態(tài)的明確解纏分為可控狀態(tài)和不可控狀態(tài)。MILE 將世界建模融入BEV語義分割空間中,通過模仿學習增強了世界建模。SEM2 將Dreamer框架擴展到BEV分割圖中,采用強化學習進行訓練。盡管在世界模型方面取得了進展,但相關研究的一個關鍵局限性在于其主要關注模擬仿真環(huán)境。轉向真實世界駕駛情景仍然是一個未充分探索的領域。


3. DriveDremear方法設計


DriveDreamer的總體框架如下圖所示??蚣苁加诔跏紖⒖紟捌鋵牡缆方Y構信息(即HDMap和3D框)。DriveDreamer利用提出的ActionFormer來在潛在空間中預測即將到來的道路結構特征。這些預測的特征作為條件提供給Auto-DM,后者生成未來的駕駛視頻。同時,利用文本提示允許對駕駛情景風格進行動態(tài)調整(例如,天氣和時間)。此外,DriveDreamer還結合了歷史行動信息和從Auto-DM中提取的多尺度潛在特征,這些特征組合在一起生成合理的未來駕駛動作。


圖2. DriveDreamer框架圖


DriveDreamer集成了多模態(tài)輸入,以生成未來的駕駛視頻和駕駛策略,從而提升了自動駕駛系統(tǒng)的能力。關于在真實世界駕駛情景中建立世界模型的龐大搜索空間,我們引入了DriveDreamer的兩階段訓練策略。這個策略旨在顯著提高采樣效率并加速模型的收斂速度。兩階段訓練如下圖所示。在第一階段訓練中有兩個步驟。第一步涉及使用單幀結構化條件,引導DriveDreamer生成駕駛場景圖像,促進其理解結構性交通約束。第二步將其理解擴展到視頻生成。利用交通結構條件,DriveDreamer輸出駕駛場景視頻,進一步增強了其對運動過渡的理解。在第二階段,訓練的重點是使DriveDreamer能夠與環(huán)境互動并有效地預測未來狀態(tài)。這個階段將初始幀圖像及其對應的結構化信息作為輸入。同時,提供了順序駕駛動作,模型被期望生成未來的駕駛視頻和未來的駕駛動作。這種互動賦予了DriveDreamer預測和操控未來駕駛情景的能力。在接下來的章節(jié)中,我們將深入探討模型架構和訓練流程的具體細節(jié)。


圖3. 兩階段訓練流程圖


3.1 一階段訓練


在DriveDreamer中,我們引入了Auto-DM,用于從真實世界駕駛視頻中建模和理解駕駛情景。值得注意的是,僅從像素空間理解駕駛場景在真實世界駕駛情景中存在挑戰(zhàn),因為搜索空間非常廣泛。為了緩解這一問題,我們明確地將結構化交通信息作為條件輸入。Auto-DM的總體結構如下圖所示,結構化交通條件被投影到圖像平面上,生成HDMap條件,以及3D框條件,還有框的類別。為了實現(xiàn)可控性,HDMap條件被2D卷積編碼后與由前向擴散過程生成的嘈雜的潛在特征進行串聯(lián)處理。對于3D框條件,我們利用Gated Self-attention(參考GLIGEN)進行控制條件的嵌入。為了進一步增強Auto-DM對駕駛動態(tài)的理解能力,我們引入了Temporal-attention,這些層增強了生成的駕駛視頻中的幀的連貫性:首先,我們將視覺信號從N×C×H×W重塑為RC×NHW的形狀。這種形狀變換有助于后續(xù)的自注意力層學習幀間的動態(tài)關系。此外,還使用了Cross-attention來促進文本輸入和視覺信號之間的特征交互,使文本描述能夠影響駕駛場景屬性,如天氣和時間。


圖4. Auto-DM框架圖


3.2 二階段訓練


目前一階段的Auto-DM可以基于序列結構信息生成駕駛視頻。然而,在視頻預測任務中,超過當前時間戳的未來交通結構條件是不可用的。為了解決這個挑戰(zhàn),我們在第二階段的訓練中引入了ActionFormer,它利用駕駛動作來迭代預測未來的結構條件。ActionFormer的總體架構如下圖所示。首先,初始結構條件被編碼并展平為1D特征。該特征特征通過自注意力和MLP層進行串聯(lián)和匯總,生成隱藏狀態(tài)h0。隨后,利用交叉注意力層構建了隱藏狀態(tài)和駕駛動作之間的關聯(lián)。為了預測未來的隱藏狀態(tài),我們使用門控循環(huán)單元(GRUs)進行迭代更新:這些隱藏狀態(tài)與動作特征進行串聯(lián),然后被解碼為未來的交通結構條件。值得注意的是,ActionFormer在特征級別預測未來的交通結構條件,這有助于減輕像素級別的噪音干擾,從而產生更魯棒的預測。除了ActionFormer生成的交通結構條件和文本提示條件外,我們參考Video-LDM處理初始的圖像觀測。最后,我們將得到的交通結構化條件、初始幀圖像條件、以及文本條件一起作為Auto-DM的輸入。在二階段訓練中,視頻預測和動作預測部分可以被建模為高斯分布和拉普拉斯分布。因此,我們使用均方差誤差和L1損失來優(yōu)化視頻預測的訓練。對于駕駛策略的預測,我們首先從Auto-DM中池化多尺度UNet特征。然后,將這些特征與歷史動作特征串聯(lián)在一起,然后通過MLP層解碼生成未來的駕駛動作。基于這兩階段的訓練,DriveDreamer已經獲得了對駕駛世界的全面理解,包括交通結構的結構約束、未來駕駛狀態(tài)的預測以及與已建立的世界模型進行互動。


圖5. ActionFormer結構圖


4. 實驗結果


4.1 可控視頻生


如圖6所示,DriveDreamer在生成各種各樣嚴格遵循結構化交通條件(包括HD地圖和3D框等元素)的駕駛場景視頻方面表現(xiàn)出效果。重要的是,我們還可以操控文本提示來誘發(fā)生成視頻的變化,包括天氣和一天中時間的變化。這種增強的適應性顯著提高了生成視頻輸出的多樣性。除了利用結構化交通條件生成駕駛視頻外,DriveDreamer還具備通過適應不同駕駛動作來增加生成的駕駛視頻多樣性的能力。如圖7所示,從初始幀及其對應的結構信息開始,DriveDreamer可以基于各種駕駛動作生成不同的視頻,例如顯示左轉和右轉的視頻??傊?,DriveDreamer在生成廣泛范圍的駕駛場景視頻方面表現(xiàn)出色,具有高度可控性和多樣性。因此,DriveDreamer在培訓自動駕駛系統(tǒng)上具有巨大潛力,涵蓋了各種任務,甚至包括邊際情況和長尾場景。為了量化我們的兩階段訓練方法的優(yōu)勢,我們提供了定量評估(如表1所示),與DriveGAN相比,我們的方法在沒有第一階段訓練的情況下獲得了更高的FID和FVD分數(shù)。此外,我們的研究結果表明,經過第一階段訓練后的DriveDreamer表現(xiàn)出對駕駛場景中的結構化信息的理解能力提高,從而生成更高質量的視頻。最后,我們觀察到,所提出的ActionFormer有效地利用了第一階段訓練期間獲得的交通結構信息知識。進一步提高了生成視頻的質量。


圖6. 使用結構化交通條件(HDMap和3D框)生成駕駛視頻,其中利用文本提示來調整駕駛情景的風格(例如,天氣和時間)。
圖7. 基于駕駛策略生成未來駕駛視頻,不同的駕駛動作(例如,左轉,右轉)可以產生相應的駕駛視頻。
表1. 在nuScenes驗證集上的視頻生成性能評測。


4.2 駕駛策略生成


除了生成可控的駕駛視頻外,DriveDreamer還展示了預測合理駕駛動作的能力。如圖8所示,給定初始幀條件和過去的駕駛動作,DriveDreamer可以生成與真實世界情景相符的未來駕駛動作。與相應的實際視頻進行的生成動作的比較分析表明,即使在復雜情況下,如十字路口、遵守交通信號燈和執(zhí)行轉彎,DriveDreamer仍然能夠一致地預測合理的駕駛動作。此外,我們進行了預測準確性的定量評估。在nuScenes數(shù)據(jù)集上進行的開環(huán)評估結果如表2所示。值得注意的是,僅使用歷史駕駛動作作為輸入,DriveDreamer在預測未來駕駛動作方面實現(xiàn)了高準確性。偏航角的平均預測誤差僅為0.49°,速度預測誤差僅為0.15 m/s。此外,通過將多尺度UNet特征與歷史駕駛動作結合使用,我們進一步提高了預測準確性。需要注意的是,開環(huán)評估具有固有的限制,限制了駕駛動作預測的上限。因此,我們未來的工作將集中在閉環(huán)評估上,以進一步驗證和增強DriveDreamer的性能。


圖8. 預測未來駕駛動作的可視化,以及相應的實際駕駛視頻。
表2.在nuScenes驗證集上的駕駛策略預測性能評測。


5. 總結和展望


DriveDreamer代表了在自動駕駛領域中世界模型的重要探索,通過專注于真實世界的駕駛情境,并利用擴散模型的能力,DriveDreamer展示了其理解復雜環(huán)境、生成高質量駕駛視頻和預測駕駛策略的能力。未來的工作將包括使用由DriveDreamer生成的數(shù)據(jù)來訓練駕駛的foundation model。此外,我們計劃擴展DriveDreamer的能力,以進行長時間和高分辨率的視頻生成。此外,我們打算在閉環(huán)場景中評估DriveDreamer。這些努力將共同有助于增強世界建模在自動駕駛應用中的實用性。


投稿作者為『自動駕駛之心知識星球』特邀嘉賓,如果您希望分享到自動駕駛之心平臺,歡迎聯(lián)系我們!

自動駕駛Daily

自動駕駛技術與行業(yè)發(fā)展日常分享,專注自動駕駛與AI

28篇原創(chuàng)內容

公眾號


① 全網獨家視頻課程


BEV感知、毫米波雷達視覺融合、多傳感器標定、多傳感器融合、多模態(tài)3D目標檢測點云3D目標檢測、目標跟蹤Occupancy、cuda與TensorRT模型部署、協(xié)同感知語義分割、自動駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預測等多個方向學習視頻(掃碼即可學習


視頻官網:www.zdjszx.com


② 國內首個自動駕駛學習社區(qū)


近2000人的交流社區(qū),涉及30+自動駕駛技術棧學習路線,想要了解更多自動駕駛感知(2D檢測、分割、2D/3D車道線、BEV感知、3D目標檢測、Occupancy、多傳感器融合、多傳感器標定、目標跟蹤、光流估計)、自動駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動駕駛規(guī)劃控制/軌跡預測等領域技術方案、AI模型部署落地實戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球,這是一個真正有干貨的地方,與領域大佬交流入門、學習、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!


③【自動駕駛之心】技術交流群


自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標檢測、語義分割、全景分割、實例分割、關鍵點檢測、車道線、目標跟蹤、3D目標檢測、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點云處理、端到端自動駕駛、SLAM、光流估計、深度估計、軌跡預測、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動駕駛仿真測試、產品經理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請入群,備注:學校/公司+方向+昵稱(快速入群方式)




④【自動駕駛之心】平臺矩陣,歡迎聯(lián)系我們!




大火的World Model是什么?DriveDreamer:首個真實世界驅動的自動駕駛世界模型的評論 (共 條)

分享到微博請遵守國家法律
关岭| 临潭县| 绥滨县| 云林县| 察隅县| 临颍县| 临澧县| 宾川县| 岳阳市| 榆林市| 枣阳市| 隆德县| 合江县| 东阳市| 九龙城区| 布拖县| 庆云县| 资源县| 遵义市| 会昌县| 延边| 虞城县| 郯城县| 休宁县| 安康市| 大余县| 武陟县| 长兴县| 玉溪市| 石渠县| 卢湾区| 高州市| 弋阳县| 黄陵县| 鄂尔多斯市| 贵南县| 敦化市| 上林县| 和龙市| 三明市| 久治县|