Magic魔法降臨 | MagicDrive:自動駕駛大數(shù)據(jù)生成時代即將開啟!
論文作者?|?Ruiyuan Gao
筆者的個人理解
雖然擴散模型在2D數(shù)據(jù)合成上已有很大進展,但如何使用擴散模型生成街景圖像用于圖像增強并沒有很好的實現(xiàn),當前已有工作通過2D bbox和segment作為條件,如何拓展到相機位姿(embedding),道路地圖(embedding)和3D邊界框(embedding)及場景描述(文本)作為控制條件呢?這將對BEV和3D任務有很大幫助。
MagicDrive主要思路是啥?
最近在擴散模型方面的進展顯著提升了與2D控制相關的數(shù)據(jù)合成。然而,在街景生成中精確的3D控制對于3D感知任務至關重要,但仍然難以實現(xiàn)。將鳥瞰圖(BEV)作為主要條件通常會導致在幾何控制方面(例如高度)出現(xiàn)挑戰(zhàn),從而影響目標形狀、遮擋模式和道路表面高程的表示,所有這些對于感知數(shù)據(jù)合成尤為重要,特別是對于3D目標檢測任務而言。MagicDrive是一種新穎的街景生成框架,提供多樣化的3D幾何控制,包括相機位姿、道路地圖和3D邊界框,以及通過量身定制的編碼策略實現(xiàn)的文本描述。此外還包括一個跨視圖注意力模塊,確保在多個攝像機視圖之間保持一致性。通過MAGICDRIVE實現(xiàn)了高保真的街景合成,捕捉到微妙的3D幾何和各種場景描述,從而增強了諸如BEV分割和3D目標檢測等任務。
領域目前的工作
條件生成的擴散模型。?擴散模型通過學習從高斯噪聲分布到圖像分布的漸進去噪過程生成圖像。由于它們在處理各種形式的控制和多種條件方面的適應性和能力,這些模型在各種任務中表現(xiàn)出色,如文本到圖像的合成,修復以及指導性圖像編輯。此外,從幾何標注中合成的數(shù)據(jù)可以幫助下游任務,如2D目標檢測。因此,本文探討了text-to-image (T2I)擴散模型在生成街景圖像并惠及下游3D感知模型方面的潛力。
街景生成。?許多街景生成模型以2D布局為條件,如2D邊界框和語義分割。這些方法利用與圖像比例直接對應的2D布局信息,而3D信息則不具備這種特性,因此使得這些方法不適用于利用3D信息進行生成。對于帶有3D幾何的街景合成,BEVGen是第一個進行嘗試的。它使用BEV地圖作為道路和車輛的條件。然而,省略高度信息限制了它在3D目標檢測中的應用。BEVControl通過高度提升過程修正了目標高度的損失,但是從3D到2D的投影導致了關鍵的3D幾何信息的喪失,如深度和遮擋。因此,它們都沒有充分利用3D標注,也不能利用對駕駛場景的文本控制。MagicDrive提出分別對邊界框和道路地圖進行編碼,以實現(xiàn)更為微妙的控制,并整合場景描述,提供對街景生成的增強控制。
3D場景的多攝像機圖像生成?基本上需要視角一致性。在室內(nèi)場景的背景下,一些研究已經(jīng)解決了這個問題。例如,MVDiffusion使用全景圖像和交叉視圖注意力模塊來保持全局一致性,而pose-guided diffusion則利用極線幾何作為約束先驗。然而,這些方法主要依賴于圖像視圖的連續(xù)性,而在街景中并不總是滿足,因為攝像機重疊有限。MAGICDRIVE在UNet中引入了額外的跨視圖注意力模塊,顯著增強了跨多攝像機視圖的一致性。
MagicDrive的優(yōu)勢有哪些?
盡管MAGICDRIVE框架非常簡單,但在生成與道路地圖、3D邊界框和多樣化攝像機視角相一致的逼真圖像方面表現(xiàn)出色。此外,生成的圖像可以增強對3D目標檢測和BEV分割任務的訓練。MAGICDRIVE在場景、背景和前景層面提供了全面的幾何控制。這種靈活性使其能夠創(chuàng)造出以前未曾見過的適用于仿真目的的街景視圖??偨Y(jié)本工作的主要貢獻如下:
引入了MAGICDRIVE,這是一個創(chuàng)新的框架,生成基于BEV和為自動駕駛量身定制的3D數(shù)據(jù)的多透視攝像機視圖。
開發(fā)了簡單而強大的策略,有效應對多攝像機視圖一致性的挑戰(zhàn),對3D幾何數(shù)據(jù)進行管理。
通過嚴格的實驗證明,MAGICDRIVE在先前的街景生成技術方面表現(xiàn)出色,尤其是在多維度可控性方面。此外結(jié)果顯示,合成數(shù)據(jù)在3D感知任務中帶來了顯著的改進。

方法設計
問題表述




具有 3D 信息的街景生成
幾何條件編碼

如圖所示,采用兩種策略將信息注入到擴散模型的 UNet 中:交叉注意力和加性編碼器分支。鑒于注意力機制是針對順序數(shù)據(jù)量身定制的,交叉注意力適用于管理可變長度輸入,例如文本標記和邊界框。相反,對于網(wǎng)格狀數(shù)據(jù),例如道路地圖,加法編碼器分支在信息注入方面是有效的。因此,MAGICDRIVE 針對各種情況采用不同的編碼模塊。




理想情況下,模型通過訓練學習邊界框和相機姿態(tài)之間的幾何關系。然而,不同視圖的可見框數(shù)量的分布是長尾的。因此通過過濾每個視圖??的可見目標來引導學習。此外還添加了不可見的框進行增強。

Road Map編碼.?地圖是2D網(wǎng)格的形式. 已有工作表明addictive編碼器可以將此類數(shù)據(jù)納入??指導,地圖的 BEV 和相機的第一人稱視角 (FPV) 之間固有的視角差異會產(chǎn)生差異。BEVControl采用反投影從 BEV 轉(zhuǎn)換為 FPV,但由于不適定問題而使情況變得復雜。在 MAGICDRIVE 中, 提出顯式視圖變換是不必要的,因為足夠的 3D 線索(例如,距目標框的高度和相機姿勢)允許addictive編碼器完成視圖變換。具體來說, 將場景級和 3D 邊界框嵌入集成到地圖編碼器中。場景級嵌入提供相機姿勢,框嵌入提供道路高程提示。此外,合并文本描述有助于在不同條件下生成道路(例如,天氣和一天中的時間)。因此,地圖編碼器可以與其他條件協(xié)同生成。
跨視角attention模塊


在 UNet 中的交叉注意模塊之后注入交叉視圖注意,并應用零初始化來引導優(yōu)化。UNet 的多層結(jié)構(gòu)使得能夠在多個堆疊塊之后聚合來自遠程視圖的信息。因此,對相鄰視圖使用跨視圖注意力足以保證多視圖一致性。
模型訓練

訓練目標和增強?將所有條件作為輸入注入后,訓練目標調(diào)整為多條件場景。

此外,在訓練 MAGICDRIVE 時強調(diào)兩個基本策略。首先,為了抵消對可見框的過濾,本文隨機添加??不可見框作為增強,增強模型的幾何變換能力。其次,為了利用跨視圖注意力,促進跨多個視圖的信息共享,在每個訓練步驟中將獨特的噪聲應用于不同的視圖,從而防止損失出現(xiàn)局部解(例如,跨不同視圖輸出共享組件)。相同的隨機噪聲專門用于推理。
實驗對比一覽
實驗設置
數(shù)據(jù)集和基線。?選擇nuScenes數(shù)據(jù)集作為MAGICDRIVE的測試基礎,這是一個在駕駛中用于BEV分割和檢測的常見數(shù)據(jù)集。遵循官方配置,使用700個街景場景進行訓練,150個進行驗證。基線是BEVGen和BEVControl,它們都是最近提出的街景生成方法。方法考慮了10個目標類別和8個道路類別,多樣性方面超過了基線模型。
評估指標。?評估街景生成的逼真度和可控性。逼真度主要使用Frechet Inception Distance(FID)進行測量,反映圖像合成質(zhì)量。對于可控性,通過兩個感知任務對MAGICDRIVE進行評估:BEV分割和3D目標檢測,分別使用CVT和BEVFusion作為感知模型。它們在每個任務中的性能都很出色。首先,生成與驗證集注釋對齊的圖像,并使用在真實數(shù)據(jù)上預訓練的感知模型評估圖像質(zhì)量和控制精度。然后,基于訓練集生成數(shù)據(jù),以檢查對訓練感知模型的支持作為數(shù)據(jù)增強。
可控階段具體怎么用??條件來自驗證集,基于訓練集生成數(shù)據(jù)作為訓練模型的數(shù)據(jù)增強;
模型設置。MAGICDRIVE使用來自Stable Diffusion v1.5的預訓練權(quán)重,僅訓練新增的參數(shù)。根據(jù)Zhang等人的說法,為Emap創(chuàng)建了一個可訓練的UNet編碼器。新參數(shù),除了零初始化模塊和類令牌之外,都是隨機初始化的。采用兩個分辨率來協(xié)調(diào)感知任務和基線之間的差異:224×400(0.25×下采樣),遵循BEVGen和CVT模型支持,并且更高的272×736(0.5×下采樣)用于BEVFusion的支持。除非另有說明,圖像使用UniPC調(diào)度程序進行20步采樣,CFG設置為2.0。
Main Results


MAGICDRIVE的潛力與優(yōu)勢
MAGICDRIVE對高質(zhì)量多攝像機街景生成進行多重幾何控制的編碼。通過分離編碼設計,MAGICDRIVE充分利用來自3D標注的幾何信息,并實現(xiàn)對街景的準確語義控制。此外,所提出的跨視圖注意力模塊簡單而有效,確保了在多攝像機視圖之間的一致性。正如實驗證明的那樣,MAGICDRIVE生成的圖像表現(xiàn)出對3D標注的高逼真度和保真度。多重控制使MAGICDRIVE在生成新的街景時具有更強的泛化能力。與此同時,MAGICDRIVE可用于數(shù)據(jù)增強,有助于在BEV分割和3D目標檢測任務上對感知模型進行訓練。
限制與未來工作。盡管MAGICDRIVE可以生成夜間視圖,但它們不如真實圖像那么暗。這可能是因為擴散模型難以生成過于黑暗的圖像。MAGICDRIVE無法為nuScenes生成未見過的天氣情況。未來的工作可能集中在如何提高街景生成的跨領域泛化能力上。
參考:
paper: https://arxiv.org/pdf/2310.02601.pdf
project: https://gaoruiyuan.com/magicdrive/

① 全網(wǎng)獨家視頻課程
BEV感知、毫米波雷達視覺融合、多傳感器標定、多傳感器融合、多模態(tài)3D目標檢測、點云3D目標檢測、目標跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語義分割、自動駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預測等多個方向?qū)W習視頻(掃碼即可學習)

視頻官網(wǎng):www.zdjszx.com
② 國內(nèi)首個自動駕駛學習社區(qū)
近2000人的交流社區(qū),涉及30+自動駕駛技術棧學習路線,想要了解更多自動駕駛感知(2D檢測、分割、2D/3D車道線、BEV感知、3D目標檢測、Occupancy、多傳感器融合、多傳感器標定、目標跟蹤、光流估計)、自動駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動駕駛規(guī)劃控制/軌跡預測等領域技術方案、AI模型部署落地實戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球,這是一個真正有干貨的地方,與領域大佬交流入門、學習、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!

③【自動駕駛之心】技術交流群
自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標檢測、語義分割、全景分割、實例分割、關鍵點檢測、車道線、目標跟蹤、3D目標檢測、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點云處理、端到端自動駕駛、SLAM、光流估計、深度估計、軌跡預測、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動駕駛仿真測試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請入群,備注:學校/公司+方向+昵稱(快速入群方式)

④【自動駕駛之心】平臺矩陣,歡迎聯(lián)系我們!
