高精地圖新方案!MV-Map:多視圖一致性如何助力大規(guī)模離線地圖生成?
今天自動駕駛之心很榮幸邀請到Ziyang Xie來分享離線高精地圖生成新方案—MV-Map,如果您有相關(guān)工作需要分享,請在文末聯(lián)系我們!
論文作者?|?Ziyang Xie
編輯 | 自動駕駛之心
大家好,很榮幸來分享我們的工作。高精地圖雖然正在被輕地圖替代,但不可否認高精地圖的優(yōu)勢也是很香的,雖然鳥瞰圖(BEV)感知模型可以用于用更少的人力構(gòu)建高精地圖(HD maps),但它們的結(jié)果往往不可靠,并表明從不同角度預(yù)測的HD maps存在明顯的不一致性。這是因為BEV感知通常是以“車載”方式設(shè)置的,這限制了計算,從而阻止了算法同時推理多個視圖。本文克服了這些限制,并基于高精地圖是數(shù)據(jù)中心中常見的可重復(fù)使用的基礎(chǔ)設(shè)施這一事實,倡導一種更實用的“非車載”高精地圖生成設(shè)置,以消除計算限制。為此,我們提出了一種稱為MV-Map的新型非車載pipeline,該pipeline利用了多視圖一致性,并可以通過“以區(qū)域為中心”的框架的關(guān)鍵設(shè)計來處理任意數(shù)量的幀。在MV-Map中,目標HD Map是通過聚合車載預(yù)測的所有幀來創(chuàng)建的,這些幀由“不確定性網(wǎng)絡(luò)”分配的置信度分數(shù)加權(quán)。為了進一步增強多視圖的一致性,我們用體素化神經(jīng)輻射場(Voxel NeRF)優(yōu)化的全局3D結(jié)構(gòu)來增強不確定性網(wǎng)絡(luò)。在nuScenes上的擴展實驗表明,MV-Map顯著提高了HD Map的質(zhì)量,進一步強調(diào)了非車載方法對HD Map生成的重要性。
簡介
高精地圖(HD maps)通過提供有關(guān)道路要素的基本位置和語義信息,在確保自動駕駛汽車的安全導航方面發(fā)揮著至關(guān)重要的作用。理想情況下,構(gòu)建高精地圖的過程非常簡單,只需在駕駛時收集大量傳感數(shù)據(jù),然后使用自動算法提取道路元素,如下圖1所示。

然而,主流解決方案通常涉及人工標注,如廣泛使用的數(shù)據(jù)集那樣。人工標注的費用阻礙了自動駕駛向新位置的擴展,我們的目標是開發(fā)可靠的算法,以減少或取代高精地圖構(gòu)建中對人力的需求。
為了實現(xiàn)這一目標,最近有人嘗試使用鳥瞰圖(BEV)感知自動生成高精地圖。然而,他們的結(jié)果往往是不可靠的,如從不同角度預(yù)測的高精地圖中明顯的不一致。我們認為,多視圖一致性是HD Maps的固有特性,HD Maps是剛性和靜態(tài)的,違反這種一致性的原因是現(xiàn)有的BEV感知算法沒有明確計算所有視圖,因此沒有對齊它們的預(yù)測。這個問題進一步歸結(jié)為他們的車載設(shè)置,在那里,模型只允許訪問自動駕駛汽車中的車載設(shè)備,只能處理單個幀或幾個相鄰幀。我們的非車載設(shè)置與高精地圖的基礎(chǔ)設(shè)施作用非常一致:構(gòu)建高精地圖可以而且應(yīng)該利用強大的數(shù)據(jù)中心來最大限度地提高預(yù)測的保真度,從而確保高精地圖的安全性和可靠性。
我們提出了一個稱為多視圖地圖(MV-Map)的框架,該框架利用來自每一幀視點的信息,并生成與所有視點一致的統(tǒng)一高精地圖。與當前車載方法中以幀為中心的設(shè)計(在輸入級合并固定數(shù)量的幀)不同,提出了一種受“非車載3D檢測”啟發(fā)的以區(qū)域為中心設(shè)計,以充分利用來自不同視圖的數(shù)據(jù)。設(shè)計將每個高精地圖區(qū)域與覆蓋其區(qū)域的任意數(shù)量的輸入幀連接起來??蚣艿膒ipeline包括提取與該HD Map區(qū)域相關(guān)的現(xiàn)成車載模型預(yù)測的所有HD Map補丁,然后將它們?nèi)诤蠟榕c所有視圖一致的最終結(jié)果,如上面圖1中的箭頭所示。
為了給可靠的幀賦予更多的權(quán)重,例如那些目標區(qū)域清晰可見的幀,我們引入了一個“不確定性網(wǎng)絡(luò)”作為關(guān)鍵組件,它為車載結(jié)果分配置信度分數(shù),并在置信度的指導下對HD-Map補丁進行加權(quán)平均。通過用跨視圖一致性信息增強不確定性網(wǎng)絡(luò),進一步增強了所有框架之間的一致性。關(guān)鍵見解是從不同的視角學習相干的3D結(jié)構(gòu),并將其作為不確定性網(wǎng)絡(luò)的輔助輸入。為此,我們利用了神經(jīng)輻射場(NeRFs),這是一種最先進的方法,可以表示場景的3D結(jié)構(gòu)。如圖2所示,我們的NeRF模型合成了高質(zhì)量的場景結(jié)構(gòu)。與其他3D重建策略(如運動結(jié)構(gòu)(例如,COLMAP))相比,從實踐的角度來看,NeRF更受歡迎,因為它的運行時間隨著幀數(shù)線性增長,而COLMAP是二次增長的。此外,與MVSNet等多視圖立體方法不同,NeRF是完全自監(jiān)督的,不需要額外的標注。為了進一步提高NeRF的可擴展性,我們利用NeRF的體素化變體來提高效率,并提出了隱式引導NeRF在與HD Map生成相關(guān)的近地幾何體上的集中的損失函數(shù)。此外,我們強調(diào)了NeRF對任意數(shù)量視圖的靈活性和可擴展性,使其在非車載高精地圖生成中至關(guān)重要。
綜上所述,我們做出了以下貢獻:
是第一個研究如何非車載生成高精地圖的問題的人,也是第一個以視覺為導向的非車載研究。
提出了一種有效的以區(qū)域為中心的框架MV-Map,該框架可以從任意大量的幀中生成多視圖一致的HD Map。
引入并擴展了體素NeRF,以對所有幀的3D結(jié)構(gòu)進行編碼,用于HD Map生成任務(wù),進一步指導了多視圖一致性的融合。在nuScenes上的大規(guī)模實驗表明,MV-Map顯著提高了HD Map的質(zhì)量。值得注意的是,MV-Map可以有效地利用越來越多的輸入幀,使其對現(xiàn)實世界的應(yīng)用具有吸引力。
相關(guān)工作
非車載3D感知。?對大量訓練數(shù)據(jù)的需求鼓勵開發(fā)非車載算法?,F(xiàn)有的研究主要集中在預(yù)測3D bbox框。最具代表性的“非車載3D檢測”提取物體軌跡中的多幀點云,并用“4D”數(shù)據(jù)細化3D邊界框。它的成功在很大程度上依賴于點云的絕對3D位置,在那里簡單地覆蓋激光雷達點可以構(gòu)建更密集的物體表面。然而,在依賴圖像的高精地圖生成中,在3D空間中積累圖像數(shù)據(jù)并不簡單。為了克服這一限制,我們提出了以區(qū)域為中心的融合來聚合多幀信息,并利用多視圖重建(例如NeRF)來編碼全局幾何。我們的研究也是第一個面向愿景的非車載pipeline。
BEV分割和HD Map構(gòu)建。?車載高精地圖的構(gòu)建與BEV分段密切相關(guān),如HDMapNet所述。BEV分割的主要挑戰(zhàn)是將圖像特征映射到3D世界。傳統(tǒng)方法利用反透視變換。BEV感知方法要么應(yīng)用注意力來捕捉轉(zhuǎn)變合并深度信息,或直接從體素查詢特征。為了更好地支持下游應(yīng)用,最近的一些方法開發(fā)了特殊的解碼器來生成矢量化的高精地圖。與這些車載方法不同,我們的主張是一種通用的非車載pipeline,它利用任何現(xiàn)成的分割模型作為內(nèi)部組件,并通過多視圖一致融合來改進其結(jié)果。
神經(jīng)輻射場。?NeRF在三維重建中顯示出突出的能力。最近的工作將NeRF擴展到了大型無邊界場景中,例如具有以自我為中心的相機設(shè)置的城市規(guī)模NeRF以及深度監(jiān)督方法的改進。NeRF能夠從多個視圖優(yōu)化3D結(jié)構(gòu),這是一種理想的方法,可以增強非車載感知的多視圖一致性。然而,由于我們是第一個將NeRF應(yīng)用于高精地圖生成的單位,因此進行了一些重要的修改。首先,我們采用基于體素的NeRF,通過體素化空間并編碼體素中每個位置的參數(shù)來加速NeRF訓練。這使能夠在幾分鐘內(nèi)從nuScenes中重建出一個巨大的場景。此外,我們提出了一個“總方差損失”來增強NeRF在近地幾何上的集中度,這也反映了集中度從像素質(zhì)量向下游HD Map生成的轉(zhuǎn)變。
車載高精地圖生成
給定一系列傳感器數(shù)據(jù),高精地圖生成的目標是預(yù)測BEV空間中道路元素的位置和語義,包括道路分隔符、道路邊界和人行橫道。

非車載設(shè)置與車載設(shè)置。?與傳統(tǒng)的車載設(shè)置相比,我們的非車載設(shè)置在速度和計算資源方面提供了更大的靈活性。車載高精地圖生成算法經(jīng)常受到效率要求的限制,不能在一次運行中使用所有的N幀。相比之下,非車載算法可以訪問所有N幀,然后可以利用非車載設(shè)置和豐富的計算資源來生成更高質(zhì)量的高精地圖。從以框架為中心到以區(qū)域為中心的設(shè)計。有不同的策略來利用來自N幀的時間數(shù)據(jù),類似于非車載3D檢測。直接解決方案是以幀為中心的,其中我們顯著增加了現(xiàn)有車載HD Map構(gòu)建方法(通常是BEV分割模型)的幀數(shù),并將其擴展為長序列。雖然先前的工作已經(jīng)說明了較長時間范圍的好處,但多幀BEV分割模型只能處理固定數(shù)量的輸入幀,并且增加幀數(shù)量需要GPU容量的線性增長。因此,簡單地放大現(xiàn)有車載模型的輸入幀并不是利用車載數(shù)據(jù)的有效方法,車載數(shù)據(jù)通常具有不同的大幀數(shù)。為了克服以幀為中心設(shè)計的局限性,我們提出了一種新的以區(qū)域為中心的設(shè)計,該設(shè)計針對每個HD Map區(qū)域自適應(yīng)地從任意數(shù)量的可用幀中分離信息。我們的設(shè)計靈感來自3D檢測中以目標為中心的概念,但擴展到了HD Map構(gòu)建的任務(wù)。這樣做可以實現(xiàn)從不同角度拍攝的跨幀視覺效果。
方法:多視圖地圖概述。
下圖3展示了我們的多視圖地圖(MV-Map)的總體框架。


車載模型



以區(qū)域為中心的擴展。?我們以區(qū)域為中心的設(shè)計將每個BEV網(wǎng)格視為高精地圖區(qū)域。如果一個網(wǎng)格被N′個幀覆蓋,它會從不同的角度接收N′個特征和預(yù)測。MV-Map然后融合N′視圖特定信息,為該區(qū)域創(chuàng)建多視圖一致性特征。
通過不確定性網(wǎng)絡(luò)的全局聚合——以區(qū)域為中心的不確定性感知融合。




用于多視圖一致性MV-Map的體素NeRF
進一步利用體素化NeRF從N幀有效地構(gòu)建場景的統(tǒng)一3D結(jié)構(gòu),該結(jié)構(gòu)與不確定性網(wǎng)絡(luò)相結(jié)合,以提高HD Map的多視圖一致度。




這里,總方差TV(·)被定義為沿Z軸的占用率差的L2范數(shù),由

給出,其中O[x,y,Z]表示由NeRF預(yù)測的體素(x,y,Z)的密度,而表示L2范數(shù)。我們在等式中強調(diào)“負”符號。2表示方差“最大化”,因為精確的地平面在Z軸上具有體素占用的峰值分布,而不是均勻分布。TV損失使體素NeRF能夠比瞬態(tài)目標為地平面分配更大的密度,從而產(chǎn)生高質(zhì)量的3D結(jié)構(gòu),如上面圖2所示。
訓練和推理
非車載pipeline程序遵循三個步驟:(1)采用現(xiàn)有的車載模型,(2)在序列上訓練體素NeRF,以及(3)訓練和推理不確定性網(wǎng)絡(luò)。在推理過程中,我們將不確定性網(wǎng)絡(luò)獨立應(yīng)用于所有N幀,并使用區(qū)域中心聚合將單幀數(shù)據(jù)融合到統(tǒng)一的HD Map中。
實驗
數(shù)據(jù)集和實現(xiàn)細節(jié)數(shù)據(jù)集
我們在大型無人駕駛數(shù)據(jù)集nuScenes上進行了實驗。它包含850個視頻,其中28130幀和6019幀分別用于訓練和評估。
與最先進方法的比較
由于我們的工作代表了對非車載高精地圖生成的首次研究,因此沒有現(xiàn)成的競爭方法。此外,MV-Map可以使用任何現(xiàn)成的車載模型作為其內(nèi)部組件。為了確保有意義和公平的比較,將下表1中的實驗結(jié)果和分析整理如下。

首先,車載模型采用了簡單而有效SimpleBEV的設(shè)計。如“車載”系列所示,車載模型在短程和遠程設(shè)置方面已經(jīng)持續(xù)優(yōu)于以前的基線。其次,與我們已經(jīng)有效的車載模型相比,我們的MV-Map帶來了約7%mIoU的顯著改進。值得注意的是,我們的非車載方法比HDMapNet好50%左右,在所有類別上都增加了超過15%的IoU。最后,開發(fā)了一種稱為“平均融合”的非車載基線算法。它不考慮不同視點的質(zhì)量,而是通過對單幀語義圖進行平均來執(zhí)行以區(qū)域為中心的聚合。與“平均融合”相比,MV-Map在長距離設(shè)置下仍將HD Map質(zhì)量提高了約7%mIoU。
消融研究
MV-Map組件。我們在下表2中量化了每個非車載模塊的改進。

以區(qū)域為中心的融合基線。?從車載模型(第1行)開始,首先將平均融合(第2行)作為基線。這一改進表明,以區(qū)域為中心的設(shè)計確實有助于將多幀融合到統(tǒng)一的高精地圖中。
不確定性網(wǎng)絡(luò)。??用不確定性網(wǎng)絡(luò)(第3行)代替平均融合(第2行)可以從更可靠的幀中獲得更大的貢獻,mIoU的~5%的增加證明了評估質(zhì)量對于更好的HD Map質(zhì)量至關(guān)重要。
KL散度損失。?使用或不使用KL散度損失的~0.5%mIoU(第3行和第4行)支持明確監(jiān)督不確定性網(wǎng)絡(luò)的值。
體素NeRF。?將NeRF添加到完整的不確定性網(wǎng)絡(luò)中進一步提高了mIoU(第4行和第5行)。在類別級分析中,強調(diào)NeRF對于融合至關(guān)重要,特別是在具有較小區(qū)域的具有挑戰(zhàn)性的結(jié)構(gòu)上,例如人行橫道。這一證據(jù)證明了全局幾何在多視圖一致性中的重要性。
總差異損失。?利用它進一步提高了所有場景中的性能,驗證了將NeRF用于下游高精地圖生成的努力。
處理更多幀。?證明了融合策略可以處理大量的幀,并從中受益匪淺,這對非車載高精地圖的生成至關(guān)重要。在下圖4中的可變輸入框架下評估了我們的非車載框架。

MV-Map可以利用nuScenes中的所有關(guān)鍵幀(40幀),并且該數(shù)字僅受序列長度的限制。如上圖4的藍色曲線所示,MV-Map受益于更多的幀,這表明其在非車載場景中的可擴展性,特別是與平均融合基線相比,平均融合基線在使用超過15幀后性能下降。這表明,我們以區(qū)域為中心的融合策略能夠識別幀之間的互補區(qū)域,而不是盲目地對它們進行平均。
定性比較。?在下圖5中可視化生成的高精地圖。MV-Map糾正了車載模型的錯誤,并實現(xiàn)了更好的完整性和細節(jié)。此外,與真值相比,非車載生成的高精地圖具有高保真度,尤其是在被更多幀覆蓋的中心區(qū)域。

分析KL散度和置信度得分。?我們對下圖6中的不確定性網(wǎng)絡(luò)的輸出進行了實證分析。至于置信度得分,觀察到它們實際上降低了不可靠區(qū)域的貢獻,例如圖6a中有遮擋的部分,用實點高亮。此外,將KL散度預(yù)測頭轉(zhuǎn)移到驗證集,并發(fā)現(xiàn)預(yù)測合理地反映了預(yù)測和真值之間的差異,如圖6b所示。進一步注意到,具有較高KL散度值的區(qū)域(圖6a)也具有較低的置信度(圖6b),用虛線圓突出顯示。

使用來自數(shù)據(jù)驅(qū)動先驗的幾何信息。?體素NeRF以完全自監(jiān)督的方式提供幾何信息。同時,MV-Map框架是通用的,可以利用其他方法來提供幾何信息,例如從大規(guī)模數(shù)據(jù)集中學習數(shù)據(jù)驅(qū)動的先驗。調(diào)研了這種類型的方法,并考慮了以現(xiàn)成的具有代表性的單目深度估計器。具體來說,用NeWCRFs。如下表3所示,單目深度也可以提高不確定性融合(第2行和第3行)。我們進一步注意到,NeRF的性能稍好,因為它在共享的3D結(jié)構(gòu)中一致地編碼多個視圖,而單目深度獨立地考慮每個視圖,并且在幀之間存在比例變化。受這兩種不同類型的計量信息的好處的鼓舞,未來的工作是將NeRF與可學習先驗結(jié)合到現(xiàn)有框架中。

融合語義與BEV特征。?以區(qū)域為中心的框架對語義圖而不是BEV特征執(zhí)行加權(quán)平均。在下表4中,證明了我們的設(shè)計選擇,其中融合BEV特征比融合語義圖更糟糕。主要原因是當有大量的非車載數(shù)據(jù)輸入幀時,訓練和推理之間的域轉(zhuǎn)換。此外,模糊BEV特征也不太實用,因為需要顯著更多的磁盤空間來存儲高維特征。

全局一致的高精地圖生成
我們的非車載MV地圖可以處理許多幀。它的應(yīng)用是將高精地圖的生成范圍從ego車輛周圍的局部區(qū)域擴展到覆蓋所有輸入幀的全局區(qū)域,這節(jié)省了在現(xiàn)實世界中拼接多個局部預(yù)測的勞動力。我們在下圖7中的全局圖在兩個具有挑戰(zhàn)性的場景中展示了復(fù)雜拓撲的高保真度。雖然有些區(qū)域與真值不匹配,但我們認為這些區(qū)域超出了收集的框架和感知范圍,這超出了非車載算法的范圍。因此,MV-Map可以構(gòu)建高質(zhì)量的高精地圖。

結(jié)論
我們提出了一種新的非車載高精地圖生成設(shè)置,以解決車載BEV感知的不可靠性問題。通過消除計算約束,模型可以完全再現(xiàn)所有幀,并構(gòu)建多視圖一致的高精地圖。具體來說,提出了一個非車載高精地圖生成框架,稱為MV-Map。為了處理多幀,MV-Map設(shè)計了以區(qū)域為中心的聚合,以統(tǒng)一所有幀的HD Map。關(guān)鍵設(shè)計是一個不確定性網(wǎng)絡(luò),該網(wǎng)絡(luò)衡量不同幀的貢獻,并利用體素NeRF提供多視圖一致的3D結(jié)構(gòu)信息。經(jīng)驗表明,MV-Map可擴展到大量非車載數(shù)據(jù),并顯著提高了HD Map的質(zhì)量。希望MV-Map框架能夠成為車載算法的有效補充器,并啟發(fā)未來對非車載問題的研究。
盡管我們的體素NeRF以可擴展的方式改進了非車載pipeline,但仍存在一些挑戰(zhàn),包括在交通場景中移動目標,以及利用數(shù)據(jù)驅(qū)動的先驗來獲得更好的幾何信息。此外,我們試圖將工作與自動標注聯(lián)系起來,并將其與人類標注質(zhì)量進行比較,以探索更多潛在的應(yīng)用,如無人駕駛車輛導航和城區(qū)路徑規(guī)劃。
參考
[1]. MV-Map: Offboard HD-Map Generation with Multi-view Consistency
① 全網(wǎng)獨家視頻課程
BEV感知、毫米波雷達視覺融合、多傳感器標定、多傳感器融合、多模態(tài)3D目標檢測、點云3D目標檢測、目標跟蹤、Occupancy、cuda與TensorRT模型部署、協(xié)同感知、語義分割、自動駕駛仿真、傳感器部署、決策規(guī)劃、軌跡預(yù)測等多個方向?qū)W習視頻(掃碼學習)

視頻官網(wǎng):www.zdjszx.com
② 國內(nèi)首個自動駕駛學習社區(qū)
近2000人的交流社區(qū),涉及30+自動駕駛技術(shù)棧學習路線,想要了解更多自動駕駛感知(2D檢測、分割、2D/3D車道線、BEV感知、3D目標檢測、Occupancy、多傳感器融合、多傳感器標定、目標跟蹤、光流估計)、自動駕駛定位建圖(SLAM、高精地圖、局部在線地圖)、自動駕駛規(guī)劃控制/軌跡預(yù)測等領(lǐng)域技術(shù)方案、AI模型部署落地實戰(zhàn)、行業(yè)動態(tài)、崗位發(fā)布,歡迎掃描下方二維碼,加入自動駕駛之心知識星球,這是一個真正有干貨的地方,與領(lǐng)域大佬交流入門、學習、工作、跳槽上的各類難題,日常分享論文+代碼+視頻,期待交流!

③【自動駕駛之心】技術(shù)交流群
自動駕駛之心是首個自動駕駛開發(fā)者社區(qū),聚焦目標檢測、語義分割、全景分割、實例分割、關(guān)鍵點檢測、車道線、目標跟蹤、3D目標檢測、BEV感知、多模態(tài)感知、Occupancy、多傳感器融合、transformer、大模型、點云處理、端到端自動駕駛、SLAM、光流估計、深度估計、軌跡預(yù)測、高精地圖、NeRF、規(guī)劃控制、模型部署落地、自動駕駛仿真測試、產(chǎn)品經(jīng)理、硬件配置、AI求職交流等方向。掃碼添加汽車人助理微信邀請入群,備注:學校/公司+方向+昵稱(快速入群方式)

④【自動駕駛之心】平臺矩陣,歡迎聯(lián)系我們!
