最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

百度新突破!商業(yè)可行性已驗證!EgoVM:輕量級矢量化地圖解析~

2023-11-02 23:05 作者:3D視覺工坊  | 我要投稿


作者:大森林 ?| 來源:3D視覺工坊

在公眾號「3D視覺工坊」后臺,回復(fù)「原論文」可獲取論文pdf。

添加微信:dddvisiona,備注:自動駕駛,拉你入群。文末附行業(yè)細(xì)分群。

EgoVM是一種端到端網(wǎng)絡(luò),它使用輕量級矢量化地圖來實(shí)現(xiàn)精確的自我定位。它從在線多視圖圖像和LiDAR點(diǎn)云中提取鳥瞰視圖(BEV)特征,并采用可學(xué)習(xí)的語義嵌入來編碼地圖元素的語義類型。然后,它通過語義分割來監(jiān)督這些特征與BEV特征的一致性。該方法還使用Transformer解碼器進(jìn)行跨模態(tài)匹配,并采用高魯棒性的基于直方圖的姿態(tài)解算器來確定最佳姿態(tài)偏移。實(shí)驗結(jié)果表明,該方法在厘米級定位精度方面表現(xiàn)出色,并且優(yōu)于使用點(diǎn)云地圖的現(xiàn)有方法。此外,該本方法已在各種復(fù)雜城市場景下的大型自動駕駛車隊中進(jìn)行了廣泛測試,驗證了其在商業(yè)上的可行性。這里也推薦「3D視覺工坊」新課程《深度剖析面向自動駕駛領(lǐng)域的車載傳感器空間同步(標(biāo)定)》。

精確可靠的自我定位對自動駕駛至關(guān)重要。在本文中,我們提出了EgoVM,它采用了一種端到端的定位網(wǎng)絡(luò),它實(shí)現(xiàn)了與先前最先進(jìn)方法相當(dāng)?shù)亩ㄎ痪龋褂幂p量級矢量化地圖而不是笨重的基于點(diǎn)的地圖。首先,我們實(shí)時地從多視圖圖像和激光雷達(dá)點(diǎn)云中提取鳥瞰視角(BEV)特征。然后,我們利用一組可學(xué)習(xí)的語義嵌入來對地圖元素的語義類型進(jìn)行編碼,并通過語義分割進(jìn)行監(jiān)督學(xué)習(xí),以實(shí)現(xiàn)它們的特征表示與BEV特征的對齊。接著,我們將由可學(xué)習(xí)的語義嵌入和地圖元素的坐標(biāo)組成的地圖查詢饋送到轉(zhuǎn)換器解碼器中,來與BEV特征進(jìn)行跨模態(tài)匹配。最后,我們使用一個穩(wěn)健的基于直方圖的姿態(tài)求解器,在候選姿態(tài)空間中進(jìn)行搜索,以估計最佳姿態(tài)。我們在nuScenes數(shù)據(jù)集和自行收集的數(shù)據(jù)集上對我們方法的有效性進(jìn)行了全面驗證。實(shí)驗結(jié)果表明,我們的方法實(shí)現(xiàn)了厘米級定位精度,并且顯著優(yōu)于基于矢量化地圖的現(xiàn)有方法。此外,我們的模型已經(jīng)在大規(guī)模的自動駕駛車隊中進(jìn)行了廣泛測試,覆蓋了各種具有挑戰(zhàn)性的城市場景。

圖1. 我們方法的框架圖。(a) 輸入包括多視圖圖像、激光雷達(dá)點(diǎn)云和矢量化地圖。(b) BEV特征提取模塊提取BEV特征,然后與矢量化地圖進(jìn)行交互以生成地圖嵌入。? 姿態(tài)求解模塊以BEV特征和地圖嵌入為輸入,實(shí)現(xiàn)厘米級定位。

給定在線點(diǎn)云、多視圖圖像、預(yù)構(gòu)建的矢量化地圖以及初始姿態(tài),我們的目標(biāo)是估計相對于初始姿態(tài)的最佳姿態(tài)偏移量。預(yù)構(gòu)建的地圖包含諸如車道線、人行橫道、停車線、車道標(biāo)記、交通標(biāo)志和桿等矢量化元素,表示為,其中是第i個矢量化地圖元素。具體來說,車道線、道路邊界和停車線在鳥瞰平面上表示為端點(diǎn)()的水平線段。人行橫道表示為相鄰端點(diǎn)() 的多邊形段。交通標(biāo)志和桿矢量化為(x,y,0,h),其中(x,y)和h分別是中心點(diǎn)和高度。我們的模型還需要一個初始姿態(tài)作為輸入,它可以由多傳感器融合定位系統(tǒng)提供。估計的姿態(tài)偏移量僅由2D水平偏移和航向偏移組成,表示為。

EgoVM由三部分組成。首先,我們將多視圖圖像特征和激光雷達(dá)鳥瞰視角特征提取并融合,得到統(tǒng)一的鳥瞰視角特征(第3.1節(jié))。其次,我們使用一組可學(xué)習(xí)的嵌入來對地圖元素類型進(jìn)行編碼,并在Transformer解碼器的監(jiān)督下,讓它們與鳥瞰視角特征進(jìn)行交互,從而生成地圖嵌入(第3.2節(jié))。第三,我們利用姿態(tài)求解器對幾個候選姿態(tài)進(jìn)行采樣,并將地圖元素投影到鳥瞰平面上。然后,我們通過雙線性插值獲取相應(yīng)的特征,并將它們與地圖嵌入進(jìn)行比較,以估計最佳姿態(tài)偏移量(第3.3節(jié))。

圖2. EgoVM的網(wǎng)絡(luò)結(jié)構(gòu)。首先,多視圖圖像和3D激光雷達(dá)點(diǎn)被分別饋送到攝像頭編碼器和激光雷達(dá)編碼器中,并融合以獲得BEV特征。其次,矢量化地圖元素和BEV特征用作Transformer解碼器的查詢和鍵值,進(jìn)行跨模態(tài)匹配,從而生成地圖嵌入。第三,姿態(tài)求解器對若干候選姿態(tài)進(jìn)行采樣,以投影地圖元素并計算它們的相似度,從而估計最佳姿態(tài)偏移量。

我們使用Transformer解碼器來實(shí)現(xiàn)圖像特征和激光雷達(dá)鳥瞰視角特征的融合。首先,我們將多視圖圖像和激光雷達(dá)點(diǎn)分別輸入到攝像頭編碼器和激光雷達(dá)編碼器中,以提取圖像特征和激光雷達(dá)鳥瞰視角特征。然后,我們利用Transformer解碼器,以激光雷達(dá)鳥瞰視角特征作為初始的鳥瞰視角查詢,并讓它們與圖像特征進(jìn)行交互,從而得到融合的鳥瞰視角特征。

攝像頭編碼器。多視圖圖像被饋送到一個共享的backbone網(wǎng)絡(luò)中,后接FPN提取多尺度特征,表示為,其中是第i個攝像頭的第j級特征,分別是第j級特征的高度和寬度。

激光雷達(dá)編碼器。3D激光雷達(dá)點(diǎn)首先被饋送到一個基于pillar的特征提取器中提取偽圖像特征。然后,一組2D卷積層被應(yīng)用于從偽圖像特征中獲得激光雷達(dá)鳥瞰視角特征,其中和分別是鳥瞰空間的高度和寬度。

鳥瞰視角融合。為生成統(tǒng)一的激光雷達(dá)-攝像頭鳥瞰視角特征,我們采用Transformer解碼器基于鳥瞰視角進(jìn)行激光雷達(dá)鳥瞰視角特征和多視圖圖像特征的融合。具體來說,我們使用激光雷達(dá)鳥瞰視角特征來初始化鳥瞰視角查詢,對它們執(zhí)行自注意力,然后應(yīng)用交叉注意力來聚合多視圖圖像特征。自注意力層和交叉注意力層基于可變形注意力來實(shí)現(xiàn)高效率。融合的鳥瞰視角特征表示為。

矢量化地圖元素在表示上與鳥瞰視角特征差別很大。為了匹配它們,我們采用一組可學(xué)習(xí)的嵌入和一個Transformer解碼器來彌合表示鴻溝??蓪W(xué)習(xí)的嵌入對地圖元素的語義類型進(jìn)行編碼,然后作為查詢?yōu)門ransformer解碼器與鳥瞰視角特征進(jìn)行交互,生成地圖元素的統(tǒng)一特征,稱為地圖嵌入。

語義嵌入。矢量化地圖元素具有不同的語義類型,例如車道線、道路邊界、停車線、人行橫道、車道標(biāo)記、桿和交通標(biāo)志。我們使用一組可學(xué)習(xí)的嵌入,每個嵌入期望學(xué)習(xí)對應(yīng)語義類型的特定表示。每個地圖元素具有語義類型,相應(yīng)的語義嵌入是。

位置編碼。矢量化地圖元素通常以全局坐標(biāo)系統(tǒng)(如UTM坐標(biāo)系)表示。首先,我們通過

將它們歸一化,其中是初始姿態(tài)坐標(biāo),是鳥瞰空間的高度和寬度范圍。

然后,我們將歸一化的地圖元素饋送到一個共享的多層感知機(jī)(MLP)層以獲得位置編碼。

匹配。我們應(yīng)用一個Transformer解碼器來匹配地圖元素與鳥瞰視角特征,得到地圖嵌入。我們通過添加其語義嵌入和位置編碼來初始化地圖查詢:

Transformer解碼器的自注意力模塊形式化為:

其中M是頭數(shù),和是可學(xué)習(xí)的投影矩陣,是地圖查詢和之間的注意力權(quán)重。交叉注意力模塊定義為:

其中DA表示可變形注意力,是通過初始姿態(tài)將地圖元素的端點(diǎn)投影到鳥瞰平面獲得的參考點(diǎn),是鳥瞰空間的2D位置編碼。

語義監(jiān)督。為了更好地學(xué)習(xí)語義嵌入,我們使用一個輔助網(wǎng)絡(luò)執(zhí)行語義分割。我們以第j個語義類型為例。給定鳥瞰視角特征,第j個語義類型的語義概率定義為:

其中和分別是鳥瞰網(wǎng)格的索引,表示點(diǎn)積。

為每個語義類型生成真實(shí)語義概率,我們執(zhí)行以下步驟。首先,我們使用真實(shí)姿態(tài)將地圖元素投影到鳥瞰平面。其次,我們將鳥瞰平面劃分為大小的網(wǎng)格,根據(jù)網(wǎng)格是否被地圖元素占用分配0或1,得到表示第個語義類型的真實(shí)語義概率的二值矩陣。

姿態(tài)求解器。在x、y和航向尺度上通過網(wǎng)格搜索對姿態(tài)偏移量進(jìn)行采樣,表示為,然后通過將初始姿態(tài)與它們組合生成候選姿態(tài)。

最佳姿態(tài)偏移量。我們使用特定的候選姿態(tài)將地圖元素投影到鳥瞰平面以獲得它們的鳥瞰視角特征,通過在融合的鳥瞰視角特征上進(jìn)行雙線性插值。然后我們計算和地圖嵌入在候選姿態(tài)下的相似度分?jǐn)?shù),通過

其中是的地圖嵌入,是一個共享的MLP。然后,我們通過softmax將所有候選姿態(tài)的相似度分?jǐn)?shù)歸一化為后驗概率,其中。最后,我們估計姿態(tài)偏移量和協(xié)方差:

RMSE損失。我們定義第一個損失為預(yù)測姿態(tài)偏移量與真實(shí)偏移量之間的均方根誤差(RMSE):

其中,是通過規(guī)范化的對角線元素獲得的對角矩陣。

姿態(tài)求解器KL損失。第二個損失源自于Kullback-Leibler(KL)散度,其目的是正則化后驗概率分布。舍棄KL散度的常數(shù)項后,可以獲得KL損失:

其中和分別表示目標(biāo)概率分布和似然函數(shù)。注意,在第3.3節(jié)中定義。

我們定義,其中是狄拉克delta函數(shù)。方程10重寫為:

基于此,可以通過蒙特卡洛積分獲得姿態(tài)求解器KL損失:

隨機(jī)姿態(tài)KL損失。我們使用隨機(jī)姿態(tài)采樣策略進(jìn)一步增強(qiáng)監(jiān)督。采樣姿態(tài)從姿態(tài)分布中繪制,KL損失計算如下:

其中是x和y維度上2自由度的多變量t分布與航向維度上von Mises分布和均勻分布的混合。

語義分割損失。我們使用對所有語義類求和的局部損失(FC)作為語義分割損失函數(shù)來更好地監(jiān)督語義嵌入和鳥瞰視角特征:

矢量化地圖由外觀特征(如車道線、車道標(biāo)記、停車線和人行橫道)和幾何特征(如桿和交通標(biāo)志)組成。僅依賴外觀特征的定位在低光條件下容易退化。幾何特征可以幫助提高定位性能,但是它們在每個路段都很稀疏且不可用。因此,我們提出使用surfels,這是場景中豐富的平面特征,來增強(qiáng)地圖中的幾何特征。我們將surfels表示為,其中是中心點(diǎn),是法向量,,是surfels的協(xié)方差矩陣的特征值。Surfels非常豐富且對定位有利,但是處理它們所有surfels非常低效。因此,我們應(yīng)用特征值和網(wǎng)格采樣濾波器來減少surfels的數(shù)量,通過丟棄滿足的surfels,并在每個1m網(wǎng)格中只保留一個具有最小的surfel。與其他矢量化地圖元素一樣,surfels涉及跨模態(tài)匹配模塊與鳥瞰視角特征進(jìn)行交互,以及姿態(tài)求解模塊來估計姿態(tài)。這里也推薦「3D視覺工坊」新課程《深度剖析面向自動駕駛領(lǐng)域的車載傳感器空間同步(標(biāo)定)》。

我們對我們的模型進(jìn)行了全面的分析和評估。我們使用nuScenes數(shù)據(jù)集和自行收集的數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗驗證。在準(zhǔn)確性評估方面,與其他使用向量化地圖的方法相比,提出的方法在厘米級定位精度方面表現(xiàn)出色,并取得了顯著的優(yōu)勢。此外,本方法在大規(guī)模自動駕駛車輛中的各種復(fù)雜城市場景下進(jìn)行了廣泛測試,并取得了令人滿意的結(jié)果。消融實(shí)驗刪除了地圖中的某些特定類型的地標(biāo),并評估了每個組件的影響。結(jié)果表明,方法中的關(guān)鍵組件對于定位精度的提升起到了重要作用,并且直方圖式姿態(tài)解算器的效果明顯優(yōu)于回歸式解算器。本方法在運(yùn)行時間分析中也得到了評估,結(jié)果顯示本方法滿足實(shí)時定位的要求,并且相較于其他方法具有更穩(wěn)定的推斷時間。

表1. 在自行收集的數(shù)據(jù)集上與其他方法比較定位精度,使用縱向、橫向和航向誤差作為評價指標(biāo)。加粗下和劃線分別表示最好和第二好的結(jié)果。附帶上標(biāo)*表示與我們方法相比顯著更高,附帶下標(biāo)*表示與我們方法相比顯著更低。

表2. 在nuScenes數(shù)據(jù)集上評估定位精度。

表3. 比較不同方法建立地圖內(nèi)存大小。

表4. 在自行收集并增強(qiáng)的數(shù)據(jù)集上進(jìn)行消融實(shí)驗分析來我們方法的關(guān)鍵組件。

圖3. 可視化三個不同場景的結(jié)果。最左邊的列顯示不同場景的前視圖圖像,其余列描繪消融實(shí)驗和我們方法兩種模式的BEV特征。

我們提出了EgoVM,它是一種新穎的端到端定位網(wǎng)絡(luò),它可以使用輕量級矢量化地圖在各種具有挑戰(zhàn)性的城市場景中提高定位精度至厘米級。我們設(shè)計了一個跨模態(tài)匹配模塊,它由一個受語義分割監(jiān)督的可學(xué)習(xí)語義嵌入和一個Transformer解碼器組成,通過將兩個輸入模態(tài)轉(zhuǎn)化為統(tǒng)一表示來增強(qiáng)匹配性能。此外,我們還結(jié)合了激光雷達(dá)幾何特征來進(jìn)一步提高定位性能,這彌補(bǔ)了某些場景中外觀特征的不足。我們將我們的模型與GNSS和IMU傳感器集成,形成了一個多傳感器融合定位系統(tǒng),并已將其部署到大規(guī)模的自動駕駛車隊,展示了其在商業(yè)上的可行性。

3D視覺細(xì)分群成立啦!

目前工坊已經(jīng)建立了3D視覺方向多個社群,包括SLAM、工業(yè)3D視覺、自動駕駛方向。

細(xì)分群包括:

[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測、三維測量、TOF、相機(jī)標(biāo)定、綜合群;

[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;

[自動駕駛方向]深度估計、Transformer、毫米波|激光雷達(dá)|視覺攝像頭傳感器討論群、多傳感器標(biāo)定、自動駕駛綜合群等。

[三維重建方向]NeRF、colmap、OpenMVS、MVSNet等。

[無人機(jī)方向]四旋翼建模、無人機(jī)飛控等。

除了這些,還有求職、硬件選型、視覺產(chǎn)品落地等交流群。

大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會拉你入群


百度新突破!商業(yè)可行性已驗證!EgoVM:輕量級矢量化地圖解析~的評論 (共 條)

分享到微博請遵守國家法律
虞城县| 乌苏市| 乌拉特后旗| 九台市| 南康市| 南陵县| 嘉黎县| 科技| 宾阳县| 临安市| 自贡市| 会同县| 临沂市| 黄浦区| 乌海市| 连云港市| 临汾市| 蒙阴县| 济阳县| 方山县| 红原县| 龙山县| 鄂尔多斯市| 木兰县| 盐边县| 班戈县| 湘潭市| 依安县| 刚察县| 保康县| 霍邱县| 景谷| 西乡县| 桃江县| 来安县| 洛川县| 绥棱县| 马山县| 荥阳市| 贺兰县| 永兴县|