最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

NGEL-SLAM:浙大、華為最新SOTA!又快又穩(wěn)!

2023-11-21 20:32 作者:3D視覺工坊  | 我要投稿

作者:大森林 | 來源:3D視覺工坊

在公眾號「3D視覺工坊」后臺,回復(fù)「原論文」可獲取論文pdf鏈接

添加微信:dddvisiona,備注:SLAM,拉你入群。文末附行業(yè)細分群

1. 筆者總結(jié)

神經(jīng)隱式表示已經(jīng)成為提供密集幾何信息的同時定位與地圖構(gòu)建(SLAM)的一種有前途的解決方案。然而,現(xiàn)有的這方面的方法在全局一致性和低延遲方面存在不足。本文提出了NGEL-SLAM來解決上述挑戰(zhàn)。為了保證全局一致性,我們的系統(tǒng)利用了一個傳統(tǒng)的基于特征的定位模塊,其中包含了閉環(huán)檢測。此外,我們通過使用多個神經(jīng)隱式場來表示場景,維護了一個全局一致的地圖,從而能夠快速地調(diào)整閉環(huán)。而且,我們的系統(tǒng)通過使用基于八叉樹的隱式表示,實現(xiàn)了快速的收斂??焖夙憫?yīng)閉環(huán)和快速收斂的結(jié)合,使得我們的系統(tǒng)成為一個真正的低延遲的系統(tǒng),實現(xiàn)了全局一致性。我們的系統(tǒng)能夠渲染高保真的RGB-D圖像,以及提取密集和完整的表面。在合成和真實世界的數(shù)據(jù)集上的實驗表明,我們的系統(tǒng)在保持低延遲的同時,實現(xiàn)了最先進的定位和地圖構(gòu)建的精度。這里也推薦工坊推出的新課程《深度剖析面向機器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實戰(zhàn)》。

2. 靈感來源

稠密視覺同步定位與制圖(SLAM)是機器人技術(shù)和計算機視覺中的一個基礎(chǔ)和具有挑戰(zhàn)性的問題。它涉及在定位代理位置的同時更新一個未知環(huán)境的地圖。在增強現(xiàn)實/虛擬現(xiàn)實和機器人等交互應(yīng)用中,一個SLAM系統(tǒng)不僅要具有精確的定位和制圖能力,還必須具有全局一致性以確保魯棒性和低延遲以獲得最佳響應(yīng)。

傳統(tǒng)的SLAM系統(tǒng),如ORB-SLAM,展現(xiàn)出低延遲,高精度定位,并采用環(huán)路檢測來確保全局一致性。然而,這些系統(tǒng)僅限于構(gòu)建稀疏的點地圖,缺乏稠密的幾何和紋理信息。最近神經(jīng)隱式表示的進展使得準(zhǔn)確稠密的3D表面重建成為可能。因此,幾個基于神經(jīng)隱式表示的SLAM系統(tǒng)被提出。作為這方向的先驅(qū)工作,iMAP和NICE-SLAM通過神經(jīng)表示實現(xiàn)了定位和制圖,產(chǎn)生了高保真的場景重建。然而,基于神經(jīng)表示的定位缺乏對環(huán)路閉合的支持,導(dǎo)致在大場景中由于缺乏全局一致性而性能不佳,如圖1所示。即使環(huán)路閉合被集成到他們的系統(tǒng)中,例如通過用傳統(tǒng)SLAM系統(tǒng)替換定位,針對更新后的姿態(tài)重新訓(xùn)練整個地圖需要大量時間。此外,他們制圖網(wǎng)絡(luò)的慢速收斂進一步阻礙了滿足低延遲要求。

為解決這些挑戰(zhàn),我們提出了NGEL-SLAM。NGEL-SLAM將傳統(tǒng)SLAM系統(tǒng)ORB-SLAM3的定位精度與神經(jīng)隱式表示提取稠密網(wǎng)格和生成高保真圖像的能力相結(jié)合。傳統(tǒng)基于特征的定位模塊使我們輕松地合并環(huán)路閉合,以使定位具有全局一致性。當(dāng)檢測到一個環(huán)路時,我們的制圖模塊立即通過表示場景為多個神經(jīng)隱式子圖來更新地圖,避免了針對環(huán)路閉合重新訓(xùn)練整個場景地圖,但通過簡單地更新子圖的相對姿態(tài)來修正大多數(shù)錯誤。我們進一步根據(jù)更新后的姿態(tài)有選擇地微調(diào)每個子圖。制圖模塊每14毫秒更新一次地圖,并在幾次迭代中收斂,這要歸功于八叉樹基礎(chǔ)的子圖表示,見圖1??焖偈諗亢蛯Νh(huán)路閉合的快速響應(yīng)使我們的系統(tǒng)成為真正低延遲的系統(tǒng),實現(xiàn)全局一致性。在推理期間,我們引入基于不確定性的方法來選擇在給定視點渲染圖像的最佳子圖。我們在各種真實和合成數(shù)據(jù)集上評估了我們的方法,證明了其穩(wěn)健性和準(zhǔn)確性。

圖1:渲染和定位結(jié)果的對比。與NICE-SLAM相比,我們的方法能夠渲染出更高保真的圖像,并提供更精確的相機定位結(jié)果。此外,我們的方法能夠快速收斂,并在環(huán)路閉合后實現(xiàn)低延遲的地圖更新,使其比NICE-SLAM快10倍。圖中黑色曲線表示真實相機軌跡,紅色曲線表示估計的軌跡。

3. 系統(tǒng)構(gòu)建

圖2:系統(tǒng)概述。我們提出的系統(tǒng)由定位模塊和制圖模塊組成。它可以進一步分為三個過程:定位、動態(tài)局部制圖和環(huán)路閉合。這三個過程協(xié)同工作以確保我們系統(tǒng)的全局一致性和低延遲。定位過程以RGB-D流為輸入,實時估計相機姿態(tài)。如果一幀被選為關(guān)鍵幀,則被傳遞到動態(tài)局部制圖過程。在這個過程中,定位模塊執(zhí)行局部BA,而制圖模塊訓(xùn)練相應(yīng)的局部地圖。檢測到環(huán)路時,環(huán)路閉合過程使用全局BA優(yōu)化相機姿態(tài),并更新場景表示。所有過程并行執(zhí)行。

圖2提供了我們系統(tǒng)的概述。在本節(jié)中,我們從以下幾個方面介紹我們的系統(tǒng):定位和制圖模塊,動態(tài)局部制圖,環(huán)路閉合和基于不確定性的圖像渲染。

A. 定位和制圖模塊

我們的系統(tǒng)通過利用兩個模塊來從RGB-D視頻輸入同時估計精確的相機姿態(tài)和3D場景幾何與表觀:定位和制圖。定位模塊基于ORB-SLAM3,一個出色的傳統(tǒng)SLAM系統(tǒng),制圖模塊使用多個隱式神經(jīng)圖表示場景。

系統(tǒng)包含三個過程:定位,動態(tài)局部制圖和環(huán)路閉合。在定位過程中,定位過程估計相機姿態(tài)[R|t]并確定輸入幀I是否為關(guān)鍵幀。每個關(guān)鍵幀將被饋送到動態(tài)局部制圖過程,其中定位模塊執(zhí)行局部BA,制圖模塊在映射模塊中選擇適當(dāng)?shù)木植康貓D進行訓(xùn)練。在檢測到環(huán)路閉合時,環(huán)路閉合過程開始,此時定位模塊使用全局捆綁調(diào)整優(yōu)化所有關(guān)鍵幀姿態(tài),制圖模塊通過調(diào)整子圖快速響應(yīng)定位姿態(tài)的顯著變化,隨后進行地圖微調(diào)。所有三個過程并行執(zhí)行??焖儆?xùn)練和對環(huán)路閉合的快速響應(yīng)使我們的系統(tǒng)滿足低延遲要求。注意,我們將低延遲定義為在接收到RGB-D流中新關(guān)鍵幀之前,將關(guān)鍵幀的大多數(shù)信息整合到地圖中的能力,無論是否檢測到環(huán)路閉合。

B. 動態(tài)局部制圖

當(dāng)一幀被決定為關(guān)鍵幀時,定位模塊使用局部BA優(yōu)化相關(guān)的關(guān)鍵幀,并將姿態(tài)和新關(guān)鍵幀提供給制圖模塊。制圖模塊首先執(zhí)行局部地圖選擇,其中它通過評估可視關(guān)系確定新關(guān)鍵幀是否屬于現(xiàn)有的局部地圖。這可防止在環(huán)路閉合后制圖模塊生成冗余的局部地圖。如果關(guān)鍵幀不屬于任何現(xiàn)有的局部地圖,則初始化一個新的局部地圖,并相對于當(dāng)前關(guān)鍵幀(稱為錨幀)進行定位。確定局部地圖后,制圖模塊使用局部BA中優(yōu)化姿態(tài)的關(guān)鍵幀訓(xùn)練局部地圖。地圖每14毫秒更新一次,確保滿足低延遲要求。

C. 環(huán)路閉合

為確保全局一致性和糾正累積錯誤,我們的系統(tǒng)中采用了環(huán)路檢測。檢測到環(huán)路閉合時,定位模塊執(zhí)行全局BA。然而,全局BA會立即改變之前預(yù)測的相機姿態(tài),這通常稱為軌跡跳變。在我們的系統(tǒng)中,我們用多個局部地圖表示整個場景。當(dāng)完成全局BA時,場景表示從粗到細進行兩階段優(yōu)化。在第一階段,制圖模塊執(zhí)行子圖調(diào)整,通過使用錨關(guān)鍵幀的姿態(tài)來轉(zhuǎn)換地圖,從而更新場景表示。在第二階段,制圖模塊微調(diào)之前的局部地圖以糾正錯誤。第一階段是實時調(diào)整,可糾正局部地圖之間的錯誤。我們的實驗結(jié)果表明,這一階段有效糾正了場景表示中的大部分錯誤。第二階段涉及一個準(zhǔn)實時優(yōu)化,可消除局部地圖中的小錯誤,進一步提高場景表示的準(zhǔn)確性。

D. 基于不確定性的圖像渲染

由于我們的系統(tǒng)包含多個子圖,在從給定視點渲染圖像時有兩種情況需要考慮。第一種情況是視錐體與子圖完全相交,允許我們使用特定的子圖渲染圖像。第二種情況是視錐體位于不同子圖的邊界上,使單個子圖無法生成完整的圖像。在這種情況下,我們根據(jù)最小不確定性對圖像進行基于像素的融合。

4. 地圖表示與訓(xùn)練

A. 基于八叉樹的隱式神經(jīng)表示

已經(jīng)證明基于體素網(wǎng)格的NeRF體系結(jié)構(gòu),能夠快速收斂。然而,由于大多數(shù)空間都是未被占用的,這些方法中使用的稠密網(wǎng)格結(jié)構(gòu)會浪費內(nèi)存。為解決這個問題,我們通過參考NGLOD使用了一個稀疏的基于八叉樹的網(wǎng)格。八叉樹僅在空間被占用的地方增長,因此內(nèi)存高效。多級特征向量,表示為z,存儲在八叉樹的節(jié)點上。如圖3所示,當(dāng)查詢點p時,通過三線性插值獲得p在第i級的特征。然后,類似NGLOD,我們對不同活動級別(即存儲特征的級別)的特征求和,以獲得點p的特征。此外,我們已將八叉樹修改為增量范式,其中維護一個Morton代碼表以提供添加到八叉樹的新點的位置。

圖3:制圖網(wǎng)絡(luò)。制圖網(wǎng)絡(luò)采用稀疏的八叉樹結(jié)構(gòu)存儲多級特征,以及兩個獨立的MLP。

在我們的方法中,我們采用了兩個小的MLP解碼器,一個用于occupancy,另一個用于color。為了計算給定空間點的occupancy?和color?,我們使用以下等式:

其中,是點p的特征向量,和分別是occupancy和color解碼器,是sigmoid函數(shù)。

B. 體繪制

為了優(yōu)化IV-A節(jié)中的場景表示框架,我們使用NeRF中提出的可區(qū)分的體繪制。給定相機內(nèi)參數(shù)和當(dāng)前相機姿態(tài),我們從相機中心o沿法線視方向v射出射線r。

深度和顏色:我們沿射線r采樣N個點,表示為,其中是點的深度,且,,。這些點的預(yù)測occupancy值和color值分別表示為和。對于給定的射線r,我們可以計算深度和顏色:

其中,,對應(yīng)點i沿射線r的透射率和alpha值。

基于voxel的采樣:為了充分利用八叉樹結(jié)構(gòu),我們采用基于voxel的采樣策略。給定射線r,我們查詢它相交的voxel,并在這些voxel內(nèi)沿射線采樣點。由于八叉樹僅在點被占用的地方生長,因此采樣點要么接近物體表面,要么在物體內(nèi)部。我們每voxel采樣個點。因此,對于相交個voxel的射線r,我們沿射線采樣個點。

優(yōu)化:為了優(yōu)化IV-A節(jié)的場景表示特征和解碼器,我們在當(dāng)前幀中均勻選擇M個像素,并使用照度損失和幾何損失訓(xùn)練場景表示。照度損失是渲染和真值彩色圖像之間的均方誤差損失,而幾何損失是渲染和真值深度之間的L1損失。具體來說,我們將損失定義為:

我們通過最小化損失函數(shù)聯(lián)合優(yōu)化特征z和解碼器參數(shù):

其中,是照度損失的權(quán)重。

不確定性:由于occupancy遵循伯努利分布,點p的occupancy值表示點被占用的概率,其方差可以計算為。然后可以將射線的occupancy方差渲染為:

為考慮未觀察區(qū)域的更高不確定性,我們將這些區(qū)域的方差設(shè)置為0.25。這里也推薦工坊推出的新課程《深度剖析面向機器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實戰(zhàn)》。

5. 實驗結(jié)果

表1:在Replica數(shù)據(jù)集上制圖的定量比較。數(shù)據(jù)是從8個場景中取得的平均值。GT pose和Est pose分別表示使用真實姿態(tài)和估計姿態(tài)進行渲染。

表2:在TUM RGB-D數(shù)據(jù)集上定位的定量比較。使用指標(biāo)ATE-RMSE [cm]。

表3:在ScanNet數(shù)據(jù)集上定位的定量比較。使用指標(biāo)ATE-RMSE [cm]。

圖4:在Replica數(shù)據(jù)集上的渲染結(jié)果。

圖5:在ScanNet數(shù)據(jù)集上的渲染結(jié)果。

表4:運行時間與內(nèi)存使用的消融研究。制圖時間指一次單獨迭代的耗時。

表5:地圖微調(diào)(FT)的消融研究。

圖6:4幅圖像的不確定性與深度L1、PSNR之間的關(guān)系。我們將深度L1和PSNR歸一化到[0,1]區(qū)間,根據(jù)它們的最差值和最優(yōu)值進行縮放,以便于可視化。

圖7:子圖調(diào)整和地圖微調(diào)的消融研究。LC指環(huán)路閉合,FT指地圖微調(diào)。

圖8:局部地圖選擇的消融研究。

6. 結(jié)論

本文提出了一種基于神經(jīng)隱式表示的全局一致的SLAM系統(tǒng)NGEL-SLAM,用于室內(nèi)場景的重建和定位。我們的方法結(jié)合了傳統(tǒng)的基于特征的定位模塊和神經(jīng)隱式場景表示模塊,能夠生成高精度的網(wǎng)格模型,同時定位準(zhǔn)確的相機姿態(tài)。與其他神經(jīng)隱式SLAM系統(tǒng)相比,我們的方法通過利用環(huán)路閉合和多個神經(jīng)隱式子圖,保證了全局一致性和低延遲,更適合實際應(yīng)用的需求。


NGEL-SLAM:浙大、華為最新SOTA!又快又穩(wěn)!的評論 (共 條)

分享到微博請遵守國家法律
河东区| 东安县| 镇安县| 扬州市| 社会| 乌鲁木齐市| 保康县| 涿州市| 安康市| 涟水县| 时尚| 木里| 高阳县| 湖南省| 玉林市| 宁安市| 太白县| 马鞍山市| 抚州市| 昌邑市| 晴隆县| 宝鸡市| 闸北区| 石家庄市| 康马县| 荥阳市| 苏尼特右旗| 明溪县| 连平县| 南城县| 丹棱县| 万安县| 明星| 历史| 阳高县| 侯马市| 滨州市| 平陆县| 青铜峡市| 罗城| 阜康市|