大盤(pán)點(diǎn)!22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理?。ㄖ校?/h1>

作者:泡椒味的口香糖 ?| 來(lái)源:計(jì)算機(jī)視覺(jué)工坊
添加微信:dddvisiona,備注:三維重建,拉你入群。文末附行業(yè)細(xì)分群。
0. 筆者個(gè)人體會(huì)
上一篇文章我們介紹了僅優(yōu)化NeRF和僅優(yōu)化位姿的NeRF SLAM方案,本文將介紹位姿和NeRF聯(lián)合優(yōu)化的相關(guān)工作,也是NeRF SLAM最主要的方向。下一篇文章我們將介紹物體級(jí)NeRF SLAM和雷達(dá)NeRF SLAM的方案。
前情回顧:為避免生硬的翻譯原文,本文針對(duì)每篇文章的介紹將以四個(gè)問(wèn)題來(lái)進(jìn)行,分別是這篇文章希望解決什么問(wèn)題?核心思想是什么?具體如何實(shí)現(xiàn)?有什么效果?當(dāng)然筆者水平有限,如果有理解不當(dāng)?shù)牡胤綒g迎各位讀者批評(píng)指正~
計(jì)算機(jī)視覺(jué)工坊
,贊3
1. 目錄
還是先放一個(gè)目錄列舉本文都介紹了哪些方案。
僅優(yōu)化NeRF
0、NeRF
1、Point-NeRF
2、NeRF-SLAM
僅優(yōu)化位姿
3、iNeRF
4、NeRF-Loc
5、NeRF-VINS(未開(kāi)源)
位姿和NeRF聯(lián)合優(yōu)化
6、iMAP
7、BARF
8、NeRF--
9、NICE-SLAM
10、Vox-Fusion
11、NoPe-NeRF
12、RoDynRF
13、DIM-SLAM
14、Orbeez-SLAM
15、GO-SLAM
16、NICER-SLAM(未開(kāi)源)
17、Co-SLAM
物體級(jí)NeRF SLAM
18、RO-MAP
19、vMAP
LiDAR NeRF SLAM
20、LiDAR-NeRF
21、IR-MCL
22、NeRF-LOAM
23、LONER
4. 位姿和NeRF聯(lián)合優(yōu)化
6、iMAP
標(biāo)題:iMAP: Implicit Mapping and Positioning in Real-Time
作者:Edgar Sucar, Shikun Liu, Joseph Ortiz, Andrew J. Davison
機(jī)構(gòu):帝國(guó)理工學(xué)院
來(lái)源:ICCV 2021
原文鏈接:https://arxiv.org/abs/2103.12352
代碼鏈接:https://github.com/tymoteuszb/implicit-slam
這篇文章希望解決什么問(wèn)題?
驗(yàn)證MLP可以作為RGBD SLAM的唯一場(chǎng)景表征。
核心思想是什么?
基于RGBD跟蹤,同時(shí)優(yōu)化NeRF和位姿。
具體如何實(shí)現(xiàn)?
第一個(gè)既優(yōu)化NeRF又優(yōu)化位姿的NeRF SLAM方案,分為跟蹤和建圖兩個(gè)線程。首先輸入RGBD進(jìn)行跟蹤,基于關(guān)鍵幀生成一個(gè)記憶庫(kù),然后進(jìn)行位姿和場(chǎng)景的聯(lián)合優(yōu)化。損失函數(shù)也包括光度損失和深度損失兩部分,后面很多工作也都是使用這兩個(gè)損失。
具體的關(guān)鍵幀選取策略,是用逆渲染深度與RGBD獲取的深度值比對(duì),超過(guò)一定閾值則認(rèn)為是關(guān)鍵幀。

效果如何?
這項(xiàng)工作比較早了,驗(yàn)證了NeRF在SLAM建圖中可以進(jìn)行很好的空洞補(bǔ)全(新視圖合成)。這里也推薦「3D視覺(jué)工坊」新課程《深度剖析面向機(jī)器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實(shí)戰(zhàn)》。

定位精度對(duì)比,由于工作很早,所以精度較差,遠(yuǎn)不如ORB-SLAM2這些傳統(tǒng)方法。但iMAP這個(gè)框架很有開(kāi)創(chuàng)性。

7、BARF
標(biāo)題:BARF: Bundle-Adjusting Neural Radiance Fields
作者:Chen-Hsuan Lin, Wei-Chiu Ma, Antonio Torralba, Simon Lucey
機(jī)構(gòu):卡內(nèi)基梅隆大學(xué)、麻省理工學(xué)院、阿德萊德大學(xué)
來(lái)源:ICCV 2021
原文鏈接:https://arxiv.org/abs/2104.06405
代碼鏈接:https://github.com/chenhsuanlin/bundle-adjusting-NeRF
官方主頁(yè):https://chenhsuanlin.bitbucket.io/bundle-adjusting-NeRF/
這篇文章希望解決什么問(wèn)題?
傳統(tǒng)的NeRF訓(xùn)練需要非常精確的位姿,并且NeRF SLAM反向傳播優(yōu)化位姿時(shí),對(duì)位姿初值很敏感,容易陷入局部最優(yōu)。
核心思想是什么?
光滑信號(hào)相較復(fù)雜信號(hào)更容易找到全局最優(yōu)解,所以優(yōu)化過(guò)程如果能平滑一些,就不容易陷入局部最優(yōu)。

具體如何實(shí)現(xiàn)?
這篇文章是很早將BA引入NeRF SLAM的工作,給定不完美的位姿也可以訓(xùn)練NeRF。主要工作是應(yīng)用傳統(tǒng)圖像對(duì)齊理論來(lái)聯(lián)合優(yōu)化位姿和NeRF,并且提出一個(gè)由粗到精的策略來(lái)優(yōu)化位姿,使其對(duì)位置編碼的噪聲不敏感。
這個(gè)由粗到精實(shí)際上是通過(guò)w這個(gè)彈性正則化項(xiàng)來(lái)實(shí)現(xiàn)的,也就是優(yōu)化過(guò)程中它會(huì)不斷變化,實(shí)際上也就是使網(wǎng)絡(luò)更加平滑。

效果如何?
先看看位置編碼的影響,具體做法就是將圖片分塊,分別渲染再拼接。對(duì)比原始NeRF的位置編碼,不加位置編碼的效果,還有BARF的效果。

下面這個(gè)實(shí)驗(yàn)也是位置編碼的影響,給定不完美位姿,b是原始NeRF的效果,c是驗(yàn)證BARF由粗到精優(yōu)化的效果,證明不會(huì)陷入局部最優(yōu)。

定量對(duì)比,各項(xiàng)指標(biāo)(包括定位和建圖)都實(shí)現(xiàn)了比較好的提升。

8、NeRF--
標(biāo)題:NeRF--: Neural Radiance Fields Without Known Camera Parameters
作者:Zirui Wang, Shangzhe Wu, Weidi Xie, Min Chen, Victor Adrian Prisacariu
機(jī)構(gòu):牛津大學(xué)
原文鏈接:https://arxiv.org/abs/2102.07064
代碼鏈接:https://github.com/ActiveVisionLab/nerfmm
官方主頁(yè):https://nerfmm.active.vision/
這篇文章希望解決什么問(wèn)題?
沒(méi)有相機(jī)參數(shù)(包括內(nèi)參和位姿),只有RGB圖像時(shí)無(wú)法訓(xùn)練NeRF。
核心思想是什么?
將相機(jī)內(nèi)參、外參(位姿)設(shè)置成可學(xué)習(xí)的參數(shù),其余部分與NeRF步驟相同。
具體如何實(shí)現(xiàn)?
將相機(jī)內(nèi)參和外參設(shè)置為可學(xué)習(xí)的參數(shù),在訓(xùn)練時(shí)先將相機(jī)參數(shù)設(shè)為一個(gè)固定的初始化值,通過(guò)這個(gè)相機(jī)參數(shù)和并根據(jù)NeRF射線積分,從而獲得對(duì)應(yīng)點(diǎn)的體密度和RGB,獲得完整圖像后計(jì)算光度誤差。NeRF--可以未知相機(jī)的RGB圖像來(lái)端到端地訓(xùn)練整個(gè)pipeline。
此外,為了提高模型的效果,可以重復(fù)優(yōu)化相機(jī)內(nèi)參,即將訓(xùn)練完后的相機(jī)內(nèi)參保存為新的初始化值,重新訓(xùn)練。

效果如何?
在不知內(nèi)參和位姿的情況下,也可以達(dá)到與NeRF相當(dāng)?shù)闹亟ㄐЧ?,恢?fù)的位姿也和COLMAP持平。

9、NICE-SLAM
標(biāo)題:Neural Implicit Scalable Encoding for SLAM
作者:Zihan Zhu, Songyou Peng, Viktor Larsson, Weiwei Xu, Hujun Bao, Zhaopeng Cui, Martin R. Oswald, Marc Pollefeys
機(jī)構(gòu):浙江大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、隆德大學(xué)、MPI、阿姆斯特丹大學(xué)、微軟
來(lái)源:CVPR 2022
原文鏈接:https://arxiv.org/abs/2112.12130
代碼鏈接:https://github.com/cvg/nice-slam
官方主頁(yè):https://pengsongyou.github.io/nice-slam
這篇文章希望解決什么問(wèn)題?
1、場(chǎng)景重建過(guò)于平滑,丟失高頻細(xì)節(jié)
2、大場(chǎng)景存在網(wǎng)絡(luò)遺忘問(wèn)題(iMAP)
核心思想是什么?
通過(guò)引入基于特征網(wǎng)格的層次場(chǎng)景表達(dá),嵌入多層位置信息(使用多個(gè)MLP組合多分辨率空間網(wǎng)格),并使用預(yù)訓(xùn)練的幾何先驗(yàn)實(shí)現(xiàn)大尺度室內(nèi)場(chǎng)景重建
具體如何實(shí)現(xiàn)?
NICE-SLAM分為T(mén)racking和Mapping兩部分,Tracking根據(jù)輸入的RGBD信息估計(jì)位姿,Mapping生成RGB和Depth來(lái)做深度和光度損失。
Mapping包含Mid & Fine-level、Coarse-level、Color-level。首先由Mid Level進(jìn)行重建,然后使用Fine level進(jìn)行refine精細(xì)化。Mid level優(yōu)化網(wǎng)格特征,F(xiàn)ine level捕獲更小的高頻幾何細(xì)節(jié)。Coarse-level用來(lái)捕捉高層的幾何場(chǎng)景,例如墻,地板,等具有幾何結(jié)構(gòu)的物體(可以保證Tracking不會(huì)太差),用于預(yù)測(cè)未觀測(cè)到的幾何特征,還有外插的能力(未見(jiàn)視角的合成)。Color-level儲(chǔ)存顏色信息,用于生成場(chǎng)景中更為細(xì)致的顏色表征,從而提高在追蹤線程的準(zhǔn)確度。

效果如何?
畢竟是NeRF SLAM最經(jīng)典的文章,效果必然很好,缺點(diǎn)就是太慢了。當(dāng)然在很多場(chǎng)景上也會(huì)被其他NeRF SLAM方法拉出來(lái)打。

軌跡精度的對(duì)比,可以發(fā)現(xiàn)還是不如ORB-SLAM2這些傳統(tǒng)方法。

10、Vox-Fusion
標(biāo)題:Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation
作者:Xingrui Yang, Hai Li, Hongjia Zhai, Yuhang Ming, Yuqian Liu, Guofeng Zhang
機(jī)構(gòu):浙江大學(xué)、布里斯托爾大學(xué)、SenseTime
來(lái)源:ISMAR 2022
原文鏈接:https://arxiv.org/abs/2210.15858
代碼鏈接:https://github.com/zju3dv/Vox-Fusion
官方主頁(yè):https://yangxingrui.com/vox-fusion/
這篇文章希望解決什么問(wèn)題?
傳統(tǒng)的NeRF使用單個(gè)MLP,所以難以表達(dá)幾何細(xì)節(jié),并且很難擴(kuò)展到大場(chǎng)景。
核心思想是什么?
將NeRF與稀疏體素網(wǎng)格結(jié)合,使用八叉樹(shù)結(jié)合莫頓碼實(shí)現(xiàn)體素的快速分配和檢索。
具體如何實(shí)現(xiàn)?
Vox-Fusion將體密度更改為了體素,存儲(chǔ)的是SDF和RGB。Vox-Fusion由三部分組成:1、體渲染,將場(chǎng)景編碼為MLP和嵌入向量,并輸出給定像素的渲染顏色和SDF值;2、跟蹤過(guò)程,將RGB-D作為輸入,并通過(guò)微分優(yōu)化相機(jī)姿態(tài);3、建圖過(guò)程,重構(gòu)場(chǎng)景的幾何形狀。

有什么效果?
Vox-Fusion支持場(chǎng)景的動(dòng)態(tài)擴(kuò)展,這就意味著它不需要像之前的NeRF一樣先預(yù)定義地圖大小,而是可以像SLAM一樣增量得去構(gòu)建地圖。

相較于iMap和NICE-SLAM,各項(xiàng)指標(biāo)都有了全面的提升。主要對(duì)比的點(diǎn)是Vox-Fusion使用更大的分辨率也可以得到更多的高頻細(xì)節(jié)。

定性對(duì)比,即使使用比NICE-SLAM更大的分辨率,還是對(duì)桌腿、花這種更細(xì)小的物體重建效果更好,而NICE-SLAM對(duì)這些高頻細(xì)節(jié)不敏感。這里也推薦「3D視覺(jué)工坊」新課程《深度剖析面向機(jī)器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實(shí)戰(zhàn)》。

軌跡精度對(duì)比,相對(duì)NICE-SLAM有所提升。

11、NoPe-NeRF
標(biāo)題:NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior
作者:Wenjing Bian, Zirui Wang, Kejie Li, Jia-Wang Bian, Victor Adrian Prisacariu
機(jī)構(gòu):牛津大學(xué)
來(lái)源:CVPR 2023 Highlight
原文鏈接:https://arxiv.org/abs/2212.07388
代碼鏈接:https://github.com/ActiveVisionLab/nope-nerf/
官方主頁(yè):https://nope-nerf.active.vision/
也是NeRF很經(jīng)典的文章。
這篇文章希望解決什么問(wèn)題?
和NeRF---類似,也是沒(méi)有先驗(yàn)位姿時(shí)無(wú)法訓(xùn)練NeRF,尤其是在劇烈相機(jī)運(yùn)動(dòng)時(shí)。
核心思想是什么?
引入無(wú)畸變單目深度先驗(yàn),先驗(yàn)是通過(guò)在訓(xùn)練期間校正比例和平移參數(shù)生成的,從而能夠約束連續(xù)幀之間的相對(duì)姿態(tài)。
具體怎么做呢?
NoPe-NeRF的輸入是RGB序列,首先從單目深度估計(jì)網(wǎng)絡(luò)(DPT)生成單目深度圖,并重建點(diǎn)云,然后優(yōu)化NeRF、相機(jī)位姿、深度失真參數(shù)。訓(xùn)練主要也是依靠單目深度估計(jì)的深度圖和渲染出來(lái)的深度圖做損失。
具體來(lái)說(shuō),無(wú)畸變深度圖提供了兩個(gè)約束條件。通過(guò)在無(wú)畸變深度圖中反投影出的兩個(gè)點(diǎn)云距離的來(lái)提供相鄰圖像的相對(duì)姿態(tài),從而約束全局姿態(tài)估計(jì)。然后通過(guò)將無(wú)畸變深度視為表面,使用基于表面的光度一致性來(lái)約束相對(duì)姿態(tài)估計(jì)。

有什么效果?
這個(gè)圖很經(jīng)典啊,很多公眾號(hào)都拿這個(gè)圖當(dāng)封面。一方面表達(dá)了NoPe-NeRF可以聯(lián)合優(yōu)化位姿和NeRF,一方面表達(dá)了性能超越了其他SOTA方案。

做SLAM的話更關(guān)心位姿,所以這里再放一個(gè)和其他方案的軌跡精度對(duì)比。
12、RoDynRF
標(biāo)題:Robust Dynamic Radiance Fields
作者:Yu-Lun Liu, Chen Gao, Andreas Meuleman, Hung-Yu Tseng, Ayush Saraf, Changil Kim, Yung-Yu Chuang, Johannes Kopf, Jia-Bin Huang
機(jī)構(gòu):Meta、國(guó)立臺(tái)灣大學(xué)、KAIST、馬里蘭大學(xué)
來(lái)源:CVPR 2023
原文鏈接:https://arxiv.org/abs/2301.02239
代碼鏈接:https://github.com/facebookresearch/robust-dynrf
官方主頁(yè):https://robust-dynrf.github.io/
本身這篇文章研究的是動(dòng)態(tài)NeRF,但是和NeR--一樣都可以在沒(méi)有位姿和內(nèi)參的情況下聯(lián)合優(yōu)化位姿和NeRF,所以也算是NeRF SLAM的一種。
這篇文章希望解決什么問(wèn)題?
1、傳統(tǒng)的NeRF基于靜態(tài)環(huán)境假設(shè)
2、動(dòng)態(tài)環(huán)境下由SfM估計(jì)的位姿不準(zhǔn)確
核心思想是什么?
聯(lián)合優(yōu)化靜態(tài)、動(dòng)態(tài)輻射場(chǎng)和相機(jī)參數(shù)(位姿和焦距)。
具體怎么做呢?
用靜態(tài)和動(dòng)態(tài)輻射場(chǎng)分別建模靜態(tài)和動(dòng)態(tài)場(chǎng)景。靜態(tài)輻射場(chǎng)就是一個(gè)普通的NeRF,使用坐標(biāo)和方向作為輸入,并預(yù)測(cè)體密度和顏色。靜態(tài)部分的密度不隨時(shí)間和觀察方向而變化,因此可以使用查詢特征的總和作為密度(而不是使用MLP),靜態(tài)區(qū)域loss同時(shí)優(yōu)化靜態(tài)體素場(chǎng)和相機(jī)參數(shù)。動(dòng)態(tài)輻射場(chǎng)取采樣坐標(biāo)和時(shí)間t,得到正則空間中的變形坐標(biāo)。然后利用這些變形坐標(biāo)對(duì)動(dòng)態(tài)體素場(chǎng)中的特征進(jìn)行查詢,并將特征隨時(shí)間指數(shù)傳遞給隨時(shí)間變化的淺層MLP,得到動(dòng)態(tài)部分的顏色、密度和非剛性。最后在體渲染之后,從靜態(tài)和動(dòng)態(tài)部分以及非剛性Mask獲得RGB圖像和深度圖。
有什么效果?
使用的設(shè)備是一塊NVIDIA V100GPU,訓(xùn)練了28小時(shí)。隨意捕捉一組帶動(dòng)態(tài)目標(biāo)的視頻,就可以在不知相機(jī)參數(shù)的情況下進(jìn)行動(dòng)態(tài)NeRF重建。
由于是SLAM總結(jié),所以這里放了和其他方案的定位軌跡精度,可以發(fā)現(xiàn)其他SOTA方案都無(wú)法處理動(dòng)態(tài)場(chǎng)景。
13、DIM-SLAM
標(biāo)題:Dense RGB SLAM with Neural Implicit Maps
作者:Heng Li, Xiaodong Gu, Weihao Yuan, Luwei Yang, Zilong Dong, Ping Tan
機(jī)構(gòu):香港科技大學(xué)、阿里巴巴、西蒙·弗雷澤大學(xué)
來(lái)源:ICLR 2023
原文鏈接:https://arxiv.org/abs/2301.08930
代碼鏈接:https://github.com/HKUST-3DV/DIM-SLAM
官方主頁(yè):https://poptree.github.io/DIM-SLAM/
作者宣稱這是第一個(gè)具有神經(jīng)隱式建圖表示的稠密RGB SLAM,因?yàn)闆](méi)有使用深度信息。
這篇文章希望解決什么問(wèn)題?
沒(méi)有深度信息只有RGB的情況下訓(xùn)練NeRF。
核心思想是什么?
引入一個(gè)分層的特征體積來(lái)輔助隱式地圖解碼器,融合不同尺度的形狀線索以促進(jìn)地圖重建。同時(shí)通過(guò)匹配渲染和輸入視頻幀來(lái)同時(shí)優(yōu)化相機(jī)運(yùn)動(dòng)和神經(jīng)隱式地圖。
具體怎么做呢?
DIM-SLAM是一個(gè)完全RGB的SLAM系統(tǒng),不需要任何單目深度估計(jì)和光流預(yù)訓(xùn)練模型(這個(gè)還是挺亮眼的),就能同時(shí)優(yōu)化場(chǎng)景和相機(jī)位姿,相機(jī)位姿的精度甚至超過(guò)了一些RGB-D SLAM方法。
NeRF在沒(méi)有深度監(jiān)督的情況下難以收斂,為了解決這個(gè)問(wèn)題,DIM-SLAM引入了一個(gè)分層的特征體素以提高場(chǎng)景表示能力。DIM-SLAM在給定攝像機(jī)姿態(tài)的情況下,對(duì)多尺度特征沿射線進(jìn)行采樣,并通過(guò)MLP解碼器將多尺度特征計(jì)算出每個(gè)像素的深度和顏色。這樣,通過(guò)將所呈現(xiàn)的圖像與觀察到的圖像進(jìn)行匹配,可以同時(shí)求解相機(jī)位姿和三維場(chǎng)景建圖。
還是用了一個(gè)warping損失來(lái)提高精度。
有什么效果?
運(yùn)行設(shè)備是兩塊NVIDIA 2080Ti GPU。作為僅RGB方法,建圖精度可以媲美RGBD方法。
看看定位精度的定量對(duì)比,已經(jīng)可以媲美ORB-SLAM2這種傳統(tǒng)方法和DROID-SLAM這種學(xué)習(xí)方法。
14、Orbeez-SLAM
標(biāo)題:Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping
作者:Chi-Ming Chung, Yang-Che Tseng, Ya-Ching Hsu, Xiang-Qian Shi, Yun-Hung Hua, Jia-Fong Yeh, Wen-Chin Chen, Yi-Ting Chen, Winston H. Hsu
機(jī)構(gòu):國(guó)立臺(tái)灣大學(xué)
原文鏈接:https://arxiv.org/abs/2209.13274
代碼鏈接:https://github.com/MarvinChung/Orbeez-SLAM
這篇文章希望解決什么問(wèn)題?
很多NeRF SLAM需要針對(duì)每個(gè)新場(chǎng)景重新訓(xùn)練,實(shí)際應(yīng)用要求SLAM具備泛化性。
核心思想是什么?
傳統(tǒng)SLAM可以在NeRF訓(xùn)練初期提供較為準(zhǔn)確的位姿,使得沒(méi)有深度信息也可以快速收斂。
具體怎么做呢?
個(gè)人感覺(jué)是傳統(tǒng)SLAM和NeRF結(jié)合很好的一篇文章,使用的是ORB-SLAM2和Instant-NGP的組合方案,同樣不需要深度信息。跟蹤和建圖同時(shí)運(yùn)行,首先使用ORB-SLAM2進(jìn)行跟蹤,如果定位精度較高并且建圖線程不繁忙則添加為關(guān)鍵幀,再用關(guān)鍵幀和位姿去優(yōu)化NeRF(Instant-NGP)。
還提供了一種新的射線采樣方法。
有什么效果?
運(yùn)行設(shè)備是Intel i7-9700 CPU和一塊NVIDIA RTX3090 GPU,可以在線訓(xùn)練。
定位精度對(duì)比,這個(gè)不太好,本身就是ORB-SLAM2提供的初始位姿,優(yōu)化后還不如ORB2了。
15、GO-SLAM
標(biāo)題:GO-SLAM: Global Optimization for Consistent 3D Instant Reconstruction
作者:Youmin Zhang, Fabio Tosi, Stefano Mattoccia, Matteo Poggi
機(jī)構(gòu):博洛尼亞大學(xué)
來(lái)源:ICCV 2023
原文鏈接:https://arxiv.org/abs/2309.02436
代碼鏈接:https://github.com/youmi-zym/GO-SLAM
官方主頁(yè):https://youmi-zym.github.io/projects/GO-SLAM/
這篇文章希望解決什么問(wèn)題?
NeRF SLAM定位精度低。
核心思想是什么?
使用BA和回環(huán)來(lái)優(yōu)化位姿。
具體怎么做呢?
GO-SLAM本身是基于DROID-SLAM和Instant-NGP的組合,主要工作是引入了BA和回環(huán)模塊。GO-SLAM由三個(gè)并行線程組成:前端跟蹤、后端跟蹤,以及實(shí)例建圖。GO-SLAM的前端跟蹤線程是直接用的DROID-SLAM的跟蹤模塊,后面訓(xùn)練過(guò)程也是直接調(diào)的DROID-SLAM的預(yù)訓(xùn)練權(quán)重,只不過(guò)加入了新的回環(huán)和BA優(yōu)化。然后使用RAFT來(lái)計(jì)算新一幀相對(duì)于最后一個(gè)關(guān)鍵幀的光流,如果平均流大于閾值,則創(chuàng)建新關(guān)鍵幀。后端跟蹤線程的重點(diǎn)是通過(guò)全BA生成全局一致的位姿和深度預(yù)測(cè)。最后,實(shí)例建圖線程根據(jù)最新的位姿信息實(shí)時(shí)更新三維重建。GO-SLAM的輸入可以是單目雙目,還可以是RGB-D,非常的通用!
GO-SLAM主要還是基于NeRF進(jìn)行稠密重建,可以發(fā)現(xiàn)相較于NICE-SLAM這些SOTA方案,GO-SLAM重建場(chǎng)景的全局一致性更好,這主要是因?yàn)樗肓嘶丨h(huán)和全局BA來(lái)優(yōu)化累計(jì)誤差。

還有在EuRoC數(shù)據(jù)集上的定性重建結(jié)果。相較于DROID-SLAM,GO-SLAM的重建效果更加干凈!

軌跡精度對(duì)比,在TUM、EuRoC、ScanNet三個(gè)數(shù)據(jù)集都對(duì)比了ATE,出于篇幅限制只放一個(gè)TUM的。

16、NICER-SLAM
標(biāo)題:NICER-SLAM: Neural Implicit Scene Encoding for RGB SLAM
作者:Zihan Zhu, Songyou Peng, Viktor Larsson, Zhaopeng Cui, Martin R. Oswald, Andreas Geiger, Marc Pollefeys
機(jī)構(gòu):ETHZ、MPI、隆德大學(xué)、浙江大學(xué)、阿姆斯特丹大學(xué)、烏賓根大學(xué)、微軟
原文鏈接:https://arxiv.org/abs/2302.03594
這篇文章希望解決什么問(wèn)題?
RGB數(shù)據(jù)沒(méi)有深度信息,無(wú)法產(chǎn)生高質(zhì)量的NeRF渲染結(jié)果。
核心思想是什么?
引入單目深度估計(jì)進(jìn)行監(jiān)督,還為SDF表征建立分層神經(jīng)隱式編碼。
具體如何實(shí)現(xiàn)?
NICER-SLAM以RGB流作為輸入,并輸出相機(jī)位姿,以及學(xué)習(xí)的幾何和顏色的分層場(chǎng)景表示。實(shí)際上是在NICE-SLAM的基礎(chǔ)上引入單目深度估計(jì),同時(shí)融合了重建、顏色、位姿、光流、warping-loss、深度、Eikonal Loss損失。
其實(shí)這篇文章的啟發(fā)意義不大,但是證明了引入各種各種的損失可以提升性能。

效果如何?
重建效果對(duì)比,在只是用RGB的方法里效果不錯(cuò),甚至和RGBD方法持平。

相機(jī)跟蹤結(jié)果,在RGB里好像也沒(méi)達(dá)到最優(yōu)。

17、Co-SLAM
標(biāo)題:Co-SLAM: Joint Coordinate and Sparse Parametric Encodings for Neural Real-Time SLAM
作者:Hengyi Wang, Jingwen Wang, Lourdes Agapito
機(jī)構(gòu):倫敦大學(xué)學(xué)院
來(lái)源:CVPR 2023
原文鏈接:https://arxiv.org/abs/2304.14377
代碼鏈接:https://github.com/HengyiWang/Co-SLAM
官方主頁(yè):https://hengyiwang.github.io/projects/CoSLAM
這篇文章希望解決什么問(wèn)題?
1、Instant-NPG雖然訓(xùn)練速度很快,但是因?yàn)樗褂昧斯>幋a,所以在空間很多位置都不連續(xù)。
2、傳統(tǒng)的NeRF在大場(chǎng)景面臨遺忘問(wèn)題。
核心思想是什么?
1、使用one-blob編碼提高哈希編碼的連續(xù)性。
2、在所有關(guān)鍵幀上采樣來(lái)訓(xùn)練NeRF,而不是像NICE-SLAM那樣維護(hù)一個(gè)關(guān)鍵幀列表。
具體如何實(shí)現(xiàn)?
首先將傳統(tǒng)NeRF中的體密度改為T(mén)SDF,訓(xùn)練也是聯(lián)合優(yōu)化NeRF和相機(jī)位姿。
Co-SLAM的輸入是RGBD序列,進(jìn)行射線采樣和跟蹤獲得位姿。傳統(tǒng)的Instant-NGP是先建立網(wǎng)格,將采樣點(diǎn)輸入并在哈希表中檢索,再輸給MLP進(jìn)行渲染。為了將離散的哈希表轉(zhuǎn)換成連續(xù)的,這里引入了obe-blob編碼(實(shí)際上是將連通區(qū)域編碼成相同的數(shù)值),后面將編碼的點(diǎn)再過(guò)一遍MLP。

效果如何?
運(yùn)行設(shè)備是i7-12700K CPU和RTX 3090ti GPU,運(yùn)行速率是5-13 Hz。
定量結(jié)果對(duì)比,各項(xiàng)指標(biāo)都很好,運(yùn)行速度也提高很多。

軌跡精度的對(duì)比,相比NICE-SLAM精度有所提升,但還是不如傳統(tǒng)的ORB-SLAM2。

總結(jié):在NeRF SLAM應(yīng)用里,位姿和NeRF聯(lián)合優(yōu)化是最主要的方向,這方面的文章非常多。
3D視覺(jué)細(xì)分群成立啦!
目前工坊已經(jīng)建立了3D視覺(jué)方向多個(gè)社群,包括SLAM、工業(yè)3D視覺(jué)、自動(dòng)駕駛方向。
細(xì)分群包括:
[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測(cè)、三維測(cè)量、TOF、相機(jī)標(biāo)定、綜合群;
[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;
[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺(jué)攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。
[三維重建方向]NeRF、colmap、OpenMVS、MVSNet等。
[無(wú)人機(jī)方向]四旋翼建模、無(wú)人機(jī)飛控等。
除了這些,還有求職、硬件選型、視覺(jué)產(chǎn)品落地等交流群。
大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群