最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

大盤(pán)點(diǎn)!22項(xiàng)開(kāi)源NeRF SLAM頂會(huì)方案整理?。ㄖ校?/h1>

2023-11-10 21:09 作者:3D視覺(jué)工坊  | 我要投稿

作者:泡椒味的口香糖 ?| 來(lái)源:計(jì)算機(jī)視覺(jué)工坊

添加微信:dddvisiona,備注:三維重建,拉你入群。文末附行業(yè)細(xì)分群。

0. 筆者個(gè)人體會(huì)

上一篇文章我們介紹了僅優(yōu)化NeRF和僅優(yōu)化位姿的NeRF SLAM方案,本文將介紹位姿和NeRF聯(lián)合優(yōu)化的相關(guān)工作,也是NeRF SLAM最主要的方向。下一篇文章我們將介紹物體級(jí)NeRF SLAM和雷達(dá)NeRF SLAM的方案。

前情回顧:為避免生硬的翻譯原文,本文針對(duì)每篇文章的介紹將以四個(gè)問(wèn)題來(lái)進(jìn)行,分別是這篇文章希望解決什么問(wèn)題?核心思想是什么?具體如何實(shí)現(xiàn)?有什么效果?當(dāng)然筆者水平有限,如果有理解不當(dāng)?shù)牡胤綒g迎各位讀者批評(píng)指正~

計(jì)算機(jī)視覺(jué)工坊

,贊3

1. 目錄

還是先放一個(gè)目錄列舉本文都介紹了哪些方案。

僅優(yōu)化NeRF

0、NeRF

1、Point-NeRF

2、NeRF-SLAM

僅優(yōu)化位姿

3、iNeRF

4、NeRF-Loc

5、NeRF-VINS(未開(kāi)源)

位姿和NeRF聯(lián)合優(yōu)化

6、iMAP

7、BARF

8、NeRF--

9、NICE-SLAM

10、Vox-Fusion

11、NoPe-NeRF

12、RoDynRF

13、DIM-SLAM

14、Orbeez-SLAM

15、GO-SLAM

16、NICER-SLAM(未開(kāi)源)

17、Co-SLAM

物體級(jí)NeRF SLAM

18、RO-MAP

19、vMAP

LiDAR NeRF SLAM

20、LiDAR-NeRF

21、IR-MCL

22、NeRF-LOAM

23、LONER

4. 位姿和NeRF聯(lián)合優(yōu)化

6、iMAP

標(biāo)題:iMAP: Implicit Mapping and Positioning in Real-Time

作者:Edgar Sucar, Shikun Liu, Joseph Ortiz, Andrew J. Davison

機(jī)構(gòu):帝國(guó)理工學(xué)院

來(lái)源:ICCV 2021

原文鏈接:https://arxiv.org/abs/2103.12352

代碼鏈接:https://github.com/tymoteuszb/implicit-slam

這篇文章希望解決什么問(wèn)題?

驗(yàn)證MLP可以作為RGBD SLAM的唯一場(chǎng)景表征。

核心思想是什么?

基于RGBD跟蹤,同時(shí)優(yōu)化NeRF和位姿。

具體如何實(shí)現(xiàn)?

第一個(gè)既優(yōu)化NeRF又優(yōu)化位姿的NeRF SLAM方案,分為跟蹤和建圖兩個(gè)線程。首先輸入RGBD進(jìn)行跟蹤,基于關(guān)鍵幀生成一個(gè)記憶庫(kù),然后進(jìn)行位姿和場(chǎng)景的聯(lián)合優(yōu)化。損失函數(shù)也包括光度損失和深度損失兩部分,后面很多工作也都是使用這兩個(gè)損失。

具體的關(guān)鍵幀選取策略,是用逆渲染深度與RGBD獲取的深度值比對(duì),超過(guò)一定閾值則認(rèn)為是關(guān)鍵幀。

效果如何?

這項(xiàng)工作比較早了,驗(yàn)證了NeRF在SLAM建圖中可以進(jìn)行很好的空洞補(bǔ)全(新視圖合成)。這里也推薦「3D視覺(jué)工坊」新課程《深度剖析面向機(jī)器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實(shí)戰(zhàn)》。

定位精度對(duì)比,由于工作很早,所以精度較差,遠(yuǎn)不如ORB-SLAM2這些傳統(tǒng)方法。但iMAP這個(gè)框架很有開(kāi)創(chuàng)性。

7、BARF

標(biāo)題:BARF: Bundle-Adjusting Neural Radiance Fields

作者:Chen-Hsuan Lin, Wei-Chiu Ma, Antonio Torralba, Simon Lucey

機(jī)構(gòu):卡內(nèi)基梅隆大學(xué)、麻省理工學(xué)院、阿德萊德大學(xué)

來(lái)源:ICCV 2021

原文鏈接:https://arxiv.org/abs/2104.06405

代碼鏈接:https://github.com/chenhsuanlin/bundle-adjusting-NeRF

官方主頁(yè):https://chenhsuanlin.bitbucket.io/bundle-adjusting-NeRF/

這篇文章希望解決什么問(wèn)題?

傳統(tǒng)的NeRF訓(xùn)練需要非常精確的位姿,并且NeRF SLAM反向傳播優(yōu)化位姿時(shí),對(duì)位姿初值很敏感,容易陷入局部最優(yōu)。

核心思想是什么?

光滑信號(hào)相較復(fù)雜信號(hào)更容易找到全局最優(yōu)解,所以優(yōu)化過(guò)程如果能平滑一些,就不容易陷入局部最優(yōu)。

具體如何實(shí)現(xiàn)?

這篇文章是很早將BA引入NeRF SLAM的工作,給定不完美的位姿也可以訓(xùn)練NeRF。主要工作是應(yīng)用傳統(tǒng)圖像對(duì)齊理論來(lái)聯(lián)合優(yōu)化位姿和NeRF,并且提出一個(gè)由粗到精的策略來(lái)優(yōu)化位姿,使其對(duì)位置編碼的噪聲不敏感。

這個(gè)由粗到精實(shí)際上是通過(guò)w這個(gè)彈性正則化項(xiàng)來(lái)實(shí)現(xiàn)的,也就是優(yōu)化過(guò)程中它會(huì)不斷變化,實(shí)際上也就是使網(wǎng)絡(luò)更加平滑。

效果如何?

先看看位置編碼的影響,具體做法就是將圖片分塊,分別渲染再拼接。對(duì)比原始NeRF的位置編碼,不加位置編碼的效果,還有BARF的效果。

下面這個(gè)實(shí)驗(yàn)也是位置編碼的影響,給定不完美位姿,b是原始NeRF的效果,c是驗(yàn)證BARF由粗到精優(yōu)化的效果,證明不會(huì)陷入局部最優(yōu)。

定量對(duì)比,各項(xiàng)指標(biāo)(包括定位和建圖)都實(shí)現(xiàn)了比較好的提升。

8、NeRF--

標(biāo)題:NeRF--: Neural Radiance Fields Without Known Camera Parameters

作者:Zirui Wang, Shangzhe Wu, Weidi Xie, Min Chen, Victor Adrian Prisacariu

機(jī)構(gòu):牛津大學(xué)

原文鏈接:https://arxiv.org/abs/2102.07064

代碼鏈接:https://github.com/ActiveVisionLab/nerfmm

官方主頁(yè):https://nerfmm.active.vision/

這篇文章希望解決什么問(wèn)題?

沒(méi)有相機(jī)參數(shù)(包括內(nèi)參和位姿),只有RGB圖像時(shí)無(wú)法訓(xùn)練NeRF。

核心思想是什么?

將相機(jī)內(nèi)參、外參(位姿)設(shè)置成可學(xué)習(xí)的參數(shù),其余部分與NeRF步驟相同。

具體如何實(shí)現(xiàn)?

將相機(jī)內(nèi)參和外參設(shè)置為可學(xué)習(xí)的參數(shù),在訓(xùn)練時(shí)先將相機(jī)參數(shù)設(shè)為一個(gè)固定的初始化值,通過(guò)這個(gè)相機(jī)參數(shù)和并根據(jù)NeRF射線積分,從而獲得對(duì)應(yīng)點(diǎn)的體密度和RGB,獲得完整圖像后計(jì)算光度誤差。NeRF--可以未知相機(jī)的RGB圖像來(lái)端到端地訓(xùn)練整個(gè)pipeline。

此外,為了提高模型的效果,可以重復(fù)優(yōu)化相機(jī)內(nèi)參,即將訓(xùn)練完后的相機(jī)內(nèi)參保存為新的初始化值,重新訓(xùn)練。

效果如何?

在不知內(nèi)參和位姿的情況下,也可以達(dá)到與NeRF相當(dāng)?shù)闹亟ㄐЧ?,恢?fù)的位姿也和COLMAP持平。

9、NICE-SLAM

標(biāo)題:Neural Implicit Scalable Encoding for SLAM

作者:Zihan Zhu, Songyou Peng, Viktor Larsson, Weiwei Xu, Hujun Bao, Zhaopeng Cui, Martin R. Oswald, Marc Pollefeys

機(jī)構(gòu):浙江大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、隆德大學(xué)、MPI、阿姆斯特丹大學(xué)、微軟

來(lái)源:CVPR 2022

原文鏈接:https://arxiv.org/abs/2112.12130

代碼鏈接:https://github.com/cvg/nice-slam

官方主頁(yè):https://pengsongyou.github.io/nice-slam

這篇文章希望解決什么問(wèn)題?

1、場(chǎng)景重建過(guò)于平滑,丟失高頻細(xì)節(jié)

2、大場(chǎng)景存在網(wǎng)絡(luò)遺忘問(wèn)題(iMAP)

核心思想是什么?

通過(guò)引入基于特征網(wǎng)格的層次場(chǎng)景表達(dá),嵌入多層位置信息(使用多個(gè)MLP組合多分辨率空間網(wǎng)格),并使用預(yù)訓(xùn)練的幾何先驗(yàn)實(shí)現(xiàn)大尺度室內(nèi)場(chǎng)景重建

具體如何實(shí)現(xiàn)?

NICE-SLAM分為T(mén)racking和Mapping兩部分,Tracking根據(jù)輸入的RGBD信息估計(jì)位姿,Mapping生成RGB和Depth來(lái)做深度和光度損失。

Mapping包含Mid & Fine-level、Coarse-level、Color-level。首先由Mid Level進(jìn)行重建,然后使用Fine level進(jìn)行refine精細(xì)化。Mid level優(yōu)化網(wǎng)格特征,F(xiàn)ine level捕獲更小的高頻幾何細(xì)節(jié)。Coarse-level用來(lái)捕捉高層的幾何場(chǎng)景,例如墻,地板,等具有幾何結(jié)構(gòu)的物體(可以保證Tracking不會(huì)太差),用于預(yù)測(cè)未觀測(cè)到的幾何特征,還有外插的能力(未見(jiàn)視角的合成)。Color-level儲(chǔ)存顏色信息,用于生成場(chǎng)景中更為細(xì)致的顏色表征,從而提高在追蹤線程的準(zhǔn)確度。

效果如何?

畢竟是NeRF SLAM最經(jīng)典的文章,效果必然很好,缺點(diǎn)就是太慢了。當(dāng)然在很多場(chǎng)景上也會(huì)被其他NeRF SLAM方法拉出來(lái)打。

軌跡精度的對(duì)比,可以發(fā)現(xiàn)還是不如ORB-SLAM2這些傳統(tǒng)方法。

10、Vox-Fusion

標(biāo)題:Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation

作者:Xingrui Yang, Hai Li, Hongjia Zhai, Yuhang Ming, Yuqian Liu, Guofeng Zhang

機(jī)構(gòu):浙江大學(xué)、布里斯托爾大學(xué)、SenseTime

來(lái)源:ISMAR 2022

原文鏈接:https://arxiv.org/abs/2210.15858

代碼鏈接:https://github.com/zju3dv/Vox-Fusion

官方主頁(yè):https://yangxingrui.com/vox-fusion/

這篇文章希望解決什么問(wèn)題?

傳統(tǒng)的NeRF使用單個(gè)MLP,所以難以表達(dá)幾何細(xì)節(jié),并且很難擴(kuò)展到大場(chǎng)景。

核心思想是什么?

將NeRF與稀疏體素網(wǎng)格結(jié)合,使用八叉樹(shù)結(jié)合莫頓碼實(shí)現(xiàn)體素的快速分配和檢索。

具體如何實(shí)現(xiàn)?

Vox-Fusion將體密度更改為了體素,存儲(chǔ)的是SDF和RGB。Vox-Fusion由三部分組成:1、體渲染,將場(chǎng)景編碼為MLP和嵌入向量,并輸出給定像素的渲染顏色和SDF值;2、跟蹤過(guò)程,將RGB-D作為輸入,并通過(guò)微分優(yōu)化相機(jī)姿態(tài);3、建圖過(guò)程,重構(gòu)場(chǎng)景的幾何形狀。

有什么效果?

Vox-Fusion支持場(chǎng)景的動(dòng)態(tài)擴(kuò)展,這就意味著它不需要像之前的NeRF一樣先預(yù)定義地圖大小,而是可以像SLAM一樣增量得去構(gòu)建地圖。

相較于iMap和NICE-SLAM,各項(xiàng)指標(biāo)都有了全面的提升。主要對(duì)比的點(diǎn)是Vox-Fusion使用更大的分辨率也可以得到更多的高頻細(xì)節(jié)。

定性對(duì)比,即使使用比NICE-SLAM更大的分辨率,還是對(duì)桌腿、花這種更細(xì)小的物體重建效果更好,而NICE-SLAM對(duì)這些高頻細(xì)節(jié)不敏感。這里也推薦「3D視覺(jué)工坊」新課程《深度剖析面向機(jī)器人領(lǐng)域的3D激光SLAM技術(shù)原理、代碼與實(shí)戰(zhàn)》。

軌跡精度對(duì)比,相對(duì)NICE-SLAM有所提升。

11、NoPe-NeRF

標(biāo)題:NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior

作者:Wenjing Bian, Zirui Wang, Kejie Li, Jia-Wang Bian, Victor Adrian Prisacariu

機(jī)構(gòu):牛津大學(xué)

來(lái)源:CVPR 2023 Highlight

原文鏈接:https://arxiv.org/abs/2212.07388

代碼鏈接:https://github.com/ActiveVisionLab/nope-nerf/

官方主頁(yè):https://nope-nerf.active.vision/

也是NeRF很經(jīng)典的文章。

這篇文章希望解決什么問(wèn)題?

和NeRF---類似,也是沒(méi)有先驗(yàn)位姿時(shí)無(wú)法訓(xùn)練NeRF,尤其是在劇烈相機(jī)運(yùn)動(dòng)時(shí)。

核心思想是什么?

引入無(wú)畸變單目深度先驗(yàn),先驗(yàn)是通過(guò)在訓(xùn)練期間校正比例和平移參數(shù)生成的,從而能夠約束連續(xù)幀之間的相對(duì)姿態(tài)。

具體怎么做呢?

NoPe-NeRF的輸入是RGB序列,首先從單目深度估計(jì)網(wǎng)絡(luò)(DPT)生成單目深度圖,并重建點(diǎn)云,然后優(yōu)化NeRF、相機(jī)位姿、深度失真參數(shù)。訓(xùn)練主要也是依靠單目深度估計(jì)的深度圖和渲染出來(lái)的深度圖做損失。

具體來(lái)說(shuō),無(wú)畸變深度圖提供了兩個(gè)約束條件。通過(guò)在無(wú)畸變深度圖中反投影出的兩個(gè)點(diǎn)云距離的來(lái)提供相鄰圖像的相對(duì)姿態(tài),從而約束全局姿態(tài)估計(jì)。然后通過(guò)將無(wú)畸變深度視為表面,使用基于表面的光度一致性來(lái)約束相對(duì)姿態(tài)估計(jì)。

有什么效果?

這個(gè)圖很經(jīng)典啊,很多公眾號(hào)都拿這個(gè)圖當(dāng)封面。一方面表達(dá)了NoPe-NeRF可以聯(lián)合優(yōu)化位姿和NeRF,一方面表達(dá)了性能超越了其他SOTA方案。

做SLAM的話更關(guān)心位姿,所以這里再放一個(gè)和其他方案的軌跡精度對(duì)比。

12、RoDynRF

標(biāo)題:Robust Dynamic Radiance Fields

作者:Yu-Lun Liu, Chen Gao, Andreas Meuleman, Hung-Yu Tseng, Ayush Saraf, Changil Kim, Yung-Yu Chuang, Johannes Kopf, Jia-Bin Huang

機(jī)構(gòu):Meta、國(guó)立臺(tái)灣大學(xué)、KAIST、馬里蘭大學(xué)

來(lái)源:CVPR 2023

原文鏈接:https://arxiv.org/abs/2301.02239

代碼鏈接:https://github.com/facebookresearch/robust-dynrf

官方主頁(yè):https://robust-dynrf.github.io/

本身這篇文章研究的是動(dòng)態(tài)NeRF,但是和NeR--一樣都可以在沒(méi)有位姿和內(nèi)參的情況下聯(lián)合優(yōu)化位姿和NeRF,所以也算是NeRF SLAM的一種。

這篇文章希望解決什么問(wèn)題?

1、傳統(tǒng)的NeRF基于靜態(tài)環(huán)境假設(shè)

2、動(dòng)態(tài)環(huán)境下由SfM估計(jì)的位姿不準(zhǔn)確

核心思想是什么?

聯(lián)合優(yōu)化靜態(tài)、動(dòng)態(tài)輻射場(chǎng)和相機(jī)參數(shù)(位姿和焦距)。

具體怎么做呢?

用靜態(tài)和動(dòng)態(tài)輻射場(chǎng)分別建模靜態(tài)和動(dòng)態(tài)場(chǎng)景。靜態(tài)輻射場(chǎng)就是一個(gè)普通的NeRF,使用坐標(biāo)和方向作為輸入,并預(yù)測(cè)體密度和顏色。靜態(tài)部分的密度不隨時(shí)間和觀察方向而變化,因此可以使用查詢特征的總和作為密度(而不是使用MLP),靜態(tài)區(qū)域loss同時(shí)優(yōu)化靜態(tài)體素場(chǎng)和相機(jī)參數(shù)。動(dòng)態(tài)輻射場(chǎng)取采樣坐標(biāo)和時(shí)間t,得到正則空間中的變形坐標(biāo)。然后利用這些變形坐標(biāo)對(duì)動(dòng)態(tài)體素場(chǎng)中的特征進(jìn)行查詢,并將特征隨時(shí)間指數(shù)傳遞給隨時(shí)間變化的淺層MLP,得到動(dòng)態(tài)部分的顏色、密度和非剛性。最后在體渲染之后,從靜態(tài)和動(dòng)態(tài)部分以及非剛性Mask獲得RGB圖像和深度圖。

有什么效果?

使用的設(shè)備是一塊NVIDIA V100GPU,訓(xùn)練了28小時(shí)。隨意捕捉一組帶動(dòng)態(tài)目標(biāo)的視頻,就可以在不知相機(jī)參數(shù)的情況下進(jìn)行動(dòng)態(tài)NeRF重建。

由于是SLAM總結(jié),所以這里放了和其他方案的定位軌跡精度,可以發(fā)現(xiàn)其他SOTA方案都無(wú)法處理動(dòng)態(tài)場(chǎng)景。

13、DIM-SLAM

標(biāo)題:Dense RGB SLAM with Neural Implicit Maps

作者:Heng Li, Xiaodong Gu, Weihao Yuan, Luwei Yang, Zilong Dong, Ping Tan

機(jī)構(gòu):香港科技大學(xué)、阿里巴巴、西蒙·弗雷澤大學(xué)

來(lái)源:ICLR 2023

原文鏈接:https://arxiv.org/abs/2301.08930

代碼鏈接:https://github.com/HKUST-3DV/DIM-SLAM

官方主頁(yè):https://poptree.github.io/DIM-SLAM/

作者宣稱這是第一個(gè)具有神經(jīng)隱式建圖表示的稠密RGB SLAM,因?yàn)闆](méi)有使用深度信息。

這篇文章希望解決什么問(wèn)題?

沒(méi)有深度信息只有RGB的情況下訓(xùn)練NeRF。

核心思想是什么?

引入一個(gè)分層的特征體積來(lái)輔助隱式地圖解碼器,融合不同尺度的形狀線索以促進(jìn)地圖重建。同時(shí)通過(guò)匹配渲染和輸入視頻幀來(lái)同時(shí)優(yōu)化相機(jī)運(yùn)動(dòng)和神經(jīng)隱式地圖。

具體怎么做呢?

DIM-SLAM是一個(gè)完全RGB的SLAM系統(tǒng),不需要任何單目深度估計(jì)和光流預(yù)訓(xùn)練模型(這個(gè)還是挺亮眼的),就能同時(shí)優(yōu)化場(chǎng)景和相機(jī)位姿,相機(jī)位姿的精度甚至超過(guò)了一些RGB-D SLAM方法。

NeRF在沒(méi)有深度監(jiān)督的情況下難以收斂,為了解決這個(gè)問(wèn)題,DIM-SLAM引入了一個(gè)分層的特征體素以提高場(chǎng)景表示能力。DIM-SLAM在給定攝像機(jī)姿態(tài)的情況下,對(duì)多尺度特征沿射線進(jìn)行采樣,并通過(guò)MLP解碼器將多尺度特征計(jì)算出每個(gè)像素的深度和顏色。這樣,通過(guò)將所呈現(xiàn)的圖像與觀察到的圖像進(jìn)行匹配,可以同時(shí)求解相機(jī)位姿和三維場(chǎng)景建圖。

還是用了一個(gè)warping損失來(lái)提高精度。

有什么效果?

運(yùn)行設(shè)備是兩塊NVIDIA 2080Ti GPU。作為僅RGB方法,建圖精度可以媲美RGBD方法。


看看定位精度的定量對(duì)比,已經(jīng)可以媲美ORB-SLAM2這種傳統(tǒng)方法和DROID-SLAM這種學(xué)習(xí)方法。

14、Orbeez-SLAM

標(biāo)題:Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping

作者:Chi-Ming Chung, Yang-Che Tseng, Ya-Ching Hsu, Xiang-Qian Shi, Yun-Hung Hua, Jia-Fong Yeh, Wen-Chin Chen, Yi-Ting Chen, Winston H. Hsu

機(jī)構(gòu):國(guó)立臺(tái)灣大學(xué)

原文鏈接:https://arxiv.org/abs/2209.13274

代碼鏈接:https://github.com/MarvinChung/Orbeez-SLAM

這篇文章希望解決什么問(wèn)題?

很多NeRF SLAM需要針對(duì)每個(gè)新場(chǎng)景重新訓(xùn)練,實(shí)際應(yīng)用要求SLAM具備泛化性。

核心思想是什么?

傳統(tǒng)SLAM可以在NeRF訓(xùn)練初期提供較為準(zhǔn)確的位姿,使得沒(méi)有深度信息也可以快速收斂。

具體怎么做呢?

個(gè)人感覺(jué)是傳統(tǒng)SLAM和NeRF結(jié)合很好的一篇文章,使用的是ORB-SLAM2和Instant-NGP的組合方案,同樣不需要深度信息。跟蹤和建圖同時(shí)運(yùn)行,首先使用ORB-SLAM2進(jìn)行跟蹤,如果定位精度較高并且建圖線程不繁忙則添加為關(guān)鍵幀,再用關(guān)鍵幀和位姿去優(yōu)化NeRF(Instant-NGP)。

還提供了一種新的射線采樣方法。

有什么效果?

運(yùn)行設(shè)備是Intel i7-9700 CPU和一塊NVIDIA RTX3090 GPU,可以在線訓(xùn)練。

定位精度對(duì)比,這個(gè)不太好,本身就是ORB-SLAM2提供的初始位姿,優(yōu)化后還不如ORB2了。

15、GO-SLAM

標(biāo)題:GO-SLAM: Global Optimization for Consistent 3D Instant Reconstruction

作者:Youmin Zhang, Fabio Tosi, Stefano Mattoccia, Matteo Poggi

機(jī)構(gòu):博洛尼亞大學(xué)

來(lái)源:ICCV 2023

原文鏈接:https://arxiv.org/abs/2309.02436

代碼鏈接:https://github.com/youmi-zym/GO-SLAM

官方主頁(yè):https://youmi-zym.github.io/projects/GO-SLAM/

這篇文章希望解決什么問(wèn)題?

NeRF SLAM定位精度低。

核心思想是什么?

使用BA和回環(huán)來(lái)優(yōu)化位姿。

具體怎么做呢?

GO-SLAM本身是基于DROID-SLAM和Instant-NGP的組合,主要工作是引入了BA和回環(huán)模塊。GO-SLAM由三個(gè)并行線程組成:前端跟蹤、后端跟蹤,以及實(shí)例建圖。GO-SLAM的前端跟蹤線程是直接用的DROID-SLAM的跟蹤模塊,后面訓(xùn)練過(guò)程也是直接調(diào)的DROID-SLAM的預(yù)訓(xùn)練權(quán)重,只不過(guò)加入了新的回環(huán)和BA優(yōu)化。然后使用RAFT來(lái)計(jì)算新一幀相對(duì)于最后一個(gè)關(guān)鍵幀的光流,如果平均流大于閾值,則創(chuàng)建新關(guān)鍵幀。后端跟蹤線程的重點(diǎn)是通過(guò)全BA生成全局一致的位姿和深度預(yù)測(cè)。最后,實(shí)例建圖線程根據(jù)最新的位姿信息實(shí)時(shí)更新三維重建。GO-SLAM的輸入可以是單目雙目,還可以是RGB-D,非常的通用!

GO-SLAM主要還是基于NeRF進(jìn)行稠密重建,可以發(fā)現(xiàn)相較于NICE-SLAM這些SOTA方案,GO-SLAM重建場(chǎng)景的全局一致性更好,這主要是因?yàn)樗肓嘶丨h(huán)和全局BA來(lái)優(yōu)化累計(jì)誤差。

還有在EuRoC數(shù)據(jù)集上的定性重建結(jié)果。相較于DROID-SLAM,GO-SLAM的重建效果更加干凈!

軌跡精度對(duì)比,在TUM、EuRoC、ScanNet三個(gè)數(shù)據(jù)集都對(duì)比了ATE,出于篇幅限制只放一個(gè)TUM的。

16、NICER-SLAM

標(biāo)題:NICER-SLAM: Neural Implicit Scene Encoding for RGB SLAM

作者:Zihan Zhu, Songyou Peng, Viktor Larsson, Zhaopeng Cui, Martin R. Oswald, Andreas Geiger, Marc Pollefeys

機(jī)構(gòu):ETHZ、MPI、隆德大學(xué)、浙江大學(xué)、阿姆斯特丹大學(xué)、烏賓根大學(xué)、微軟

原文鏈接:https://arxiv.org/abs/2302.03594

這篇文章希望解決什么問(wèn)題?

RGB數(shù)據(jù)沒(méi)有深度信息,無(wú)法產(chǎn)生高質(zhì)量的NeRF渲染結(jié)果。

核心思想是什么?

引入單目深度估計(jì)進(jìn)行監(jiān)督,還為SDF表征建立分層神經(jīng)隱式編碼。

具體如何實(shí)現(xiàn)?

NICER-SLAM以RGB流作為輸入,并輸出相機(jī)位姿,以及學(xué)習(xí)的幾何和顏色的分層場(chǎng)景表示。實(shí)際上是在NICE-SLAM的基礎(chǔ)上引入單目深度估計(jì),同時(shí)融合了重建、顏色、位姿、光流、warping-loss、深度、Eikonal Loss損失。

其實(shí)這篇文章的啟發(fā)意義不大,但是證明了引入各種各種的損失可以提升性能。

效果如何?

重建效果對(duì)比,在只是用RGB的方法里效果不錯(cuò),甚至和RGBD方法持平。

相機(jī)跟蹤結(jié)果,在RGB里好像也沒(méi)達(dá)到最優(yōu)。

17、Co-SLAM

標(biāo)題:Co-SLAM: Joint Coordinate and Sparse Parametric Encodings for Neural Real-Time SLAM

作者:Hengyi Wang, Jingwen Wang, Lourdes Agapito

機(jī)構(gòu):倫敦大學(xué)學(xué)院

來(lái)源:CVPR 2023

原文鏈接:https://arxiv.org/abs/2304.14377

代碼鏈接:https://github.com/HengyiWang/Co-SLAM

官方主頁(yè):https://hengyiwang.github.io/projects/CoSLAM

這篇文章希望解決什么問(wèn)題?

1、Instant-NPG雖然訓(xùn)練速度很快,但是因?yàn)樗褂昧斯>幋a,所以在空間很多位置都不連續(xù)。

2、傳統(tǒng)的NeRF在大場(chǎng)景面臨遺忘問(wèn)題。

核心思想是什么?

1、使用one-blob編碼提高哈希編碼的連續(xù)性。

2、在所有關(guān)鍵幀上采樣來(lái)訓(xùn)練NeRF,而不是像NICE-SLAM那樣維護(hù)一個(gè)關(guān)鍵幀列表。

具體如何實(shí)現(xiàn)?

首先將傳統(tǒng)NeRF中的體密度改為T(mén)SDF,訓(xùn)練也是聯(lián)合優(yōu)化NeRF和相機(jī)位姿。

Co-SLAM的輸入是RGBD序列,進(jìn)行射線采樣和跟蹤獲得位姿。傳統(tǒng)的Instant-NGP是先建立網(wǎng)格,將采樣點(diǎn)輸入并在哈希表中檢索,再輸給MLP進(jìn)行渲染。為了將離散的哈希表轉(zhuǎn)換成連續(xù)的,這里引入了obe-blob編碼(實(shí)際上是將連通區(qū)域編碼成相同的數(shù)值),后面將編碼的點(diǎn)再過(guò)一遍MLP。

效果如何?

運(yùn)行設(shè)備是i7-12700K CPU和RTX 3090ti GPU,運(yùn)行速率是5-13 Hz。

定量結(jié)果對(duì)比,各項(xiàng)指標(biāo)都很好,運(yùn)行速度也提高很多。

軌跡精度的對(duì)比,相比NICE-SLAM精度有所提升,但還是不如傳統(tǒng)的ORB-SLAM2。

總結(jié):在NeRF SLAM應(yīng)用里,位姿和NeRF聯(lián)合優(yōu)化是最主要的方向,這方面的文章非常多。

3D視覺(jué)細(xì)分群成立啦!

目前工坊已經(jīng)建立了3D視覺(jué)方向多個(gè)社群,包括SLAM、工業(yè)3D視覺(jué)、自動(dòng)駕駛方向。
細(xì)分群包括:
[工業(yè)方向]三維點(diǎn)云、結(jié)構(gòu)光、機(jī)械臂、缺陷檢測(cè)、三維測(cè)量、TOF、相機(jī)標(biāo)定、綜合群;
[SLAM方向]多傳感器融合、ORB-SLAM、激光SLAM、機(jī)器人導(dǎo)航、RTK|GPS|UWB等傳感器交流群、SLAM綜合討論群;
[自動(dòng)駕駛方向]深度估計(jì)、Transformer、毫米波|激光雷達(dá)|視覺(jué)攝像頭傳感器討論群、多傳感器標(biāo)定、自動(dòng)駕駛綜合群等。
[三維重建方向]NeRF、colmap、OpenMVS、MVSNet等。
[無(wú)人機(jī)方向]四旋翼建模、無(wú)人機(jī)飛控等。
除了這些,還有求職、硬件選型、視覺(jué)產(chǎn)品落地等交流群。
大家可以添加小助理微信: dddvisiona,備注:加群+方向+學(xué)校|公司, 小助理會(huì)拉你入群


高邮市| 天峨县| 广丰县| 濮阳县| 三都| 南城县| 天全县| 漠河县| 禄丰县| 方山县| 象山县| 宜章县| 汉源县| 辽宁省| 德州市| 华容县| 华蓥市| 天水市| 稷山县| 永修县| 汉寿县| 江川县| 错那县| 谢通门县| 潼关县| 平塘县| 腾冲县| 拉孜县| 澄江县| 航空| 陆良县| 敖汉旗| 汉中市| 泸州市| 宜春市| 杨浦区| 城市| 白河县| 武穴市| 土默特右旗| 玛沁县|