ICCV 2023 | R3D3:從多視圖像實(shí)現(xiàn)動(dòng)態(tài)場景的密集三維重建
作者:Scentea ?| 來源:3D視覺工坊
在公眾號「3D視覺工坊」后臺(tái),回復(fù)「原論文」即可獲取論文pdf。
添加微信:dddvisiona,備注:三維重建,拉你入群。文末附行業(yè)細(xì)分群。
R3D3是一種用于密集三維重建和自我運(yùn)動(dòng)估計(jì)的多攝像頭算法,該方法通過迭代地結(jié)合多攝像頭的幾何估計(jì)和單目深度細(xì)化來實(shí)現(xiàn)一致的密集三維重建。R3D3的核心思想是將單目線索與來自多攝像頭的空間-時(shí)間信息的幾何深度估計(jì)相結(jié)合,通過在共視圖中迭代密集對應(yīng)關(guān)系,計(jì)算準(zhǔn)確的幾何深度和位姿估計(jì)。為了在多攝像頭設(shè)置中確定共視幀,作者提出了一種簡單而有效的多攝像頭算法,用于平衡性能和效率。深度細(xì)化網(wǎng)絡(luò)以幾何深度和對應(yīng)的不確定性為輸入,并生成細(xì)化深度,以改善例如移動(dòng)物體和低紋理區(qū)域的重建,細(xì)化的深度估計(jì)作為下一次幾何估計(jì)迭代的基礎(chǔ),從而在增量幾何重建和單目深度估計(jì)之間閉合循環(huán)。R3D3在DDAD和NuScenes基準(zhǔn)測試中實(shí)現(xiàn)了最優(yōu)異的多攝像頭深度估計(jì)性能,與單目SLAM方法相比有更高的精度和魯棒性。這里也推薦「3D視覺工坊」新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)》。
1. 引言
密集三維重建和自我運(yùn)動(dòng)估計(jì)是自動(dòng)駕駛和機(jī)器人領(lǐng)域的關(guān)鍵挑戰(zhàn)。與當(dāng)前復(fù)雜的多模態(tài)系統(tǒng)相比,多攝像頭系統(tǒng)提供了一種更簡單、低成本的替代方案,然而,基于攝像頭的復(fù)雜動(dòng)態(tài)場景的三維重建一直面臨極大的困難,因?yàn)楝F(xiàn)有的解決方案通常會(huì)產(chǎn)生不完整或不連貫的結(jié)果。作者提出了R3D3,一種用于密集3D重建和自我運(yùn)動(dòng)估計(jì)的多攝像頭系統(tǒng),通過迭代地結(jié)合多攝像頭的幾何估計(jì)和單目深度細(xì)化來實(shí)現(xiàn)一致的密集三維模型。
將感知輸入轉(zhuǎn)化為環(huán)境的密集三維模型,并跟蹤觀察者的位置是機(jī)器人學(xué)和自動(dòng)駕駛的主要研究內(nèi)容之一?,F(xiàn)代系統(tǒng)依賴于融合多種傳感器模態(tài),如攝像頭、激光雷達(dá)、雷達(dá)、慣性測量單元等,使硬件和軟件棧變得復(fù)雜且昂貴,相比之下,多攝像頭系統(tǒng)提供了一種更簡單、低成本的替代方案,已廣泛應(yīng)用于現(xiàn)代消費(fèi)者汽車。然而,基于圖像的密集3D重建和自我運(yùn)動(dòng)估計(jì)在大規(guī)模動(dòng)態(tài)場景中仍是一個(gè)開放性的研究問題,因?yàn)橐苿?dòng)物體、重復(fù)紋理以及光學(xué)退化等方面都帶來了顯著的算法挑戰(zhàn)。
提出了一種用于密集三維重建和自我運(yùn)動(dòng)估計(jì)的多攝像頭算法R3D3。
通過一種新穎的多攝像頭密集束調(diào)整(DBA)方法和多攝像頭共視圖,實(shí)現(xiàn)了準(zhǔn)確的幾何深度和位姿估計(jì)。
通過深度細(xì)化網(wǎng)絡(luò),整合了先驗(yàn)幾何深度和不確定性以及單目線索,從而提高了密集三維重建的質(zhì)量。
2. 相關(guān)工作
這篇論文的相關(guān)工作部分主要討論了多視點(diǎn)立體(MVS)方法、視覺SLAM方法和自監(jiān)督深度估計(jì)方法。MVS方法旨在從具有已知位姿的一組圖像中恢復(fù)密集的3D場景結(jié)構(gòu);視覺SLAM方法關(guān)注從視覺輸入中聯(lián)合映射環(huán)境和跟蹤觀察者的軌跡,即一個(gè)或多個(gè)RGB攝像頭;自監(jiān)督深度估計(jì)方法關(guān)注從單目線索預(yù)測密集深度,如透視物體表面和場景上下文。
Multi-view Stereo(MVS)方法旨在從具有已知位姿的一組圖像中恢復(fù)密集的3D場景結(jié)構(gòu)。盡管早期的研究主要關(guān)注經(jīng)典優(yōu)化方法,但近年來,許多研究開始利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來估計(jì)多個(gè)深度假設(shè)平面上的特征匹配,從而在3D代價(jià)體中進(jìn)行匹配。早期方法采用多個(gè)圖像對之間的多個(gè)代價(jià)體,而最近的方法則使用整個(gè)圖像集的單一代價(jià)體,這些方法假設(shè)在一個(gè)受控環(huán)境中有許多高度重疊的圖像和已知的位姿來創(chuàng)建三維代價(jià)體。相反,本文的目標(biāo)是從未知軌跡的移動(dòng)平臺(tái)上的任意多攝像頭設(shè)置中實(shí)現(xiàn)穩(wěn)健的密集3D重建。
傳統(tǒng)的SLAM系統(tǒng)通常分為不同階段,首先將圖像處理為關(guān)鍵點(diǎn)匹配,然后使用這些匹配來估計(jì)3D場景幾何和相機(jī)軌跡,另一類方法直接基于像素強(qiáng)度優(yōu)化3D幾何和相機(jī)軌跡。最近的方法將基于CNN的深度和姿態(tài)預(yù)測集成到SLAM流程中,這些方法面臨的共同挑戰(zhàn)是由于低紋理區(qū)域、動(dòng)態(tài)物體或光學(xué)退化引起的像素對應(yīng)中的離群值,需要使用魯棒估計(jì)技術(shù)來過濾這些離群值。
自監(jiān)督深度估計(jì)的開創(chuàng)性工作是由Zhou等人[1]提出的,他們通過最小化視圖合成損失來學(xué)習(xí)深度估計(jì),該損失使用幾何約束將參考視圖中的顏色信息變形到目標(biāo)視圖。后續(xù)的研究主要關(guān)注改進(jìn)網(wǎng)絡(luò)架構(gòu)、損失正則化和訓(xùn)練策略,最近的方法從多視圖立體視覺中汲取靈感,提出使用3D代價(jià)體來整合時(shí)間信息。然而,這些方法仍然關(guān)注單攝像頭、前向場景,而這并不能反映自動(dòng)駕駛汽車中真實(shí)世界的傳感器設(shè)置。另一類最近的研究關(guān)注利用多攝像頭設(shè)置中重疊攝像頭的空間信息,這些方法利用空間上下文來提高準(zhǔn)確性,并實(shí)現(xiàn)絕對尺度深度學(xué)習(xí)。然而,這些方法忽略了時(shí)間域,而時(shí)間域?qū)ι疃裙烙?jì)提供了有用的線索。
3.方法
R3D3 算法通過結(jié)合單目視覺線索和來自多攝像頭的空間-時(shí)間信息的幾何深度估計(jì),實(shí)現(xiàn)了在動(dòng)態(tài)室外環(huán)境中的密集、一致的三維重建。該方法首先利用多攝像頭系統(tǒng)的空間-時(shí)間信息進(jìn)行幾何深度估計(jì)和相機(jī)位姿估計(jì),為了提高幾何深度不可靠的區(qū)域(如移動(dòng)物體或低紋理區(qū)域)的重建質(zhì)量,作者引入了一個(gè)深度細(xì)化網(wǎng)絡(luò),該網(wǎng)絡(luò)接受幾何深度和不確定性作為輸入,并產(chǎn)生細(xì)化后的深度。此外,細(xì)化后的深度估計(jì)作為下一次幾何估計(jì)迭代的基礎(chǔ),從而在增量幾何重建和單目深度估計(jì)之間形成閉環(huán)。
本小節(jié)詳細(xì)介紹了如何從每個(gè)圖像中提取相關(guān)特征和上下文特征,以及如何構(gòu)建共視圖和計(jì)算特征相關(guān)性。主要內(nèi)容包括:
特征提取:通過深度相關(guān)編碼器()和上下文編碼器()從每個(gè)圖像中分別提取相關(guān)特征和上下文特征。
共視圖:將相關(guān)特征和上下文特征存儲(chǔ)在一個(gè)圖中。作者構(gòu)建了具有三種邊的共視圖:時(shí)間邊、空間邊和空間-時(shí)間邊。為了在多攝像頭設(shè)置中實(shí)現(xiàn)高效的共視圖構(gòu)建,作者設(shè)計(jì)了一個(gè)簡單而有效的共視圖構(gòu)建算法。
特征相關(guān)性:對于圖中的每條邊,計(jì)算特征相關(guān)性。通過點(diǎn)積計(jì)算4D特征相關(guān)體,并使用查找操作符限制相關(guān)搜索區(qū)域。
這一部分的核心是如何從圖像中提取特征并構(gòu)建共視圖,以便在后續(xù)步驟中進(jìn)行幾何深度估計(jì)和相機(jī)位姿估計(jì)。
闡述了如何根據(jù)共視圖中的每條邊來估計(jì)相對位姿和深度。這部分主要包括流量校正、多相機(jī)密集束調(diào)整以及深度和位姿聚合。首先,給定和的初始估計(jì),計(jì)算誘導(dǎo)流以采樣相關(guān)體;然后將采樣的相關(guān)特征、上下文特征和誘導(dǎo)流輸入到卷積GRU中。GRU預(yù)測流殘差和置信權(quán)重;接著,作者提出了一種多相機(jī)密集束調(diào)整(DBA)算法,用于在共視圖中的每條邊上迭代地優(yōu)化深度和相對位姿估計(jì);最后,在多次迭代后,作者使用加權(quán)平均法聚合每個(gè)節(jié)點(diǎn)的深度和位姿估計(jì),以得到最終的深度圖和相機(jī)位姿。
本小節(jié)提出了一種深度優(yōu)化方法,通過結(jié)合幾何深度估計(jì)和單目視覺線索,可以在幾何估計(jì)不可靠的情況下改善重建效果。作者使用了一個(gè)由參數(shù)表示的卷積神經(jīng)網(wǎng)絡(luò),將深度、置信度和對應(yīng)的圖像作為輸入。網(wǎng)絡(luò)預(yù)測改進(jìn)后的密集深度。通過使用每個(gè)邊緣置信度權(quán)重的最大值,計(jì)算每個(gè)幀的深度置信度。對于低于閾值β的置信度區(qū)域,將輸入深度和置信度權(quán)重設(shè)為零。將這些與圖像進(jìn)行連接,并將深度和置信度與1/8縮放的特征進(jìn)行連接。與之前的方法類似,輸出深度在四個(gè)尺度上進(jìn)行預(yù)測。為了適應(yīng)傳感器設(shè)置中不同攝像頭之間的焦距差異,對輸出進(jìn)行焦距縮放。
不同于幾何方法,單目深度估計(jì)器從語義線索中推斷深度,這使得它們在不同領(lǐng)域之間的泛化能力受到限制。因此,作者在原始的真實(shí)世界視頻上通過自監(jiān)督的方式訓(xùn)練,最小化視圖合成損失。通過計(jì)算目標(biāo)圖像Itc和參考圖像It'c'在目標(biāo)視點(diǎn)上的光度誤差,實(shí)現(xiàn)自監(jiān)督深度估計(jì)。自監(jiān)督深度估計(jì)是一個(gè)經(jīng)過充分研究的領(lǐng)域,作者遵循了應(yīng)用正則化技術(shù)過濾光度誤差的通用做法。
在論文的 3.4 小節(jié)中,作者詳細(xì)描述了整個(gè)推理過程,包括如何從多個(gè)攝像頭獲取數(shù)據(jù)、估計(jì)深度和相對姿態(tài)、以及如何優(yōu)化和融合這些信息以獲得稠密的三維重建結(jié)果。
首先,從C個(gè)攝像頭在時(shí)間t處獲取幀,并將其編碼并整合到具有初始深度圖dtc和自我姿態(tài)Pt的共視圖G=(V,E)中;然后,對于共視圖中的每條邊(i,j)∈E,從深度di和相對攝像頭姿態(tài)(由自我姿態(tài)P和攝像頭外參T導(dǎo)出)計(jì)算誘導(dǎo)流,從中聚合特征相關(guān)性,作為GRU的輸入,該GRU估計(jì)流更新和置信度,通過多攝像頭DBA操作在k次迭代中使用新的流估計(jì)f全局對齊深度d和姿態(tài)P;最后,對于共視圖中的每個(gè)節(jié)點(diǎn)i∈V,文中使用深度優(yōu)化網(wǎng)絡(luò)優(yōu)化深度圖。
整個(gè)推理過程包括以下幾個(gè)關(guān)鍵步驟:
將來自多個(gè)攝像頭的幀編碼并整合到共視圖中。
估計(jì)每條邊的深度和相對姿態(tài)。
使用 GRU 預(yù)測流更新和置信度。
通過多攝像頭 DBA 方法全局對齊深度和姿態(tài)。
使用深度優(yōu)化網(wǎng)絡(luò)優(yōu)化每個(gè)節(jié)點(diǎn)的深度圖。
4. 實(shí)驗(yàn)
在實(shí)驗(yàn)部分,作者展示了他們的方法在兩個(gè)廣泛使用的多攝像頭深度估計(jì)基準(zhǔn)測試(DDAD和NuScenes)上的性能,并與現(xiàn)有的SOTA方法進(jìn)行了比較。此外,他們還展示了與單目SLAM方法的精度和魯棒性比較。實(shí)驗(yàn)結(jié)果表明,通過共同利用多攝像頭約束以及單目深度線索,他們的方法在動(dòng)態(tài)戶外環(huán)境中實(shí)現(xiàn)了魯棒的密集3D重建和自我運(yùn)動(dòng)估計(jì)。此外,他們還對共視圖構(gòu)建算法進(jìn)行了評估,并將其與現(xiàn)有算法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果證實(shí)了他們的方法在幾何深度估計(jì)、單目深度估計(jì)和完整方法之間有效地結(jié)合了各自的優(yōu)勢,同時(shí)避免了各自的弱點(diǎn)。這里也推薦「3D視覺工坊」新課程《徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)》。
5. 結(jié)論
R3D3算法通過共同利用多攝像頭約束以及單目深度線索,在動(dòng)態(tài)戶外環(huán)境中實(shí)現(xiàn)了魯棒的密集3D重建和自我運(yùn)動(dòng)估計(jì)。作者提出了一種新穎的多攝像頭密集束調(diào)整方法,并設(shè)計(jì)了一個(gè)深度細(xì)化網(wǎng)絡(luò),將幾何深度和不確定性與單目線索相結(jié)合。實(shí)驗(yàn)結(jié)果表明,R3D3方法在兩個(gè)廣泛使用的多攝像頭深度估計(jì)基準(zhǔn)測試(DDAD和NuScenes)上取得了最優(yōu)異的性能,此外,與單目SLAM方法相比,R3D3算法具有更高的精度和魯棒性??傊?,R3D3方法為動(dòng)態(tài)場景的密集三維重建和自我運(yùn)動(dòng)估計(jì)提供了一種有效的解決方案。
[1] Zhou T, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1851-1858.