英偉達提出基于單目RGBD視頻的6DoF追蹤和三維重建方法
查看引用/信息源請點擊:映維網(wǎng)Nweon
給定單目RGBD序列和2D物體掩模(僅在第一幀中),所述方法可以執(zhí)行六自由度追蹤和未知對象的3D重建
(映維網(wǎng)Nweon?2023年08月04日)計算機視覺中的兩個基本問題是從單目RGBD視頻中進行六自由度姿態(tài)追蹤和未知對象的3D重建。解決所述問題將開啟在增強現(xiàn)實和機器人操作等領(lǐng)域的廣泛應(yīng)用。
以前的研究通常將這兩個問題分開考慮。例如,神經(jīng)場景表示在從真實數(shù)據(jù)創(chuàng)建高質(zhì)量3D對象模型方面取得了巨大成功。然而,所述方法假設(shè)已知的camera姿態(tài)和/或ground truth對象掩模。另外,通過動態(tài)移動的攝像頭捕捉靜態(tài)對象會阻礙完整的3D重建(如果物體放在桌面,則永遠看不到物體的底部)。
另一方面,實例級六自由度對象姿態(tài)估計和追蹤方法通常需要事先對測試對象進行紋理化的3D模型,以進行預(yù)訓(xùn)練和/或在線模板匹配。盡管類別級方法可以泛化到同一類別中的新對象實例,但它們難以處理分布外的對象實例和未見過的對象類別。
為了克服所述局限性,英偉達在名為《BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects》的論文中提出將這兩個問題聯(lián)合起來解決。
所述方法假設(shè)對象是剛性的,并且在視頻的第一幀中需要一個2D對象掩模。除了這兩個要求外,在整個視頻中,即便發(fā)生嚴(yán)重的遮擋,對象都可以自由移動。英偉達的方法與之前在對象級SLAM中的研究相似,但放寬了眾多常見的假設(shè),從而允許處理遮擋,高光,缺乏視覺紋理和幾何線索,以及突然的對象運動。
所述方法的關(guān)鍵是一個在線姿態(tài)圖優(yōu)化過程,一個并發(fā)的Neural Object Field神經(jīng)對象場來重建三維形狀和外觀,以及一個內(nèi)存池來促進兩個過程之間的通信。所述方法的魯棒性在圖1中突出顯示。

給定單目RGBD序列和2D物體掩模(僅在第一幀中),所述方法可以執(zhí)行六自由度追蹤和未知對象的3D重建。
英偉達方法概述如圖2所示:

給定單目RGBD輸入視頻,以及僅在第一幀中感興趣對象的分割掩模,英偉達的方法通過后續(xù)幀追蹤對象的六自由度姿態(tài),并重建對象的紋理3D模型。所有的處理都是causal(不訪問未來的幀)。
對象假定為剛性,但不需要特定數(shù)量的紋理,這一方法可以很好地處理沒有紋理的對象。另外,不需要對象的實例級CAD模型,同時不需要類別級先驗,例如事先在同一對象類別進行訓(xùn)練。
為了給隨后的在線姿態(tài)圖優(yōu)化提供一個良好的初始猜測,研究人員在當(dāng)前幀F(xiàn)t和前一幀F(xiàn)t?1之間計算一個粗略的對象姿態(tài)估計?ξt∈SE。
首先,利用跨對象視頻分割網(wǎng)絡(luò)在Ft中分割目標(biāo)區(qū)域。選擇這種分割方法是因為它不需要對象或交互代理(例如人手)的任何知識,因此允許框架應(yīng)用于廣泛的場景和對象。Ft和Ft?1之間的RGB特征對應(yīng)關(guān)系是通過基于transformer的特征匹配網(wǎng)絡(luò)建立。
與深度一起,由基于RANSAC的姿態(tài)估計器使用最小二乘法對識別出的對應(yīng)進行濾波。然后選擇最大內(nèi)層數(shù)的姿態(tài)假設(shè)作為當(dāng)前幀的coarse姿態(tài)估計。
為了減輕會導(dǎo)致長期的追蹤漂移的forgetting,保留過去幀的信息非常重要。先前研究采用的一種常用方法是將每個觀測值融合到一個顯式的全局模型中。然后使用融合的全局模型與隨后的新幀進行姿態(tài)估計(幀到模型匹配)的比較。然而,由于至少兩個原因,這種方法不適合英偉達所考慮的具有挑戰(zhàn)性的場景。
首先,姿態(tài)估計中的任何缺陷在融合到全局模型時會累積,給后續(xù)幀的姿態(tài)估計帶來額外的誤差。當(dāng)對象沒有足夠的紋理或幾何線索,或者信息在幀中不可見時,經(jīng)常發(fā)生這種錯誤。錯誤會隨著時間的推移而積累,并且不可逆轉(zhuǎn)。
其次,在長期完全遮擋的情況下,大的運動變化使得全局模型和再現(xiàn)幀觀測之間的配準(zhǔn)變得困難和次優(yōu)。
所以,團隊引入了一個關(guān)鍵幀內(nèi)存池P來存儲信息量最大的歷史觀察結(jié)果。為了構(gòu)建內(nèi)存池,將自動添加第一幀F(xiàn)0,從而為新的未知對象設(shè)置規(guī)范坐標(biāo)系。對于每個新幀,通過與內(nèi)存池中的現(xiàn)有幀進行比較來更新其粗姿態(tài)ξt,以產(chǎn)生更新的姿態(tài)ξt。
只有當(dāng)認(rèn)為幀的視點(由ξt描述)足以豐富池中的多視點多樣性,同時保持池的緊湊性時,才將幀添加到P中。更具體地說,將ξt與池中所有現(xiàn)有內(nèi)存幀的姿態(tài)進行比較。由于平面內(nèi)對象旋轉(zhuǎn)不提供額外的信息,這種比較考慮了旋轉(zhuǎn)測地線距離,而忽略了圍繞camera光軸的旋轉(zhuǎn)。
忽略這種差異允許系統(tǒng)在空間中更稀疏地分配內(nèi)存幀,同時保持相似數(shù)量的多視圖一致性信息。與之前的研究相比,當(dāng)選擇相同數(shù)量的memory幀來參與在線姿態(tài)圖優(yōu)化時,所述技術(shù)可以聯(lián)合優(yōu)化更大范圍的姿態(tài)。
給定一個具有粗姿態(tài)估計的新幀F(xiàn)t,研究人員從內(nèi)存池中選擇K個memory幀的子集來參與在線姿態(tài)圖優(yōu)化。新框架對應(yīng)的優(yōu)化位姿成為輸出估計位姿ξt。這一步在CUDA中實現(xiàn)近實時處理,使其足夠快地應(yīng)用于每個新幀,從而在整個視頻中追蹤對象時產(chǎn)生更準(zhǔn)確的姿態(tài)估計。
Neural Object Field用于協(xié)助此優(yōu)化過程。內(nèi)存池中的每一幀都有一個二進制標(biāo)志b(F),表示特定幀的姿態(tài)是否已被Neural Object Field更新。
當(dāng)一個幀第一次添加到內(nèi)存池時,b(F) = FALSE。這個flag在隨后的在線更新中保持不變,直到幀的姿態(tài)被Neural Object Field更新,此時它永遠設(shè)置為TRUE。在更新新幀F(xiàn)t的姿態(tài)的同時,在線姿態(tài)圖優(yōu)化所選擇的幀子集的所有姿態(tài)同樣更新到內(nèi)存池中,只要它們的flag設(shè)置為FALSE。
flag設(shè)置為TRUE的幀繼續(xù)被更可靠的Neural Object Field處理更新,但它們不再被在線姿態(tài)圖優(yōu)化修改。
英偉達方法的一個關(guān)鍵是學(xué)習(xí)一個以對象為中心的SDF,它在調(diào)整memory框架的姿態(tài)時學(xué)習(xí)多視圖一致的3D形狀和對象的外觀。
它是根據(jù)每個視頻學(xué)習(xí),不需要預(yù)先訓(xùn)練就可以泛化到新的未知對象。所述Neural Object Field神經(jīng)對象場在與在線姿態(tài)追蹤并行的單獨線程中進行訓(xùn)練。在每個訓(xùn)練周期的開始,Neural Object Field從池中消耗所有的memory幀(連同它們的姿態(tài))并開始學(xué)習(xí)。
當(dāng)訓(xùn)練收斂時,將優(yōu)化后的姿態(tài)更新到memory池中,以幫助后續(xù)的在線姿態(tài)圖優(yōu)化,每次獲取更新后的memory幀姿態(tài),以減輕追蹤漂移。
學(xué)習(xí)到的SDF更新到隨后的在線姿態(tài)圖中,以計算一元損失Ls。然后通過從池中抓取新的memory幀來重復(fù)神經(jīng)對象域的訓(xùn)練過程。

HO3D的定量結(jié)果見表1和圖5。英偉達的方法在六自由度姿態(tài)追蹤和3D重建方面都大大優(yōu)于比較方法。對于DROID-SLAM, NICE-SLAM和KinectFusion,當(dāng)在以獨享為中心的設(shè)置中工作時,可以用于追蹤的紋理或幾何線索明顯較少,導(dǎo)致性能較差。

圖5給出了追蹤誤差隨時間的變化。盡管BundleTrack實現(xiàn)了與英偉達方法相似的低平移誤差,但它在旋轉(zhuǎn)估計方面不佳。相比之下,英偉達方法在整個視頻中保持了較低的追蹤誤差。

圖4顯示了三種最具競爭力的方法的示例定性結(jié)果。盡管存在嚴(yán)重的手部遮擋、自我遮擋、中間觀察中紋理線索少和強烈的光照反射等多重挑戰(zhàn),英偉達的方法依然沿著視頻準(zhǔn)確追蹤,并獲得高質(zhì)量的3D對象重建。
值得注意的是,英偉達預(yù)測的姿態(tài)有時比ground truth情況更準(zhǔn)確,這是由多攝像頭多視圖配準(zhǔn)利用手部先驗進行注釋。

BEHAVE的定量結(jié)果如表3所示。在沒有利用人體先驗的單視圖和zero shot transfer設(shè)置中,所述數(shù)據(jù)集顯示出極端的挑戰(zhàn)。例如,當(dāng)人攜帶物體并且臉遠離攝像頭時存在長期完全遮擋;由于人對物體的自由擺動,經(jīng)常出現(xiàn)嚴(yán)重的運動模糊和突然位移物品性質(zhì)各異,大小差異較大;視頻是在距離攝像頭較遠的地方拍攝,難以進行深度感知。
因此,對該基準(zhǔn)的評估推向了一個更困難的設(shè)置。盡管存在所述挑戰(zhàn),英偉達的方法依然能夠在大多數(shù)情況下執(zhí)行長期魯棒追蹤,并且比以前的方法表現(xiàn)得更好。

團隊研究了方法在HO3D數(shù)據(jù)集的有效性,因為它具有更準(zhǔn)確的姿態(tài)注釋。結(jié)果如表4所示。Ours w/o memory實現(xiàn)了非常糟糕的性能,因為沒有機制來減輕追蹤漂移。在Ours-GPG中,即使有類似的計算量,由于handcrafted losses,它都會在物體或觀察中遇到很少的紋理或幾何線索。
除了對象姿態(tài)追蹤,, Ours w/o memory,Ours w/o NOF和Ours-GPG缺乏3D對象重建模塊。Ours w/o hybrid SDF忽略了輪廓信息,并且在校正memory幀的姿態(tài)時可能受到假陽性分割的偏置。這導(dǎo)致不太穩(wěn)定的姿態(tài)追蹤和更多噪點的最終3D重建。
相關(guān)論文:BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects
https://paper.nweon.com/14580
總的來說,英偉達提出了一種基于單目RGBD視頻的六自由度目標(biāo)追蹤和三維重建方法。所述方法只需要對初始幀中的對象進行分割。利用兩個并行線程分別執(zhí)行在線圖形姿態(tài)優(yōu)化和神經(jīng)對象場表示,所述方法能夠處理具有挑戰(zhàn)性的場景,例如快速運動和部分遮擋,缺乏紋理和高光等等。在幾個數(shù)據(jù)集的比較都展示了優(yōu)異結(jié)果。
當(dāng)然,團隊表示未來的研究將旨在利用形狀先驗來重建不可見部分。
---
原文鏈接:https://news.nweon.com/111122