TT-SLAM:用于平面環(huán)境的密集單目SLAM(IEEE 2021)
發(fā)表于:2021 IEEE International Conference on Robotics and Automation (ICRA)
鏈接:https://ieeexplore.ieee.org/document/9561164
作者:Xi Wang Univ Rennes, Inria, CNRS, Irisa, France
Marc Christie Univ Rennes, Inria, CNRS, Irisa, France
Eric Marchand Univ Rennes, Inria, CNRS, Irisa, France
翻譯:幸運(yùn)的石頭 |來(lái)源:微信公眾號(hào)「3D視覺工坊」
摘要
本文提出了一種使用單目相機(jī)進(jìn)行密集平面重建的新型視覺 SLAM 方法:TT-SLAM。該方法利用基于平面模板的跟蹤器 (TT) 來(lái)計(jì)算相機(jī)位姿并重建多平面場(chǎng)景表示。通過對(duì)超像素化區(qū)域支持的一組模板跟蹤器進(jìn)行聚類,同時(shí)估計(jì)多個(gè)單應(yīng)性。與基于 RANSAC 的多單應(yīng)性方法 [1] 相比,數(shù)據(jù)關(guān)聯(lián)和關(guān)鍵幀選擇問題由模板跟蹤器的連續(xù)性處理。對(duì)所有單應(yīng)性應(yīng)用非線性優(yōu)化過程以提高姿態(tài)估計(jì)的精度。實(shí)驗(yàn)表明,所提出的方法優(yōu)于基于 RANSAC 的多單應(yīng)性方法 [1] 以及其他密集方法 SLAM 技術(shù),如 LSD-SLAM 或 DPPTAM,
介紹
對(duì) SLAM 技術(shù)(同步定位和建圖)的研究在機(jī)器人界引起了極大的關(guān)注,并導(dǎo)致了各種實(shí)際的案例:室內(nèi)和室外、城市和野外。稀疏 SLAM 方法要么依賴于像素級(jí)信息的直接對(duì)齊,要么依賴于最小化提取關(guān)鍵點(diǎn)和類似低級(jí)圖像特征的重投影誤差[2]、[3]、[4]。
然而,可以利用更高級(jí)的幾何特征(例如線和平面)并將其集成到視覺 SLAM 系統(tǒng)中,因?yàn)樗鼈兲峁┝烁嗟恼Z(yǔ)義抽象,并且比基于點(diǎn)的圖像特征更魯棒。
例如,平面是人造環(huán)境和物體中普遍存在的幾何特征,是在視覺跟蹤和 SLAM 任務(wù)中具有價(jià)值的特征。平面模型只需要一小組參數(shù),但可以以密集的方式重建復(fù)雜的場(chǎng)景。使用表達(dá)圖像和世界空間之間關(guān)系的單應(yīng)性,平面模型也很容易估計(jì)和跟蹤。此后,許多跟蹤算法都基于單個(gè)單應(yīng)變換:SLAM [5]、目標(biāo)視覺跟蹤[6]或機(jī)器人視覺伺服[7]。
雖然單個(gè)單應(yīng)性約束可以很容易地用于在具有主導(dǎo)平面的場(chǎng)景上跟蹤任務(wù),但這種假設(shè)嚴(yán)重限制了對(duì)更一般環(huán)境的應(yīng)用。
因此,許多貢獻(xiàn)探索了多平面表示的使用。王等人[1]在超像素的幫助下,在多個(gè)平面結(jié)構(gòu)下提出了一種基于ransac 的相對(duì)相機(jī)姿態(tài)估計(jì)。受這項(xiàng)工作的啟發(fā),本文提出了一種多平面 SLAM 框架,使用基于模板的跟蹤器和超像素來(lái)估計(jì)相機(jī)軌跡并從單目圖像序列重建密集的部分映射(見圖1)。
我們的貢獻(xiàn)是:(1)一種借助超像素初始化模板跟蹤器的新方法,(2)一種用于處理平面分割和姿態(tài)估計(jì)的均值偏移聚類系統(tǒng),以及(3)一種用于提高精度和通過合并模板跟蹤器估計(jì)來(lái)實(shí)現(xiàn)魯棒性。

圖1:我們提出了一種視覺 SLAM 方法,該方法跟蹤和聚類基于模板的跟蹤器,估計(jì)相機(jī)位姿,并在單目相機(jī)獲取的彩色圖像序列上映射三維多平面環(huán)境。每種顏色代表一個(gè)不同的平面。
相關(guān)工作
在平面世界中估計(jì)相機(jī)位姿和建圖的主題下可以找到一系列相關(guān)工作。一些依賴于單一的單應(yīng)性假設(shè),其中工作空間通常是單主平面場(chǎng)景[8]。Pirchheim 和 Reitmayr [5]設(shè)計(jì)并開發(fā)了一種用于單平面環(huán)境的移動(dòng)增強(qiáng)現(xiàn)實(shí) SLAM 系統(tǒng)。將該過程與 IMU(慣性測(cè)量單元)相結(jié)合也有助于提高精度并消除單應(yīng)性分解過程中的歧義[9]、[10]。
另一類方法通過曼哈頓假設(shè)來(lái)處理世界:環(huán)境中的所有三維平面都相互垂直。這樣的假設(shè)非常適合標(biāo)準(zhǔn)的室內(nèi)和城市場(chǎng)景,并簡(jiǎn)化了模型,提高了特定用例[10]、[11]、[12]中的性能和精度。
許多方法通過利用 RGB-D 相機(jī)的深度信息來(lái)依賴平面場(chǎng)景 SLAM 和視覺跟蹤系統(tǒng)。Kaess [13]提出了一種用于 3D 平面的四元數(shù)公式,以提高優(yōu)化期間的收斂速度。蕭等人。[14]將先前的工作擴(kuò)展到基于實(shí)時(shí)關(guān)鍵幀的 RGBD 平面 SLAM:它借助幾何和光度信息進(jìn)行基于關(guān)鍵幀的局部里程計(jì),以進(jìn)行快速姿態(tài)估計(jì)。然后,所有關(guān)鍵幀數(shù)據(jù)都由使用增量平滑和建圖技術(shù) (iSAM) 的因子圖處理。
由深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的方法也受到歡迎,并在許多計(jì)算機(jī)視覺任務(wù)中顯示出改進(jìn)的性能。Pop-Up SLAM [12]在平面場(chǎng)景中表現(xiàn)出良好的性能,尤其是在環(huán)境無(wú)紋理的情況下。Yang 和 Scherer [15]提出通過邊界框添加 3D 對(duì)象檢測(cè)作為曼哈頓結(jié)構(gòu)化環(huán)境的另一個(gè)約束。
在 SLAM 技術(shù)中使用超像素引起了社區(qū)的興趣。超像素是一組共享空間和色彩相似性的像素,通常通過聚類或分割方法生成:經(jīng)典作品包括 SLIC [16]、SEEDS [17]和圖形分割超像素[18]。在計(jì)算機(jī)視覺和機(jī)器人視覺領(lǐng)域,該技術(shù)被利用,因?yàn)樗峁┝舜致缘钠矫婀烙?jì)。
更具體地說(shuō),Concha 和 Civera 建議將超像素技術(shù)集成到稀疏[19]和密集[20] SLAM 系統(tǒng)中,以增強(qiáng)映射結(jié)果。這個(gè)想法包括一個(gè)蒙特卡洛排名,以找到超像素表示的平面的對(duì)應(yīng)關(guān)系和初始 3D 姿勢(shì)。該論文提出了一種優(yōu)化框架,以使用與 PTAM 系統(tǒng)分開估計(jì)的已知相機(jī)位姿來(lái)改進(jìn)平面位姿。后來(lái),在 DPPTAM [20]中,超像素被用于半密集跟蹤系統(tǒng)。類似于[19],平面估計(jì)以與半密集 SLAM 系統(tǒng)發(fā)現(xiàn)的相機(jī)姿態(tài)解耦的方式處理。三維點(diǎn)上的 Ransac 和 SVD 用于估計(jì)平面方程。因此也設(shè)計(jì)了具有超像素信息的密集映射優(yōu)化技術(shù)。
最近,[1]提出了基于多個(gè)單應(yīng)性的多個(gè)平面和相機(jī)位姿的耦合估計(jì)。在關(guān)鍵點(diǎn)上應(yīng)用專用的 RANSAC,并通過多個(gè)單應(yīng)性消除平面估計(jì)中的歧義,以同時(shí)實(shí)現(xiàn)稀疏跟蹤和密集映射。
基于模板的跟蹤器是機(jī)器人技術(shù)中眾所周知的技術(shù),通過注冊(cè)不同的原始幾何模型wrt各種度量來(lái)跟蹤和估計(jì)平面圖像塊:例如,平方差之和(SSD),零均值歸一化互相關(guān)(ZNCC),和互信息(MI)。平面跟蹤器通常通過優(yōu)化方法估計(jì)模板補(bǔ)丁和查詢圖像之間的單應(yīng)變換。許多應(yīng)用都源自基于模板的跟蹤器,包括增強(qiáng)現(xiàn)實(shí)[21]、機(jī)器人控制[22]等。與 RANSAC 方法相比(例如[ 1]),使用模板跟蹤器連續(xù)提取單應(yīng)性有以下優(yōu)點(diǎn):1)很好地解決了場(chǎng)景中存在多個(gè)平面時(shí)的數(shù)據(jù)關(guān)聯(lián)問題;2)它提供了對(duì)跟蹤結(jié)果的連續(xù)觀察,因此系統(tǒng)在處理關(guān)鍵幀選擇問題時(shí)具有更大的靈活性;3) RANSAC 方法在處理多個(gè)平面時(shí)往往需要更高的計(jì)算成本,因?yàn)槟0甯櫰髟诮Y(jié)果方面更輕且具有確定性。
結(jié)合模板跟蹤器的優(yōu)勢(shì)和多單應(yīng)位姿估計(jì)的工作[1],我們提出了一種多平面vSLAM的新方法。它支持:1)一種以密集方式同時(shí)跟蹤相機(jī)位姿和建圖多個(gè)平面環(huán)境的新方法;2) 一種為 vSLAM 應(yīng)用生成、聚類和利用模板跟蹤器的方法,該方法支持超像素圖像;3) 一種在模板跟蹤器上應(yīng)用基于單應(yīng)性的非線性優(yōu)化的方法,作為優(yōu)化方案,以實(shí)現(xiàn)更好的姿態(tài)估計(jì)和建圖質(zhì)量。
概述
我們提出 TT-SLAM 作為一種新穎的視覺 SLAM 技術(shù),它依賴于平面環(huán)境的模板跟蹤器 (TT)。它包含以下模塊(參見圖 2中的概述):(a) 模板跟蹤器的生成和跟蹤:我們?cè)诔袼鼗瘓D像的區(qū)域上添加模板跟蹤器,并在圖像序列中跟蹤它們;(b) 分解平面的聚類:我們依靠均值偏移聚類算法從單應(yīng)性中對(duì)相似的分解平面進(jìn)行分組,以提取多平面結(jié)構(gòu);(c) 非線性優(yōu)化器:我們?cè)谀0甯櫰魃蠎?yīng)用非線性優(yōu)化框架,以在單個(gè)輸入圖像和整個(gè)圖像序列上同時(shí)細(xì)化相機(jī)位姿和多個(gè)平面(類似于捆綁調(diào)整)。所有模塊都將在以下部分中詳細(xì)介紹。
多個(gè)模板跟蹤器
我們工作的主要思想是依靠多個(gè)模板跟蹤器來(lái)估計(jì)相機(jī)姿勢(shì)和 3D 場(chǎng)景的密集平面映射。
平面模板跟蹤器是一種在幀序列上跟蹤平面圖像區(qū)域的技術(shù)。該技術(shù)將單應(yīng)變換H從第一張圖像中的參考區(qū)域輸出到當(dāng)前圖像。在平面場(chǎng)景中,單應(yīng)變換2H1∈ S L ( 3 )用于描述三維平面從一個(gè)圖像I 1到另一個(gè)圖像I 2的變換。當(dāng)相機(jī)被內(nèi)在校準(zhǔn)時(shí),即內(nèi)在矩陣K已知,來(lái)自I 1和I 2的所有像素都可以表示為歸一化的三維坐標(biāo),表示為:p 1和p2∈R3. 因此,單應(yīng)矩陣是平面區(qū)域內(nèi)這些點(diǎn)之間的約束:
p2=2H1p1

圖 2:我們系統(tǒng)的流程圖,它處理輸入圖像序列 (subfig.a) 以執(zhí)行超像素化 (subfig.b)。在 subfig.c 中,執(zhí)行跟蹤和聚類模板跟蹤器(不同的顏色代表 3D 中不同的找到平面,參見 subfig.d)。最后,通過細(xì)化器模塊,我們的方法能夠在不應(yīng)用任何曼哈頓假設(shè)的情況下,在保持井平面垂直性的密集平面環(huán)境中恢復(fù)相機(jī)軌跡。
這個(gè)變換實(shí)際上是由一個(gè)旋轉(zhuǎn)矩陣組成的2R1∈ S O ( 3 ), 一個(gè)平移向量2噸1∈R3和第一幀中的法向量我1:n1= ( a , b , c)?∈R3(等式 1)。然后將相關(guān)的三維平面表示為p?n1= d, 在哪里p ∈R3是平面上的三維點(diǎn),d是到原點(diǎn)的垂直距離:
2H1=2R1+2t1dn?1(1)
已經(jīng)提出了不同的方法來(lái)計(jì)算圖像之間的單應(yīng)矩陣,一些依賴于關(guān)鍵點(diǎn)[23],而另一些則利用像素級(jí)信息[24]。對(duì)于大多數(shù)模板跟蹤問題,它被視為像素級(jí)別的差分圖像對(duì)齊問題。
差分圖像對(duì)齊的目的是估計(jì)圖像模板I *在多幀中的位移ρ 。它可以被視為幀到幀的跟蹤過程,其中I *通常是從參考幀中提取的感興趣區(qū)域 (RoI)。然后需要一個(gè)相似性度量f來(lái)表示參考圖像和扭曲圖像之間的距離。通過上述定義,可以描述一個(gè)優(yōu)化問題下的差分圖像對(duì)齊問題:

我們的目標(biāo)是找到位移ρ^t在給定的度量f下最大化相似性。為了清楚起見,翹曲函數(shù)w是一個(gè)濫用的 b 符號(hào),用于定義由ρ參數(shù)化的圖像I的一般變換。在平面單應(yīng)性估計(jì)的背景下,我們搜索ρ ∈ s l ( 3 )它有8個(gè)參數(shù)。為了加速搜索過程,通過預(yù)先計(jì)算參考圖像的導(dǎo)數(shù),提出了逆合成公式技術(shù)(詳見[25]、[6])。
與基于模板的跟蹤器的常見應(yīng)用不同,其中感興趣區(qū)域通常是先驗(yàn)已知的或通過用戶交互選擇的,我們的系統(tǒng)需要通過計(jì)算與一個(gè)粗略的平面假設(shè)。為了解決這個(gè)問題,我們依靠超像素圖像分解。超像素被定義為一組共享強(qiáng)色彩一致性的連接像素(例如,SLIC [16])。我們?cè)谶@里假設(shè)每個(gè)超像素都可以被視為適合基于模板的跟蹤器的潛在平面區(qū)域。

圖 3:模板跟蹤器生成過程的示例。左圖顯示了超像素化圖像的聚類輪廓。多邊形區(qū)域和具有三角化 RoI 的相應(yīng)模板跟蹤器分別顯示在中間和右側(cè)圖像中。
在初始化過程中,每個(gè)超像素都被分配為基于模板的跟蹤器的 RoI,以便跟蹤后續(xù)幀中的區(qū)域。由于超像素邊界通常是非平面的并且會(huì)擾亂跟蹤質(zhì)量,因此我們建議通過在侵蝕的超像素輪廓上應(yīng)用 Teh-Chin 鏈近似[26]和 Ramer-Douglas-Peucker 算法[27]來(lái)簡(jiǎn)化超像素的輪廓。然后將這些區(qū)域表示為 Delaunay 三角剖分,并將其視為跟蹤 RoI(參見圖 3)。雖然超像素只提供了一個(gè)粗略的先驗(yàn)區(qū)域平面度,但分配有非平面或多平面區(qū)域的跟蹤器將在跟蹤優(yōu)化過程中迅速導(dǎo)致發(fā)散并且可以被移除。
與我們之前的工作[1]相比,所有單應(yīng)性都是從一個(gè)給定的關(guān)鍵幀(即相同的參考圖像)估計(jì)的,可以隨時(shí)考慮和添加新的模板跟蹤器。這降低了錯(cuò)誤關(guān)鍵幀選擇的風(fēng)險(xiǎn),這是[1]中確定的一個(gè)問題。因此,設(shè)計(jì)了一種策略來(lái)決定何時(shí)添加新的模板跟蹤器,方法是選擇無(wú)法與現(xiàn)有模板跟蹤器重疊的超像素,只需測(cè)量它們?cè)趫D像表面上重疊的區(qū)域比率即可。因此,對(duì)于每個(gè)新的傳入幀,我們將新計(jì)算的超像素與當(dāng)前有效的跟蹤器進(jìn)行比較,并在未覆蓋的那些上添加新的跟蹤器。對(duì)于每個(gè)超像素,我們的比率定義如下:

S tt和S sp分別是模板跟蹤器和超像素的區(qū)域。
聚類和分解
一旦我們從不同的模板跟蹤器 { H } 中獲得一組單應(yīng)性,下一步就是對(duì)單應(yīng)性進(jìn)行聚類以獲得簡(jiǎn)化且更好的多平面表示。在我們之前的工作[1]中,這是通過贏家通吃 RANSAC 在檢測(cè)到的關(guān)鍵點(diǎn)上識(shí)別多個(gè)平面來(lái)實(shí)現(xiàn)的。在這里,我們依靠均值偏移聚類技術(shù)來(lái)確定某些跟蹤器是否屬于同一平面。
聚類是將相似數(shù)據(jù)組合在一起并根據(jù)特定指標(biāo)進(jìn)行分類的任務(wù):經(jīng)典作品包括 K-means [28]、均值偏移[29]等。聚類在計(jì)算機(jī)視覺和有遠(yuǎn)見的機(jī)器人應(yīng)用程序中很受歡迎,因?yàn)樗軌蚪沂灸J綇臄?shù)據(jù)方面:例如,[30]使用均值偏移技術(shù)從室內(nèi)場(chǎng)景中的消失點(diǎn)估計(jì)無(wú)漂移旋轉(zhuǎn),以解耦 SLAM 中的旋轉(zhuǎn)和平移。
在我們的工作中,我們期望一個(gè)聚類系統(tǒng)能夠分離不同的跟蹤器并將相似的跟蹤器分組,因?yàn)樗鼈冋诟櫹嗤?3 維平面。由于我們事先不知道場(chǎng)景中的平面數(shù)量,因此與其他聚類方法不同,它不需要初始種子數(shù),因此均值偏移聚類成為處理這種情況的合適方法。理想情況下,如果所有的跟蹤器都在同一個(gè)參考幀上初始化,我們可以直接在單應(yīng)空間上應(yīng)用均值偏移H ∈SL(3). 然而,由于前面提到的跟蹤器添加了策略,分類不能直接在單應(yīng)空間上執(zhí)行,因?yàn)槲覀冋谔幚韽牟煌瑓⒖紟跏蓟母櫰鳌O喾?,由于姿態(tài)估計(jì)是一個(gè)順序跟蹤問題,我們建議對(duì)以世界坐標(biāo)表示的分解平面進(jìn)行分類(參見公式 1 ),并在平面參數(shù)Π = {n, d }的空間中對(duì)它們進(jìn)行聚類,其中 n是平面的法向量,d是到原點(diǎn)的垂直距離。
然而,一個(gè)經(jīng)典問題是單應(yīng)性分解的模糊性。不可避免地,分解單個(gè)單應(yīng)性會(huì)產(chǎn)生兩組R、t、n的結(jié)果,它們?cè)趲缀紊隙际怯行У?。在沒有額外信息的情況下,即使在應(yīng)用正深度條件之后,至少存在兩個(gè)歧義,除非R、t、n中的一個(gè)元素是先驗(yàn)已知的,例如,通過 IMU 信息或已知的表面法線。對(duì)于多個(gè)平面單應(yīng)性,我們解決了這個(gè)問題[1]通過提議對(duì)平移向量的共同方向進(jìn)行投票。我們?cè)谶@項(xiàng)工作中采用相同的方法,不僅消除歧義,而且通過測(cè)量它們到投票共同方向的平移向量來(lái)過濾低質(zhì)量模板跟蹤器:如果沒有一個(gè)平移向量足夠接近歧義集中的共同方向,我們認(rèn)為模板跟蹤器本身可能被錯(cuò)誤地初始化或分配了非平面區(qū)域。
分解后,我們得到一組以世界坐標(biāo)表示的平面,簡(jiǎn)單地表示為 { Π }。不是在未正確定義歐幾里德距離的平面空間 { Π } = {n, d } 上進(jìn)行聚類,而是通過首先考慮法線向量 { n },然后是d參數(shù)和-每個(gè)模板跟蹤器的圖像重心位置 { d , p c },用于在本地對(duì)平面進(jìn)行分組。我們?cè)趦蓚€(gè)聚類層次上使用歐幾里得度量,發(fā)現(xiàn)結(jié)果足夠好,盡管平面法線空間在球體組上有自己的測(cè)地線度量(見圖4用于聚類結(jié)果和對(duì)應(yīng)的深度圖像)。

圖 4:中間子圖中的聚類和匹配的模板跟蹤器(相同顏色代表相同的聚類 3D 平面),并且在跟蹤器區(qū)域(右)上生成對(duì)應(yīng)的深度。
非線性多平面優(yōu)化機(jī)和BA
A. 當(dāng)前圖像上的非線性細(xì)化器
鑒于在圖像平面上執(zhí)行的聚類,然后我們?cè)O(shè)計(jì)了一個(gè)細(xì)化過程以更好地利用來(lái)自多個(gè)跟蹤器的信息并改進(jìn)對(duì)相機(jī)姿態(tài)的估計(jì)q∈ s e ( 3 ) ∈R6(變換 { R , t } 的最小表示)和平面方程Π同時(shí)進(jìn)行。在傳統(tǒng)的 SLAM 系統(tǒng)中,該過程通常由非線性優(yōu)化框架處理,該框架將提取的地標(biāo)(如關(guān)鍵點(diǎn))在圖像空間上的重投影誤差最小化(捆綁調(diào)整)。
為了處理單應(yīng)變換,可以通過非線性最小二乘高斯-牛頓優(yōu)化過程應(yīng)用類似的過程,該過程最小化像素之間的重投影誤差E(pn2-2H1pn1)2, n = 1 , ... ,?p作為像素?cái)?shù),wrt 相機(jī)位姿q和平面參數(shù)Π 1 = { n 1 , d }。這表示為

為了計(jì)算重投影誤差,我們使用每個(gè)模板跟蹤器的 Delaunay 三角剖分過程中的頂點(diǎn)。
與[1]類似,在靜態(tài)環(huán)境中共享多個(gè)單應(yīng)性可以解釋為跟蹤器估計(jì)的一組單應(yīng)性 { H i } 與世界坐標(biāo)系中的共享變換之間的關(guān)系w噸○∈ S E ( 3 )(o表示幀的原點(diǎn))由2 個(gè)局部變換表示w噸r一世(從模板跟蹤器i的參考幀ri到其當(dāng)前位置)對(duì)于所有跟蹤器,其中i = 1,…,N tt作為跟蹤器的數(shù)量:

因此,我們可以提出一個(gè)優(yōu)化器,用于從多個(gè)跟蹤器單應(yīng)性同時(shí)估計(jì)相機(jī)位姿和平面方程。請(qǐng)注意,我們已經(jīng)知道通過均值偏移和數(shù)據(jù)關(guān)聯(lián)從 { Π i } 到聚類和分組平面 { Π c } 的對(duì)應(yīng)映射。在優(yōu)化過程中,我們不是單獨(dú)考慮每個(gè)跟蹤器的每個(gè)平面,而是按照均值偏移聚類將 平面分組到 ? i中。

和pnw 和 Pnri 分別是模板跟蹤器i的當(dāng)前幀和對(duì)應(yīng)參考幀的跟蹤區(qū)域的頂點(diǎn),它們的總和為和跟蹤器的數(shù)量N tt。記住相機(jī)姿勢(shì)qw^和平面方程ΠCw^實(shí)際上是在世界坐標(biāo)中,因此是等式的變換。5從全局坐標(biāo)到局部坐標(biāo)是強(qiáng)制性的,因?yàn)閱螒?yīng)性僅在參考坐標(biāo)系和當(dāng)前坐標(biāo)系之間定義。為簡(jiǎn)單起見,我們表示通過濫用符號(hào)并隱藏方程式中的變換。6 .
優(yōu)化的熱啟動(dòng)可以直接從最后一個(gè)相機(jī)位姿給出,也可以通過搜索每個(gè)模板跟蹤器的先前全局平面結(jié)果。在模板跟蹤器的幫助下,平面數(shù)據(jù)關(guān)聯(lián)不再是問題,因?yàn)槲覀円呀?jīng)知道哪個(gè)模板跟蹤器生成每個(gè)平面。執(zhí)行跟蹤器的簡(jiǎn)單搜索和比較。
B. Bundle Adjustment-like Refiner
平面圖優(yōu)化器由一個(gè)優(yōu)化框架組成,該框架細(xì)化所有關(guān)鍵幀的姿勢(shì)及其通過平面匹配過程找到的公共平面。每個(gè)關(guān)鍵幀包含多個(gè)平面及其頂點(diǎn)。一旦在不同的關(guān)鍵幀上獲得了聯(lián)合平面信息,比如基于點(diǎn)的 SLAM 的全局 BA,這個(gè)過程就消除了漂移問題,減輕了尺度模糊性,并在整個(gè)序列中細(xì)化了相機(jī)軌跡。
以此類推,我們提出了一個(gè)捆綁調(diào)整(BA)系統(tǒng),通過相互最小化重投影誤差來(lái)細(xì)化每一幀的姿態(tài)和關(guān)節(jié)平面信息:

其中t和i是幀和跟蹤器編號(hào)的索引,N t和N tt分別表示總幀和模板跟蹤器數(shù)量。
C. 平面圖
1)平面合并和關(guān)鍵幀:
我們還部署了一個(gè)平面合并方案,以在給定平面法向量n和正交距離d 的度量的情況下融合封閉平面。理想情況下,我們不依賴于精心選擇的關(guān)鍵幀,例如[1],因?yàn)殛P(guān)鍵點(diǎn)單應(yīng)性容易出現(xiàn)翻譯不足的錯(cuò)誤。相比之下,模板跟蹤器允許我們沿著序列跟蹤平面,并等到估計(jì)穩(wěn)定后再生成關(guān)鍵幀。
2) 模板拒絕:
與基于 RANSAC 的方法不同,模板跟蹤器最大化區(qū)域中所有像素的相似性。這使得異常值抑制對(duì)于 SLAM 系統(tǒng)至關(guān)重要:任何跟蹤不良的模板跟蹤器都能夠在整體相機(jī)和平面估計(jì)中添加噪聲。除了應(yīng)用諸如 Huber 損失[31]之類的穩(wěn)健損失函數(shù)外,我們還提出了一種模板拒絕程序來(lái)防止跟蹤不良的模板。這里選擇三個(gè)要點(diǎn)來(lái)過濾掉不良跟蹤器:
跟蹤器優(yōu)化導(dǎo)致的缺乏收斂或高跟蹤成本,這通常發(fā)生在初始化無(wú)紋理或非平面區(qū)域時(shí)。
歧義消除過程中的投票距離:如果沒有一個(gè)計(jì)算的解決方案接近共同投票的平移方向。
不穩(wěn)定模板:我們根據(jù)其平面方程監(jiān)控每個(gè)模板,并修剪無(wú)法生成穩(wěn)定平面以測(cè)量其參數(shù)的跟蹤器。
實(shí)驗(yàn)與討論
我們?cè)趦煞N不同的場(chǎng)景中測(cè)試我們提出的方法:室內(nèi)和室外環(huán)境。
對(duì)于室內(nèi)環(huán)境,我們從最簡(jiǎn)單到最復(fù)雜的三個(gè)層次進(jìn)行難度和復(fù)雜度測(cè)試:?jiǎn)纹矫鎴?chǎng)景、多平面場(chǎng)景和復(fù)雜的多平面真實(shí)房間。
單個(gè)的 (fr_nstr_str_loop) 和多個(gè) (fr_str_far) 平面場(chǎng)景使用 TUM RGB-D 數(shù)據(jù)集[32]進(jìn)行測(cè)試,該數(shù)據(jù)集也被許多平面或密集 SLAM 方法[20]、[33]、[1]使用。場(chǎng)景由豐富的紋理平面結(jié)構(gòu)和相對(duì)均勻的顏色分布區(qū)域組成。它對(duì)超像素分解和模板跟蹤器提出了挑戰(zhàn),因?yàn)橛袝r(shí) RoI 可能會(huì)在兩個(gè)不同平面的中線產(chǎn)生并誤導(dǎo)以下估計(jì)。然而,所提出的系統(tǒng)可以很好地處理單個(gè)和多個(gè)平面場(chǎng)景,如表所示。I用于比較絕對(duì)姿勢(shì)誤差 (APE) 與 ORB-SLAM [2]、LSD-SLAM [3]、多級(jí)映射[33],DPPTAM [20]和我們之前的工作:一種基于ransac 的多平面方法[1]。我們?cè)谧颖碇醒菔緁r_nstr_loop和fr_str_far適用于單平面和多平面場(chǎng)景。我們的方法優(yōu)于所有密集和 RANSAC 方法,并且與僅提供稀疏點(diǎn)云映射的最先進(jìn)的基于單目稀疏關(guān)鍵點(diǎn)的 SLAM [2]相比,達(dá)到了良好的精度水平。關(guān)于單平面場(chǎng)景中與[2]相比精度下降的一種解釋(fr_nstr_loop) 是在不使用關(guān)鍵點(diǎn)和專門設(shè)計(jì)的重定位模塊的情況下,系統(tǒng)往往會(huì)在跟蹤過程中累積誤差,并且會(huì)受到圖像采集過程中運(yùn)動(dòng)模糊的負(fù)面影響。它還解釋了其他密集方法的不良表現(xiàn)。APE沿序列比較fr_str_far如圖5所示,我們的方法在整個(gè)軌跡上產(chǎn)生了較低級(jí)別的誤差。生成的平面圖見圖6。密集的平面圖是通過根據(jù)每幀計(jì)算的平面方程重新投影跟蹤器區(qū)域來(lái)創(chuàng)建的。據(jù)觀察,該地圖在不應(yīng)用任何曼哈頓假設(shè)的情況下很好地保存了垂直度。
室內(nèi)場(chǎng)景的第二個(gè)實(shí)驗(yàn)是無(wú)人機(jī)數(shù)據(jù)集 EuRoc [34]:無(wú)人機(jī)在飛行序列的測(cè)試室中記錄的灰度數(shù)據(jù)集。我們截取場(chǎng)景的一部分(約 400 幀)v1_01_easy因?yàn)樵摥h(huán)境不是專門為平面 SLAM 設(shè)計(jì)的,并且一些無(wú)紋理的部分和區(qū)域無(wú)法通過模板跟蹤器。如表第三部分的結(jié)果所示。I ,與所有密集方法相比,我們還實(shí)現(xiàn)了良好的精度水平,甚至在中值誤差度量上優(yōu)于 ORB-SLAM [2] 。

圖 5:序列的絕對(duì)姿勢(shì)誤差 (APE) 度量fr_str_far數(shù)據(jù)集[32]表明,我們的密集映射方法優(yōu)于所有密集和半密集方法,并且與僅提供稀疏點(diǎn)云圖的 ORB-SLAM 相比,達(dá)到了不錯(cuò)的精度水平

圖 6:由我們的方法生成的數(shù)據(jù)集 TUM [32]的 3D 多個(gè)(子圖 a)和單平面圖(子圖 b) 。我們提出的方法能夠同時(shí)估計(jì)相機(jī)軌跡和平面地圖表示。
表 I:ATE 評(píng)估:所提出的方法 (TT-SLAM) 優(yōu)于 DPPTAM [20]、LSD-SLAM [3] 和多級(jí)映射 [33]、基于 ransac 的多單應(yīng)性姿勢(shì)估計(jì) [1]。盡管落后于 ORB-SLAM [2] 性能(沒有平面假設(shè)的關(guān)鍵點(diǎn)稀疏 SLAM),但我們的方法提供了密集的地圖表示。(*表示在跟蹤過程中丟失了一部分,-表示沒有報(bào)告數(shù)據(jù),x表示初始化失?。?/p>

對(duì)于戶外實(shí)驗(yàn),我們?cè)谝粋€(gè)類似走廊的環(huán)境場(chǎng)景中,在手持灰度數(shù)據(jù)集[35]的序列上測(cè)試我們的系統(tǒng)。圖 7顯示我們的系統(tǒng)從輸入序列中檢索走廊的垂直平面結(jié)構(gòu)以及相機(jī)軌跡。

圖 7:在數(shù)據(jù)集[35]上重建,坐標(biāo)表示相機(jī)姿勢(shì)。在不應(yīng)用曼哈頓假設(shè)的情況下,多平面環(huán)境得到了很好的保護(hù)。
結(jié)論
我們提出了一種通過模板跟蹤器估計(jì)相機(jī)位姿和生成密集平面映射的新方法。跟蹤器是從超像素化圖像區(qū)域創(chuàng)建的。應(yīng)用均值偏移聚類技術(shù)來(lái)合并相似的平面。最后,設(shè)計(jì)了一個(gè)基于優(yōu)化的細(xì)化器來(lái)實(shí)現(xiàn)更好的性能。
我們的觀點(diǎn)包含三個(gè)方向:首先依靠關(guān)鍵點(diǎn)等異構(gòu)信息和深度信息來(lái)提高魯棒性和跟蹤質(zhì)量。第二個(gè)方向在于使用深度學(xué)習(xí)分割和平面區(qū)域檢測(cè)而不是超像素。第三,我們的目標(biāo)是利用平面地圖在一般 SLAM 系統(tǒng)中進(jìn)行重定位任務(wù)和數(shù)據(jù)關(guān)聯(lián)。
參考文獻(xiàn):
1.X. Wang, M. Christie and E. Marchand, "Relative pose estimation and planar reconstruction via superpixel-driven multiple homographies", IEEE/RSJ Int. Conf. on Intelligent Robots and Systems IROS’20, 2020.
2.R. Mur-Artal, J. M. M. Montiel and J. D. Tardós, "Orb-slam: A versatile and accurate monocular slam system", IEEE Trans. on Robotics, vol. 31, no. 5, pp. 1147-1163, Oct 2015.
3.J. Engel, T. Sch?ps and D. Cremers, "Lsd-slam: Large-scale direct monocular slam", European conference on computer vision, pp. 834-849, 2014.
4.J. Engel, V. Koltun and D. Cremers, "Direct sparse odometry", IEEE Transactions on Pattern Analysis and Machine Intelligence, Mar. 2018.
5.C. Pirchheim and G. Reitmayr, "Homography-based planar mapping and tracking for mobile phones", 2011 10th IEEE International Symposium on Mixed and Augmented Reality, pp. 27-36, 2011.
6.A. Dame and E. Marchand, "Second-order optimization of mutual information for real-time image registration", IEEE Transactions on Image Processing, vol. 21, no. 9, pp. 4190-4203, 2012.
7.é. Marchand and F. Chaumette, "Feature tracking for visual servoing purposes", Robotics and Autonomous Systems, vol. 52, no. 1, pp. 53-70, 2005.
8.S. Benhimane and E. Malis, "Homography-based 2d visual tracking and servoing", The International Journal of Robotics Research, vol. 26, no. 7, pp. 661-676, 2007.
9.B. Guan, P. Vasseur, C. Demonceaux and F. Fraundorfer, "Visual odometry using a homography formulation with decoupled rotation and translation estimation using minimal solutions", 2018 IEEE International Conference on Robotics and Automation (ICRA), pp. 2320-2327, 2018.
10.O. Saurer, F. Fraundorfer and M. Pollefeys, "Homography based visual odometry with known vertical direction and weak manhattan world assumption", IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2012), pp. 25-30, October 11th, 2012.
11.A. Flint, D. Murray and I. Reid, "Manhattan scene understanding using monocular stereo and 3d features", 2011 International Conference on Computer Vision, pp. 2228-2235, 2011.
12.S. Yang, Y. Song, M. Kaess and S. Scherer, "Pop-up slam: Semantic monocular plane slam for low-texture environments", 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), pp. 1222-1229, 2016.
13.M. Kaess, "Simultaneous localization and mapping with infinite planes", 2015 IEEE International Conference on Robotics and Automation (ICRA), pp. 4605-4611, 2015.
14.M. Hsiao, E. Westman, G. Zhang and M. Kaess, "Keyframe-based dense planar slam", 2017 IEEE International Conference on Robotics and Automation (ICRA)., pp. 5110-5117, 2017.
15.S. Yang and S. Scherer, "Monocular object and plane slam in structured environments", IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 3145-3152, 2019.
16.R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua and S. Süsstrunk, "Slic superpixels compared to state-of-the-art superpixel methods", IEEE transactions on pattern analysis and machine intelligence, vol. 34, no. 11, pp. 2274-2282, 2012.
17.M. Van den Bergh, X. Boix, G. Roig, B. de Capitani and L. Van Gool, "Seeds: Superpixels extracted via energy-driven sampling" in European conference on computer vision., Springer, pp. 13-26, 2012.
18.P. F. Felzenszwalb and D. P. Huttenlocher, "Efficient graph-based image segmentation", International journal of computer vision, vol. 59, no. 2, pp. 167-181, 2004.
19.A. Concha and J. Civera, "Using superpixels in monocular slam", 2014 IEEE international conference on robotics and automation (ICRA), pp. 365-372, 2014.
20.A. Concha and J. Civera, "Dense Piecewise Planar Tracking and Mapping from a Monocular Sequence", Proc. of The International Conference on Intelligent Robots and Systems (IROS), 2015.
21.E. Marchand, H. Uchiyama and F. Spindler, "Pose estimation for augmented reality: a hands-on survey", IEEE transactions on visualization and computer graphics, vol. 22, no. 12, pp. 2633-2651, 2015.
22.F. Spindler, "Vision-based robot control with visp", ICRA 2018-Tutorial on Vision-based Robot Control, 2018.
23.Y. Kanazawa and H. Kawakami, "Detection of planar regions with uncalibrated stereo using distribution of feature points", British Machine Vision Conference, pp. 247-256, 2004.
24.A. Agarwal, C. Jawahar and P. Narayanan, "A survey of planar homography estimation techniques".
25.S. Baker and I. Matthews, "Lucas-kanade 20 years on: A unifying framework", International journal of computer vision, vol. 56, no. 3, pp. 221-255, 2004.
26.C. -H. Teh and R. T. Chin, "On the detection of dominant points on digital curves", IEEE Transactions on pattern analysis and machine intelligence, vol. 11, no. 8, pp. 859-872, 1989.
27.U. Ramer, "An iterative procedure for the polygonal approximation of plane curves", Computer graphics and image processing, vol. 1, no. 3, pp. 244-256, 1972.
28.J. MacQueen et al., "Some methods for classification and analysis of multivariate observations", 1967.
29.K. Fukunaga and L. Hostetler, "The estimation of the gradient of a density function with applications in pattern recognition", IEEE Transactions on information theory, vol. 21, no. 1, pp. 32-40, 1975.
30.P. Kim, B. Coltin and H. Jin Kim, "Linear rgb-d slam for planar environments", Proceedings of the European Conference on Computer Vision (ECCV), pp. 333-348, 2018.
31.P J. Huber, "Robust estimation of a location parameter" in Breakthroughs in statistics., Springer, pp. 492-518, 1992.
32.J. Sturm, N. Engelhard, F. Endres, W. Burgard and D. Cremers, "A benchmark for the evaluation of rgb-d slam systems", Proc. of the International Conference on Intelligent Robot Systems (IROS), Oct. 2012.
33.W. N. Greene, K. Ok, P. Lommel and N. Roy, "Multi-level mapping: Real-time dense monocular slam", 2016 IEEE International Conference on Robotics and Automation (ICRA), pp. 833-840, 2016.
34.M. Burri, J. Nikolic, P. Gohl, T. Schneider, J. Rehder, S. Omari, et al., "The euroc micro aerial vehicle datasets", The International Journal of Robotics Research, vol. 35, no. 10, pp. 1157-1163, 2016.
35.J. Engel, V. Usenko and D. Cremers, "A photometrically calibrated benchmark for monocular visual odometry", July 2016.
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
3D視覺工坊精品課程官網(wǎng):https://www.3dcver.com
更多干貨
歡迎加入【3D視覺工坊】交流群,方向涉及3D視覺、計(jì)算機(jī)視覺、深度學(xué)習(xí)、vSLAM、激光SLAM、立體視覺、自動(dòng)駕駛、點(diǎn)云處理、三維重建、多視圖幾何、結(jié)構(gòu)光、多傳感器融合、VR/AR、學(xué)術(shù)交流、求職交流等。工坊致力于干貨輸出,為3D領(lǐng)域貢獻(xiàn)自己的力量!歡迎大家一起交流成長(zhǎng)~
添加小助手微信:dddvision,備注學(xué)校/公司+姓名+研究方向即可加入工坊一起學(xué)習(xí)進(jìn)步。