CVPR 2023,視覺定位新范式!
論文題目:Visual Localization using Imperfect 3D Models from the Internet
論文鏈接:https://arxiv.org/abs/2304.05947
項目主頁:https://v-pnk.github.io/cadloc/
本文投稿作者:一杯紅茶| 來源:微信公眾號「3D視覺工坊」
CVPR 2023,一種視覺定位新范式,通過互聯(lián)網(wǎng)上容易獲得的三維模型,比如CAD模型、航拍圖像生成的三維模型等來執(zhí)行定位,省去了傳統(tǒng)范式復(fù)雜耗時的建圖步驟。
1 介紹
視覺定位是包括增強現(xiàn)實(AR)在內(nèi)的許多應(yīng)用程序的核心組件。定位算法通常會先構(gòu)建一個場景的地圖,即需要捕獲和存儲大量的圖像數(shù)據(jù)等,通過SFM或者其他算法來構(gòu)建場景點云地圖,本文則考慮能不能省去建圖的步驟,利用互聯(lián)網(wǎng)上容易獲得的3D模型,例如CAD模型、從航拍圖像生成的模型等。這些模型的好處在于可以立即執(zhí)行視覺定位,而無需耗時的模型構(gòu)建步驟。然而這也帶來了一些挑戰(zhàn),因為這些可用的3D模型往往可能只具有通用紋理或根本沒有紋理,可能只提供場景幾何體的簡單近似,或者可能被拉伸。
本文研究了這些模型的缺陷如何影響定位精度。為這項任務(wù)創(chuàng)建了一個新的基準,并基于每個場景的多個3D模型提供了詳細的實驗評估。
2 新范式的挑戰(zhàn)
用互聯(lián)網(wǎng)上現(xiàn)成的3D模型來定義場景表示的一系列挑戰(zhàn):
(1)外觀逼真度:3D模型可能沒有顏色或者紋理從而導(dǎo)致非常抽象的表示,其難以與真實圖像匹配。而且即使模型有紋理,紋理也可能是通用的和重復(fù)的,而不是基于場景的真實外觀。如果這些圖像是從無人機或飛機上拍攝的,則會嚴重失真或拉伸。
(2)幾何體的保真度:一些3D模型可以通過SfM和多視圖立體(MVS)獲得,從而產(chǎn)生準確表示底層場景幾何體的3D模型。然而情況并非總是如此。例如一些模型可以通過建筑輪廓來獲得,從而生成場景幾何體的非常粗略的模型。這會導(dǎo)致具有過度簡化的幾何形狀或具有錯誤的縱橫比的視覺上合理的模型,例如,與建筑物的寬度相比,模型可能過高。
綜上,論文工作的目標是量化模型不準確度和定位精度之間的關(guān)系。并說明哪些3D模型可能提供精確的姿態(tài)估計。
2 主要貢獻
(1)開發(fā)從互聯(lián)網(wǎng)上下載的3D模型進行視覺定位的新范式。
(2)為這項任務(wù)提供了一個新的基準,包括多個場景和不同逼真度的外觀和幾何形狀的3D模型。
(3) 提供了詳細的實驗來評估這些不同級別的保真度如何影響定位性能。展示了來自互聯(lián)網(wǎng)的3D模型代表了一種很有前途的新場景表示類別。
(4) 公開了基準測試以促進對能夠處理這一具有挑戰(zhàn)性任務(wù)的視覺定位算法的研究。
3 數(shù)據(jù)集
為了評測新的定位范式,作者收集了6個場景的3D模型。這些模型涵蓋了多種挑戰(zhàn),例如不同級別的外觀和幾何保真度以及查詢圖像的可用性。
對于3D模型,區(qū)分了通過MVS從圖像中自動獲得的模型和手動創(chuàng)建的CAD模型。下面介紹了每個場景使用的模型。這個數(shù)據(jù)集基準還可以用來衡量局部特征在處理真實圖像和更抽象的場景表示之間的復(fù)雜匹配任務(wù)方面的能力。
其中對于每個場景,收集了一組具有已知真實姿態(tài)的查詢圖像,然后將從互聯(lián)網(wǎng)上下載的模型與圖像的坐標系對齊,此操作是為了在公共參考系中測量由定位算法估計的相機姿態(tài)的精度,從而比較模型之間的姿態(tài)精度。
Notre Dame (Front Facade):
選擇了7個圣母院模型,代表了不同層次的幾何細節(jié)和外觀逼真度。模型A是來自攝影測量重建的模型,其他模型都是手動創(chuàng)建的CAD模型。模型B、C和D具有紋理,模型紋理依次降低。模型B的幾何細節(jié)最高,模型D的幾何細節(jié)最低。E具有非常高的幾何細節(jié)水平,F(xiàn)與B的細節(jié)水平相當,D和G的幾何結(jié)構(gòu)相同。E、 F和G不包含任何顏色信息。
Pantheon (Exterior):
這里使用了五個模型:模型A是通過攝影測量創(chuàng)建的。模型B包含逼真的紋理。模型C和D最初包含通用紋理,這些紋理在任何方面都不符合現(xiàn)實,因此只使用它們的幾何體。C包含非常高水平的幾何細節(jié),并在頂部添加了多個細節(jié),例如雕像,而真實建筑在其當前狀態(tài)下不包含這些細節(jié)。模型D具有中等水平的幾何細節(jié)。模型E由一組體素構(gòu)成,并包含不真實的著色。
Reichstag:
四個有紋理的CAD模型(A、B、C、D)。模型A和B描繪了建筑的現(xiàn)狀,模型E和F不使用紋理。模型A、C和E的幾何細節(jié)水平高于其他模型。
St. Peter’s Square:
使用四個模型:模型A由攝影測量生成,還包含周圍的建筑。模型B和C具有逼真的紋理。所有模型的幾何細節(jié)水平都相當高。
St. Vitus Cathedral:
使用了四個模型:一個MVS模型(B)包含更大的區(qū)域,通過攝影測量從無人機鏡頭重建,該模型的一個版本僅包含大教堂(A),以及使用SketchUp創(chuàng)建的兩個CAD模型(C和D)。選擇模型C和D是因為它們提供了不同級別的細節(jié),模型C包含模型D中缺少的更精細的幾何細節(jié)。C和D都使用低分辨率紋理,其中相同的紋理用于建筑的重復(fù)部分。使用RealityCapture軟件從這些圖像構(gòu)建了一個MVS模型,并將四個模型對齊用于針對該MVS模型的實驗。
Aachen:
其中一個CAD模型是通過從航空圖像中擠出建筑輪廓而獲得的,并使用航空圖像進行了紋理處理。因此由于立面和航空圖像之間的視角較小,從地面觀看模型會導(dǎo)致嚴重失真。
4 評估
這一小節(jié)研究了從互聯(lián)網(wǎng)下載的三維mesh的細節(jié)水平如何影響視覺定位性能。目標是回答這樣一個問題,即這種3D模型在多大程度上可以用來取代文獻中使用的由圖像構(gòu)建的經(jīng)典場景表示。
使用最先進的MeshLoc(ECCV 2022的一個方法)進行實驗。MeshLoc通過3D Mesh和一組具有已知姿態(tài)的數(shù)據(jù)庫圖像來表示場景。
圖像檢索用于為每個查詢找到前k個最相似的數(shù)據(jù)庫圖像。使用3D mesh和數(shù)據(jù)庫圖像的已知姿態(tài)將查詢和檢索到的圖像之間的2D-2D匹配提升為2D-3D匹配。然后,使用RANSAC loop內(nèi)的P3P解算器通過局部優(yōu)化從這些2D-3D匹配中估計查詢的相機姿態(tài)。
MeshLoc中使用的3D mesh與真實場景的幾何體很好的進行了對齊,他們表明只要mesh包含足夠的幾何細節(jié),即使是未著色mesh的渲染也可以產(chǎn)生準確的姿勢。這一觀察結(jié)果促使其探索互聯(lián)網(wǎng)上更抽象(幾何細節(jié)較少)的CAD模型。
在meshloc中是根據(jù)原始數(shù)據(jù)庫圖像的姿態(tài)來渲染合成圖像。然而現(xiàn)在只有場景的3D模型,沒有數(shù)據(jù)庫圖像。因此論文使用了一種簡單的方法來對模型周圍的相機姿勢進行采樣,然后從中為每個互聯(lián)網(wǎng)模型渲染數(shù)據(jù)庫圖像:將相機放置在具有不同半徑的多個球體的表面上,所有球體都以3D模型的重心為中心,所有的相機都在看這個中心,角度采樣周期被手動調(diào)整以適應(yīng)特定模型的幾何形狀。
考慮到互聯(lián)網(wǎng)上的數(shù)據(jù)集沒有給出場景的尺度。因此測量的不是以米或度為單位的誤差,而是與場景的尺度無關(guān)的重投影誤差。
使用密集對應(yīng)重投影誤差(DCRE)度量,即給定真值和估計的姿態(tài),以及從真值姿態(tài)的角度來看的3D模型的深度圖,DCRE測量如下:對于深度圖中的每個像素,在3D模型的世界坐標系中獲得一個3D點。然后使用真值和估計的姿態(tài)將每個3D點投影到圖像中從而產(chǎn)生一組2D-2D對應(yīng)關(guān)系,測量對應(yīng)之間的平均歐氏距離(平均DCRE)和對應(yīng)之間的最大歐氏距離(最大DCRE)。兩種DCRE變體都測量真值和估計之間的姿態(tài)變化如何影響姿態(tài)與3D模型的對準質(zhì)量。較小的DCRE對應(yīng)于更好的對準,并且是AR應(yīng)用的姿態(tài)質(zhì)量的直接測量。
考慮兩種方法來定義測量DCRE所需的真實姿態(tài):對于每個場景,將互聯(lián)網(wǎng)模型與根據(jù)查詢圖像計算的MVS模型(查詢模型)嚴格對齊。對于對齊,使用ICP從使用3D點對應(yīng)的手動初始化開始。這種對齊定義了查詢圖像相對于互聯(lián)網(wǎng)模型的姿勢,將這些姿勢用作一組基本姿勢。將這些姿勢稱為全局對齊(GA)姿勢。
然而查詢和互聯(lián)網(wǎng)模型的幾何形狀可能不同,例如,3D模型的寬度和高度的比率可能不同。因此,模型類型之間的嚴格對齊可能是不夠的,GA姿態(tài)將不能反映查詢相對于互聯(lián)網(wǎng)模型的“最佳”姿態(tài)。因此考慮了第二組真實姿態(tài),通過細化每個互聯(lián)網(wǎng)模型的GA姿態(tài)獲得:給定查詢圖像的GA姿態(tài)和深度圖(通過渲染查詢模型生成),通過ICP將該深度圖與互聯(lián)網(wǎng)模型對齊。將這些姿勢稱為局部細化(LR)姿勢。
5 實驗
進行了三組實驗:
(1)測量不同模型的幾何保真度水平。這能夠得出外觀保真度水平如何影響姿勢準確性的結(jié)論。
測量互聯(lián)網(wǎng)模型捕捉場景真實幾何圖形的準確程度。為此計算查詢模型和互聯(lián)網(wǎng)模型之間的3D距離,查詢模型用作真實場景幾何的近似值。對于查詢模型mesh中的每個3D點,找到互聯(lián)網(wǎng)模型中最近的頂點。適當?shù)丶毞只ヂ?lián)網(wǎng)模型以處理互聯(lián)網(wǎng)模型僅由幾個大多邊形組成的場景。查詢模型通常只顯示互聯(lián)網(wǎng)模型的一部分。
距離越小表示幾何逼真度越高??梢钥闯龌鶞手惺褂玫幕ヂ?lián)網(wǎng)模型的幾何保真度水平差異很大。
(2)測量定位精度
使用MeshLoc根據(jù)互聯(lián)網(wǎng)模型定位真實圖像。評估了MeshLoc內(nèi)的不同的特征和匹配器:LoFTR、SuperGlue以及Patch2Pix和SuperGlue的組合。
將結(jié)果與圖3所示的結(jié)果和圖2的可視化結(jié)果進行比較,可以觀察到以下內(nèi)容:
具有(相對)高幾何和外觀細節(jié)水平的互聯(lián)網(wǎng)模型取得了最好的結(jié)果:the Notre Dame A和B以及Pantheon A模型是幾何上最準確的模型之一,提供了高質(zhì)量的紋理。對于這三種圖像,大多數(shù)圖像的平均DCRE為10%或更低,這與文獻中報道的從RGB(-D)圖像創(chuàng)建的場景表示相當。這表明,使用從互聯(lián)網(wǎng)下載的模型作為視覺定位的場景表示的方法是可行的,并且可以導(dǎo)致高姿態(tài)精度。
較高的外觀保真度可以顯著補償較低的幾何保真度。例如,Pantheon B和Reichstag B模型的精度都明顯低于同一場景中的其他模型。盡管如此,這兩種模型都帶來了非常好的定位性能。
如果在互聯(lián)網(wǎng)模型和現(xiàn)實世界之間存在較大差異,定位就會失敗
與局部細化(LR)姿態(tài)相比,通常觀察到全局對準(GA)真實姿態(tài)具有更高的性能。將其歸因于一些模型中缺乏幾何細節(jié),這使得ICP算法能夠顯著改變姿態(tài)。
根據(jù)所使用的局部特征的類型,性能可能存在顯著差異。
(3)隔離了幾何保真度情況下對定位過程的影響的實驗
根據(jù)互聯(lián)網(wǎng)模型定位真實圖像時,有兩種主要的失敗情況:
由于外觀的顯著變化,沒有足夠的匹配可用。
相機姿態(tài)估計計算圖像和互聯(lián)網(wǎng)模型之間的剛性對準。因此如果互聯(lián)網(wǎng)模型的幾何形狀過于失真,則姿態(tài)估計階段可能失敗?;ヂ?lián)網(wǎng)模型僅用于將真實圖像之間的2D-2D匹配提升為可用于姿態(tài)估計的2D-3D匹配。從圖6可以看出,限制因素通常是特征匹配階段。給定足夠的特征匹配,即使在幾何上不太準確的模型也可以產(chǎn)生相對準確的姿態(tài)。因此研究能夠處理這一具有挑戰(zhàn)性任務(wù)的特征和匹配器是未來工作的一個非常有希望的方向。
6 總結(jié)
探索了一種視覺定位管道中場景表示的替代方案,即利用互聯(lián)網(wǎng)上現(xiàn)成的3D模型。
論文通過一系列實驗表明,來自互聯(lián)網(wǎng)的3D模型代表了一種很有前途的新場景表示類別,同時也為視覺定位的改進開辟了新的方向。
特別是,將真實圖像與更抽象的場景表示進行匹配的研究是未來工作的一個有趣方向~
跋:
歡迎關(guān)注「3D視覺工坊」,加群/文章投稿/課程主講,請加微信:dddvisiona,添加時請備注:加群/投稿/主講申請
方向主要包括:3D視覺領(lǐng)域各細分方向,比如相機標定|三維點云|三維重建|視覺/激光SLAM|感知|控制規(guī)劃|模型部署|3D目標檢測|TOF|多傳感器融合|AR|VR|編程基礎(chǔ)等。