多視圖立體幾何PatchMatchStereo:DSI與Cost Volume
在上一篇文章:傳統(tǒng)多視圖立體算法:PatchMatchStereo詳解[1]中,我們談到利用在視差空間對每一個像素隨機一個視差平面,然后通過傳播這個視差平面參數(shù),使得每一個像素經(jīng)過周圍像素影響以得到更佳的視差平面。這其中涉及到的幾何推理文中并沒有詳細說明,使讀者對公式產(chǎn)生疑惑,因此,本文將首先對文中的幾何公式進行推導(dǎo),其次,該篇文章在視差平面采樣的時候提到DSI(Disparity Space Image)的概念,這表示引入一個視差空間,并在這個空間中進行采樣。雖然本文對DSI沒有過多的闡述和使用,但DSI在立體視覺中是一個重要的概念,而同時在立體稠密匹配和多視匹配中,無論是傳統(tǒng)方法還是深度學(xué)習(xí)方法,許多的文章或工作都提及了Cost Volume概念,又與DSI有何聯(lián)系呢?本篇文章將一一揭曉。
注1:文末附【三維重建】交流群
注2:整理不易,請點贊支持!
作者:視覺企鵝 | 來源:3D視覺工坊微信公眾號
1、再談PatchMatch Stereo中的幾何關(guān)系
回顧一下,PatchMatch Stereo中的視差計算公式(式1),


① 圖像坐標系左手系或者右手系都可以定義,不過一般是右手系

2、Cost Volume和DSI
2.1、Cost Volume
Cost Volume,暫且翻譯作代價卷、代價體。在基于深度學(xué)習(xí)的立體匹配、多視圖幾何中經(jīng)常提及,比如香港科技大學(xué)的2018年提出的經(jīng)典框架MVSNet[3],利用三維卷積神經(jīng)網(wǎng)絡(luò)對多視圖匹配代價體進行正則化,并利用softmax方法得到每個像素在不同的深度的概率,阿里巴巴在2020年提出了改進網(wǎng)絡(luò)Cascade-Cost Volume[4],利用一種接鏈式代價體構(gòu)造方法提升深度估計的分辨率和精度。那我們應(yīng)該如何理解Cost Volume呢?這和我們傳統(tǒng)方法中的匹配代價有何聯(lián)系呢?

所以在MVSNet類的深度學(xué)習(xí)中,Cost Volume與視差空間的綠色方塊一樣,是深度空間中,以圖像長寬為x,y軸,深度方向為z軸,每一塊表示在該深度下,像素點三維wrap后的匹配代價。

在此基礎(chǔ)上,我們就比較容易理解DSI這一概念了。
2.2、DSI
DSI(Disparity Space Image),暫且翻譯為視差空間圖像,是一種保存左、右立體視圖在視差空間中匹配代價的輔助圖像,與不同搜索算法結(jié)合,廣泛應(yīng)用在立體視覺、多視圖幾何中。而我們在文獻中一般會看到兩種形式的視差圖,一種是單線掃描匹配代價圖(圖3-a),一種視差空間切面匹配代價圖(圖3-b),這兩種匹配圖的像素值不是視差,而是匹配代價,可以約定顏色的深淺來表示匹配代價的高低,一般的,比如圖3-b)中,顏色約深,表示匹配代價越小。

形象的來看,這兩種圖可以看作對圖1中的視差空間體(綠色方塊),進行不同角度的切片,容易理解圖3-b)是沿垂直于z軸切片的匹配代價圖,而圖3-a)則表示沿y軸切片的匹配代價圖。
首先我們來看視差空間切面匹配圖(圖3-b),顧名思義,此類匹配圖是在同一個視差下的匹配代價,圖像的每個像素都對應(yīng)都是同一個視差,每一個像素值表示在該視差下的匹配代價,如圖4所示,假設(shè)有一對初始的立體像對,那么不同視差下可以計算出不同的視差切面匹配圖(圖4-c,d,e),顏色越前表示匹配代價越小。同時立體匹配亦滿足,空間點距離相機越近,則視差越大,距離相機越遠,則視差越小。因此,當視差為10像素時(圖4-c),后面的書架匹配代價小,為深色,視差為21像素時(圖4-e),前面的雕像匹配代價小。

圖4 DSI示意圖[5],a)為RGB影像,b)為視差的Ground Truth圖像,c), d), e)分別表示視差在10、16、21像素的匹配結(jié)果
具體的切面方式也可以從圖5看出,比較容易理解,因此不再贅述。

圖5 視差切面示意圖
其次是單線掃描視差圖,這個比較抽象,所以我們借助雙目立體的原理圖進行解釋(圖6)。我們知道,在雙目立體結(jié)構(gòu)中,以左視圖為參考圖,單視角下像素(圖6 點)在三維空間中表示一條直線,需要利用右視圖去確定該像素在空間中的具體位置。因此,如果固定點,那么右圖立體匹配就是在同名極線上計算匹配代價,因此左圖的單像素點,映射到右圖上是一條極線。

由此,當我們對左圖的某一條掃描線(圖7中黃色線)上的每一個像素進行計算時,每一個像素在右圖上就表示的是一條同名極線,故每個像素將會形成一條匹配線,所有像素形成的掃描線就會形成一張匹配圖。這張圖就是該掃描線對應(yīng)的匹配代價圖。這里需要注意的是,單線掃描匹配代價圖的大小不一定和原圖一樣大,單線掃描匹配代價圖的寬(軸)是采樣數(shù),如果我們對掃描線上所有的像素都進行采樣,那么匹配代價圖的寬和左圖的寬一致,匹配代價圖的長(軸)是匹配數(shù),也是視差搜索空間大小。

3、總結(jié)
本節(jié)作為PMS的拾遺第一部分,主要回顧了PMS中的幾何公式以及DSI和Cost Volume的聯(lián)系,雖然PMS中沒有特別強調(diào)DSI這一概念,而只是利用視差空間這一概念輔助視差搜索,但DSI在立體視覺中卻是很關(guān)鍵的概念,無論是深度學(xué)習(xí)方法還是傳統(tǒng)方法,都有廣泛地使用。下一節(jié)將會是PMS拾遺的第二部分,主要是延申P(guān)atchMatch的深度傳播方法,揭示目前在大分辨率的場景重建Benchmark,例如ETH3D High Resolution,傳統(tǒng)方法遠高于深度學(xué)習(xí)方法的原因。
參考文獻
[1] Bleyer M , Rhemann C , Rother C . PatchMatch Stereo - Stereo Matching with Slanted Support Windows[C]// British Machine Vision Conference 2011. 2011.
[2] Richard Hartley and Andrew Zisserman. 2003. Multiple View Geometry in Computer Vision (2nd. ed.). Cambridge University Press, USA.?P326
[3] Yao Y, Luo Z, Li S, et al. Mvsnet: Depth inference for unstructured multi-view stereo[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 767-783.
[4] Gu X, Fan Z, Zhu S, et al. Cascade cost volume for high-resolution multi-view stereo and stereo matching[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 2495-2504.
[5] Szeliski R. Computer vision: algorithms and applications[M]. Springer Science & Business Media, 2010.P540
備注:作者也是我們「3D視覺從入門到精通」知識星球特邀嘉賓:一個超干貨的3D視覺學(xué)習(xí)社區(qū)
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
3D視覺工坊-三維重建交流群
已建立3D視覺工坊-三維重建微信交流群!想要進三維重建學(xué)習(xí)交流群的同學(xué),可以直接加微信號:CV_LAB。加的時候備注一下:三維重建+學(xué)校+昵稱,即可。然后就可以拉你進群了。
強烈推薦大家關(guān)注3D視覺工坊知乎賬號和3D視覺工坊微信公眾號,可以快速了解到最新優(yōu)質(zhì)的3D視覺與SLAM論文。