基于MAP-MRF的視差估計
來源:微信公眾號|3D視覺工坊(系投稿)
作者:浩南
「3D視覺工坊」技術交流群已經(jīng)成立,目前大約有12000人,方向主要涉及3D視覺、CV&深度學習、SLAM、三維重建、點云后處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流、ORB-SLAM系列源碼交流、深度估計等。工坊致力于干貨輸出,不做搬運工,為計算機視覺領域貢獻自己的力量!歡迎大家一起交流成長~
添加小助手微信:CV_LAB,備注學校/公司+姓名+研究方向即可加入工坊一起學習進步。
QQ群「3D視覺工坊」,群號:949193717? ? ? ? ? ??
寫在最前面的話:
此篇文章作為本人對馬爾科夫隨機場等概率模型在立體視覺的應用的首篇記錄,包含了本人對馬爾科夫場理論的淺顯理解和最大后驗概率估計方法的理解。囿于本人學術水平,此篇文章參考了大量的數(shù)學教材、網(wǎng)絡的相關博客以及國內(nèi)外學術論文,在此特別鳴謝以下創(chuàng)作:
1.圖像的MAP-MRF模型 https://blog.csdn.net/xfijun/article/details/103624819
2.Belief Propagation解決計算機視覺問題
https://blog.csdn.net/lansatiankongxxc/article/details/45590545?utm_source=blogxgwz0
以上創(chuàng)作極大地加深了本人對馬爾可夫場的理解,在此基礎上,本人結合視差估計這一立體視覺基本問題進行整理。再次感謝以上創(chuàng)作對本人的幫助,謝謝!
作為計算機視覺的核心問題的三維重建技術已經(jīng)廣泛應用于3D打印、離線地圖重建和文物修復等行業(yè)應用之中。其中,基于多視圖立體(Multi-View Stereo, 以下簡稱為“MVS”)的三維重建僅以RGB圖片作為輸入,經(jīng)過特征提取與匹配,從運動恢復結構(Structure from Motion, 以下簡稱為“SfM”),深度估計,深度圖融合等多個步驟,輸出表達場景的稠密點云,是基于視覺的三維重建技術的重要方法和研究分支。日益增長的數(shù)據(jù)量,同時內(nèi)部數(shù)據(jù)還受到諸如光照變化、遮擋等不可控環(huán)境因素的影響都對深度圖估計的效率、精度都提出了挑戰(zhàn)。
參考影像的深度估計可以轉化為立體像對的視差估計,傳統(tǒng)方法利用稠密匹配的算法進行快速特征匹配,例如半全局匹配算法,而往往在收到遮擋的影響而效果不佳。而深度學習方法在立體視覺中的成功應用,使得高效率、高精度的基于神經(jīng)網(wǎng)絡的端到端三維重建成為可能。
在MVS技術中,估計單張影像的深度圖是主要步驟。而多視圖立體的深度估計又可以轉化成立體像對的視差估計。對于圖像視差估計問題,一般可利用馬爾科夫場對圖像視差賦值進行建模[1],大多數(shù)傳統(tǒng)方法也在其基礎上利用最大化后驗概率進行優(yōu)化
因此,本文將就立體像對視差估計問題,首先介紹立體像對中視差估計的原理,然后沿用以往馬爾科夫場的模型,并以最大后驗概率估計作為參數(shù)估計方法,建立MAP-MRF模型。最后使用和積置信度傳播算法,改寫MAP-MRF框架下的視差能量函數(shù),并優(yōu)化求解立體像對中以左視圖為基準的視差圖。
1.立體像對視差估計原理


圖1 立體視覺模型[5]

2.基于MAP-MRF的深度估計模型
2.1最大后驗概率估計
最大后驗概率估計(Maximum A Posteriori, 以下簡稱“MAP”)是貝葉斯學派模型參數(shù)估計的常用方法。其基本思路為,在給定數(shù)據(jù)樣本的情況下,最大化模型的后驗概率。
假設利用Y表示觀測值,X表示待求量,則在觀測數(shù)據(jù)條件下的待求量的條件概率為P(X | Y),由貝葉斯公式可得(式2),后驗概率正比于似然函數(shù)P(Y|X)和未知變量的先驗概率P(X)的乘積。

當待求量的先驗分布未知時時,可以認為P(X)是一個均勻分布,利用最大似然法(MLE)進行優(yōu)化,然而對于立體像對深度估計問題,待求變量往往會受到光照條件、遮擋的影響,而一般也能夠得到關于待求變量的先驗信息,從而在數(shù)據(jù)量不足的情況下,選擇MAP估計可以得到一個更為優(yōu)化的結果(式3)。

2.2 馬爾科夫隨機原理
2.2.1 領域系統(tǒng)


圖2 MRF領域系統(tǒng)[9]
2.2.2 馬爾科夫隨機場

的狀態(tài)
2.3吉布斯分布

2.4MAP-MRF在深度估計上的建模
本節(jié)主要介紹MAP-MRF框架在視差估計上的模型構建過程。

因為已知觀測量,并在MAP框架下,要求未知變量X的后驗概率最大(式3),所以僅需要知道觀測變量的后驗概率P(Y | X)和未知變量的先驗概率P(X),即可表示未知變量的后驗概率(式2)。而在馬爾科夫場中,比較容易構造出未知變量和觀測變量的聯(lián)合概率(式6)。

由2.3中所說的Hammersley-Cliffod定理,未知變量的先驗分布滿足Gibbs分布,因此,由式6)和式4),未知變量的先驗分布可以表示為場內(nèi)子團的勢能。這里需要注意,在數(shù)據(jù)集給定的情況下,觀測變量是確定的常值,觀測變量的后驗概率P(Y | X)可以認為是觀測變量退化的似然表示。因此,在未知變量給定標號的時候,P(Y | X)實際上是一個可求的定值,。所以用能量函數(shù)表示時,往往將觀測值的后驗概率和未知量的先驗概率的一元能量合并。

對于求解建立在圖像上的無向有環(huán)圖模型,還有兩個難點,第一個是如何確立能量函數(shù)的具體形式,第二個求解式10)是一個NP問題,該如何求解。對于第一個問題,考慮第一節(jié)中的視差估計原理,利用光學一致性準則給出能量函數(shù),第二個問題,利用置信度傳播算法(Belief Propagation Algorithm, 以下簡稱“BP算法”)進行優(yōu)化求解。
2.4.1MAP-MRF框架下深度估計步驟
1)通過最大后驗概率法確定MRF模型,由式6),兩邊取對數(shù)得:

2)確定先驗概率P(X)
3)確定似然函數(shù)模型P(Y|X),一般可與先驗概率分布一致。
4)寫出最大后驗概率下的能量函數(shù),優(yōu)化求解
3.BP算法求解
3.1BP算法原理
對于有環(huán)無向的馬爾科夫場,求解觀測量和未知變量的聯(lián)合概率,是一個NP問題,無法在線性時間內(nèi)解決,因此,使用BP算法進行優(yōu)化。首先,分解聯(lián)合概率(式8),將每一個

需要注意的是,考慮無向有環(huán)圖的特性,一般在信息迭代的時候,奇數(shù)次則按照垂直方向迭代,偶數(shù)次按照水平方向迭代以提高效率。
3.2視差代價能量函數(shù)

4.實驗結果與分析
我們先利用經(jīng)典的駐波大學(Tsukuba Univeristy)的立體像對數(shù)據(jù)集來驗證本文的框架和算法,這個數(shù)據(jù)集是經(jīng)典立體視覺匹配的數(shù)據(jù)集,包括高分辨率,中分辨率和低分辨率的立體像對,同時該數(shù)據(jù)集還提供了視差真值、遮擋和無紋理的指示圖。我們首先給定一個視差范圍,例如0至16個像素,利用MAP-MRF框架的視差估計結果,并和半全局匹配算法得到的初始視差圖對比結果如下。

圖4 基于MAP-MRF視差計算結果對比:上面一行為左右視圖,左下為“贏者通吃”策略視差圖,右下為由MRF計算的視差圖
從圖4,通過MRF建模后,利用BP算法得到的視差圖的平滑度要優(yōu)于無鄰域視差約束的初始深度圖,同時,對比發(fā)現(xiàn),BP算法能將局部信息進行全局傳遞,從而在視差圖邊緣部分不會出現(xiàn)沒有參考,只能用0視差填充的黑色邊框。

圖5 立體像對視差計算結果
對比其他數(shù)據(jù)集視差結果(圖5)可以看到,在BP算法優(yōu)化后,經(jīng)典的立體像對可以得到較為準確的視差結果。當然本文中實現(xiàn)的BP算法沒有引入太多的約束,從而會受到光照變化、遮擋等影響。如圖6,當左右視圖的相機外參變化較大的時候,即兩個相機的光軸夾角較小的時候,由于相機轉角過大,導致相同特征被遮擋,或者位置偏移在置信度傳播的時候,在參考影像上,認為找不到合適匹配點,所以將視差設定為0,在圖像中就是黑色顯示。

圖6 遮擋影響下的視差殘缺
5.總結
本文主要利用MAP-MRF框架,以左像為參考,估計立體像對的視差圖。首先,通過MAP,將視差估計問題轉化為最大化視差后驗概率問題,之后本文結合MRF對圖像進行建模,并在該框架下得到視差估計的能量函數(shù)和優(yōu)化條件。最后利用BP算法進行求解。
實驗表明,本文的算法比原有的直接計算像對視差的結果更為完整和平滑。同時,就光照變化、遮擋問題對置信度傳播方法的挑戰(zhàn),本文將結合深度學習方法再進行進一步的研究。
參考文獻
[1] 畢天騰, 劉越, 翁冬冬, and 王涌天. 基于監(jiān)督學習的單幅圖像深度估計綜述. 計算機輔助設計與圖形學學報, 30(8):1383–1393, 8 2018.
[2] Michael Isard and John MacCormick. Dense motion and disparity estimationvia loopy belief propagation. In?Computer Vision - ACCV 2006:, pages 32–41, Hyderabad, India, 1 2006.
[3] Christoph Strecha, Rik Fransens, and Luc Van Gool. Combined depthand outlier estimation in multi-view stereo. In?ICT’07: XXVI InternationalConference on ermoelectrics June 3-5, 2007 Shineville LuxuryResort Jeju, Korea, pages 2394–2401, Jeju, Korea, 1 2007. IEEE.
[4] Chen, Qifeng, Koltun, and Vladlen. Fast mrf optimization with applicationto depth reconstruction. In?2014 IEEE Conference on ComputerVision and Pattern Recognition: 2014 27th IEEE Conference on ComputerVision and Pattern Recognition (CVPR 2014), 23-28 June 2014,Columbus, Ohio, pages 3914–3921, Columbus, OH(US), 1 2014. Instituteof Electrical and Electronics Engineers.
[5] 姚力. 自然三維電視系統(tǒng)中立體匹配及視點合成技術研究. 博士論文, 浙江大學, 11 2012.
[6] 陳侃. 基于馬爾科夫隨機場圖像恢復算法研究. 碩士論文, 南京師范大學, 11 2008.
[7] Ozkalayci, Burak, Alatan, and /A/. Aydin. Mrf-based planar cosegmentationfor depth compression. In?2014 IEEE International Conferenceon Image Processing: 2014 IEEE International Conference onImage Processing (ICIP 2014), 27-30 October 2014, Paris, France,pages 125–129, Paris, 1 2014. Institute of Electrical and Electronics Engineers.
[8] 吳秋峰, 尹海東, and 孟翔燕. 基于和積和最大積的信念傳播算法的收斂性分析. 數(shù)學的實踐與認識, 41(9):212–217, 8 2011.
[9] 童漢陽. 基于過分割的自適應精匹配算法研究. 碩士論文, 浙江工業(yè)大學, 9 2012.
備注:作者也是我們「3D視覺從入門到精通」特邀嘉賓:一個超干貨的3D視覺學習社區(qū),本文的配套代碼后續(xù)作者也將會分享在星球內(nèi)。