微軟專利介紹了MR系統(tǒng)深度映射信息的處理方法和技術(shù)
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)
處理深度映射,減少計(jì)算量
(映維網(wǎng)?2021年11月26日)為了捕獲復(fù)雜的3D幾何圖形,MR系統(tǒng)依賴于深度傳感系統(tǒng)生成的深度映射信息。通過(guò)用光束照亮目標(biāo)場(chǎng)景并分析反射光信號(hào),MR系統(tǒng)可以利用這種深度信息來(lái)確定設(shè)備和特定對(duì)象之間的相對(duì)距離,同時(shí)識(shí)別對(duì)象的特定輪廓、邊面和形狀。
要計(jì)算單個(gè)深度映射或曲面網(wǎng)格,系統(tǒng)需要捕獲大量的圖像。圖像越多,功耗就會(huì)大幅增加,而這又會(huì)影響MR系統(tǒng)的續(xù)航,甚至是整體形狀參數(shù)設(shè)計(jì)。
在日前公布的三份專利申請(qǐng)中,微軟介紹了深度映射處理方法和技術(shù)的不同方面。微軟表示,發(fā)明描述的實(shí)施例能夠減少計(jì)算量,并允許以高于傳統(tǒng)方法的頻率來(lái)生成深度映射。
1. 混合現(xiàn)實(shí)系統(tǒng)與頭顯示例

圖2是頭顯200的示例。頭顯200可以是任何類型的MR系統(tǒng)200A,VR系統(tǒng)200B或AR系統(tǒng)200C。
頭顯200包括傳感器250,傳感器包括掃描傳感器205和其他傳感器,例如加速計(jì)255、陀螺儀260、指南針265。在一個(gè)實(shí)施例中,HMD 200包括圖2中未示出的其他互感知和/或外感知傳感器,例如眼動(dòng)追蹤系統(tǒng)、基于無(wú)線電的導(dǎo)航系統(tǒng)、麥克風(fēng)和/或其他感測(cè)組件。
頭顯200中的視覺(jué)慣性同時(shí)定位和映射功能(SLAM)將一個(gè)或多個(gè)攝像頭獲得的視覺(jué)追蹤數(shù)據(jù)與加速計(jì)255、陀螺儀260和指南針265獲得的慣性追蹤數(shù)據(jù)進(jìn)行融合(例如使用姿態(tài)濾波器),以實(shí)施例六自由度定位。
掃描傳感器205包括任何類型的掃描或攝像頭系統(tǒng),并且頭顯200可以使用掃描傳感器205來(lái)掃描環(huán)境、映射環(huán)境、捕獲環(huán)境數(shù)據(jù)和/或生成環(huán)境的任何類型的圖像。例如在一個(gè)實(shí)施例中,頭顯200配置為生成真實(shí)世界環(huán)境的3D表示或生成透視視圖。
在一個(gè)實(shí)施例中,頭顯包括RGB攝像頭,而RGB攝像頭可以實(shí)施例為立體攝像頭,這意味著兩個(gè)或多個(gè)RGB攝像頭的視場(chǎng)至少部分地相互重疊。利用重疊區(qū)域,由可見(jiàn)光攝像頭210生成的圖像可用于識(shí)別捕獲對(duì)象的特定像素之間的差異?;谙袼夭町?,系統(tǒng)能夠確定位于重疊區(qū)域內(nèi)的對(duì)象的深度,而所述深度可用于一系列的目的。
可以對(duì)由任何類型和/或攝像頭組合獲得的立體圖像對(duì)執(zhí)行立體匹配。例如,頭顯200或其他系統(tǒng)可包括可見(jiàn)光攝像頭210、微光攝像頭215、熱成像攝像頭220、紫外攝像頭225、近紅外紅色和/或其他攝像頭的任意組合。

圖3是一個(gè)頭顯的示例圖例,其中頭顯300可代表圖2中的頭顯200。頭顯300顯示為包括多個(gè)不同的攝像頭,包括攝像頭305、310、315、320和325。攝像頭305-325代表圖2中的可見(jiàn)光攝像頭210、微光攝像頭215、熱成像攝像頭220和紫外攝像頭225的任意數(shù)量或組合。盡管圖3中僅示出了5個(gè)攝像頭,但頭顯300可以包括多于或少于5個(gè)攝像頭。
2. Low Compute Depth Map Generation
本章的圖5A示出了生成下采樣立體圖像對(duì)510的概念表示。在一個(gè)實(shí)施例中,左圖像515A和右圖像520A是具有足夠像素的高分辨率圖像,能夠以期望的精度水平表示捕獲的環(huán)境。但如上所述,對(duì)高分辨率圖像執(zhí)行立體匹配以生成捕獲環(huán)境的深度信息存在大量的挑戰(zhàn)。

所以,圖5A示出了對(duì)左圖像515A執(zhí)行的下采樣操作525A和對(duì)右圖像520A執(zhí)行的下采樣操作530A。下采樣操作525A能夠減小左圖像515A的圖像大小和像素分辨率。類似地,下采樣操作530A減小右圖像520A的圖像大小和像素分辨率。所以,可以分別對(duì)左圖像515A和右圖像520A執(zhí)行下采樣操作525A和530A從而,生成下采樣立體圖像對(duì)510,其包括下采樣左圖像515B和下采樣右圖像520B。
在一個(gè)實(shí)施例中,下采樣操作525A和530A包括減少原點(diǎn)中的像素部分。
在一個(gè)實(shí)施例中,下采樣操作525A和530A包括將原始圖像中的像素部分減少為下采樣圖像中的單個(gè)像素。例如,在某些情況下,下采樣圖像中的每個(gè)像素由原始圖像的像素定義:p、 sub.d(m,n)=p(Km,Kn)
其中,p.sub.d是下采樣圖像中的像素,p是原始圖像中的像素,K是比例因子,m是水平軸上的像素坐標(biāo),n是垂直軸上的像素坐標(biāo)。在一個(gè)實(shí)施例中,下采樣操作525A和530A同時(shí)包括用于定義下采樣圖像的像素的預(yù)濾波功能,例如防止混疊偽影的抗混疊預(yù)濾波。
在一個(gè)實(shí)施例中,下采樣操作525A和530A利用平均濾波器,用于基于原始圖像中一部分像素的平均值來(lái)定義下采樣圖像的像素,
在一個(gè)實(shí)施例中,下采樣操作525A和530A在水平軸和垂直軸上將左圖像515A和右圖像520A的像素分辨率降低了2倍,使得下采樣左圖像515B和下采樣右圖像520B是左圖像和右圖像im的大小的四分之一。因此,使用下采樣立體圖像對(duì)510執(zhí)行立體匹配的計(jì)算成本低于使用原始左圖像515A和右圖像520A執(zhí)行立體匹配的計(jì)算成本。所以,使用下采樣立體圖像對(duì)510執(zhí)行立體匹配可以降低計(jì)算成本與生成深度映射關(guān)聯(lián)的屬性。
例如,將水平軸和垂直軸上的像素分辨率降低2倍,可以將立體圖像對(duì)中存在的像素?cái)?shù)量減少4倍,并進(jìn)一步將要執(zhí)行的視差計(jì)算數(shù)量減少4倍。在一個(gè)實(shí)施例中,降低像素分辨率的另一個(gè)優(yōu)勢(shì)是用于識(shí)別圖像之間的對(duì)應(yīng)像素的搜索范圍減小。所以,與使用原始圖像對(duì)進(jìn)行立體匹配相比,對(duì)下采樣立體圖像對(duì)510進(jìn)行立體匹配的計(jì)算復(fù)雜度降低了16倍。
另外,下采樣操作的數(shù)量和/或下采樣立體圖像對(duì)的最低像素分辨率基于各種因素動(dòng)態(tài)更新。例如,在一個(gè)實(shí)施例中,過(guò)度下采樣立體圖像對(duì)可能導(dǎo)致環(huán)境中存在的薄結(jié)構(gòu)消失,從而妨礙為此計(jì)算視差值。所以,在一個(gè)實(shí)施例中,系統(tǒng)可以識(shí)別環(huán)境中存在的可檢測(cè)結(jié)構(gòu)的厚度(例如通過(guò)對(duì)象分割),并基于可檢測(cè)結(jié)構(gòu)的厚度選擇性地減少或增加要執(zhí)行的下采樣操作數(shù)量。

圖5B示出了通過(guò)對(duì)下采樣立體圖像對(duì)執(zhí)行立體匹配來(lái)生成深度映射的概念表示。具體地,圖5B示出對(duì)下采樣左圖像515D和下采樣右圖像520D執(zhí)行的立體匹配操作595。
圖5B所示的立體匹配算法提供了左深度映射535A和右深度映射540A。左深度映射535A對(duì)應(yīng)于下采樣左圖像515D的幾何體,使得左深度映射535A中表示的結(jié)構(gòu)在空間上與下采樣左圖像515D中表示的相同結(jié)構(gòu)對(duì)齊。類似地,右深度映射540A對(duì)應(yīng)于下采樣右圖像520D的幾何體,使得右深度映射540A中表示的結(jié)構(gòu)在空間上與下采樣右圖像520D中表示的相同結(jié)構(gòu)對(duì)齊。
微軟指出,通過(guò)避免生成對(duì)應(yīng)于最初捕獲的立體圖像對(duì)得分辨率的高分辨率圖像,可以降低與生成深度映射相關(guān)聯(lián)的計(jì)算成本。
相關(guān)專利:Microsoft Patent | Systems and methods for low compute depth map generation
3. Upsampling Low Temporal Resolution Depth Maps

圖4A是頭顯400捕獲環(huán)境405。在本文中,“場(chǎng)景”和“環(huán)境”可互換使用,并廣義地指包括任何真實(shí)世界對(duì)象的任何真實(shí)世界空間。
頭顯400可以是圖2中頭顯200。所以,頭顯400可以利用掃描傳感器205來(lái)捕獲環(huán)境405。例如在一個(gè)實(shí)施例中,頭顯400利用立體頭來(lái)捕獲環(huán)境405的立體圖像對(duì)410A。左圖像和右圖像覆蓋重疊區(qū)域(在圖4A中描繪為立體圖像對(duì)410A),其中左圖像和右圖像各自包括表示環(huán)境405的公共部分和/或?qū)ο蟮膶?duì)應(yīng)像素。例如,左圖像和右圖像都包括表示位于環(huán)境405內(nèi)的球430和墻435的像素。
在一個(gè)實(shí)施例中,系統(tǒng)校正立體圖像對(duì)410A并執(zhí)行深度計(jì)算420A,例如立體匹配,以生成深度映射415A。深度映射415A包括立體圖像對(duì)410A內(nèi)表示的環(huán)境405的深度信息。
在一個(gè)實(shí)施例中,立體匹配涉及識(shí)別對(duì)應(yīng)像素的視差值。立體匹配算法通過(guò)使用代價(jià)函數(shù)(或其他相似性度量)來(lái)確定相關(guān)差異在每個(gè)像素位置的代價(jià),從而生成深度映射。立體匹配算法的代價(jià)函數(shù)可以實(shí)施例各種項(xiàng)和/或優(yōu)化以確定每個(gè)像素位置處的代價(jià)。對(duì)于每個(gè)像素位置,立體匹配算法選擇具有總體最小代價(jià)的視差值。
但就計(jì)算量而言,從立體圖像對(duì)410A生成用于執(zhí)行視差校正的深度映射十分昂貴,特別是對(duì)于高分辨率立體圖像對(duì)。例如,圖4A示出了在第一時(shí)間點(diǎn)捕獲立體圖像對(duì)410A的頭顯400。在一個(gè)實(shí)施例中,由于與執(zhí)行深度計(jì)算420A以生成深度映射相關(guān)聯(lián)的計(jì)算開(kāi)銷,直到自頭顯400捕獲立體圖像對(duì)410A的第一時(shí)間點(diǎn)起經(jīng)過(guò)一段時(shí)間(如若干幀)后才完成深度映射415A。

在圖4B,頭顯400捕獲多個(gè)立體圖像對(duì),包括立體圖像對(duì)410A和立體圖像對(duì)410B-410F。頭顯400以第一頻率f1捕獲立體圖像對(duì)。圖4B同時(shí)示出了迭代生成深度映射的系統(tǒng)表示。例如,通過(guò)對(duì)立體圖像對(duì)410A執(zhí)行深度計(jì)算420A來(lái)生成深度映射415A,并且通過(guò)對(duì)立體圖像對(duì)410D執(zhí)行深度計(jì)算420D來(lái)生成深度映射415D。
但如圖所示。深度計(jì)算420A的計(jì)算十分昂貴且耗時(shí)。所以,圖4B中的頭顯400以低于第一頻率f1的第二頻率f2生成深度映射。在圖4B所示的實(shí)例中,第二頻率f2是第一頻率f1的1/3,這意味著頭顯400(或其他系統(tǒng))以頭顯400捕獲立體圖像對(duì)的1/3速率生成深度映射。在至少一個(gè)實(shí)例中,當(dāng)?shù)谝活l率f1是90hz時(shí),第二頻率f2是30hz。
針對(duì)這個(gè)問(wèn)題,可以對(duì)低時(shí)間分辨率深度映射進(jìn)行上采樣來(lái)生成深度映射。5A-5C說(shuō)明了基于來(lái)自先前時(shí)間點(diǎn)和目標(biāo)時(shí)間點(diǎn)的圖像數(shù)據(jù)來(lái)生成插值深度映射。

圖5A示出了立體圖像對(duì)510A和深度映射515A,它們分別代表來(lái)自圖5A的立體圖像對(duì)410A和深度映射415A。參考4A-4B,立體圖像對(duì)410A和深度映射415A代表特定時(shí)間點(diǎn)的環(huán)境405。所述時(shí)間點(diǎn)在圖5A中表示為先前的時(shí)間點(diǎn)555A。圖5A同時(shí)示出了立體圖像對(duì)510C,其代表來(lái)自圖4B的立體圖像對(duì)410C。
注意,在圖4B中,沒(méi)有通過(guò)對(duì)立體圖像對(duì)410C執(zhí)行立體匹配或其他常規(guī)深度計(jì)算來(lái)計(jì)算與立體圖像對(duì)410C相關(guān)聯(lián)的時(shí)間點(diǎn)的深度映射。所以回到圖5A,立體圖像對(duì)510C表示沒(méi)有通過(guò)立體匹配或其他常規(guī)深度計(jì)算來(lái)計(jì)算其對(duì)應(yīng)深度映射的時(shí)間點(diǎn)。

圖5B是通過(guò)應(yīng)用濾波器560生成插值深映射圖520的概念表示。在一個(gè)實(shí)施例中,濾波器560是使用一個(gè)或多個(gè)引導(dǎo)圖像的邊緣保持濾波器。作為非限制性示例,在一個(gè)實(shí)施例中,濾波器560是聯(lián)合雙邊濾波器、引導(dǎo)濾波器、雙邊解算器或任何其他合適的邊緣保持濾波器。
在圖5B所示的示例中,濾波器560配置為使用來(lái)自立體圖像對(duì)510A、立體圖像對(duì)510C和深度映射515A的圖像數(shù)據(jù)來(lái)生成內(nèi)插深度映射520。
在一個(gè)實(shí)施例中,濾波器560生成插值深度映射520的每個(gè)像素P,并作為深度映射515A的特定像素的加權(quán)平均值。在圖5B的示例中,對(duì)于內(nèi)插深度映射520的每個(gè)像素P,濾波器560識(shí)別立體圖像對(duì)510C中對(duì)應(yīng)于像素P的坐標(biāo)的像素P。在一個(gè)實(shí)施例中,由于立體圖像對(duì)510C和插值深度映射520都與目標(biāo)時(shí)間點(diǎn)555C相關(guān)聯(lián),所以插值深度映射520和立體圖像對(duì)510C中表示的對(duì)象將對(duì)齊。因此,在一個(gè)實(shí)施例中,像素P提供用于識(shí)別與先前時(shí)間點(diǎn)555A相關(guān)聯(lián)的圖像數(shù)據(jù)的參考起點(diǎn),以實(shí)施例在插值深度映射520中生成像素P。
在一個(gè)實(shí)施例中,基于像素P的強(qiáng)度和像素坐標(biāo),濾波器560識(shí)別立體圖像對(duì)510A中的一個(gè)或多個(gè)像素Q。立體圖像對(duì)510A具有與像素P相似的像素坐標(biāo)和與像素P相似的強(qiáng)度值。在一個(gè)實(shí)例中,濾波器560基于包含像素P的像素坐標(biāo)的坐標(biāo)范圍565來(lái)識(shí)別像素坐標(biāo)的相似性。
另外,在一個(gè)實(shí)施例中,濾波器560基于灰度強(qiáng)度差、距離度量和/或任何合適的相似性函數(shù)或技術(shù)來(lái)識(shí)別坐標(biāo)范圍565內(nèi)具有與像素P的強(qiáng)度相似的強(qiáng)度的一個(gè)或多個(gè)像素Q的強(qiáng)度相似性。
在一個(gè)實(shí)施例中,基于一個(gè)或多個(gè)像素Q的像素坐標(biāo),濾波器560在深度映射515A中識(shí)別與一個(gè)或多個(gè)像素Q具有相同像素坐標(biāo)的一個(gè)或多個(gè)像素Q。在一個(gè)實(shí)施例中,由于立體圖像對(duì)510A和深度映射515A都與先前的時(shí)間點(diǎn)555A相關(guān)聯(lián),所以在深度映射515A和立體圖像對(duì)510A中表示的對(duì)象將對(duì)齊。所以,在一個(gè)實(shí)施例中,一個(gè)或多個(gè)像素Q提供用于識(shí)別一個(gè)或多個(gè)像素Q的參考,以實(shí)施例用于在插值深度映射520中生成像素P。
在一個(gè)實(shí)施例中,基于來(lái)自深度映射515A的一個(gè)或多個(gè)像素Q的視差值的加權(quán)平均值,濾波器560生成像素P的深度值(例如視差值)。在一個(gè)實(shí)施例中,用于確定用于生成像素P的一個(gè)或多個(gè)像素Q的加權(quán)平均值的權(quán)重基于立體圖像對(duì)510A的一個(gè)或多個(gè)像素Q和來(lái)自立體圖像對(duì)510C的像素P之間的強(qiáng)度相似性、一個(gè)或多個(gè)像素Q和像素P之間的像素坐標(biāo)相似性,或其組合。

圖5C描繪了使用來(lái)自立體圖像對(duì)510C、立體圖像對(duì)510A和深度映射515A的圖像數(shù)據(jù)生成插值深度映射520的所有像素P之后的插值深度映射520。
微軟指出,在一個(gè)實(shí)施例中,以根據(jù)圖5A-5C公開(kāi)的方式生成深度映射可以以比傳統(tǒng)立體匹配或其他深度計(jì)算技術(shù)更低的計(jì)算成本來(lái)提供深度映射,從而實(shí)施例高時(shí)間分辨率深度映射生成。
相關(guān)專利:Microsoft Patent | Upsampling low temporal resolution depth maps
4. Temporally Consistent Depth Map Generation
圖7A示出了頭顯700以第一姿態(tài)P1捕獲環(huán)境705。頭顯700可以代表圖2中提到的頭顯200。所以,頭顯700可以利用掃描傳感器205來(lái)捕獲環(huán)境705。圖7A中描繪的實(shí)例示出頭顯700利用立體攝像頭捕獲環(huán)境705的P1立體圖像對(duì)710,同時(shí)頭顯700具有第一姿態(tài)P1。圖7A描繪了重疊區(qū)域,其中P1立體圖像對(duì)710的多個(gè)圖像各自包括表示環(huán)境705的對(duì)應(yīng)像素。例如,P1立體圖像對(duì)710的多個(gè)圖像包括表示球730和墻735和740的像素。

另外,在一個(gè)實(shí)施例中,頭顯700使用一個(gè)或多個(gè)慣性追蹤組件(例如加速計(jì)255、陀螺儀260和指南針265)識(shí)別第一姿態(tài)P1。在一個(gè)實(shí)施例中,慣性追蹤部件與一個(gè)或多個(gè)掃描傳感器205(例如頭部追蹤攝像頭)協(xié)同工作,以估計(jì)頭顯700的六自由度姿態(tài)。
圖7A同時(shí)示出,頭顯700基于P1立體圖像對(duì)生成P1深度映射715A??梢酝ㄟ^(guò)執(zhí)行立體匹配來(lái)獲得深度映射。

圖7B識(shí)別不同于姿態(tài)P1更新姿態(tài)P2。在一個(gè)實(shí)施例中,更新的姿態(tài)P2是與第一姿態(tài)P1相關(guān)聯(lián)的時(shí)間點(diǎn)之后的時(shí)間點(diǎn)處的姿態(tài)。在一個(gè)實(shí)施例中,頭顯700基于各種組件獲得的數(shù)據(jù)來(lái)識(shí)別更新的姿態(tài)P2。
當(dāng)用戶在環(huán)境705中隨時(shí)間改變其位置時(shí),頭顯700的立體攝像頭捕獲環(huán)境705的不同視角和/或部分。例如,當(dāng)頭顯700具有更新的姿態(tài)P2時(shí),立體攝像頭捕獲環(huán)境705的P2立體圖像對(duì)720。虛線框745描繪了基于P1的捕獲圖像,而P2則是720。但745和720均捕獲了目標(biāo)區(qū)域的重要部分,如區(qū)域750。
由于透視圖的變化和立體深度計(jì)算的固有復(fù)雜性(例如立體匹配),基于P1立體圖像對(duì)710生成的P1深度映射715A中的深度信息,以及基于P2立體圖像對(duì)720生成的P2深度映射中的深度信息之間存在差異。在一個(gè)示例中,P1深度映射中的球730視差值可能與P2深度映射中的球730視差值不一致。
若連續(xù)生成的深度映射中的對(duì)象深度不一致,例如時(shí)間不一致,這將會(huì)導(dǎo)致用戶體驗(yàn)下降,例如這球的幀到幀表示不準(zhǔn)確。
所以,可以利用來(lái)自先前深度映射的深度信息來(lái)提供連續(xù)生成的深度映射之間的時(shí)間一致性,同時(shí)生成后續(xù)深度映射。
根據(jù)提供時(shí)間上一致的連續(xù)生成的深度映射,圖7C示出了通過(guò)在P1深度映射715A執(zhí)行重投影操作765來(lái)生成重投影的P1深度映射715B。
在一個(gè)實(shí)施例中,頭顯700利用獲得的更新姿態(tài)P2的姿態(tài)數(shù)據(jù)執(zhí)行重投影操作765。頭顯700然后重新投影P1深度映射715A,以對(duì)應(yīng)于與更新姿態(tài)P2相關(guān)聯(lián)的環(huán)境的透視圖,從而提供重投影的P1深度映射715B。
換言之,頭顯700通過(guò)使用更新姿態(tài)P2來(lái)重新投影P1深度映射715A,以將P1深度映射715A與P2立體圖像對(duì)720對(duì)齊,從而生成重投影的P1深度映射715B。
例如在一個(gè)實(shí)例中,頭顯700將視差值投影到三維空間中,基于P1深度映射715A中表示的視差值來(lái)識(shí)別三維空間中的深度點(diǎn),例如點(diǎn)云或其他三維重建)。然后,系統(tǒng)可以使用更新姿態(tài)P2的姿態(tài)數(shù)據(jù)重投影或變換深度點(diǎn),以將P1深度映射715A與P2立體圖像對(duì)720的透視圖對(duì)齊。
例如,圖7C的虛線框785描繪了捕獲P2立體圖像對(duì)720,以與重投影的P1深度映射715B進(jìn)行比較的透視圖。

如圖7C所示,P1深度映射715B中表示的對(duì)象的深度信息與區(qū)域770所示的P2立體圖像對(duì)720中表示的相同對(duì)象對(duì)齊。例如,P1深度映射715B中的球730的深度值的空間坐標(biāo)與P2立體圖像對(duì)720中的球730的像素的空間坐標(biāo)對(duì)齊。
另外,如圖7C所示,重投影的P1深度映射715B包括P2立體圖像對(duì)中未表示的環(huán)境705部分的深度信息,如區(qū)域775。在一個(gè)示例中,重投影的P1深度映射包括在P2立體圖像對(duì)720中未示出的墻735的部分的深度信息。在一個(gè)實(shí)施例中,在進(jìn)一步處理中可以省略區(qū)域775中的無(wú)關(guān)深度信息,從而節(jié)省計(jì)算資源。
在一個(gè)實(shí)施例中,通過(guò)對(duì)P2立體圖像對(duì)720執(zhí)行立體匹配來(lái)生成P2深度映射的同時(shí),使用重新投影的P1深度映射,以提供P1深度映射和P2深度映射之間的時(shí)間一致性。
圖8示出了使用重投影深度映射執(zhí)行立體匹配,從而生成與更新姿態(tài)相對(duì)應(yīng)的深度映射。
圖8同時(shí)示出了立體匹配操作830,其通過(guò)操作P2立體圖像對(duì)820并使用重投影的P1深度映射來(lái)生成P2深度映射825。在一個(gè)實(shí)施例中,立體匹配操作通過(guò)使用代價(jià)函數(shù)835(或其它相似性度量)來(lái)確定相關(guān)差異的每個(gè)像素位置處的代價(jià)來(lái)生成深度映射。對(duì)于每個(gè)像素位置,立體匹配操作830選擇具有總體最小代價(jià)的視差值。
在一個(gè)實(shí)施例中,立體匹配操作830的代價(jià)函數(shù)835實(shí)施例各種項(xiàng)和/或優(yōu)化以確定每個(gè)像素位置處的代價(jià)。
立體匹配操作830的代價(jià)函數(shù)835實(shí)施例時(shí)間一致性項(xiàng)840。在一個(gè)實(shí)施例中,代價(jià)函數(shù)835的時(shí)間一致性項(xiàng)840對(duì)P2深度映射825的像素(或像素位置)應(yīng)用代價(jià)加成(例如,代價(jià)降低)。其中,P2深度映射825的像素(或像素位置)與重投影的P1深度映射815的對(duì)應(yīng)像素(或像素位置)共享相同或相似的視差值。
為了幫助理解,可將重投影的P1深度映射815視為P2深度映射825的一組預(yù)測(cè)視差值。在一個(gè)實(shí)施例中,時(shí)間一致性項(xiàng)840將通過(guò)采用預(yù)測(cè)視差值來(lái)致使P2深度映射825的像素具有最小代價(jià)。
以在重投影P1深度映射815中表示的球850作為說(shuō)明。可將重投影P1深度映射815中的球850的視差值視為P2深度映射825中的像素的預(yù)測(cè)視差值。其中,P2深度映射825將描述在P2立體圖像對(duì)820中捕獲的球850。

當(dāng)執(zhí)行立體匹配操作830以計(jì)算P2深度映射中的球850的視差值時(shí),代價(jià)函數(shù)835可基于P2立體圖像對(duì)820之間的像素匹配來(lái)確定與描述球850的像素的視差值相關(guān)聯(lián)的代價(jià)?;赑2立體圖像對(duì)820之間的像素匹配的視差值可以接近基于重投影P1深度映射815的預(yù)測(cè)視差值,但依然可以與預(yù)測(cè)視差值不一致。采用不一致的視差值可能會(huì)降低依賴于連續(xù)深度計(jì)算的用戶體驗(yàn)。
所以,立體匹配操作830的代價(jià)函數(shù)835包括時(shí)間一致性項(xiàng)840,其為與重投影P1深度映射815的對(duì)應(yīng)像素的預(yù)測(cè)視差值共享相同或相似視差值的像素提供代價(jià)加成(例如,代價(jià)降低)。繼續(xù)上面的例子,當(dāng)描述球850的像素采用重投影P1深度映射815的對(duì)應(yīng)像素的預(yù)測(cè)視差值時(shí),代價(jià)函數(shù)835可確定與描述球850的像素的視差值相關(guān)聯(lián)的代價(jià)低于基于像素匹配的視差值的代價(jià)(例如,由于與時(shí)間一致性項(xiàng)840相關(guān)的成本加成)。
在一個(gè)說(shuō)明性示例中,如果球850處于運(yùn)動(dòng)中,故其位置不同于重新投影P2深度映射815中捕獲的球850的位置。當(dāng)基于像素匹配而不是基于來(lái)自重新投影P1深度映射815的預(yù)測(cè)視差值時(shí),球850的視差值可以具有最低成本。

在一個(gè)實(shí)施例中,重投影P1深度映射815未能包括P2立體圖像對(duì)820中表示的環(huán)境的每個(gè)部分的預(yù)測(cè)視差值。然而,立體匹配操作830可以基于像素匹配獲得所述部分的視差值。例如,P2深度映射825包括區(qū)域855,其表示重新投影的P1深度映射815不包括視差值的環(huán)境的一部分。在一個(gè)實(shí)例中,基于P2立體圖像對(duì)820之間的像素匹配,在深度映射中識(shí)別并表示P2深度映射825的視差值。
應(yīng)注意的是,這種時(shí)間一致的深度映射生成原理可選擇性地應(yīng)用于各種情況。例如,在一個(gè)實(shí)施例中,系統(tǒng)以初始姿態(tài)捕獲初始高分辨率立體圖像對(duì),執(zhí)行立體匹配以獲得初始深度映射。然后,系統(tǒng)以更新姿態(tài)捕獲后續(xù)高分辨率立體圖像對(duì),并基于后續(xù)高分辨率立體圖像對(duì)生成更新的深度映射,同時(shí)使用基于更新的姿態(tài)重新投影的初始高分辨率立體圖像對(duì)。
在其他情況下,系統(tǒng)捕獲第一對(duì)立體圖像并對(duì)第一對(duì)立體圖像進(jìn)行下采樣,并基于下采樣的第一對(duì)立體圖像生成深度映射。然后,系統(tǒng)在第二姿態(tài)捕獲第二對(duì)立體圖像并對(duì)第二對(duì)立體圖像進(jìn)行下采樣。然后,系統(tǒng)生成深度映射基于下采樣的第二立體圖像對(duì)的第二深度映射,同時(shí)使用基于第二姿態(tài)重新投影的下采樣的第一立體圖像對(duì)。
通過(guò)上面描述的方式,可以生成具有時(shí)間一致性的深度映射。
相關(guān)專利:Microsoft Patent | Systems and methods for temporally consistent depth map generation
上述三份專利申請(qǐng)均于2020年5月提交,并在日前由美國(guó)專利商標(biāo)局公布。
---
原文鏈接:https://news.nweon.com/91925