微軟專利分享:為AR環(huán)境虛擬對象提供更好的光照效果
查看引用/信息源請點擊:映維網(wǎng)Nweon
估計照明

(映維網(wǎng)Nweon?2022年04月20日)增強現(xiàn)實頭顯需要為現(xiàn)實世界視圖疊加逼真的虛擬對象,而其中的光影照明非常關(guān)鍵。對于通過分析環(huán)境對象的圖像來估計照明特征的系統(tǒng),其面臨至少兩個技術(shù)挑戰(zhàn)。第一,可能無法以足夠的精度識別照明特征,尤其是對于具有高動態(tài)光強度范圍的室外場景;第二,涉及復雜的圖像處理。
為了提高系統(tǒng)執(zhí)行實時推理階段處理的能力,微軟提出了一份名為“Estimating illumination in an environment based on an image of a reference object”,通過根據(jù)參考對象的圖像來估計環(huán)境照明,從而幫助增強現(xiàn)實系統(tǒng)為虛擬對象應用適當?shù)恼彰鳌?/p>
圖1示出了用于訓練環(huán)境編碼系統(tǒng)104和對象編碼系統(tǒng)106的訓練系統(tǒng)102。環(huán)境編碼系統(tǒng)104將環(huán)境圖像映射到組合編碼110。對象編碼系統(tǒng)106將對象圖像映射到另一組合編碼114。
環(huán)境圖像是指環(huán)境的數(shù)字圖像或映射。環(huán)境包括或以其他方式展示一個或多個照明源的效果。例如,說明性環(huán)境圖像108描繪了包括太陽116作為主要光源的室外場景。對象圖像是指至少包含一個參考對象的圖像。然后,參考對象由相應環(huán)境圖像所描繪的環(huán)境中的光源照亮。例如,說明性對象圖像112包括顯著地以人類面部118為特征的參考對象。人類面部118顯示了光照射到人類面部而引起的照明效果。由于上述關(guān)系,環(huán)境圖像108和對象圖像112形成相關(guān)的一對圖像。
首先,由環(huán)境編碼系統(tǒng)104產(chǎn)生的組合編碼110是包括兩部分(128、130)的數(shù)據(jù)結(jié)構(gòu),而這兩部分可以表示為向量。由對象編碼系統(tǒng)106產(chǎn)生的組合編碼114同樣是包括兩部分(132、134)的數(shù)據(jù)結(jié)構(gòu),所述兩部分同樣可以表示為向量。每個組合編碼的第二部分描述以低強度等級范圍為特征的環(huán)境圖像的一部分。每個組合編碼的第一部分則描述了以高強度等級范圍為特征環(huán)境圖像的一部分。
在一個非限制性示例中,第二部分的強度級別從下限值L.sub.b1(例如零)到某個上限值L.sub.b2,包括L.sub.b1和L.sub.b2。第一部分的值高于上限值L.sub.b2。

在圖1的示例中,組合編碼110的第一部分128可以主要表示環(huán)境圖像108中描述太陽116的像素。在計算第一部分128時,環(huán)境編碼系統(tǒng)104有效地省略了較低強度范圍內(nèi)的環(huán)境圖像108中的任何像素。在計算第二部分130時,環(huán)境編碼系統(tǒng)104將環(huán)境圖像108中高于規(guī)定上限值L.sub.b2的像素剪輯為L.sub.b2的值。
對象編碼系統(tǒng)106將對象圖像112映射為組合編碼114,而不直接作用于環(huán)境圖像。但是,由此產(chǎn)生的組合編碼114提供了對已經(jīng)產(chǎn)生了在對象圖像112中展示的照明效果的物理或虛擬環(huán)境的估計。例如在圖1的情況下,對象圖像112中所示的照明效果實際上是由環(huán)境圖像108中描繪的環(huán)境產(chǎn)生。這意味著由經(jīng)過適當訓練的對象編碼系統(tǒng)106產(chǎn)生的組合編碼114將僅基于對象圖像112產(chǎn)生實際環(huán)境圖像108的計算機生成的估計。
在一個實施例中,環(huán)境圖像108具有允許在比對象圖像112更廣泛的強度等級范圍內(nèi)變化的強度值。換句話說,環(huán)境圖像108具有比對象圖像112更高的動態(tài)范圍。例如,對象圖像112可以包括允許在第二范圍內(nèi)變化的強度等級。相比之下,環(huán)境圖像108包括允許在第二范圍和第一范圍上范圍的強度等級。請注意,物理環(huán)境具有自然跨越相對較大強度值范圍的照明特性。每個組合編碼描述的環(huán)境圖像同樣具有廣泛的強度級別。所以,每個組合編碼都可以提供環(huán)境的忠實表示。
在一個實施例中,訓練系統(tǒng)102分三個階段執(zhí)行訓練。第一,圖像對生成系統(tǒng)120生成多個圖像對,例如包括環(huán)境圖像108和說明性對象圖像112的說明性對;第二,訓練系統(tǒng)102訓練由環(huán)境編碼系統(tǒng)104使用的自動編碼器。自動編碼器包括串聯(lián)操作的環(huán)境編碼器和環(huán)境解碼器。環(huán)境編碼器將環(huán)境圖像轉(zhuǎn)換為中間編碼,而環(huán)境解碼器將中間編碼轉(zhuǎn)換回原始環(huán)境圖像。中間編碼用作環(huán)境圖像的組合編碼的第二部分;第三,訓練系統(tǒng)102訓練在對象編碼系統(tǒng)106中使用的機器訓練對象編碼器。
在執(zhí)行第二階段時,訓練系統(tǒng)102基于數(shù)據(jù)存儲器122中提供的一組環(huán)境圖像訓練環(huán)境編碼系統(tǒng)104使用的自動編碼器。更具體地說,訓練系統(tǒng)102迭代地調(diào)整自動編碼器的參數(shù)值,使得其環(huán)境編碼器可以將環(huán)境圖像轉(zhuǎn)換為中間表示,然后其環(huán)境解碼器可以從中間表示準確地恢復環(huán)境圖像。在執(zhí)行訓練的第三階段時,訓練系統(tǒng)102迭代地調(diào)整對象編碼系統(tǒng)106使用的對象編碼器的參數(shù)值,使得對象編碼系統(tǒng)106產(chǎn)生的組合編碼與環(huán)境編碼系統(tǒng)104產(chǎn)生的相應組合編碼匹配。例如,訓練系統(tǒng)102嘗試調(diào)整對象編碼系統(tǒng)106的參數(shù)值,使得對象編碼系統(tǒng)106為環(huán)境圖像108生成的組合編碼114與環(huán)境編碼系統(tǒng)104為對象圖像112生成的組合編碼110匹配。圖1中所示的雙頭箭頭136說明了這一原理。
訓練系統(tǒng)102可以使用任何目標函數(shù)來執(zhí)行上述訓練任務。在一個實施例中,訓練系統(tǒng)102使用均方誤差(MSE)損失函數(shù)來訓練環(huán)境編碼系統(tǒng)104。訓練系統(tǒng)102同時可以在計算組合編碼110的不同部分時應用不同的縮放因子。

圖2示出了圖1中引入的圖像對生成系統(tǒng)120。圖像對生成系統(tǒng)120生成多對圖像,并將圖像對存儲在數(shù)據(jù)存儲器122中。每對圖像包括環(huán)境圖像和對象圖像。如上所述,環(huán)境圖像顯示的環(huán)境包括或以其他方式顯示一個或多個光源(例如太陽)的效果。對象圖像顯示出現(xiàn)在對應環(huán)境圖像中描繪的環(huán)境中的參考對象(例如面部)。多個對共同構(gòu)成訓練集202。
圖像對生成系統(tǒng)120包括一組用于生成訓練集202的設備和/或軟件模塊。例如,圖像對生成系統(tǒng)120提供一個或多個圖像捕獲設備204。圖像捕獲設備204可以包括用于捕獲靜止圖像和視頻的任何攝像。在一個實施例中,圖像捕獲設備可以使用第一攝像頭(或第一攝像頭模式)來捕獲環(huán)境圖像,以及使用第二攝像頭(或第二攝像頭模式)來捕獲對象圖像。第一攝像頭(或攝像頭模式)能夠捕獲具有比第二攝像頭(或攝像頭模式)更大的強度等級范圍的圖像內(nèi)容。第一攝像頭可對應于高動態(tài)范圍(HDR)攝像頭,第二攝像頭可對應于低動態(tài)范圍(LDR)攝像頭。
圖像對生成系統(tǒng)120可以使用圖像合成組件206來人工創(chuàng)建圖像對。例如,圖像合成組件206可以使用任何渲染管道以各種透視和姿勢渲染三維模型,從而創(chuàng)建各種對象圖像。渲染管道可以以各種方式將照明應用于每個對象圖像,例如,基于真實環(huán)境圖像(由相機捕獲)或合成環(huán)境圖像。合成對象圖像和真實或合成對象圖像的每個組合構(gòu)成圖像對。
圖像對生成系統(tǒng)120同時可以提供圖像變化組件208,其可以修改由圖像捕獲設備204和/或圖像合成組件206捕獲的圖像的任何屬性。例如,圖像變化組件208可以水平翻轉(zhuǎn)一對圖像中的圖像以創(chuàng)建新的一對圖像。圖像變化組件還可以改變?nèi)魏螆D像和/或圖像中出現(xiàn)的任何單個對象的顏色、強度級別、比例等。
環(huán)境編碼系統(tǒng)

圖4顯示了環(huán)境編碼系統(tǒng)104的一種實現(xiàn)。環(huán)境編碼系統(tǒng)104包括強度分割組件402,其處理輸入環(huán)境圖像108以產(chǎn)生第一內(nèi)容圖像404和第二內(nèi)容圖像406。第一內(nèi)容圖像404強調(diào)輸入環(huán)境圖像108中強度值高于規(guī)定強度閾值L.sub.b2的部分,而第二內(nèi)容圖像406強調(diào)輸入環(huán)境圖像108中強度值等于或低于強度閾值L.sub.b2的部分。
第一內(nèi)容編碼組件410將第一內(nèi)容圖像404映射到組合編碼110的第一部分128。第二內(nèi)容編碼組件412將第二內(nèi)容圖像406映射到組合編碼110的第二部分130。第一部分128和第二部分130的串聯(lián)一起形成與特定環(huán)境圖像108相關(guān)聯(lián)的組合編碼110。
第一內(nèi)容編碼組件410可以以不同的方式實現(xiàn)。在第一種方法中,第一內(nèi)容編碼組件410使用任何類型的數(shù)據(jù)擬合算法來將表示適配到組成第一內(nèi)容圖像404的值簇。例如,第一內(nèi)容編碼組件410可以使用Levenberg-Marquardt算法將高斯混合模型(GMM)擬合到第一內(nèi)容圖像404中的數(shù)據(jù)點。更具體地說,第一內(nèi)容編碼組件410可以將二維GMM適配到第一內(nèi)容圖像404中的值的每個顏色通道,使用環(huán)境圖像108中的最大RGB值初始化其處理。顏色特定的GMM應具有相同的中心位置,這標志著所有顏色通道的最高強度值。
第一內(nèi)容編碼組件410產(chǎn)生組合編碼110的第一部分128,并作為描述上述識別的GMM的一組值。例如,第一內(nèi)容編碼組件410可以使用五個值來表示GMM。前兩個值描述GMM中心的位置,其余三個值描述每個顏色通道的強度。第一內(nèi)容編碼組件410可以使用任何定位系統(tǒng)來表示高斯中心的位置。

圖5顯示了第二內(nèi)容編碼組件412的一種實現(xiàn)。第二內(nèi)容編碼組件412對應于具有環(huán)境編碼器504和環(huán)境解碼器506的自動編碼器502。環(huán)境編碼器504將第二內(nèi)容圖像406映射到第二內(nèi)容圖像406的中間表示508。環(huán)境解碼器504將中間表示508映射到原始第二內(nèi)容圖像406的版本406′。訓練系統(tǒng)102的目標是為自動編碼器502產(chǎn)生參數(shù)值,使得其產(chǎn)生的版本406’與原始第二內(nèi)容圖像406緊密匹配。換言之,訓練系統(tǒng)102的目標是訓練自動編碼器502,使得其在將第二內(nèi)容圖像406還原為中間表示508之后,其能夠很好地將其恢復到其原始外觀。為了執(zhí)行這一任務,自動編碼器同時必須產(chǎn)生中間表示508。
由環(huán)境編碼器504產(chǎn)生的中間表示508用作組合編碼110的第二部分130。在一個實施例中,第二部分130是具有16個值的維度的向量。結(jié)果的組合編碼110表示第一部分128和第二部分130的串聯(lián)。
環(huán)境編碼器504可以實現(xiàn)為包括任意數(shù)量的編碼器層510的CNN。同樣,環(huán)境解碼器506可以實現(xiàn)為具有任意數(shù)量的解碼器層512的CNN。其他實現(xiàn)可以使用其他機器訓練的模型或其他算法來實現(xiàn)第二內(nèi)容編碼組件412。例如,另一個實現(xiàn)可以使用生成模型來實現(xiàn)第二內(nèi)容編碼組件412。生成模型可以使用生成對抗網(wǎng)絡(GAN)進行訓練。
對象編碼系統(tǒng)

圖6顯示了對象編碼系統(tǒng)106的一個示例。對象編碼系統(tǒng)106被實現(xiàn)為執(zhí)行一系列操作的管道。背景移除組件602首先識別對象圖像112中的參考對象,并移除對象圖像112中不構(gòu)成參考對象一部分的所有背景內(nèi)容。這個過程會產(chǎn)生一個去除背景的圖像。在本例中,參考對象是人類主體的臉。
背景移除組件602可以使用任何分割技術(shù)來執(zhí)行該任務。例如,背景去除組件602可以識別對象圖像112中的候選區(qū)域,然后使用機器訓練的模型對候選區(qū)域中的內(nèi)容進行分類。在圖6的示例中,背景去除組件602可以提取其分類為人臉的區(qū)域(如果有的話)
強度轉(zhuǎn)換組件604將背景移除圖像中的RGB值(或其他種類的顏色值)轉(zhuǎn)換為強度值,表示背景移除圖像上的光的強度。這產(chǎn)生表示對象圖像112上的強度值的強度圖像。在一個非限制性實現(xiàn)中,強度轉(zhuǎn)換可以基于像素的紅色(R)、綠色(G)和藍色(B)分量的線性組合產(chǎn)生像素的亮度值Y。
然后,對象編碼器606將強度圖像映射到組合編碼114。在一個實現(xiàn)中,對象編碼器606可以實現(xiàn)為包括任意數(shù)量的編碼器層608的CNN。對象編碼器606的向下錐形形狀指示其連續(xù)降低其處理的信息的維數(shù),從強度圖像開始,以具有21個值的組合編碼結(jié)束。
通過以上方式,系統(tǒng)可以將對象圖像轉(zhuǎn)換為組合編碼。然后,增強現(xiàn)實系統(tǒng)可以利用所述技術(shù)產(chǎn)生的組合編碼,從而為疊加的虛擬對象應用適當?shù)恼彰鳌?/p>
相關(guān)專利:Microsoft Patent | Estimating illumination in an environment based on an image of a reference object
名為“Estimating illumination in an environment based on an image of a reference object”的微軟專利申請最初在2020年10月提交,并在日前由美國專利商標局公布。
---
原文鏈接:https://news.nweon.com/96336
