微軟專利介紹用機器學習為HoloLens用戶提供完整面部顯示效果
查看引用/信息源請點擊:映維網(wǎng)
計算補充完整用戶面部圖像
(映維網(wǎng)?2021年12月20日)在進行視頻通話時,任何頭戴式顯示器系統(tǒng)都必須克服的一個基本問題是:如何呈現(xiàn)用戶的完整面部。挑戰(zhàn)在于,頭顯遮蔽面部,尤其是眼睛;用戶通常是可以移動;以及用戶不在合適的捕獲設備的視場范圍內。
在名為“Computing images of head mounted display wearer”的專利申請中,微軟介紹了一種利用機器學習裝置來計算補充完整用戶面部圖像的方法和系統(tǒng)。
圖1是佩戴頭顯102并參與視頻會議呼叫的人員100的示意圖,其中遠程方112將所述人員感知成沒有佩戴頭顯時的形象。

在一個實現(xiàn)中,圖1中的示例涉及非對稱頭顯視頻呼叫,其中遠程方112可以使用傳統(tǒng)顯示器,例如帶有集成網(wǎng)絡攝像頭的筆記本電腦。遠程方112從本地用戶接收虛擬網(wǎng)絡攝像頭流,其中用戶100可以描述為沒有佩戴頭顯時的形象,并且其面部表情與用戶100的真實面部表情匹配。虛擬網(wǎng)絡攝像頭的視點是根據(jù)用戶偏好預先配置或設置。
在圖1的示例中,存在兩個額外的面向面部的捕獲設備,但由于它們被HMD主體遮擋,因此不可見。兩個附加的面部面向捕獲設備包括第一眼睛面向捕獲設備和第二眼睛面向捕獲設備。第一和第二眼睛面向捕獲設備可以分別是面向右眼的捕獲設備和面向左眼的捕獲設備,并且可以是紅外捕獲設備。第一和第二眼睛面向捕獲設備的視場布置成包括眼睛本身、鼻子的一部分以及眼睛周圍的臉頰區(qū)域。

如圖2所示,在臂架104中,由面向左眼的捕獲設備捕獲的圖像258、由面向右眼的捕獲設備捕獲的圖像260和由捕獲設備捕獲的圖像262都是在同一時間間隔內拍攝。注意,每個面部捕捉設備都具有面部的局部視圖,并且無法獲得面部的完整視圖。
由于頭顯本身遮擋了佩戴者的大部分面部,因此不可能使用捕獲設備獲得面部的完整視圖。由于頭顯和佩戴者面部之間的空間很小,因此無法從頭顯內的視角觀察佩戴者的整個面部,因此有必要進行預測判斷。可用于進行預測的觀測數(shù)據(jù)源包括來自面部捕捉設備的經(jīng)驗觀測傳感器數(shù)據(jù)。
可以發(fā)現(xiàn),使用三個具有面向面部的捕捉設備可以獲得特別好的結果。這是因為眼睛和口腔區(qū)域對于預測頭顯用戶的表情非常重要。

圖3是用于計算用戶面部圖像的裝置300的示意圖。在某些情況下,圖3的裝置與頭顯集成。在其它情況下,所述裝置遠離HMD,例如在伴隨計算設備中或在云服務部署中。伴隨計算設備是物理上接近頭顯并且與頭顯有線或無線通信的計算設備。伴隨計算設備的例子有智能手機、智能手表和筆記本電腦等
所述用戶面部圖像計算裝置包括至少一個處理器302、存儲器304和顯示控制器306,后者控制頭顯對一個或多個虛擬對象的顯示。所述裝置進一步包括表情系統(tǒng)308,表情系統(tǒng)308將由至少一個面部捕捉設備捕捉的傳感器數(shù)據(jù)作為輸入,并計算表情參數(shù)的輸出值。所述表情系統(tǒng)包括機器學習模型,機器學習模型經(jīng)訓練以從輸入圖像計算表情參數(shù)。照片校準器310是經(jīng)訓練以將從3D面部模型渲染的圖像映射到照片級真實感圖像的機器學習模型。
所述裝置包括具有參數(shù)的三維面部模型312。在一個實施例中,3D面部模型312具有標識、表情和姿勢參數(shù)。標識參數(shù)指定三維人臉模型的實例化所代表的個人。表情參數(shù)指定三維人臉模型的形狀和外觀。姿勢參數(shù)指定三維人臉模型的可移動組件的位置和方向,如頜骨、頸部骨骼、眼球、舌頭。姿勢參數(shù)的值是使用來自一個或多個捕獲設備的數(shù)據(jù)推斷出來。
在某些情況下,眼睛姿勢和下巴姿勢是使用眼睛和臂架攝像頭的輸出確定??梢允褂脙H包含表情參數(shù)的三維人臉模型,例如在預配置姿勢和標識參數(shù)的位置,或者在不需要移動下巴和眼睛的位置。所述裝置同時包括渲染器314,其用于渲染來自3D面部模型312的圖像。渲染器是用于渲染來自3D模型的圖像的任何設備,例如商用計算機圖形渲染器,其使用光線追蹤和關于虛擬camera的視點的信息來渲染圖像。
諸如圖3的表情系統(tǒng)400包括機器學習模型402和優(yōu)化器404。經(jīng)過訓練的機器學習模型是神經(jīng)網(wǎng)絡,或任何其他合適類型的機器學習模型。在一個示例中,表情系統(tǒng)400的機器學習模型402已經(jīng)使用了描述頭顯用戶面部局部視圖的合成圖像進行訓練,合成圖像與已知表情參數(shù)相關。
在一個示例中,通過從參數(shù)化面部模型采樣、將表情應用于采樣的參數(shù)化面部模型、添加虛擬頭顯和虛擬照明、從虛擬頭顯中的一個或多個面部捕捉設備的視點渲染來生成合成圖像。
在一個示例中,參數(shù)化面部模型是由多個單獨模型形成的復合模型。各個模型包括一個或多個:幾何模型、紋理模型、頭發(fā)模型和眼睛顏色模型。幾何模型基于線性身份和表達基礎,采用線性混合蒙皮控制眼睛、下巴和頭部運動。為了從幾何模型中采樣,可以使用高斯混合模型。
紋理模型由反照率紋理和置換紋理組成。反照率紋理表示膚色,而置換表示褶皺和孔隙水平置換。頭發(fā)模型由定義頭發(fā)、眉毛和胡須的各個發(fā)束的曲線組成。眼睛顏色模型是基于示例的眼睛顏色采樣器。
可以對上述各個模型進行單獨采樣,以獲得可渲染的完整人臉標識。

面部設置完成后,將頭顯模型以遮擋感知的方式放置在合成頭部。放置基于平均頭部形狀的手動放置,如果設備與頭部相交,則調整平均頭部形狀。
為了模擬面向嘴巴的攝像頭的照明和背景對象,高動態(tài)范圍圖像(HDRI)可用作場景的照明和背景。從庫中為每個場景采樣不同的HDRI,并可以選擇每n幀旋轉一次HDRI,以模擬頭部旋轉和背景運動。要對人臉捕捉設備進行建模,需要使用焦距、景深和分辨率來匹配頭顯真實人臉捕捉設備的屬性。
表情系統(tǒng)的機器學習模型402使用帶損失函數(shù)的監(jiān)督訓練進行訓練,所述損失函數(shù)是訓練示例的預測表情參數(shù)值和已知表情參數(shù)值之間差異的度量。在一個例子中,機器學習模型是一個卷積神經(jīng)網(wǎng)絡,并使用反向傳播進行訓練。
在各種示例中,表情系統(tǒng)神經(jīng)網(wǎng)絡的設計使得可以從大量不同的用戶群體中以一般方式進行訓練,然后適應具有最少數(shù)據(jù)的個人。
照片校準器412是一種機器學習模型,它將渲染圖像410映射到照片級真實感圖像414。可以使用成對的數(shù)據(jù)對光校準器的機器學習模型進行訓練,每對數(shù)據(jù)包括從攝像頭捕獲的照片,并描繪具有表情的真實人員的正面視圖,以及配置與表情對應的參數(shù)值時從3D人臉模型渲染的圖像。

圖5是具有中性姿勢和中性表情的普通人的模板網(wǎng)格500,其中顯示模板網(wǎng)格覆蓋有光滑表面。首先基于個體的身份對模板網(wǎng)格500進行變形,以創(chuàng)建圖5的502中所示的結果,結果是具有中性表情的特定個體的面部的三維模型。使用基于表情參數(shù)值的第二變形來變形圖5的502中的結果,以給出圖5的504中所示的結果,結果表示與502中相同的個體,但具有微笑和閉著眼睛的表情。當姿態(tài)參數(shù)的值添加時,結果顯示在圖5的506中,其中頭部向后傾斜,頭部向右轉動,下巴打開。姿勢參數(shù)設置眼睛以及頸部和下巴骨骼的姿勢。
普通人的模板網(wǎng)格500旨在作為所有人臉的平均值,并有助于將專利所述技術泛化到不同的個人。

圖6是用于計算頭顯用戶面部圖像的設備的操作方法的流程圖。簡單來說,首先從至少一個面向面部的捕獲設備接收捕獲的輸入圖像,然后再交由機器學習裝置來計算補充被輸入圖像中被頭顯遮擋的部分,從而呈現(xiàn)完整的人臉圖像。
相關專利:Microsoft Patent | Computing images of head mounted display wearer
名為“Computing images of head mounted display wearer”的微軟專利申請最初在2020年6月提交,并在日前由美國專利商標局公布。
---
原文鏈接:https://news.nweon.com/92669