微軟專利探索基于AR眼鏡+智能手機的虛擬化身生成渲染
查看引用/信息源請點擊:映維網(wǎng)Nweon
生成逼真的Avatar
(映維網(wǎng)Nweon?2022年05月28日)微軟于2021年發(fā)布了Mesh for Teams,正式開啟MR全息辦公,從而提升遠程協(xié)作體驗。其中,用戶可以通過Avatar的方式參加視像會議。在名為“Multiple device sensor input based avatar”的發(fā)明中,這家公司介紹了一種根據(jù)多傳感器設(shè)備來渲染生成Avatar的方式。
簡單來說,可以用兩臺設(shè)備來分別捕獲用戶的不同部位,然后整合出完整的Avatar。例如,AR眼鏡可以捕獲用戶身體的雙手,而智能手機可以捕獲用戶的面部表情。
來自與用戶相關(guān)聯(lián),且在物理空間中具有不同視角的多個設(shè)備的傳感器輸入可共同提供關(guān)于用戶的信息。由于所述信息具有足夠的特異性水平,所以可用于生成逼真的Avatar。
另外,由于Avatar是通過將用戶面部的三維表示紋理映射到三維身體模擬來生成,所以它可以準確地捕捉細微差別的人類行為,例如用戶的面部表情和手勢。這種在Avatar視頻流中生成,從而能夠并入虛擬現(xiàn)實或混合現(xiàn)實體驗中,例如多個用戶之間的虛擬現(xiàn)實或混合現(xiàn)實電話會議。

圖1示出了一場遠程混合現(xiàn)實會議場景,包括位于第一物理空間102中的第一用戶100,以及位于遠離第一物理空間102的第二物理空間106中的第二用戶104。第一用戶100穿戴第一頭戴式顯示設(shè)備108,頭戴式顯示設(shè)備108包括前置圖像傳感器,前置圖像傳感器從第一用戶100的角度對第一物理場景102進行成像。
利用前置圖像傳感器,第一頭戴式顯示設(shè)備108可以對進入頭顯攝像頭視場的第一用戶100的各種身體部位進行成像,例如手部。物理空間102同時存在與第一頭戴式顯示設(shè)備108分離的第一成像設(shè)備110,第一生成設(shè)備110從與第一頭戴式顯示設(shè)備108不同的視角成像第一用戶100的面部。
來自第一頭戴式顯示設(shè)備108和第一成像設(shè)備110的圖像數(shù)據(jù)發(fā)送到遠程計算系統(tǒng)(圖1中未示出),并由后者生成包括第一用戶100的第一Avatar112的音頻/視頻流。第一Avatar112是通過將第一用戶面部114至少一部分的三維表示紋理映射到跟隨第一用戶100的實際物理運動的三維身體模擬116而形成。
遠程計算系統(tǒng)將包括第一Avatar112的音頻/視頻流發(fā)送到第二用戶佩戴的第二頭戴式顯示設(shè)備118。第二頭戴式顯示設(shè)備118呈現(xiàn)音頻/視頻流,使得第一Avatar112以全息方式投影到第二物理空間106中。
遠程計算系統(tǒng)可以向第一成像設(shè)備110發(fā)送包括第一Avatar112的音頻/視頻流,并且第一成像設(shè)備向第一用戶100顯示第一Avatar。這樣,向第一用戶100提供第一Avatar112的虛擬反饋。在其他示例中,第一成像設(shè)備110可以通過視覺呈現(xiàn)由第一成像設(shè)備110捕獲的第一用戶100的圖像來充當(dāng)取景器。
從第二用戶104的角度來看,混合現(xiàn)實電話會議以相同或類似的方式發(fā)生。圖像數(shù)據(jù)由第二頭戴式顯示設(shè)備118的朝外圖像傳感器生成。另外,第二成像設(shè)備120對第二用戶的面部進行成像。來自第二頭戴式顯示設(shè)備118和第二成像設(shè)備120的圖像數(shù)據(jù)發(fā)送到遠程計算系統(tǒng)。
遠程計算系統(tǒng)向第一用戶100佩戴的第一頭戴式顯示設(shè)備108發(fā)送包括第二Avatar122的音頻/視頻流。第二Avatar122是通過將第二用戶面部124的三維表示紋理映射到跟隨實際運動的三維身體模擬126而形成。第二頭戴式顯示設(shè)備118呈現(xiàn)音頻/視頻流,使得第二Avatar122以全息方式投影到第一物理空間102中。
需要注意的時,所示場景是非限制性。任何適當(dāng)數(shù)量的兩個或更多設(shè)備可以捕獲關(guān)于用戶的圖像數(shù)據(jù)。

圖2示出了配置為促進遠程用戶之間的虛擬現(xiàn)實或混合現(xiàn)實視頻電話會議的示例計算系統(tǒng)200。在所示的示例中,第一用戶與包括第一頭戴式顯示設(shè)備202、第一成像/顯示設(shè)備204,以及可選的一個或多個附加成像設(shè)備206的第一多個設(shè)備201相關(guān)聯(lián)。
與第一用戶相關(guān)聯(lián)的第一多個設(shè)備201可以定位在第一用戶所在的第一物理空間內(nèi),使得第一多個設(shè)備201可以從第一物理空間中的不同視角成像或以其他方式感知第一用戶。
如上所述,第一頭戴式顯示設(shè)備202包括至少一個前置攝像頭,并配置為對第一物理空間成像以生成圖像數(shù)據(jù)。另外,前置攝像頭可以成像進入攝像頭視場的第一用戶身體部分,例如第一用戶的手部。
攝像頭可以采用任何合適的形式,例如單色攝像頭或彩色(例如RGB)攝像頭。第一頭戴式顯示設(shè)備202同時可以包括一個或多個附加攝像頭,包括但不限于深度攝像頭和紅外攝像頭。
第一成像/顯示設(shè)備204可以采用與第一頭戴式顯示設(shè)備202分離的任何適當(dāng)形式的設(shè)備,并且包括可用于從與第一頭戴式顯示設(shè)備202不同的視角對第一用戶成像的攝像頭。第一成像/顯示設(shè)備可以是智能手機和平板電腦等設(shè)備。
遠程計算系統(tǒng)200配置為經(jīng)由諸如因特網(wǎng)的通信網(wǎng)絡(luò)214與第一多個設(shè)備201和第二多個設(shè)備203通信。遠程計算系統(tǒng)200包括機器學(xué)習(xí)模型216,機器學(xué)習(xí)模型216配置為有助于在多個用戶(例如第一用戶和第二用戶)之間進行虛擬現(xiàn)實或混合現(xiàn)實體驗。
在一個示例中,遠程計算系統(tǒng)200配置為經(jīng)由通信網(wǎng)絡(luò)214從第一多個設(shè)備201接收圖像數(shù)據(jù)218。圖像數(shù)據(jù)218可以包括原始圖像幀。
在其他示例中,圖像數(shù)據(jù)218可以包括處理后的圖像數(shù)據(jù),例如來自深度攝像頭的深度數(shù)據(jù)。
在一個示例中,在處理后的圖像數(shù)據(jù)發(fā)送到遠程計算系統(tǒng)200之前,可以在攝像頭或其他設(shè)備本地執(zhí)行其他圖像處理操作。例如,可以在本地執(zhí)行特征識別、骨架建模、空間映射和/或其他圖像處理操作,并且可以將這種處理后的圖像數(shù)據(jù)發(fā)送到遠程計算系統(tǒng)200。
可選地,在一個實現(xiàn)中,遠程計算系統(tǒng)200可以配置為經(jīng)由通信網(wǎng)絡(luò)214從第一多個設(shè)備201接收傳感器數(shù)據(jù)220。在一個示例中,所述傳感器數(shù)據(jù)220可包括非圖像數(shù)據(jù),例如音頻數(shù)據(jù)、運動數(shù)據(jù)、空間映射數(shù)據(jù)和/或其他類型的傳感器數(shù)據(jù)。
另外,遠程計算系統(tǒng)200可以配置為經(jīng)由通信網(wǎng)絡(luò)214接收對應(yīng)于第一用戶的用戶簡檔數(shù)據(jù)222。用戶簡檔數(shù)據(jù)222可以包括用于在虛擬現(xiàn)實或混合現(xiàn)實電話會議中代表第一用戶的個人偏好信息。例如,用戶簡檔數(shù)據(jù)222可以指定Avatar224的物理特征,包括但不限于膚色、頭發(fā)顏色、眼睛顏色、體型、衣服和其他物理特征。
如上所述,機器學(xué)習(xí)模型216配置為基于從第一多個設(shè)備201接收的圖像數(shù)據(jù)生成第一用戶身體的三維身體模擬226。

圖3示出了三維身體模擬226的示例表示。第一用戶身體的三維身體模擬226遵循第一用戶身體的實際物理運動。在一個示例中,機器學(xué)習(xí)模型216配置為基于至少從第一頭戴式顯示設(shè)備202接收的圖像傳感器數(shù)據(jù)生成三維身體模擬226。根據(jù)所述數(shù)據(jù),可以推斷出第一用戶身體的三維姿勢。
在另一示例中,機器學(xué)習(xí)模型216配置為基于從第一頭戴式顯示設(shè)備202接收的圖像傳感器數(shù)據(jù)和從第一成像/顯示設(shè)備204接收的圖像數(shù)據(jù)來生成三維身體模擬226。例如,機器學(xué)習(xí)模型216可以配置為在空間上注冊來自兩個設(shè)備(和可選的附加成像設(shè)備)的圖像數(shù)據(jù),以確定第一用戶身體在第一物理空間中的三維位置。
當(dāng)機器學(xué)習(xí)模型216從第一成像/顯示設(shè)備204的深度攝像頭接收深度數(shù)據(jù)時,機器學(xué)習(xí)模型216可選地可以配置為基于深度數(shù)據(jù)生成第一用戶身體的骨架模型228。
圖4示出了骨骼模型228的示例表示。另外,機器學(xué)習(xí)模型216可以配置為基于骨骼模型228生成三維身體模擬226。
機器學(xué)習(xí)模型216進一步配置為基于從第一成像/顯示設(shè)備204接收的圖像數(shù)據(jù)生成第一用戶面部的三維表示230。三維表示230包括三維點云。圖5示出了三維點云230的示例表示。三維點云提供第一用戶面部的體積表示。
可選地,Avatar224可以增強或修改以包括任何合適的虛擬內(nèi)容。例如,可以基于用戶簡檔數(shù)據(jù)222任選地由第一用戶的個人偏好設(shè)置虛擬內(nèi)容,比如說帽子等配飾。
相關(guān)專利:Microsoft Patent | Multiple device sensor input based avatar
名為“Multiple device sensor input based avatar”的微軟專利申請最初在2020年11月提交,并在日前由美國專利商標局公布。
---
原文鏈接:https://news.nweon.com/97513