Meta專利分享用機(jī)器學(xué)習(xí)模型改進(jìn)Avatar面部重投影
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)Nweon
利用機(jī)器學(xué)習(xí)模型來(lái)改進(jìn)重投影面部的方法
(映維網(wǎng)Nweon?2022年04月21日)由于頭顯遮擋的原因,系統(tǒng)一般難以映射用戶完整的面部并重建被遮擋的面部區(qū)域。對(duì)于這個(gè)問(wèn)題,行業(yè)一直在進(jìn)行探索。實(shí)際上,如果你曾閱讀《Meta 50年征途:Codec Avatars,創(chuàng)造逼真虛擬角色》一文,你就會(huì)知道這家公司一直在積極探索所述問(wèn)題。
日前,美國(guó)專利商標(biāo)局又公布了與前面所述相關(guān)的又一份的Meta專利申請(qǐng)。簡(jiǎn)單來(lái)說(shuō),名為“Camera reprojection for faces”的發(fā)明主要描述了利用機(jī)器學(xué)習(xí)模型來(lái)改進(jìn)重投影面部的方法。

在一個(gè)實(shí)施例中,人造現(xiàn)實(shí)系統(tǒng)可以搭載一個(gè)或多個(gè)用于捕獲用戶面部特征的朝內(nèi)攝像頭。圖像中的landmark可用于變形面部模型,并且用于為面部模型的相應(yīng)部分創(chuàng)建紋理。作為一個(gè)示例,可以提供一個(gè)平均面部模型。當(dāng)用戶穿戴頭顯時(shí),朝內(nèi)攝像頭可以捕獲用戶嘴唇區(qū)域的圖像。可以檢測(cè)圖像中的landmark并與面部模型匹配,以確定攝像頭相對(duì)于面部模型的姿態(tài)(位置和方向)。捕獲的圖像可以從攝像頭重新投影到面部模型,以確定圖像與面部模型幾何體之間的映射。通過(guò)面部模型、用戶整體面部的靜態(tài)紋理和基于捕獲的圖像生成的動(dòng)態(tài)紋理,人造現(xiàn)實(shí)系統(tǒng)可以從期望的視點(diǎn)渲染虛擬化身的完整面部模型。
在一個(gè)實(shí)施例中,機(jī)器學(xué)習(xí)模型可用于合成用戶面部的圖像??梢詫z像頭捕獲的圖像輸入至機(jī)器學(xué)習(xí)模型,以生成代表用戶面部的圖像。作為一個(gè)示例,一個(gè)攝像頭可以從一個(gè)角度捕獲用戶的眼睛,另一個(gè)攝像頭可以從不同角度捕獲用戶的眼睛。然后,所述單獨(dú)的圖像可以組合在一起,以生成從正向的合成圖像。
在一個(gè)實(shí)施例中,計(jì)算系統(tǒng)可以訪問(wèn)代表用戶面部的三維面部模型。計(jì)算系統(tǒng)可從存儲(chǔ)器檢索三維面部模型,或從另一計(jì)算系統(tǒng)請(qǐng)求三維面部模型。計(jì)算系統(tǒng)可以基于用戶選擇三維面部模型。作為一個(gè)示例,計(jì)算系統(tǒng)可以識(shí)別用戶的特征,例如請(qǐng)求用戶輸入,并基于用戶輸入選擇最能代表用戶的三維面部模型。
例如,如果用戶輸入自己是六英尺高、身材苗條的非裔美國(guó)人,這時(shí)計(jì)算系統(tǒng)可以基于用戶輸入檢索最準(zhǔn)確地代表用戶的三維面部模型。
在一個(gè)實(shí)施例中,計(jì)算系統(tǒng)可以識(shí)別攝像頭圖像中的一個(gè)或多個(gè)面部特征,并可以執(zhí)行面部特征檢測(cè)過(guò)程,以識(shí)別圖像中捕獲的面部特征。作為一個(gè)示例,計(jì)算系統(tǒng)可以使用機(jī)器學(xué)習(xí)模型來(lái)識(shí)別圖像中捕獲的臉頰和鼻子。
如前面所述,由于頭顯遮擋問(wèn)題,朝內(nèi)攝像頭無(wú)法捕獲完整的面部圖像。例如,特定的朝內(nèi)攝像頭可能無(wú)法識(shí)別眼睛。這時(shí),計(jì)算系統(tǒng)可以基于圖像中已識(shí)別的面部特征來(lái)變形代表預(yù)定的三維面部模型。作為一個(gè)示例,計(jì)算系統(tǒng)可以基于所識(shí)別的面部特征判斷用戶的面部比預(yù)定三維面部模型稍窄,所以可以相應(yīng)地對(duì)三維面部模型進(jìn)行變形,使得三維面部模型代表屬于所述用戶的面部模型。
在一個(gè)實(shí)施例中,計(jì)算系統(tǒng)可以請(qǐng)求用戶面部的圖像,并可以識(shí)別用戶的隱私設(shè)置,以確定是否可以訪問(wèn)用戶面部的圖像。如果用戶允許,則計(jì)算系統(tǒng)可以通過(guò)在線社交網(wǎng)絡(luò)訪問(wèn)與用戶相關(guān)聯(lián)的照片,以檢索代表用戶面部的圖像。
接下來(lái),可以分析檢索到的圖像以確定代表用戶面部的靜態(tài)紋理。作為一個(gè)示例,可以分析一個(gè)或多個(gè)檢索到的圖像以確定面部特征通常位于用戶面部的位置。然后,可以將分析的圖像與三維面部模型進(jìn)行比較,并且可以基于分析的圖像對(duì)三維面部模型進(jìn)行變形。
在一個(gè)實(shí)施例中,計(jì)算系統(tǒng)可以確定相對(duì)于三維面部模型的攝像頭姿態(tài),并將已識(shí)別面部特征的位置與預(yù)定特征位置進(jìn)行比較。作為一個(gè)示例,計(jì)算系統(tǒng)可以識(shí)別用戶的下巴位置和嘴巴位置。所識(shí)別的下巴和嘴相對(duì)于攝像頭的位置,以及彼此的位置可用于與三維面部模型的預(yù)定特征位置進(jìn)行比較。
例如,對(duì)于給定的攝像頭姿態(tài),下巴和嘴巴可能位于捕獲圖像中的特定位置。給定面部特征的識(shí)別位置,計(jì)算系統(tǒng)可基于識(shí)別位置與預(yù)定特征位置的比較來(lái)確定攝像頭姿態(tài)。作為一個(gè)示例,如果捕獲圖像包含距捕獲圖像底部30像素、距捕獲圖像左側(cè)50像素的下巴,以及距捕獲圖像頂部60像素、距捕獲圖像右側(cè)40像素的嘴巴,則計(jì)算系統(tǒng)可以確定捕獲圖像的攝像頭相對(duì)于用戶面部和三維面部模型的特定攝像頭姿態(tài)。
鑒于用戶的頭部將因人而異,將所識(shí)別的面部特征與三維面部模型進(jìn)行比較可允許計(jì)算系統(tǒng)大致確定相對(duì)于三維面部模型拍攝圖像的攝像頭姿態(tài)。
在一個(gè)實(shí)施例中,計(jì)算系統(tǒng)可以確定捕獲圖像和三維面部模型之間的映射關(guān)系。計(jì)算系統(tǒng)可以通過(guò)將用戶面部圖像從確定的攝像頭姿態(tài)投影到三維面部模型,以確定圖像和三維面部模型之間的映射關(guān)系。作為一個(gè)示例,計(jì)算系統(tǒng)可以捕獲用戶面部的一部分,例如用戶的嘴巴。由于攝像頭的攝像頭姿態(tài)不容易知道,所以計(jì)算系統(tǒng)可以以上文介紹的方式確定攝像頭姿態(tài)。通過(guò)確定攝像頭姿態(tài),計(jì)算系統(tǒng)可以將捕獲的圖像投影到三維面部模型,從而確定映射關(guān)系。
在一個(gè)實(shí)施例中,計(jì)算系統(tǒng)可提供呈現(xiàn)用戶面部表征的輸出圖像。計(jì)算系統(tǒng)可以至少使用三維面部模型,以及捕獲圖像和三維面部模型之間的映射關(guān)系,以致使呈現(xiàn)用戶面部表示的輸出圖像。其中,計(jì)算系統(tǒng)可以向另一計(jì)算系統(tǒng)發(fā)送指令,以呈現(xiàn)用戶面部表示的輸出圖像。例如,計(jì)算系統(tǒng)可以向第一用戶的人造現(xiàn)實(shí)系統(tǒng)發(fā)送指令,以呈現(xiàn)第二用戶的面部表示的輸出圖像。
計(jì)算系統(tǒng)最初可以從第二用戶的人造現(xiàn)實(shí)系統(tǒng)接收第二用戶面部的一個(gè)或多個(gè)捕獲圖像。如前文所述,計(jì)算系統(tǒng)可確定圖像與代表第二用戶面部的三維面部模型之間的映射關(guān)系。計(jì)算系統(tǒng)可以將捕獲的圖像與三維面部模型之間的映射關(guān)系發(fā)送給第一用戶的人造現(xiàn)實(shí)系統(tǒng)。第一用戶的人造現(xiàn)實(shí)系統(tǒng)可以基于接收到的映射關(guān)系來(lái)呈現(xiàn)第二用戶的面部表示。
在一個(gè)實(shí)施例中,計(jì)算系統(tǒng)可以生成與用戶面部一部分相對(duì)應(yīng)的合成圖像。計(jì)算系統(tǒng)可以接收對(duì)應(yīng)于用戶面部的一部分的多個(gè)圖像。例如,計(jì)算系統(tǒng)可以接收用戶的眼睛、嘴巴、鼻子、臉頰、額頭和下巴等的圖像。所述圖像中的每一個(gè)可用于識(shí)別用戶面部的各種面部特征,并確定對(duì)應(yīng)于所述圖像和用戶的3D面部模型的映射關(guān)系。映射關(guān)系可用于將用戶的整個(gè)面部投影到三維面部模型。
考慮到極端角度,映射到3D面部模型的捕獲圖像的直接重投影可能不是準(zhǔn)確的面部表示,并且可能在重投影過(guò)程中引入偽影。所以,機(jī)器學(xué)習(xí)模型可用于生成與用戶面部的一個(gè)或多個(gè)部分相對(duì)應(yīng)的合成圖像。
作為一個(gè)示例,鑒于眼睛部分通常被頭顯遮擋,所以可以編輯用戶眼睛在不同角度的多個(gè)圖像,以生成用戶眼睛的合成圖像。
在一個(gè)實(shí)施例中,機(jī)器學(xué)習(xí)模型可以基于攝像頭在預(yù)定角度拍攝的ground-truth圖像進(jìn)行訓(xùn)練。在訓(xùn)練過(guò)程中,合成多個(gè)圖像以生成紋理或確定合成圖像和三維面部模型之間的映射關(guān)系。
計(jì)算系統(tǒng)可以將紋理圖像與預(yù)定紋理混合。在一個(gè)實(shí)施例中,紋理圖像可以是用戶面部一部分的捕獲圖像與用戶3D面部模型之間的映射關(guān)系。紋理圖像可以由投影到三維面部模型的圖像來(lái)表示,以表示用戶面部中與紋理圖像相對(duì)應(yīng)的部分。如果捕獲的圖像是用戶嘴巴的右側(cè),則紋理圖像可以代表用戶嘴巴的右側(cè),并投影到三維面部模型。
圖5A-5C舉例說(shuō)明了攝像頭的重投影區(qū)。給定角度502a,攝像頭的重投影504區(qū)域可以包括用戶臉頰之間的區(qū)域。給定角度502b,攝像頭的重投影506區(qū)域可以包括稍微包圍用戶鼻子的區(qū)域。給定角度502c,攝像頭的重投影508區(qū)域可以包括從用戶前額到用戶鼻尖的區(qū)域。

重投影區(qū)域504、506、508可全部對(duì)應(yīng)于相同的重投影區(qū)域,但重投影區(qū)域以不同角度502a-502c示出。在確定捕獲的圖像之間的映射關(guān)系之后,計(jì)算系統(tǒng)可以致使人造現(xiàn)實(shí)系統(tǒng)通過(guò)將紋理圖像投影到與捕獲所述圖像的設(shè)想圖對(duì)應(yīng)的重投影區(qū)域504、506、508,以呈現(xiàn)用戶的面部表示。

圖6示出了從不同角度呈現(xiàn)的3D模型的示例性二維圖像。圖像602可以表示用戶面部的真實(shí)世界視圖。多個(gè)攝像頭可以捕獲用戶面部的不同部分的圖像。捕獲的圖像可用于確定映射關(guān)系或圖像604中所示的紋理圖像。

圖7A-7B示出了將面部表示重新投影到三維模型的示例過(guò)程700。參考圖7A,過(guò)程700可以從根據(jù)捕獲的圖像確定的紋理圖像702或紋理圖像704,以及三維面部模型710開(kāi)始。在一個(gè)實(shí)施例中,紋理圖像702或704可與預(yù)定紋理706混合??梢曰谟脩裘娌康膱D像來(lái)生成預(yù)定紋理706。紋理圖像702或704與預(yù)定紋理706的混合可以生成新的紋理708。

參考圖7B,過(guò)程700可以將新紋理708投影到三維面部模型710。在一個(gè)實(shí)施例中,將新紋理708投影到三維面部模型710的結(jié)果可以是圖像712,其使用投影到三維面部模型710的新紋理708來(lái)顯示用戶的面部表示。
相關(guān)專利:Facebook Patent | Camera reprojection for faces
名為“Camera reprojection for faces”的Meta專利申請(qǐng)最初在2020年9月提交,并在日前由美國(guó)專利商標(biāo)局公布。
---
原文鏈接:https://news.nweon.com/96353