蘇黎世聯(lián)邦理工學(xué)院提出gDNA,生成有詳細(xì)皺紋和明確姿勢(shì)控制的虛擬人
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)Nweon
蘇黎世聯(lián)邦理工學(xué)院,圖賓根大學(xué)和馬克斯·普朗克智能系統(tǒng)研究所
(映維網(wǎng)Nweon?2022年04月27日)輕松創(chuàng)建各種高質(zhì)量的數(shù)字人并完全控制其姿勢(shì)的能力,這在電影制作、游戲、VR/AR、建筑和計(jì)算機(jī)視覺中存在大量的應(yīng)用。盡管現(xiàn)代計(jì)算機(jī)圖形技術(shù)實(shí)現(xiàn)了照片真實(shí)感,但它們通常需要大量的專業(yè)知識(shí)和大量的手動(dòng)操作。
在日前公布的論文《gDNA: Towards Generative Detailed Neural Avatars》中,由黎世聯(lián)邦理工學(xué)院,圖賓根大學(xué)和馬克斯·普朗克智能系統(tǒng)研究所組成的研究人員希望能夠輕松創(chuàng)建詳細(xì)的虛擬數(shù)字人。
團(tuán)隊(duì)的目標(biāo)是通過學(xué)習(xí)一個(gè)generative model of people模型,從而幫助社區(qū)廣泛訪問3D虛擬數(shù)字人。為了實(shí)現(xiàn)這一目標(biāo),研究人員提出了一種方法,而且它可以:
生成不同的3D數(shù)字人
具有不同的身份和形狀
以不同的服裝風(fēng)格和姿勢(shì)出現(xiàn)
逼真且隨機(jī)的高頻細(xì)節(jié),例如服裝褶皺。

三維剛體對(duì)象的Generative Modeling正在快速發(fā)展,但由于服裝、其拓?fù)浣Y(jié)構(gòu)和姿勢(shì)驅(qū)動(dòng)的變形之間的復(fù)雜交互,為穿衣人及其關(guān)節(jié)建模非常困難。有研究利用神經(jīng)內(nèi)隱曲面為single subject學(xué)習(xí)高質(zhì)量的關(guān)節(jié)數(shù)字人,但它們并非生成性,即無法合成新的人類特征和形狀?,F(xiàn)有的服裝生成模型通過預(yù)測(cè)人體網(wǎng)格的位移(CAPE),或通過在T-posed身體拖動(dòng)隱式服裝表示(SMPLicit),并依靠SMPL學(xué)習(xí)的蒙皮進(jìn)行重?cái)[來增強(qiáng)SMPL。
團(tuán)隊(duì)表明,特征、形狀、清晰度和服裝的整體建模可以提高數(shù)字人的逼真度和動(dòng)畫效果,并提高3D掃描的準(zhǔn)確度。為了實(shí)現(xiàn)詳細(xì)神經(jīng)數(shù)字人的完全Generative Modeling,由黎世聯(lián)邦理工學(xué)院,圖賓根大學(xué)和馬克斯·普朗克智能系統(tǒng)研究所組成的研究人員提出了gDNA。
這是一種合成新穎人體形狀的3D曲面的方法,可允許控制服裝樣式和姿勢(shì),并生成服裝的真實(shí)高頻細(xì)節(jié)。
為了利用原始(姿勢(shì))3D掃描,團(tuán)隊(duì)構(gòu)建了一個(gè)multi-subject隱式生成表示,并將SNARF作為基礎(chǔ)。SNARF這種方放可以很好地推廣到不可見姿勢(shì)。但SNARF需要一個(gè)single subject的多個(gè)姿勢(shì)進(jìn)行訓(xùn)練。相比之下,團(tuán)隊(duì)的multi-subject方法可以從眾多不同subject的極少數(shù)姿勢(shì)掃描中學(xué)習(xí)。
這是通過增加一個(gè)latent空間來實(shí)現(xiàn),以便有條件地為穿衣人生成形狀和蒙皮權(quán)重。另外,學(xué)習(xí)的扭曲field使用相同的蒙皮field產(chǎn)生精確的變形。
服裝褶皺是由一個(gè)隨機(jī)過程產(chǎn)生。為了捕獲所述效果,團(tuán)隊(duì)提出了一種通過對(duì)抗性損失學(xué)習(xí)3D服裝細(xì)節(jié)underlying statistics的方法。以前基于網(wǎng)格的方法在UV空間中formulate,但由于缺乏網(wǎng)格連通性,這不直接適用于隱式曲面。為了學(xué)習(xí)高頻細(xì)節(jié),研究人員首先根據(jù)粗糙的形狀特征預(yù)測(cè)三維法向field。為了將對(duì)抗性損失反向傳播到3D法線field,他們通過使用隱式曲面渲染器增強(qiáng)正向蒙皮來建立3D-2D對(duì)應(yīng)。結(jié)果發(fā)現(xiàn),對(duì)抗性訓(xùn)練可以顯著提高3D幾何細(xì)節(jié)的逼真度。
團(tuán)隊(duì)僅通過姿勢(shì)掃描進(jìn)行訓(xùn)練,并證明所述方法可以在姿勢(shì)控制下生成大量具有詳細(xì)皺紋的3D服裝人體形狀。生成的樣本可以通過學(xué)習(xí)的蒙皮權(quán)重進(jìn)行重置。實(shí)驗(yàn)顯示,gDNA的表現(xiàn)明顯優(yōu)于基線。另外,gDNA可以用于3D掃描的擬合和重動(dòng)畫,并且優(yōu)于最新技術(shù)SOTA。
具體方法
研究人員希望構(gòu)建一個(gè)可以生成各種不同特征的3D穿衣人類,并以任意姿勢(shì)呈現(xiàn)精細(xì)幾何細(xì)節(jié)的模型。相關(guān)模型是從一組稀疏的靜態(tài)掃描中學(xué)習(xí),不需要假設(shè)曲面對(duì)應(yīng)。

方法如圖2所示。首先,團(tuán)隊(duì)formulate了一個(gè)獨(dú)立于姿勢(shì)和體型的穿衣人體形狀的canonical representation。其次,為了從每個(gè)subject的極少數(shù)姿勢(shì)掃描中學(xué)習(xí)標(biāo)準(zhǔn)形狀和變形特性,通過形狀、關(guān)節(jié)和服裝的latent空間將single-subject可微分正向蒙皮方法擴(kuò)展到multiple subject。最后,為了學(xué)習(xí)豐富而隨機(jī)的幾何細(xì)節(jié),通過2D對(duì)抗損失公式學(xué)習(xí)了詳細(xì)的3D法線field。為了實(shí)現(xiàn)這一點(diǎn),研究人員使用隱式曲面渲染器擴(kuò)展了正向蒙皮模塊。
1. canonical representation
團(tuán)隊(duì)的方法基于神經(jīng)隱式表示,利用它們的拓?fù)潇`活性和分辨率獨(dú)立性。他們將穿衣人體形狀和幾何服裝細(xì)節(jié)聯(lián)合建模。
1.1 粗糙形狀
將canonical space中的形狀建模為:

其中其中O是預(yù)測(cè)canonical space中任意3D點(diǎn)x的占用概率的神經(jīng)網(wǎng)絡(luò)。

占用網(wǎng)絡(luò)同時(shí)為每個(gè)曲面點(diǎn)輸出尺寸為L(zhǎng)f的特征向量f。這個(gè)特征攜帶粗略形狀信息,并用于預(yù)測(cè)細(xì)節(jié)。研究人員將一個(gè)基于3D CNN的特征生成器和一個(gè)局部條件化的MLP組合到模型O中。

如圖3所示,基于3D樣式的生成器首先通過自適應(yīng)實(shí)例規(guī)范化生成一個(gè)以Zshape為條件的3D特征volume。通過特征volume的三線性采樣,并將特征和3D坐標(biāo)輸入MLP,可獲得最終占用率
1.2 詳細(xì)的曲面法線
學(xué)習(xí)multiple subject和服裝類型的占用field,以及精確和詳細(xì)的法線是一項(xiàng)挑戰(zhàn)。類似于多邊形網(wǎng)格的法線貼圖,研究人員通過canonical 3D空間中的法線來建模曲面細(xì)節(jié)。這種曲面法線可以用隱式函數(shù)的梯度表示,但會(huì)導(dǎo)致相當(dāng)大的計(jì)算復(fù)雜性。所以,他們使用MLP來預(yù)測(cè)曲面法線。然而,由于隱式曲面沒有連通性的概念,團(tuán)隊(duì)提出了一種幾何感知方法來連接粗糙幾何體和詳細(xì)法線field。更具體地說,利用占用網(wǎng)絡(luò)中的特征f來對(duì)基礎(chǔ)形狀進(jìn)行曲面法線預(yù)測(cè)。研究人員進(jìn)一步生成了可控細(xì)節(jié):

2. Multi-Subject 正向蒙皮
研究人員同時(shí)對(duì)變形屬性進(jìn)行建模,并定義身體大?。é拢┖妥藙?shì)(θ)參數(shù)以與SMPL一致,從而能夠使用現(xiàn)有數(shù)據(jù)集(如AMASS)進(jìn)行動(dòng)畫。
身體大小參數(shù)β是一個(gè)10維向量,身體姿勢(shì)參數(shù)θ表示SMPL骨骼的關(guān)節(jié)角度。
2.1 Single-Subject蒙皮表示
為了在可控身體姿勢(shì)θ中為隱式人體形狀設(shè)置動(dòng)畫,最近的研究將基于網(wǎng)格的線性混合蒙皮算法推廣到神經(jīng)隱式曲面。每個(gè)3D點(diǎn)的骨骼變形建模為一組骨骼變換的加權(quán)平均值,每個(gè)點(diǎn)的權(quán)重由MLP預(yù)測(cè)。一個(gè)關(guān)鍵的區(qū)別是:這個(gè)蒙皮權(quán)重field是在canonical space中定義,還是在posed space中定義。
團(tuán)隊(duì)在canonical space中定義蒙皮field:

在canonical space中定義是可取的,因?yàn)槊善?quán)重隨后與姿勢(shì)無關(guān),因此更容易學(xué)習(xí),并能夠推廣到out-of-distribution pose。
2.2 Multi-Subject蒙皮表示
研究人員將這種正向蒙皮概念擴(kuò)展到Multi-Subject。由于蒙皮權(quán)重是在canonical space中定義,因此這個(gè)模型可以在多個(gè)訓(xùn)練實(shí)例上聚合信息。重要的是,這使得能夠從multi subject的一個(gè)或幾個(gè)姿勢(shì)學(xué)習(xí)蒙皮,而不是要求同一subject的多個(gè)姿勢(shì)。
為了實(shí)現(xiàn)這一點(diǎn),研究人員將來自體型變化β和穿衣人體形狀Z的影響解耦,并在body-size-neutral
space中模擬蒙皮field,類似于標(biāo)準(zhǔn)曲面表示。為了捕捉不同的穿衣人形狀,團(tuán)隊(duì)采用了以下公式:

然后,用附加的翹曲field來模擬身體大小的變化。給定β-size space中的一個(gè)點(diǎn)x?,翹曲field通過預(yù)測(cè)其canonical correspondence x將其映射回平均尺寸:

在這個(gè)公式中,β類似于SMPL捕捉體型變化,例如身高。因此,canonical形狀網(wǎng)絡(luò)只需要對(duì)SMPL之外的其他形狀變化進(jìn)行建模,例如衣服和頭發(fā)。最終調(diào)整大小的標(biāo)準(zhǔn)曲面定義為:

給定目標(biāo)體姿態(tài)θ,β-size spce中的點(diǎn)x?通過以下公式變成posed space x’:

2.3 隱式可微正向蒙皮
當(dāng)我們的模型學(xué)習(xí)canonical representation時(shí),它的監(jiān)督是在posed space中提供。給定一個(gè)在posed space中的點(diǎn)x’,我們需要確定它在canonical space x中的對(duì)應(yīng)關(guān)系,以便將預(yù)測(cè)的占有率和法線與ground truth值進(jìn)行比較。
首先在resized canonical space中找到x’對(duì)應(yīng)的x??,然后映射x?? 到canonical space x?。圖示可參見圖4:

3. 隱式曲面渲染
由于服裝幾何細(xì)節(jié)的隨機(jī)性,隱式曲面繪制具有挑戰(zhàn)性。在2D圖像生成任務(wù)中,GANs在學(xué)習(xí)高保真局部紋理方面取得了令人印象深刻的成果。團(tuán)隊(duì)建議使用對(duì)抗性損失來學(xué)習(xí)更好的幾何細(xì)節(jié)。為了實(shí)現(xiàn)這一目標(biāo),他們使用隱式渲染器增強(qiáng)了正向蒙皮模塊,以在posed space中的3D點(diǎn)2D投影和 canonical space中的相應(yīng)3D點(diǎn)之間建立直接對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)端到端訓(xùn)練。
給定2D姿勢(shì)法線貼圖中的一個(gè)像素p,其在deformed 3D sapce x’中的對(duì)應(yīng)關(guān)系可由穿過p的光線與正向蒙皮曲面之間的交點(diǎn)確定:

其中rd和rc表示光線方向和原點(diǎn),t表示沿光線的標(biāo)量距離。然后,通過使用Secant函數(shù)沿光線找到占有率O’的第一個(gè)變化來確定交點(diǎn)x’。
研究人員同時(shí)通過正向蒙皮得到了p的canonical對(duì)應(yīng)點(diǎn)x。求解每個(gè)像素的三維canonical對(duì)應(yīng)關(guān)系,得到二維法線貼圖:

4. 訓(xùn)練
團(tuán)隊(duì)通過一組姿勢(shì)掃描及其相應(yīng)的SMPL參數(shù)θ、β來訓(xùn)練所述方法。遵循自動(dòng)解碼框架,為每個(gè)訓(xùn)練樣本分配一個(gè)形狀代碼Zshape和一個(gè)細(xì)節(jié)代碼Zdetail。它們初始化為零,并與網(wǎng)絡(luò)權(quán)重一起優(yōu)化。為了實(shí)現(xiàn)采樣,在訓(xùn)練后對(duì)latent代碼擬合高斯分布。研究人員將訓(xùn)練分為兩個(gè)階段:首先訓(xùn)練粗糙形狀、蒙皮和扭曲網(wǎng)絡(luò),然后訓(xùn)練正常網(wǎng)絡(luò)。
這兩個(gè)階段的訓(xùn)練至關(guān)重要。否則,在形狀和蒙皮訓(xùn)練收斂之前,由于錯(cuò)誤的對(duì)應(yīng)關(guān)系,正常的監(jiān)督將反向傳播到canonical space中的錯(cuò)誤位置。
5. 推斷

團(tuán)隊(duì)通過從估計(jì)的高斯分布中隨機(jī)抽樣Zshape和Zdetail來生成人類化身。然后,使用MISE從隱式表示S?(zshape,β)中提取調(diào)整resized canonical space中的網(wǎng)格,并使用法線field預(yù)測(cè)頂點(diǎn)法線。最后,按照公式(8)將網(wǎng)格設(shè)置為所需的姿勢(shì)θ。

6. 實(shí)驗(yàn)與總結(jié)

如上表所示,圖案都的方法取得了相當(dāng)出色的效果。實(shí)驗(yàn)顯示,gDNA的表現(xiàn)明顯優(yōu)于基線。另外,gDNA可以用于3D掃描的擬合和重動(dòng)畫,并且優(yōu)于最新技術(shù)SOTA。
概括來說,團(tuán)隊(duì)提出的3D穿衣人體生成模型gDNA可以生成大量具有詳細(xì)皺紋和明確姿勢(shì)控制的穿衣人體。使用隱式multi-subject正向蒙皮,只需根據(jù)每個(gè)subject的幾個(gè)姿勢(shì)掃描進(jìn)行學(xué)習(xí)。為了模擬服裝的隨機(jī)細(xì)節(jié),研究人員利用2D對(duì)抗損失來更新3D法線field。在實(shí)驗(yàn)中,他們證明了gDNA可以用于各種應(yīng)用,如動(dòng)畫和3D擬合,并且效果優(yōu)于最先進(jìn)的方法。
當(dāng)然,團(tuán)隊(duì)承認(rèn)由于拓?fù)淠:院蚿ose-dependent非線性服裝變形,從變形觀測(cè)中學(xué)習(xí)寬松服裝(如裙子)依然具有挑戰(zhàn)性。
相關(guān)論文:gDNA: Towards Generative Detailed Neural Avatars
總之,論文的主要貢獻(xiàn)是:
一種在詳細(xì)服裝中生成多種可動(dòng)畫3D人體形狀的方法
從原始姿勢(shì)的3D掃描中學(xué)習(xí),無需標(biāo)準(zhǔn)形狀、詳細(xì)的曲面注冊(cè)或手動(dòng)定義的蒙皮權(quán)重
一種根據(jù)恢復(fù)服裝變形的underlying statistics,顯著改善服裝變形中幾何細(xì)節(jié)的技術(shù)
---
原文鏈接:https://news.nweon.com/96560