即將開源!單圖像3D人體數(shù)字化!
作者:歷飛雨 | 來源:3DCV
在公眾號「3DCV」后臺,回復(fù)「原論文」可獲取論文pdf和代碼鏈接
添加微信:dddvisiona,備注:NeRF SLAM,拉你入群。文末附行業(yè)細(xì)分群
1、導(dǎo)讀
我們提出了一種從單個輸入圖像 生成具有一致、高分辨率外觀的人的 360 度視圖的方法。
NeRF 及其變體通常需要來自不同視角的視頻或圖像。大多數(shù)采用單眼輸入的現(xiàn)有方法要么依賴真實3D掃描進(jìn)行監(jiān)督,要么缺乏3D一致性。雖然最近的3D生成模型顯示了3D一致的人體數(shù)字化的前景,但這些方法不能很好地推廣到不同的服裝外觀,并且結(jié)果缺乏真實感。
與現(xiàn)有工作不同,我們利用針對一般圖像合成任務(wù)預(yù)先訓(xùn)練的高容量二維擴(kuò)散模型作為穿著人類的外觀先驗。為了在保留輸入身份的同時實現(xiàn)更好的3D一致性,我們通過以輪廓和表面法線為條件的形狀引導(dǎo)擴(kuò)散修復(fù)缺失區(qū)域,逐步合成輸入圖像中人體的多個視圖。然后,我們通過逆向渲染融合這些合成的多視圖圖像,以獲得給定人物的完全紋理化的高分辨率 3D 網(wǎng)格。實驗表明,我們的方法優(yōu)于之前的方法,并且可以從單個圖像中實現(xiàn)對各種具有復(fù)雜紋理的穿著人類的真實感360度合成。

2、貢獻(xiàn)
我們首次證明,為一般圖像合成而訓(xùn)練的2D擴(kuò)散模型可用于從單個圖像進(jìn)行3D紋理人體數(shù)字化。
我們的方法通過使用法線貼圖和輪廓來指導(dǎo)擴(kuò)散模型,從而保留了底層3D結(jié)構(gòu)的形狀和結(jié)構(gòu)細(xì)節(jié)。
我們通過將合成的多視圖圖像融合到共享的UV紋理圖中來實現(xiàn)3D一致的紋理重建
3、方法
為了從單個圖像 生成一個人的360度視圖,我們首先合成該人的多視圖圖像。我們使用現(xiàn)成的方法來推斷3D幾何形狀并合成人的初始后視圖作為指導(dǎo)。我們將輸入視圖和合成的初始后視圖添加到我們的支持集中。為了生成新視圖,我們通過混合RGB顏色來聚合支持集中的所有可見像素,并根據(jù)可見性、視角和到缺失區(qū)域的距離進(jìn)行加權(quán)。為了產(chǎn)生看不見的外觀并合成視圖,我們使用由形狀線索(法線圖和輪廓圖)引導(dǎo)的預(yù)訓(xùn)練修復(fù)擴(kuò)散模型。我們將生成的視圖包含在我們的支持集中,并對所有剩余的視圖重復(fù)此過程。

然后,我們?nèi)诤线@些合成的多視圖圖像以獲得帶紋理的3D人體網(wǎng)格。我們使用計算出的UV參數(shù)化來優(yōu)化幾何形狀固定的UV紋理貼圖。在每次迭代中,我們在視圖集中的每個合成視圖中以不同的方式渲染UV紋理貼圖。我們使用LPIPS損失和L1損失來最小化渲染視圖和合成視圖之間的重建損失。融合產(chǎn)生可以從任何視圖渲染的紋理網(wǎng)格。

4、如何確保在單張圖像上實現(xiàn)高分辨率且真實感強(qiáng)烈的3D人體數(shù)字化?
通過利用預(yù)訓(xùn)練的高容量2D擴(kuò)散模型作為人類外觀的先驗,從而避免了依賴3D掃描進(jìn)行監(jiān)督訓(xùn)練。通過使用形狀引導(dǎo)的擴(kuò)散條件,該方法可以生成具有一致外觀和高質(zhì)量紋理的3D人體網(wǎng)格。此外,實驗結(jié)果表明,該方法生成的3D人體網(wǎng)格具有比以往方法更詳細(xì)和逼真的外觀。為確保在單張圖像上實現(xiàn)高分辨率且真實感強(qiáng)烈的3D人體數(shù)字化,該方法采用了以下策略:
利用高容量2D擴(kuò)散模型作為人類外觀的先驗,使得生成的3D人體網(wǎng)格具有更一致的外觀。
通過形狀引導(dǎo)的擴(kuò)散條件,在保留輸入身份的同時提高3D一致性。
逐步合成輸入圖像中的人物的多個視角,通過在缺失區(qū)域進(jìn)行基于形狀的擴(kuò)散,從而生成高質(zhì)量的3D人體網(wǎng)格。
這些策略共同確保了在單張圖像上實現(xiàn)高分辨率且真實感強(qiáng)烈的3D人體數(shù)字化。
5、在處理遮擋和部分可見區(qū)域時,如何確保 3D 人體數(shù)字化方法的穩(wěn)定性和準(zhǔn)確性?
利用形狀引導(dǎo)的擴(kuò)散條件:在保留輸入身份的同時,通過在缺失區(qū)域進(jìn)行基于形狀的擴(kuò)散,提高3D一致性。這種方法有助于在處理遮擋和部分可見區(qū)域時,生成具有較高真實感的3D人體網(wǎng)格。
逐步合成多個視角:通過逐步合成輸入圖像中的人物的多個視角,可以在缺失區(qū)域生成高質(zhì)量的3D人體網(wǎng)格。這種方法有助于在處理遮擋和部分可見區(qū)域時,提高3D人體數(shù)字化方法的穩(wěn)定性。
高容量2D擴(kuò)散模型作為人類外觀的先驗:利用預(yù)訓(xùn)練的高容量2D擴(kuò)散模型作為人類外觀的先驗,有助于在處理遮擋和部分可見區(qū)域時,生成具有較高真實感和一致性的3D人體網(wǎng)格。
3D幾何重建:首先使用3D幾何重建方法(如多視角幾何估計或深度學(xué)習(xí)方法)重建輸入圖像中的人物的3D幾何形狀。這有助于在處理遮擋和部分可見區(qū)域時,提高3D人體數(shù)字化方法的準(zhǔn)確性。
6、針對不同姿態(tài)和光照條件下的圖像,如何實現(xiàn) 3D 人體數(shù)字化方法的通用性和適應(yīng)性?
利用預(yù)訓(xùn)練的高容量2D擴(kuò)散模型作為人類外觀的先驗:通過使用預(yù)訓(xùn)練的高容量2D擴(kuò)散模型,該方法可以在不同姿態(tài)和光照條件下生成具有較高真實感和一致性的3D人體網(wǎng)格。這有助于提高3D人體數(shù)字化方法的通用性和適應(yīng)性。
逐步合成多個視角:通過逐步合成輸入圖像中的人物的多個視角,可以在不同姿態(tài)和光照條件下生成高質(zhì)量的3D人體網(wǎng)格。這種方法有助于提高3D人體數(shù)字化方法的適應(yīng)性。
形狀引導(dǎo)的擴(kuò)散條件:在保留輸入身份的同時,通過在缺失區(qū)域進(jìn)行基于形狀的擴(kuò)散,提高3D一致性。這種方法有助于在處理不同姿態(tài)和光照條件下的圖像時,生成具有較高真實感的3D人體網(wǎng)格。
對抗性訓(xùn)練和數(shù)據(jù)增強(qiáng):為了提高3D人體數(shù)字化方法在不同姿態(tài)和光照條件下的泛化能力,可以采用對抗性訓(xùn)練和數(shù)據(jù)增強(qiáng)技術(shù)。這些技術(shù)有助于提高方法在不同姿態(tài)和光照條件下的適應(yīng)性。
采用多視角圖像融合:通過將多視角圖像進(jìn)行融合,可以在不同姿態(tài)和光照條件下生成具有較高真實感的3D人體網(wǎng)格。這有助于提高3D人體數(shù)字化方法的通用性。
7、實驗結(jié)果
該方法生成的3D人體網(wǎng)格具有比以往方法更詳細(xì)和逼真的外觀。使用了兩組數(shù)據(jù)集進(jìn)行評估:THuman2.0和DeepFashion。此外,還使用了Adobe Stock1中的野外圖像來展示具有不同主體、服裝和姿態(tài)的圖像成果。



實驗結(jié)果中,作者對比了他們的方法與其他基線方法,如PIFu。結(jié)果顯示,他們的方法在生成360度視圖方面具有更高的準(zhǔn)確性和視覺效果。作者還進(jìn)行了一項消融研究,驗證了形狀引導(dǎo)的擴(kuò)散條件對生成高質(zhì)量3D人體網(wǎng)格的重要性。通過實驗結(jié)果,作者證明了他們的方法在生成360度視圖的人體數(shù)字化方面具有優(yōu)越性。這為單張圖像上實現(xiàn)高分辨率且真實感強(qiáng)烈的3D人體數(shù)字化提供了有力支持。
8、總結(jié)
我們介紹了一種簡單而高效的方法,可從單張圖像生成完全紋理化的三維人體網(wǎng)格。我們的實驗表明,通過基于高容量潛在擴(kuò)散模型的形狀引導(dǎo)涂色和穩(wěn)健的多視圖融合方法,現(xiàn)在可以為遮擋視圖合成高分辨率和逼真的紋理。三維人體數(shù)字化依賴于以人為中心的三維或二維數(shù)據(jù)集,而我們的方法則首次利用通用的大規(guī)模擴(kuò)散模型實現(xiàn)了卓越的合成效果。我們相信,我們的工作將為統(tǒng)一三維人體數(shù)字化和其他一般二維人體數(shù)字化的數(shù)據(jù)收集工作提供啟示。