OpenAI研發(fā)全新從文本生成3D模型的系統(tǒng)Shap-E,大大提升速度
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)
可以直接從文本描述中生成3D asset
(映維網(wǎng)Nweon?2023年05月17日)OpenAI在研究文本到三維對(duì)象方面取得了快速進(jìn)展。已經(jīng)托管至GitHub的Shap-E據(jù)稱可以直接從文本描述中生成3D asset,或者從提供的圖像中構(gòu)建相關(guān)內(nèi)容。
如果大家有印象,OpenAI早在2022年12月就發(fā)布了能夠根據(jù)文本提示建立點(diǎn)云形式的基本3D模型的Point-E系統(tǒng)。
現(xiàn)在,團(tuán)隊(duì)又發(fā)布了速度大大增加的全新系統(tǒng)Shap-E。其中,它能夠以 “隱式函數(shù) “的形式建立模型,既可以呈現(xiàn)為紋理網(wǎng)格,又可以呈現(xiàn)為神經(jīng)輻射場(chǎng)(NeRFs),即使用機(jī)器學(xué)習(xí)從二維圖像中開(kāi)發(fā)的三維模型。團(tuán)隊(duì)指出,盡管質(zhì)量不及其他優(yōu)化模型,但Shap-E的速度要快幾個(gè)數(shù)量級(jí),從而為用戶提供了有利的權(quán)衡。

近來(lái)生成式圖像模型的爆炸性增長(zhǎng),所以社區(qū)對(duì)訓(xùn)練其他類似模型的興趣越來(lái)越大,如音頻、視頻和3D asset。大多數(shù)都適合于可以直接生成的自然的、固定大小的張量表示,例如圖像的像素網(wǎng)格或音頻的樣本陣列。然而,如何以一種高效生成并易于在下游應(yīng)用中實(shí)現(xiàn)的方式來(lái)表示3D asset是一個(gè)問(wèn)題。
最近,隱性神經(jīng)表征(INRs)已成為流行的3D asset編碼方式。為了表示三維資產(chǎn),INRs通常將3D坐標(biāo)映射到特定的位置信息,如密度和顏色。一般來(lái)說(shuō),INRs獨(dú)立于分辨率,因?yàn)樗鼈兛梢栽谌我獾妮斎朦c(diǎn)進(jìn)行查詢,而不是在一個(gè)固定的網(wǎng)格或序列中進(jìn)行信息編碼。由于它們是端到端的可微分,INRs能夠?qū)崿F(xiàn)各種下游應(yīng)用,例如可微分的形狀編輯。
在研究中,OpenAI專注于兩種類型的INRs的3D表示:
神經(jīng)輻射場(chǎng)(NeRF)是一種INR,它將3D場(chǎng)景表示為一個(gè)將坐標(biāo)和觀察方向映射到密度和RGB顏色的函數(shù)。NeRF可以通過(guò)查詢密度和沿camera光線的顏色,從任意視圖中渲染出來(lái),并進(jìn)行訓(xùn)練以匹配3D場(chǎng)景的ground truth渲染。
DMTet和它的擴(kuò)展GET3D將一個(gè)有紋理的三維網(wǎng)格表示為一個(gè)將坐標(biāo)映射到顏色、符號(hào)距離和頂點(diǎn)偏移的函數(shù)。這個(gè)INR能夠以可微分的方式構(gòu)建3D三角形網(wǎng)格,而所得到的網(wǎng)格可以使用可微分光柵化庫(kù)進(jìn)行高效渲染。
盡管INR靈活和富有表現(xiàn)力,但為數(shù)據(jù)集中的每個(gè)樣本獲取INR的過(guò)程成本可能十分高昂。另外,每個(gè)INR可能存在諸多數(shù)字參數(shù),在訓(xùn)練下游生成模型時(shí)可能會(huì)帶來(lái)挑戰(zhàn)。
針對(duì)所述問(wèn)題,社區(qū)有嘗試使用帶有隱式解碼器的自動(dòng)編碼器來(lái)獲得較小的latent表征,從而直接用現(xiàn)有的生成技術(shù)進(jìn)行建模。另外,有人使用元學(xué)習(xí)來(lái)創(chuàng)建一個(gè)共享大部分參數(shù)的INRs數(shù)據(jù)集,然后在自由參數(shù)訓(xùn)練擴(kuò)散模型或歸一化流。其他人則進(jìn)一步建議,基于梯度的元學(xué)習(xí)根本沒(méi)有必要,而是可以直接訓(xùn)練一個(gè)Transformer編碼器來(lái)產(chǎn)生以3D對(duì)象的多個(gè)視圖為條件的NeRF參數(shù)。
OpenAI結(jié)合并擴(kuò)大了上述幾種方法,并最終得出了Shap-E。
這是一個(gè)適用于各種復(fù)雜的3D latent表征的條件生成模型。首先,團(tuán)隊(duì)通過(guò)訓(xùn)練一個(gè)基于Transformer的編碼器來(lái)產(chǎn)生3D asset的INR參數(shù)。接下來(lái),在編碼器的輸出上訓(xùn)練一個(gè)擴(kuò)散模型。
與以前的方法不同,產(chǎn)生的INR同時(shí)代表NeRFs和網(wǎng)格,允許它們以多種方式渲染或?qū)胂掠蔚?D應(yīng)用程序。

Shap-E
在對(duì)數(shù)百萬(wàn)個(gè)3D asset的數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),模型能夠在文本提示的條件下產(chǎn)生多樣化的、可識(shí)別的樣本,如上圖所示。

Point-E
與早前提出的顯式3D生成式模型Point-E相比,這個(gè)模型收斂得更快,并且在共享相同的模型結(jié)構(gòu)、數(shù)據(jù)集和調(diào)節(jié)機(jī)制的情況下,它可以獲得可比或更高的結(jié)果。令人驚訝的是,Shap-E和Point-E在以圖像為條件時(shí)傾向于出現(xiàn)相同成功和失敗的案例,這表明對(duì)輸出表示的非常不同選擇依然可以導(dǎo)致類似的模型行為。

然而,研究人員同時(shí)觀察到這兩個(gè)模型之間的質(zhì)量差異,特別是當(dāng)直接以文字說(shuō)明為條件時(shí)。像Point-E一樣,Shap-E的樣本質(zhì)量依然比基于優(yōu)化的文本條件的3D生成式方法要差。然而,它在推理時(shí)間上比所述方法快了幾個(gè)數(shù)量級(jí),允許一個(gè)潛在的有利權(quán)衡。
相關(guān)論文:Shap-E: Generating Conditional 3D Implicit Functions
例如,對(duì)于質(zhì)量要求不高的場(chǎng)景元素,用戶可以通過(guò)Shap-E快速生成相關(guān)的3D asset,而對(duì)于其他元素,用戶則可以使用質(zhì)量更多的3D生成式方式,從而快速高效地完成場(chǎng)景創(chuàng)建。
---
原文鏈接:https://news.nweon.com/107753