最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

重大突破!斯坦福大學(xué)提出一種單階段方法,在30秒內(nèi)實(shí)現(xiàn)高質(zhì)量文本到3D生成和單圖像重

2023-11-24 18:35 作者:3D視覺(jué)工坊  | 我要投稿

作者:巴巴塔 | 來(lái)源:3DCV

在公眾號(hào)「3DCV」后臺(tái),回復(fù)「原論文」可獲取論文pdf和代碼鏈接

添加微信:dddvisiona,備注:三維重建,拉你入群。文末附行業(yè)細(xì)分群

1、導(dǎo)讀

我們提出了一種基于多視圖圖像擴(kuò)散的去噪方法,可以通過(guò)少量的多視圖圖像來(lái)生成高質(zhì)量的3D模型。該方法利用了大型Transformer模型,可以從噪聲圖像中重建出無(wú)噪聲的3D模型,并且可以在任意視角上進(jìn)行渲染。該方法還支持文本和圖像的條件輸入,可以實(shí)現(xiàn)基于單張圖像或文本的3D生成和重建。通過(guò)實(shí)驗(yàn)證明,該方法在單張圖像的3D重建和文本到3D生成方面取得了優(yōu)于先前方法的結(jié)果。

2、創(chuàng)新點(diǎn)

  • 提出了一種新穎的單階段擴(kuò)散模型,用于3D生成。與傳統(tǒng)的兩階段模型相比,我們的模型能夠直接通過(guò)擴(kuò)散推理實(shí)現(xiàn)快速的3D生成,而無(wú)需進(jìn)行每個(gè)資產(chǎn)的優(yōu)化。這種單階段的方法在文本到3D生成和單視圖重建等方面取得了最先進(jìn)的質(zhì)量。

  • 引入了多視圖圖像擴(kuò)散去噪。我們的模型基于一個(gè)大型的Transformer模型,通過(guò)對(duì)噪聲多視圖圖像進(jìn)行重建,輸出經(jīng)過(guò)體積渲染的去噪圖像。相比于傳統(tǒng)的3D點(diǎn)或預(yù)訓(xùn)練的3D潛空間的去噪方法,我們的模型能夠生成更高質(zhì)量的幾何形狀和更清晰的外觀細(xì)節(jié)。

  • 實(shí)現(xiàn)了對(duì)輸入圖像和文本的條件輸入。我們的模型支持文本和圖像的條件輸入,可以根據(jù)不同的輸入生成具有不同屬性的3D模型。

3、方法

我們對(duì)多個(gè)視圖進(jìn)行去噪以進(jìn)行 3D 生成。我們的多視圖降噪器是一個(gè)Transformer模型,它根據(jù)帶有相機(jī)姿勢(shì)的輸入噪聲圖像(由Plucker射線參數(shù)化)重建無(wú)噪聲三平面NeRF。在訓(xùn)練過(guò)程中,我們監(jiān)督三平面NeRF,在輸入和新穎的視點(diǎn)處存在渲染損失。在推理過(guò)程中,我們?cè)谳斎胍朁c(diǎn)渲染去噪圖像,并將它們與噪聲結(jié)合起來(lái),以獲得下一步去噪步驟的噪聲較小的輸入。一旦多視圖圖像完全去噪,我們的模型就會(huì)提供干凈的三平面NeRF,從而實(shí)現(xiàn)3D生成。

3.1、多視角擴(kuò)散和去噪

多視角擴(kuò)散是指在數(shù)據(jù)集中對(duì)每個(gè)圖像獨(dú)立地進(jìn)行擴(kuò)散過(guò)程,使用相同的噪聲計(jì)劃。具體而言,每個(gè)時(shí)間步的擴(kuò)散結(jié)果可以表示為:

其中是初始圖像,是服從高斯分布的噪聲,是一個(gè)隨時(shí)間遞減的參數(shù),控制噪聲與信號(hào)的比例。

重建式去噪。我們提出利用三維重建和渲染來(lái)實(shí)現(xiàn)二維多視角圖像去噪,并同時(shí)輸出一個(gè)干凈的三維模型用于三維生成。具體而言,我們利用一個(gè)三維重建模塊從噪聲多視角圖像中重建一個(gè)三維表示,并使用可微分渲染模塊渲染去噪后的圖像:

其中表示在特定視角下從三維模型渲染出的圖像。通過(guò)在不同視角上渲染,可以對(duì)輸入的多視角圖像進(jìn)行去噪,從而得到無(wú)噪聲的。這相當(dāng)于二維擴(kuò)散模型中的預(yù)測(cè)。然而,僅僅在輸入視角上監(jiān)督的預(yù)測(cè)不能保證高質(zhì)量的三維生成,通常會(huì)導(dǎo)致退化的三維解決方案,其中輸入圖像被粘貼在與視角對(duì)齊的平面上。

因此,我們還提出在三維模型St上監(jiān)督新視角的渲染結(jié)果,從而得到以下訓(xùn)練目標(biāo):

其中和表示所有圖像和姿態(tài)的集合,是圖像重建損失,懲罰真實(shí)圖像與渲染圖像之間的差異。我們的框架是通用的,可以適用于任何三維表示方法。在本文中,我們考慮了一個(gè)三平面NeRF表示,并提出了基于LRM的重建器。

多視角擴(kuò)散和去噪是通過(guò)對(duì)每個(gè)圖像獨(dú)立進(jìn)行擴(kuò)散過(guò)程,并利用三維重建和渲染模塊對(duì)多視角圖像進(jìn)行去噪。通過(guò)監(jiān)督新視角的渲染結(jié)果,可以得到高質(zhì)量的三維生成結(jié)果。

3.2、基于重構(gòu)器的多視角去噪方法

在DMV3D中,使用了基于重構(gòu)器的多視角去噪方法。這種方法利用了大型變換器模型,可以從噪聲多視角圖像中重構(gòu)出干凈的三平面NeRF模型,并通過(guò)體素渲染生成去噪圖像。這種方法支持文本和圖像作為輸入條件,通過(guò)直接擴(kuò)散推理實(shí)現(xiàn)快速的3D生成,而無(wú)需對(duì)每個(gè)資產(chǎn)進(jìn)行優(yōu)化。在各種測(cè)試數(shù)據(jù)集上,我們的方法在文本到3D生成和單視圖重建方面優(yōu)于先前的3D擴(kuò)散模型,達(dá)到了最先進(jìn)的質(zhì)量水平。

3.3、圖像條件和文本條件

在單個(gè)圖像或文本上進(jìn)行條件約束是指在生成3D模型時(shí),通過(guò)使用單個(gè)圖像或文本作為條件來(lái)控制生成的結(jié)果。在這篇論文中,作者提出了兩種條件約束的方法:圖像條件和文本條件。

圖像條件:在圖像條件下,我們使用第一個(gè)視角的圖像作為條件圖像,并對(duì)其他視角的圖像進(jìn)行擴(kuò)散和去噪處理。在這種情況下,去噪器學(xué)習(xí)從第一個(gè)輸入視角提取的線索來(lái)填充噪聲視角中的缺失像素,類似于圖像修復(fù)的任務(wù)。為了提高圖像條件模型的泛化能力,我們使用與條件視角對(duì)齊的坐標(biāo)系生成三角平面,并使用相對(duì)于條件視角的姿態(tài)渲染其他圖像。在訓(xùn)練過(guò)程中,我們對(duì)輸入視角的姿態(tài)進(jìn)行歸一化處理,并在推理過(guò)程中以相同的方式指定輸入視角的姿態(tài)。

文本條件:為了在模型中添加文本條件,我們采用了與Stable Diffusion論文中類似的策略。我們使用CLIP文本編碼器生成文本嵌入,并使用交叉注意力將其注入到我們的去噪器中。具體而言,在ViT的每個(gè)自注意力塊后面添加一個(gè)額外的交叉注意力層,在三角平面解碼器的每個(gè)交叉注意力塊后面也添加一個(gè)額外的交叉注意力層。

通過(guò)這兩種條件約束方法,我們可以實(shí)現(xiàn)對(duì)生成的3D模型進(jìn)行控制,使其符合給定的圖像或文本條件。

3.4、訓(xùn)練和推理

訓(xùn)練階段,我們?cè)诜秶鸀榈臅r(shí)間步驟中均勻采樣,并根據(jù)余弦調(diào)度添加噪聲。我們使用隨機(jī)的相機(jī)姿勢(shì)對(duì)輸入圖像進(jìn)行采樣。我們還隨機(jī)采樣額外的新視點(diǎn)來(lái)監(jiān)督渲染以獲得更好的質(zhì)量。我們使用條件信號(hào)最小化以下訓(xùn)練目標(biāo):

對(duì)于圖像重建損失,我們使用L2損失和LPIPS損失的組合,其中損失權(quán)重分別為1和2。

推理階段,我們選擇均勻環(huán)繞物體的四個(gè)視點(diǎn),以確保生成的3D模型具有良好的覆蓋范圍。我們將相機(jī)視場(chǎng)固定為50度,適用于這四個(gè)視圖。由于我們預(yù)測(cè)與條件圖像的相機(jī)框架對(duì)齊的三平面NeRF,因此我們還固定了條件圖像的相機(jī)外參,使其具有身份方向和位置,這是LRM的做法。我們將最終去噪步驟中的三平面NeRF輸出作為生成的3D模型。我們利用DDIM算法來(lái)提高推理速度。

4、實(shí)驗(yàn)結(jié)果

定量評(píng)估:研究使用了兩個(gè)測(cè)試數(shù)據(jù)集(GSO和ABO)來(lái)進(jìn)行定量評(píng)估。通過(guò)比較提出的模型和基準(zhǔn)方法在這些數(shù)據(jù)集上的表現(xiàn),使用了多個(gè)評(píng)估指標(biāo),包括FID、CLIP、PSNR、SSIM、LPIPS和CD等。實(shí)驗(yàn)結(jié)果表明,提出的模型在所有指標(biāo)上都取得了最佳的得分,證明了其在生成質(zhì)量和重建質(zhì)量方面的優(yōu)勢(shì)。

定性評(píng)估:研究通過(guò)展示生成的結(jié)果圖像來(lái)進(jìn)行定性評(píng)估。通過(guò)與基準(zhǔn)方法的比較,展示了提出的模型在幾何形狀和外觀細(xì)節(jié)方面的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,提出的模型生成的結(jié)果具有更高質(zhì)量的幾何形狀和更清晰的外觀細(xì)節(jié)。

此外,研究還進(jìn)行了一些消融實(shí)驗(yàn)來(lái)驗(yàn)證模型的設(shè)計(jì)選擇和性能。通過(guò)比較不同輸入視圖數(shù)量、多個(gè)實(shí)例生成、不同輸入來(lái)源以及不同模型配置的實(shí)驗(yàn)結(jié)果,驗(yàn)證了模型的魯棒性、通用性和有效性。

總結(jié)起來(lái),本研究通過(guò)定量評(píng)估和定性評(píng)估的實(shí)驗(yàn)方法,驗(yàn)證了提出的模型在生成質(zhì)量和重建質(zhì)量方面的優(yōu)勢(shì),并通過(guò)消融實(shí)驗(yàn)驗(yàn)證了模型的設(shè)計(jì)選擇和性能。

5、結(jié)論

我們提出了一種新穎的單階段擴(kuò)散模型,用于3D生成,通過(guò)去噪多視圖圖像擴(kuò)散生成3D資產(chǎn)。該模型基于一個(gè)大型的Transformer模型,將嘈雜的多視圖圖像重建為干凈的三平面NeRF,并通過(guò)體素渲染輸出去噪圖像。該方法支持文本和圖像輸入,通過(guò)直接擴(kuò)散推理實(shí)現(xiàn)快速的3D生成,而無(wú)需每個(gè)資產(chǎn)的優(yōu)化。實(shí)驗(yàn)結(jié)果表明,該方法在文本到3D生成和單視圖重建方面的質(zhì)量?jī)?yōu)于先前的3D擴(kuò)散模型,并在各種測(cè)試數(shù)據(jù)集上取得了最先進(jìn)的結(jié)果。


重大突破!斯坦福大學(xué)提出一種單階段方法,在30秒內(nèi)實(shí)現(xiàn)高質(zhì)量文本到3D生成和單圖像重的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
昌宁县| 镇赉县| 大宁县| 甘谷县| 资兴市| 辰溪县| 柳州市| 大城县| 额尔古纳市| 崇礼县| 东乡| 调兵山市| 庄河市| 阳泉市| 辽宁省| 孟州市| 来安县| 德保县| 利津县| 杭锦后旗| 申扎县| 志丹县| 土默特左旗| 阿拉善右旗| 汪清县| 古浪县| 墨脱县| 水富县| 阿合奇县| 刚察县| 雷波县| 达州市| 汨罗市| 石家庄市| 射洪县| 丹江口市| 沁水县| 策勒县| 九龙县| 广昌县| 五指山市|