蘋(píng)果人工智能團(tuán)隊(duì)研發(fā)全新3D場(chǎng)景生成神經(jīng)架構(gòu)GAUDI
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)
目前GAUDI生成的3D視頻質(zhì)量較低,并存在偽影,但這項(xiàng)技術(shù)為未來(lái)的可控生成AI系統(tǒng),以及3D對(duì)象和場(chǎng)景渲染奠定了基礎(chǔ)
(映維網(wǎng)Nweon 2022年08月05日)日前,蘋(píng)果的人工智能團(tuán)隊(duì)亮相了全新的3D場(chǎng)景生成神經(jīng)架構(gòu)GAUDI(以西班牙著名建筑師安東尼奧·高迪/Antonio Gaudi的名字命名)。它可以捕捉復(fù)雜和逼真的3D場(chǎng)景分布,從移動(dòng)camera執(zhí)行沉浸式渲染,并基于文本提示創(chuàng)建3D場(chǎng)景。
將生成式人工智能擴(kuò)展到完全無(wú)約束的3D場(chǎng)景依然是一個(gè)尚未解決的問(wèn)題。其中一個(gè)原因是camera位置的限制。盡管對(duì)于單個(gè)對(duì)象來(lái)說(shuō),每一個(gè)可能的合理camera位置都可以映射到一個(gè)圓頂之上,但在3D場(chǎng)景中,camera位置會(huì)受到物體和墻壁等障礙物的限制。如果在場(chǎng)景生成過(guò)程中不考慮相關(guān)因素,生成的3D場(chǎng)景就無(wú)法使用。
蘋(píng)果提出的GAUDI模型則通過(guò)三個(gè)專(zhuān)門(mén)的網(wǎng)絡(luò)來(lái)解決這個(gè)問(wèn)題:
一個(gè)camera姿勢(shì)解碼器對(duì)可能的camera位置進(jìn)行預(yù)測(cè),并確保輸出是3D場(chǎng)景架構(gòu)的有效位置。
場(chǎng)景解碼器可以通過(guò)一種3D畫(huà)布的形式對(duì)場(chǎng)景進(jìn)行預(yù)測(cè)。
輻射場(chǎng)解碼器在上面使用體三位渲染方程繪制后續(xù)圖像。
蘋(píng)果寫(xiě)道:“GAUDI是一種能夠捕捉復(fù)雜和逼真3D場(chǎng)景分布的生成性模型,它可以從移動(dòng)攝像頭執(zhí)行沉浸式渲染。我們采用一種可擴(kuò)展但強(qiáng)大的方法來(lái)解決這一挑戰(zhàn)性問(wèn)題:首先優(yōu)化latent表示,將輻射場(chǎng)和cameta姿勢(shì)分離。然后,使用latent表示來(lái)學(xué)習(xí)一種支持無(wú)條件和有條件生成3D場(chǎng)景的動(dòng)態(tài)模型。”
實(shí)驗(yàn)結(jié)果表明,GAUDI在多個(gè)數(shù)據(jù)集的無(wú)條件生成環(huán)境中實(shí)現(xiàn)了最先進(jìn)的性能,并允許在給定條件變量情況下有條件生成3D場(chǎng)景。
盡管目前GAUDI生成的3D視頻質(zhì)量較低,并存在偽影,但這項(xiàng)技術(shù)為未來(lái)的可控生成AI系統(tǒng),以及3D對(duì)象和場(chǎng)景渲染奠定了基礎(chǔ)。
GAUDI的出現(xiàn)不僅會(huì)對(duì)許多計(jì)算機(jī)視覺(jué)任務(wù)產(chǎn)生影響,其3D場(chǎng)景生成能力也將有利于基于模型的強(qiáng)化學(xué)習(xí)和規(guī)劃、SLAM和3D內(nèi)容制作等研究領(lǐng)域。
值得一提的是,根據(jù)Patentlyapple,據(jù)稱(chēng)GAUDI有用于蘋(píng)果的XR頭顯中,并用于生成數(shù)字化位置。
更多技術(shù)性細(xì)節(jié)請(qǐng)?jiān)L問(wèn)映維網(wǎng)的論文頁(yè)面。
---
原文鏈接:https://news.nweon.com/99548