散文網(wǎng) » 科技 »學(xué)習(xí) » WonderJourney：簡單提示生成無限的3D世界

WonderJourney：簡單提示生成無限的3D世界

2023-12-15 17:33 作者:ReadPaper論文閱讀 0人讀過 | 我要投稿

"WonderJourney"是一種創(chuàng)新的模塊化框架，用于生成持續(xù)的3D場景。與以往專注于單一場景類型的視圖生成不同，它能從任何用戶提供的位置（通過文本描述或圖像）開始，生成一系列多樣化且連貫的3D場景。該框架結(jié)合了大型語言模型（LLM）生成場景描述、文本驅(qū)動的點云生成管道來創(chuàng)造引人入勝且連貫的3D場景序列，以及大型視覺語言模型（VLM）來驗證生成的場景。這一過程展現(xiàn)了各種場景類型和風(fēng)格下引人入勝、多樣化的視覺結(jié)果，形成了虛構(gòu)的“奇妙之旅”。

論文：https://arxiv.org/pdf/2312.03884.pdf

Readpaper：https://readpaper.com/paper/4830704839394590721

Demo：https://kovenyu.com/wonderjourney/

代碼：https://github.com/KovenYu/WonderJourney

網(wǎng)站展示的demo，我感覺非常驚艷。

一句話就可以生成愛麗絲夢游仙境：

詳細(xì)介紹

WonderJourney是一個旨在生成連續(xù)且多樣化的3D場景序列的模塊化框架。它結(jié)合了3D場景的幾何理解和視覺語義理解。該框架通過生成場景的文本描述，然后使用文本引導(dǎo)的視覺生成模塊來創(chuàng)建3D場景。它包括場景描述生成、視覺場景生成和視覺驗證三個主要模塊。輸入可以是圖像或文本，通過文本到圖像模型或視覺語言模型（VLM）進(jìn)行轉(zhuǎn)換。接著，大型語言模型（LLM）用于生成下一個場景的描述，而視覺場景生成模塊則根據(jù)這些描述和當(dāng)前場景圖像來生成新的3D場景。最后，VLM用于檢查生成的場景，確保沒有不期望的效果。該框架的高度模塊化設(shè)計使其能夠輕松集成最新的預(yù)訓(xùn)練模型，從而充分利用大型語言和視覺模型的發(fā)展。