WonderJourney:簡單提示生成無限的3D世界
"WonderJourney"是一種創(chuàng)新的模塊化框架,用于生成持續(xù)的3D場景。與以往專注于單一場景類型的視圖生成不同,它能從任何用戶提供的位置(通過文本描述或圖像)開始,生成一系列多樣化且連貫的3D場景。該框架結(jié)合了大型語言模型(LLM)生成場景描述、文本驅(qū)動的點云生成管道來創(chuàng)造引人入勝且連貫的3D場景序列,以及大型視覺語言模型(VLM)來驗證生成的場景。這一過程展現(xiàn)了各種場景類型和風(fēng)格下引人入勝、多樣化的視覺結(jié)果,形成了虛構(gòu)的“奇妙之旅”。

論文:https://arxiv.org/pdf/2312.03884.pdf
Readpaper:https://readpaper.com/paper/4830704839394590721
Demo:https://kovenyu.com/wonderjourney/
代碼:https://github.com/KovenYu/WonderJourney
網(wǎng)站展示的demo,我感覺非常驚艷。
一句話就可以生成愛麗絲夢游仙境:

詳細(xì)介紹
WonderJourney是一個旨在生成連續(xù)且多樣化的3D場景序列的模塊化框架。它結(jié)合了3D場景的幾何理解和視覺語義理解。該框架通過生成場景的文本描述,然后使用文本引導(dǎo)的視覺生成模塊來創(chuàng)建3D場景。它包括場景描述生成、視覺場景生成和視覺驗證三個主要模塊。輸入可以是圖像或文本,通過文本到圖像模型或視覺語言模型(VLM)進(jìn)行轉(zhuǎn)換。接著,大型語言模型(LLM)用于生成下一個場景的描述,而視覺場景生成模塊則根據(jù)這些描述和當(dāng)前場景圖像來生成新的3D場景。最后,VLM用于檢查生成的場景,確保沒有不期望的效果。該框架的高度模塊化設(shè)計使其能夠輕松集成最新的預(yù)訓(xùn)練模型,從而充分利用大型語言和視覺模型的發(fā)展。

視覺場景生成:

觀點
LLM?+?別的技術(shù)的結(jié)合其實已經(jīng)有很多了。不過,WonderJourney做的還是比較深的,展現(xiàn)了很多可能性。而且論文給到的細(xì)節(jié)也蠻多的,感覺可以遷移到很多做交互的技術(shù)上。

特邀作者:日本早稻田大學(xué)計算機(jī)系博士生? 王軍杰