開源Stable Video Diffusion:個人輕松生成短視頻的時代到來了
Stability?AI發(fā)布了“穩(wěn)定視頻擴(kuò)散”(Stable?Video?Diffusion)模型,這是一種用于高分辨率、最先進(jìn)的文本到視頻和圖像到視頻生成的潛在視頻擴(kuò)散模型。該模型通過在小型、高質(zhì)量的視頻數(shù)據(jù)集上插入時間層并微調(diào),將用于2D圖像合成的潛在擴(kuò)散模型轉(zhuǎn)化為生成視頻模型。研究發(fā)現(xiàn),預(yù)訓(xùn)練在精心策劃的數(shù)據(jù)集上對生成高質(zhì)量視頻至關(guān)重要,并提出了一種系統(tǒng)化的策劃過程來訓(xùn)練強(qiáng)大的基礎(chǔ)模型。此外,該模型還提供了強(qiáng)大的運動表示,用于圖像到視頻生成和適應(yīng)特定攝像機(jī)運動的LoRA模塊,以及作為微調(diào)多視圖擴(kuò)散模型的基礎(chǔ),以前饋方式共同生成對象的多個視圖。

論文:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf
Github(模型和權(quán)重):https://github.com/Stability-AI/generative-models
數(shù)據(jù)準(zhǔn)備
一個大型視頻數(shù)據(jù)集(LVD)的構(gòu)建過程:首先,通過一個分層的剪輯檢測流程,避免了剪輯和淡入淡出效果的影響,大幅增加了視頻片段的數(shù)量。其次,采用三種不同的合成字幕方法對視頻片段進(jìn)行標(biāo)注,增加了數(shù)據(jù)的豐富性和多樣性。為了提高數(shù)據(jù)集質(zhì)量,還進(jìn)行了一系列的篩選和優(yōu)化工作,包括使用密集光流技術(shù)過濾掉靜態(tài)或運動較少的場景,應(yīng)用光學(xué)字符識別技術(shù)去除含有大量文本的片段,以及使用CLIP嵌入進(jìn)行審美和文本-圖像相似度的評估。最終,LVD包含580百萬對已標(biāo)注視頻片段,總計212年的內(nèi)容。

模型訓(xùn)練
團(tuán)隊使用從消融實驗中推斷出的最佳數(shù)據(jù)策略,在320×576的分辨率上訓(xùn)練了一個強(qiáng)大的基礎(chǔ)模型。隨后對該模型進(jìn)行了微調(diào),使其適應(yīng)包括文本到視頻、圖像到視頻和幀插值等不同的任務(wù)。而且,視頻預(yù)訓(xùn)練在提供隱式三維先驗方面的有效性,特別是在多視圖生成任務(wù)上,其性能超過了同期的其他研究成果,如Zero123XL和SyncDreamer。


用戶調(diào)研
Stable?Video?Diffusion?項目推出了兩種創(chuàng)新的圖像至視頻模型,這些模型可以生成14幀或25幀的視頻,幀率可在每秒3到30幀之間自定義。這些模型在發(fā)布時已經(jīng)通過了外部評估,并在用戶偏好研究中表現(xiàn)出色。(雖然不知道,具體對比是咋樣的,不過反正開源了,大家下載來自己試試就好了。)

?觀點
學(xué)術(shù):這項研究在理解和改進(jìn)視頻生成模型方面邁出了重要一步,特別是里面關(guān)于數(shù)據(jù)的準(zhǔn)備是非常有借鑒意義的。而且,這不僅僅是生成視頻,對3D合成也是有幫助的。
商業(yè):這種高質(zhì)量的視頻生成技術(shù)可能會革新媒體制作、廣告、娛樂和虛擬現(xiàn)實領(lǐng)域。它為創(chuàng)造逼真、高分辨率的視頻內(nèi)容提供了一種有效的方法,可能會引領(lǐng)新的短視頻創(chuàng)作。
特邀作者:日本早稻田大學(xué)計算機(jī)系博士生? 王軍杰