文生視頻: 任務(wù)、挑戰(zhàn)及現(xiàn)狀


示例視頻由 ModelScope 生成。
最近生成模型方向的進(jìn)展如排山倒海,令人目不暇接,而文生視頻將是這一連串進(jìn)展的下一波。盡管大家很容易從字面上理解文生視頻的意思,但它其實(shí)是一項(xiàng)相當(dāng)新的計(jì)算機(jī)視覺(jué)任務(wù),其要求是根據(jù)文本描述生成一系列時(shí)間和空間上都一致的圖像。雖然看上去這項(xiàng)任務(wù)與文生圖極其相似,但眾所周知,它的難度要大得多。這些模型是如何工作的,它們與文生圖模型有何不同,我們對(duì)其性能又有何期待?
在本文中,我們將討論文生視頻模型的過(guò)去、現(xiàn)在和未來(lái)。我們將從回顧文生視頻和文生圖任務(wù)之間的差異開(kāi)始,并討論無(wú)條件視頻生成和文生視頻兩個(gè)任務(wù)各自的挑戰(zhàn)。此外,我們將介紹文生視頻模型的最新發(fā)展,探索這些方法的工作原理及其性能。最后,我們將討論我們?cè)?Hugging Face 所做的工作,這些工作的目標(biāo)就是促進(jìn)這些模型的集成和使用,我們還會(huì)分享一些在 Hugging Face Hub 上以及其他一些地方的很酷的演示應(yīng)用及資源。

根據(jù)各種文本描述輸入生成的視頻示例,圖片來(lái)自論文 Make-a-Video。
文生視頻與文生圖
最近文生圖領(lǐng)域的進(jìn)展多如牛毛,大家可能很難跟上最新的進(jìn)展。因此,我們先快速回顧一下。
就在兩年前,第一個(gè)支持開(kāi)放詞匯 (open-vocabulary) 的高質(zhì)量文生圖模型出現(xiàn)了。第一波文生圖模型,包括 VQGAN-CLIP、XMC-GAN 和 GauGAN2,都采用了 GAN 架構(gòu)。緊隨其后的是 OpenAI 在 2021 年初發(fā)布的廣受歡迎的基于 transformer 的 DALL-E、2022 年 4 月的 DALL-E 2,以及由 Stable Diffusion 和 Imagen 開(kāi)創(chuàng)的新一波擴(kuò)散模型。Stable Diffusion 的巨大成功催生了許多產(chǎn)品化的擴(kuò)散模型,例如 DreamStudio 和 RunwayML GEN-1; 同時(shí)也催生了一批集成了擴(kuò)散模型的產(chǎn)品,例如 Midjourney。
盡管擴(kuò)散模型在文生圖方面的能力令人印象深刻,但相同的故事并沒(méi)有擴(kuò)展到文生視頻,不管是擴(kuò)散文生視頻模型還是非擴(kuò)散文生視頻模型的生成能力仍然非常受限。文生視頻模型通常在非常短的視頻片段上進(jìn)行訓(xùn)練,這意味著它們需要使用計(jì)算量大且速度慢的滑動(dòng)窗口方法來(lái)生成長(zhǎng)視頻。因此,眾所周知,訓(xùn)得的模型難以部署和擴(kuò)展,并且在保證上下文一致性和視頻長(zhǎng)度方面很受限。
文生視頻的任務(wù)面臨著多方面的獨(dú)特挑戰(zhàn)。主要有:
計(jì)算挑戰(zhàn): 確保幀間空間和時(shí)間一致性會(huì)產(chǎn)生長(zhǎng)期依賴性,從而帶來(lái)高計(jì)算成本,使得大多數(shù)研究人員無(wú)法負(fù)擔(dān)訓(xùn)練此類模型的費(fèi)用。
缺乏高質(zhì)量的數(shù)據(jù)集: 用于文生視頻的多模態(tài)數(shù)據(jù)集很少,而且通常數(shù)據(jù)集的標(biāo)注很少,這使得學(xué)習(xí)復(fù)雜的運(yùn)動(dòng)語(yǔ)義很困難。
視頻字幕的模糊性: “如何描述視頻從而讓模型的學(xué)習(xí)更容易”這一問(wèn)題至今懸而未決。為了完整描述視頻,僅一個(gè)簡(jiǎn)短的文本提示肯定是不夠的。一系列的提示或一個(gè)隨時(shí)間推移的故事才能用于生成視頻。
在下一節(jié)中,我們將分別討論文生視頻領(lǐng)域的發(fā)展時(shí)間線以及為應(yīng)對(duì)這些挑戰(zhàn)而提出的各種方法。概括來(lái)講,文生視頻的工作主要可以分為以下 3 類:
提出新的、更高質(zhì)量的數(shù)據(jù)集,使得訓(xùn)練更容易。
在沒(méi)有?
文本 - 視頻對(duì)
?的情況下訓(xùn)練模型的方法。計(jì)算效率更高的生成更長(zhǎng)和更高分辨率視頻的方法。
如何實(shí)現(xiàn)文生視頻?
讓我們來(lái)看看文生視頻的工作原理以及該領(lǐng)域的最新進(jìn)展。我們將沿著與文生圖類似的研究路徑,探索文生視頻模型的流變,并探討迄今為止我們是如何解決文生視頻領(lǐng)域的具體挑戰(zhàn)的。
與文生圖任務(wù)一樣,文生視頻也是個(gè)年輕的方向,最早只能追溯到幾年前。早期研究主要使用基于 GAN 和 VAE 的方法在給定文本描述的情況下自回歸地生成視頻幀 (參見(jiàn) Text2Filter 及 TGANs-C)。雖然這些工作為文生視頻這一新計(jì)算機(jī)視覺(jué)任務(wù)奠定了基礎(chǔ),但它們的應(yīng)用范圍有限,僅限于低分辨率、短距以及視頻中目標(biāo)的運(yùn)動(dòng)比較單一、孤立的情況。
最初的文生視頻模型在分辨率、上下文和長(zhǎng)度方面極為有限,圖像取自 TGANs-C。
受文本 (GPT-3) 和圖像 (DALL-E) 中大規(guī)模預(yù)訓(xùn)練 Transformer 模型的成功啟發(fā),文生視頻研究的第二波浪潮采用了 Transformer 架構(gòu)。Phenaki、Make-A-Vide、NUWA、VideoGPT 和 CogVideo 都提出了基于 transformer 的框架,而 TATS 提出了一種混合方法,從而將用于生成圖像的 VQGAN 和用于順序地生成幀的時(shí)間敏感 transformer 模塊結(jié)合起來(lái)。在第二波浪潮的諸多框架中,Phenaki 尤其有意思,因?yàn)樗軌蚋鶕?jù)一系列提示 (即一個(gè)故事情節(jié)) 生成任意長(zhǎng)視頻。同樣,NUWA-Infinity 提出了一種雙重自回歸 (autoregressive over autoregressive) 生成機(jī)制,可以基于文本輸入合成無(wú)限長(zhǎng)度的圖像和視頻,從而使得生成高清的長(zhǎng)視頻成為可能。但是,Phenaki 或 NUWA 模型均無(wú)法從公開(kāi)渠道獲取。
Phenaki 的模型架構(gòu)基于 transformer,圖片來(lái)自 此處。
第三波也就是當(dāng)前這一波文生視頻模型浪潮主要以基于擴(kuò)散的架構(gòu)為特征。擴(kuò)散模型在生成多樣化、超現(xiàn)實(shí)和上下文豐富的圖像方面取得了顯著成功,這引起了人們對(duì)將擴(kuò)散模型推廣到其他領(lǐng)域 (如音頻、3D ,最近又拓展到了視頻) 的興趣。這一波模型是由 Video Diffusion Models (VDM) 開(kāi)創(chuàng)的,它首次將擴(kuò)散模型推廣至視頻領(lǐng)域。然后是 MagicVideo 提出了一個(gè)在低維隱空間中生成視頻剪輯的框架,據(jù)其報(bào)告,新框架與 VDM 相比在效率上有巨大的提升。另一個(gè)值得一提的是 Tune-a-Video,它使用?單文本 - 視頻對(duì)
微調(diào)預(yù)訓(xùn)練的文生圖模型,并允許在保留運(yùn)動(dòng)的同時(shí)改變視頻內(nèi)容。隨后涌現(xiàn)出了越來(lái)越多的文生視頻擴(kuò)散模型,包括 Video LDM、Text2Video-Zero、Runway Gen1、Runway Gen2 以及 NUWA-XL。
Text2Video-Zero 是一個(gè)文本引導(dǎo)的視頻生成和處理框架,其工作方式類似于 ControlNet。它可以基于輸入的?文本數(shù)據(jù)
?或?文本 + 姿勢(shì)混合數(shù)據(jù)
?或?文本 + 邊緣混合數(shù)據(jù)
?直接生成 (或編輯) 視頻。顧名思義,Text2Video-Zero 是一種零樣本模型,它將可訓(xùn)練的運(yùn)動(dòng)動(dòng)力學(xué)模塊與預(yù)訓(xùn)練的文生圖穩(wěn)定擴(kuò)散模型相結(jié)合,而無(wú)需使用任何?文本 - 視頻對(duì)
?數(shù)據(jù)。與 Text2Video-Zero 類似,Runway Gen-1 和 Runway Gen-2 模型可以合成由文本或圖像描述的內(nèi)容引導(dǎo)的視頻。這些工作大多數(shù)都是在短視頻片段上訓(xùn)練的,并且依靠帶有滑動(dòng)窗口的自回歸機(jī)制來(lái)生成更長(zhǎng)的視頻,這不可避免地導(dǎo)致了上下文差異 (context gap)。NUWA-XL 解決了這個(gè)問(wèn)題,并提出了一種“雙重?cái)U(kuò)散 (diffusion over diffusion)”方法,并在 3376 幀視頻數(shù)據(jù)上訓(xùn)練模型。最后,還有一些尚未在同行評(píng)審的會(huì)議或期刊上發(fā)表的開(kāi)源文本到視頻模型和框架,例如阿里巴巴達(dá)摩院視覺(jué)智能實(shí)驗(yàn)室的 ModelScope 和 Tencel 的 VideoCrafter。
數(shù)據(jù)集
與其他視覺(jué)語(yǔ)言模型一樣,文生視頻模型通常在大型?文本 - 視頻對(duì)
?數(shù)據(jù)集上進(jìn)行訓(xùn)練。這些數(shù)據(jù)集中的視頻通常被分成短的、固定長(zhǎng)度的塊,并且通常僅限于少數(shù)幾個(gè)目標(biāo)的孤立動(dòng)作。出現(xiàn)這種情況的一部分原因是計(jì)算限制,另一部分原因是以有意義的方式描述視頻內(nèi)容這件事本身就很難。而我們看到多模態(tài)視頻文本數(shù)據(jù)集和文生視頻模型的發(fā)展往往是交織在一起的,因此有不少工作側(cè)重于開(kāi)發(fā)更易于訓(xùn)練的更好、更通用的數(shù)據(jù)集。同時(shí)也有一些工作另辟蹊徑,對(duì)替代解決方案進(jìn)行了探索,例如 Phenaki 將?文本 - 圖像對(duì)
?與?文本 - 視頻對(duì)
?相結(jié)合用于文生視頻任務(wù); Make-a-Video 則更進(jìn)一步,提議僅使用?文本 - 圖像對(duì)
?來(lái)學(xué)習(xí)世界表象信息,并使用單模態(tài)視頻數(shù)據(jù)以無(wú)監(jiān)督的方式學(xué)習(xí)時(shí)空依賴性。
這些大型數(shù)據(jù)集面臨與文本圖像數(shù)據(jù)集類似的問(wèn)題。最常用的文本 - 視頻數(shù)據(jù)集 WebVid 由 1070 萬(wàn)個(gè)?文本 - 視頻對(duì)
?(視頻時(shí)長(zhǎng) 5.2 萬(wàn)小時(shí)) 組成,并包含一定量的噪聲樣本,這些樣本中的視頻文本描述與視頻內(nèi)容是非相干的。其他數(shù)據(jù)集試圖通過(guò)聚焦特定任務(wù)或領(lǐng)域來(lái)解決這個(gè)問(wèn)題。例如,Howto100M 數(shù)據(jù)集包含 13600 萬(wàn)個(gè)視頻剪輯,其中文本部分描述了如何一步一步地執(zhí)行復(fù)雜的任務(wù),例如烹飪、手工制作、園藝、和健身。而 QuerYD 數(shù)據(jù)集則聚焦于事件定位任務(wù),視頻的字幕詳細(xì)描述了目標(biāo)和動(dòng)作的相對(duì)位置。CelebV-Text 是一個(gè)包含超過(guò) 7 萬(wàn)個(gè)視頻的大規(guī)模人臉文本 - 視頻數(shù)據(jù)集,用于生成具有逼真的人臉、情緒和手勢(shì)的視頻。
Hugging Face 上的文生視頻
使用 Hugging Face Diffusers,你可以輕松下載、運(yùn)行和微調(diào)各種預(yù)訓(xùn)練的文生視頻模型,包括 Text2Video-Zero 和 阿里巴巴達(dá)摩院 的 ModelScope。我們目前正在努力將更多優(yōu)秀的工作集成到 Diffusers 和 ?? Transformers 中。
Hugging Face 應(yīng)用演示
在 Hugging Face,我們的目標(biāo)是使 Hugging Face 庫(kù)更易于使用并包含最先進(jìn)的研究。你可以前往 Hub 查看和體驗(yàn)由 ?? 團(tuán)隊(duì)、無(wú)數(shù)社區(qū)貢獻(xiàn)者和研究者貢獻(xiàn)的 Spaces 演示。目前,上面有 VideoGPT、CogVideo、ModelScope 文生視頻 以及 Text2Video-Zero 的應(yīng)用演示,后面還會(huì)越來(lái)越多,敬請(qǐng)期待。要了解這些模型能用來(lái)做什么,我們可以看一下 Text2Video-Zero 的應(yīng)用演示。該演示不僅展示了文生視頻應(yīng)用,而且還包含多種其他生成模式,如文本引導(dǎo)的視頻編輯,以及基于姿勢(shì)、深度、邊緣輸入結(jié)合文本提示進(jìn)行聯(lián)合條件下的視頻生成。
除了使用應(yīng)用演示來(lái)嘗試預(yù)訓(xùn)練文生視頻模型外,你還可以使用 Tune-a-Video 訓(xùn)練演示 使用你自己的?文本 - 視頻對(duì)
微調(diào)現(xiàn)有的文生圖模型。僅需上傳視頻并輸入描述該視頻的文本提示即就可以了。你可以將訓(xùn)得的模型上傳到公開(kāi)的 Tune-a-Video 社區(qū)的 Hub 或你私人用戶名下的 Hub。訓(xùn)練完成后,只需轉(zhuǎn)到演示的?Run?選項(xiàng)卡即可根據(jù)任何文本提示生成視頻。
?? Hub 上的所有 Space 其實(shí)都是 Git 存儲(chǔ)庫(kù),你可以在本地或部署環(huán)境中克隆和運(yùn)行它們。下面克隆一下 ModelScope 演示,安裝環(huán)境,并在本地運(yùn)行它。
這就好了!Modelscope 演示現(xiàn)在已經(jīng)在你的本地計(jì)算機(jī)上運(yùn)行起來(lái)了。請(qǐng)注意,Diffusers 支持 ModelScope 文生視頻模型,你只需幾行代碼即可直接加載并使用該模型生成新視頻。
其他的社區(qū)開(kāi)源文生視頻項(xiàng)目
最后,還有各種不在 Hub 上的開(kāi)源項(xiàng)目和模型。一些值得關(guān)注的有 Phil Wang (即 lucidrains) 的 Imagen 非官方實(shí)現(xiàn)、Phenaki、NUWA, Make-a-Video 以及 Video Diffusion 模型。還有一個(gè)有意思的項(xiàng)目 ExponentialML,它是基于 ?? Diffusers 的,用于微調(diào) ModelScope 文生視頻模型。
總結(jié)
文生視頻的研究正在呈指數(shù)級(jí)發(fā)展,但現(xiàn)有工作在上下文一致性上仍有限制,同時(shí)還面臨其他諸多挑戰(zhàn)。在這篇博文中,我們介紹了文生視頻模型的限制、獨(dú)特挑戰(zhàn)和當(dāng)前狀態(tài)。我們還看到了最初為其他任務(wù)設(shè)計(jì)的架構(gòu)范例如何賦能文生視頻任務(wù)的巨大飛躍,以及這對(duì)未來(lái)研究意味著什么。雖然進(jìn)展令人印象深刻,但與文生圖模型相比,文生視頻模型還有很長(zhǎng)的路要走。最后,我們還展示了如何通過(guò) Hub 上的應(yīng)用演示來(lái)使用這些模型,以及如何將這些模型作為 ?? Diffusers 流水線的一部分來(lái)完成各種任務(wù)。
本文就到此為止了!我們將繼續(xù)整合最具影響力的計(jì)算機(jī)視覺(jué)和多模態(tài)模型,并希望收到你的反饋。要了解計(jì)算機(jī)視覺(jué)和多模態(tài)研究的最新消息,你可以在 Twitter 上關(guān)注我們: @adirik、@a_e_roberts、@osanviero、@risingsayak 以及 @huggingface。
英文原文:?https://hf.co/blog/text-to-video
原文作者: Alara Dirik
譯者: Matrix Yao (姚偉峰),英特爾深度學(xué)習(xí)工程師,工作方向?yàn)?transformer-family 模型在各模態(tài)數(shù)據(jù)上的應(yīng)用及大規(guī)模模型的訓(xùn)練推理。
排版/審校: zhongdongy (阿東)