零樣本視頻生成無壓力,基于飛槳框架實現(xiàn)Text2Video-Zero核心代碼及依賴庫

項目背景
繼 AI 繪畫之后,短視頻行業(yè)正迎來 AI 智能創(chuàng)作的新浪潮。AI 智能創(chuàng)作正在各個方面為創(chuàng)作者和用戶帶來新的體驗和價值。AI 動漫視頻、AI 瞬息宇宙、AI 視頻風格化等諸多創(chuàng)作功能不僅為視頻內(nèi)容創(chuàng)作提供了全新靈感,而且大大降低了用戶創(chuàng)作的門檻,提高了視頻生產(chǎn)效率。
然而,現(xiàn)有的文本-視頻生成方法需要極其高昂的計算資源和超大規(guī)模的文本-視頻數(shù)據(jù)集(如:CogVideo、Gen-1),對大多數(shù)用戶來說,成本較高。此外,很多時候單純使用文本提示生成視頻,生成的內(nèi)容較為抽象,不一定符合用戶的需求。因此,在某些情況下,用戶需要提供參考視頻,并通過文本提示來引導模型進行文本視頻生成。與之對應,Text2Video-Zero 可以通過運動動力學(motion dynamics)、幀間注意力機制(frame-level self-attention)等技術(shù)手段對原始的文本-圖像模型進行修改,使其可以完成文本-視頻任務,且不需任何訓練,是一種十分理想的文本-視頻生成方法。本項目基于飛槳框架實現(xiàn)了 Text2Video-Zero 的核心代碼及依賴庫,并通過 PPDiffusers 的文本-圖像生成模型實現(xiàn)了文本-視頻生成、文本-視頻編輯、姿態(tài)引導的文本-視頻生成、邊緣引導的文本-視頻生成、深度圖引導的文本-視頻生成、邊緣引導和 Dreambooth 定制的文本-視頻生成在內(nèi)的全部視頻生成模塊,并將該成果開源在 AI Studio 上。該實現(xiàn)對豐富飛槳 AIGC 生態(tài)具有極大的意義。
大模型專區(qū)?Text2Video-Zero-零樣本文本到視頻生成(上)
https://aistudio.baidu.com/aistudio/projectdetail/6212799
大模型專區(qū)?Text2Video-Zero-零樣本文本到視頻生成(下)
https://aistudio.baidu.com/aistudio/projectdetail/6389526
模型原理


由于 Text2Video-Zero 是一種通過對文本-圖像模型進行零樣本微調(diào)來生成視頻的 AIGC 模型。因此,本項目會涉及到很多預訓練的文本-圖像生成模型,包括 Stable Diffusion V1.5、Instruct-Pix2Pix 、ControlNet 和張一喬老師(AI Studio昵稱為笠雨聆月)的諾艾爾 Dreambooth 模型。其中,Stable Diffusion V1.5 模型用于文本-視頻生成,Instruct-Pix2Pix 模型用于文本-視頻編輯,ControlNet 模型用于姿態(tài)引導的文本-視頻生成,邊緣引導的文本-視頻生成和深度圖引導的文本-視頻生成,諾艾爾 Dreambooth 模型用于邊緣引導和 Dreambooth 定制的文本視頻生成。所有開源模型附在文章最后,在此也對所有開源貢獻者表示衷心感謝。
運動動力學核心代碼
幀間注意力機制核心代碼
開發(fā)環(huán)境與實現(xiàn)過程
PPDiffusers 介紹
PPDiffusers 是一款支持多種模態(tài)(如文本圖像跨模態(tài)、圖像、語音)擴散模型(Diffusion Model)訓練和推理的國產(chǎn)化工具箱。依托于飛槳框架和 PaddleNLP 自然語言處理開發(fā)庫,PPDiffusers 提供了超過50種 SOTA 擴散模型 Pipelines 集合,支持文圖生成(Text-to-Image Generation)、文本引導的圖像編輯(Text-Guided Image Inpainting)、文本引導的圖像變換(Image-to-Image Text-Guided Generation)、文本條件視頻生成(Text-to-Video Generation)、超分(Super Resolution)在內(nèi)的10余項任務,覆蓋文本、圖像、視頻、音頻等多種模態(tài)。
2023年06月20日,飛槳正式發(fā)布 PPDiffusers 0.16.1 版本,新增 T2I-Adapter,支持訓練與推理;ControlNet 升級,支持 reference only 推理;新增 WebUI Stable Diffusion Pipeline,支持通過 prompt 的方式動態(tài)加載lora、textual_inversion 權(quán)重;新增 Stable Diffusion HiresFix Pipeline,支持高分辨率修復;新增關鍵點控制生成任務評價指標 COCO eval;新增多種模態(tài)擴散模型 Pipelines,包括視頻生成(Text-to-Video-Synth、Text-to-Video-Zero)、音頻生成(AudioLDM、Spectrogram Diffusion);新增文圖生成模型 IF。
GitHub鏈接
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers
安裝指令
PPDiffusers 的安裝指令如下:
在此基礎上,也可選擇其他環(huán)境安裝:
實現(xiàn)效果
文本-視頻生成效果
根據(jù)用戶輸入的文本提示詞生成相應視頻。

推理代碼:
最終呈現(xiàn)的效果如圖2所示:

文本-視頻編輯效果
根據(jù)用戶輸入的文本提示詞對視頻進行編輯。

推理代碼:
最終呈現(xiàn)的效果如圖3所示:

文本-視頻編輯效果
根據(jù)用戶輸入的文本提示和運動姿態(tài)生成相應視頻。
推理代碼如下:
最終呈現(xiàn)的效果如圖4所示:

邊緣引導的文本-視頻生成
推理代碼如下:
最終呈現(xiàn)的效果如圖5所示:

深度圖引導的文本-視頻生成
根據(jù)用戶輸入的文本提示和深度圖生成相應視頻。
推理代碼如下:?
最終呈現(xiàn)的效果如圖6所示:

邊緣引導和 Dreambooth 定制的文本-視頻生成
根據(jù)用戶輸入的文本提示、圖像邊緣和 Dreambooth 定制化模型生成相應視頻。
推理代碼如下所示:
最終呈現(xiàn)的效果如圖7所示:

結(jié)語
以上是本項目對 Text2Video-Zero 官方項目的全部實現(xiàn)。現(xiàn)有的文本-視頻生成方法大多用于為用戶提供靈感,很難為用戶提供定制化視頻生成服務。通過運動動力學、幀間注意力機制等技術(shù)手段對原始的文本-圖像模型進行修改,Text2Video-Zero 很好地解決了上述問題,可以基于用戶提供的文本提示、待編輯視頻、運動姿態(tài)、邊緣圖像、深度圖像和 Dreambooth 模型進行文本視頻生成。該方法在無需訓練的情況下,對主流的文本-圖像生成模型進行微調(diào),這意味著用戶只需要訓練出相應的文本-圖像生成模型,就可以進行定制化的文本-視頻生成,展現(xiàn)了 Text2Video-Zero 在文本-視頻生成領域巨大的潛力。
歡迎更多感興趣的開發(fā)者參與到飛槳文本-視頻生成生態(tài)的建設中,并依托百度飛槳AI技術(shù)開發(fā)出更多有趣的應用。
參考文獻
[1]?https://github.com/Picsart-AI-Research/Text2Video-Zero[2]?https://github.com/showlab/Tune-A-Video[3]?https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers[4]?https://aistudio.baidu.com/aistudio/projectdetail/5972296[5]?https://aistudio.baidu.com/aistudio/projectdetail/5912535