散文網(wǎng) » 科技 »學習 » 零樣本視頻生成無壓力，基于飛槳框架實現(xiàn)Text2Video-Zero核心代碼及依賴庫

零樣本視頻生成無壓力，基于飛槳框架實現(xiàn)Text2Video-Zero核心代碼及依賴庫

2023-06-28 15:01 作者:飛槳PaddlePaddle 0人讀過 | 我要投稿

項目背景

繼 AI 繪畫之后，短視頻行業(yè)正迎來 AI 智能創(chuàng)作的新浪潮。AI 智能創(chuàng)作正在各個方面為創(chuàng)作者和用戶帶來新的體驗和價值。AI 動漫視頻、AI 瞬息宇宙、AI 視頻風格化等諸多創(chuàng)作功能不僅為視頻內(nèi)容創(chuàng)作提供了全新靈感，而且大大降低了用戶創(chuàng)作的門檻，提高了視頻生產(chǎn)效率。

然而，現(xiàn)有的文本-視頻生成方法需要極其高昂的計算資源和超大規(guī)模的文本-視頻數(shù)據(jù)集（如：CogVideo、Gen-1），對大多數(shù)用戶來說，成本較高。此外，很多時候單純使用文本提示生成視頻，生成的內(nèi)容較為抽象，不一定符合用戶的需求。因此，在某些情況下，用戶需要提供參考視頻，并通過文本提示來引導模型進行文本視頻生成。與之對應，Text2Video-Zero 可以通過運動動力學（motion dynamics）、幀間注意力機制（frame-level self-attention）等技術(shù)手段對原始的文本-圖像模型進行修改，使其可以完成文本-視頻任務，且不需任何訓練，是一種十分理想的文本-視頻生成方法。本項目基于飛槳框架實現(xiàn)了 Text2Video-Zero 的核心代碼及依賴庫，并通過 PPDiffusers 的文本-圖像生成模型實現(xiàn)了文本-視頻生成、文本-視頻編輯、姿態(tài)引導的文本-視頻生成、邊緣引導的文本-視頻生成、深度圖引導的文本-視頻生成、邊緣引導和 Dreambooth 定制的文本-視頻生成在內(nèi)的全部視頻生成模塊，并將該成果開源在 AI Studio 上。該實現(xiàn)對豐富飛槳 AIGC 生態(tài)具有極大的意義。

大模型專區(qū)?Text2Video-Zero-零樣本文本到視頻生成（上）

https://aistudio.baidu.com/aistudio/projectdetail/6212799

大模型專區(qū)?Text2Video-Zero-零樣本文本到視頻生成（下）

https://aistudio.baidu.com/aistudio/projectdetail/6389526

模型原理

由于 Text2Video-Zero 是一種通過對文本-圖像模型進行零樣本微調(diào)來生成視頻的 AIGC 模型。因此，本項目會涉及到很多預訓練的文本-圖像生成模型，包括 Stable Diffusion V1.5、Instruct-Pix2Pix 、ControlNet 和張一喬老師（AI Studio昵稱為笠雨聆月）的諾艾爾 Dreambooth 模型。其中，Stable Diffusion V1.5 模型用于文本-視頻生成，Instruct-Pix2Pix 模型用于文本-視頻編輯，ControlNet 模型用于姿態(tài)引導的文本-視頻生成，邊緣引導的文本-視頻生成和深度圖引導的文本-視頻生成，諾艾爾 Dreambooth 模型用于邊緣引導和 Dreambooth 定制的文本視頻生成。所有開源模型附在文章最后，在此也對所有開源貢獻者表示衷心感謝。

運動動力學核心代碼

幀間注意力機制核心代碼

開發(fā)環(huán)境與實現(xiàn)過程

PPDiffusers 介紹

PPDiffusers 是一款支持多種模態(tài)（如文本圖像跨模態(tài)、圖像、語音）擴散模型（Diffusion Model）訓練和推理的國產(chǎn)化工具箱。依托于飛槳框架和 PaddleNLP 自然語言處理開發(fā)庫，PPDiffusers 提供了超過50種 SOTA 擴散模型 Pipelines 集合，支持文圖生成（Text-to-Image Generation）、文本引導的圖像編輯（Text-Guided Image Inpainting）、文本引導的圖像變換（Image-to-Image Text-Guided Generation）、文本條件視頻生成（Text-to-Video Generation）、超分（Super Resolution）在內(nèi)的10余項任務，覆蓋文本、圖像、視頻、音頻等多種模態(tài)。

2023年06月20日，飛槳正式發(fā)布 PPDiffusers 0.16.1 版本，新增 T2I-Adapter，支持訓練與推理；ControlNet 升級，支持 reference only 推理；新增 WebUI Stable Diffusion Pipeline，支持通過 prompt 的方式動態(tài)加載lora、textual_inversion 權(quán)重；新增 Stable Diffusion HiresFix Pipeline，支持高分辨率修復；新增關鍵點控制生成任務評價指標 COCO eval；新增多種模態(tài)擴散模型 Pipelines，包括視頻生成（Text-to-Video-Synth、Text-to-Video-Zero）、音頻生成（AudioLDM、Spectrogram Diffusion）；新增文圖生成模型 IF。

GitHub鏈接

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers

安裝指令

PPDiffusers 的安裝指令如下：

在此基礎上，也可選擇其他環(huán)境安裝：

實現(xiàn)效果

文本-視頻生成效果

根據(jù)用戶輸入的文本提示詞生成相應視頻。

推理代碼：

最終呈現(xiàn)的效果如圖2所示：

文本-視頻編輯效果

根據(jù)用戶輸入的文本提示詞對視頻進行編輯。

推理代碼：

最終呈現(xiàn)的效果如圖3所示：

文本-視頻編輯效果

根據(jù)用戶輸入的文本提示和運動姿態(tài)生成相應視頻。

推理代碼如下：

最終呈現(xiàn)的效果如圖4所示：

邊緣引導的文本-視頻生成

推理代碼如下：

最終呈現(xiàn)的效果如圖5所示：

深度圖引導的文本-視頻生成

根據(jù)用戶輸入的文本提示和深度圖生成相應視頻。

推理代碼如下：?

最終呈現(xiàn)的效果如圖6所示：

邊緣引導和 Dreambooth 定制的文本-視頻生成

根據(jù)用戶輸入的文本提示、圖像邊緣和 Dreambooth 定制化模型生成相應視頻。

推理代碼如下所示：

最終呈現(xiàn)的效果如圖7所示：

圖7 邊緣引導和 Dreambooth specialization 定制的文本-視頻生成

結(jié)語

以上是本項目對 Text2Video-Zero 官方項目的全部實現(xiàn)。現(xiàn)有的文本-視頻生成方法大多用于為用戶提供靈感，很難為用戶提供定制化視頻生成服務。通過運動動力學、幀間注意力機制等技術(shù)手段對原始的文本-圖像模型進行修改，Text2Video-Zero 很好地解決了上述問題，可以基于用戶提供的文本提示、待編輯視頻、運動姿態(tài)、邊緣圖像、深度圖像和 Dreambooth 模型進行文本視頻生成。該方法在無需訓練的情況下，對主流的文本-圖像生成模型進行微調(diào)，這意味著用戶只需要訓練出相應的文本-圖像生成模型，就可以進行定制化的文本-視頻生成，展現(xiàn)了 Text2Video-Zero 在文本-視頻生成領域巨大的潛力。

歡迎更多感興趣的開發(fā)者參與到飛槳文本-視頻生成生態(tài)的建設中，并依托百度飛槳AI技術(shù)開發(fā)出更多有趣的應用。

參考文獻

[1]?https://github.com/Picsart-AI-Research/Text2Video-Zero[2]?https://github.com/showlab/Tune-A-Video[3]?https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers[4]?https://aistudio.baidu.com/aistudio/projectdetail/5972296[5]?https://aistudio.baidu.com/aistudio/projectdetail/5912535

標簽：AIGC