sd繪畫 視頻轉(zhuǎn)視頻效果
文章轉(zhuǎn)自:https://civitai.com/articles/499/multi-controlnet-video-to-video-show-case-ebsynth-controlnets-en
先看效果:





入門
注意:這不是解釋該過程每個(gè)步驟的完整指南。
我將簡(jiǎn)要描述使用當(dāng)前可用的工具通過穩(wěn)定擴(kuò)散可以完成什么樣的視頻到視頻以及如何做到這一點(diǎn)。
歡迎批評(píng)、評(píng)論和提問。
我將向您展示的方法是如何使用 Multi Controlnets 進(jìn)行最大降噪的 video2video。
工具
EbSynth:。
這樣可以使用 AI 將圖像映射到目標(biāo)視頻中的指定幀,以更少的幀創(chuàng)建流暢的視頻。
ebsynth 實(shí)用程序,auto1111 的擴(kuò)展。
這有助于 EbSynth 的設(shè)置。
流程框架:
使用 RIFE 和 DAIN 等逐幀補(bǔ)全 AI 模型使視頻更流暢。
穩(wěn)定擴(kuò)散自動(dòng)1111 UI + 控制網(wǎng)絡(luò)
工具鏈接如下
EbSynth: https:?//ebsynth.com
EbSynth 實(shí)用程序(auto1111 擴(kuò)展):https://github.com/s9roll7/ebsynth_utility
FlowFrames: https:?//nmkd.itch.io/flowframes
并且您需要為 auto1111 安裝 controlnet 擴(kuò)展。
controlnet 的模型:https ://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main
用作控制網(wǎng)的時(shí)間網(wǎng):https ://huggingface.co/CiaraRowles/TemporalNet
您需要更改設(shè)置 -> 控制網(wǎng)絡(luò) -> 單元編號(hào)中的值才能使用多個(gè)控制網(wǎng)絡(luò)。
行程
流程大致可以分為以下幾個(gè)步驟
使用 EbSynth Utility 將目標(biāo)視頻分割為幀,并創(chuàng)建背景透明度蒙版。
使用 img2img 創(chuàng)建圖像以供參考。
使用步驟 2 中生成的圖像作為 controlnet 參考和 img2img 批處理以及其他 controlnet。
使用 EbSynth 進(jìn)行合成
EbSynth 實(shí)用程序?qū)⒉襟E 4 中生成的每個(gè)幀的視頻放在一起,然后根據(jù)需要使背景透明。
如果您使用 EbSynth Utility 階段 1 的配置菜單中的剪輯段,則可以僅遮蓋面部或僅遮蓋軀干。
在ebsynth實(shí)用程序階段,跳過階段3并自行執(zhí)行img2img以使用多控制網(wǎng)絡(luò)。
時(shí)間
使用 intel 12900KF + RTX 4090 24GB 的 8~15 秒視頻時(shí)間為:
img2img批處理需要30到60分鐘
(img2img所需時(shí)間約為關(guān)鍵幀總數(shù)的1/10)
EbSynth的合成時(shí)間為10~15分鐘
其他步驟的時(shí)間較短,最多需要 90 分鐘。
你所要做的就是在步驟2中生成一個(gè)img2img,剩下的就是按照工具操作,按下按鈕等,然后等待CPU和GPU來處理它。
img2img 過程
為了降低工作量,您可以只為自己選擇一張 img2img 圖像。在 EbSynty Utility 的第 2 階段中提取關(guān)鍵幀后,執(zhí)行 img2img 第一個(gè)或您喜歡的圖像。此時(shí),調(diào)整Controlnet參數(shù)和提示即可得到想要的衣服、頭發(fā)、臉部。
一旦獲得所需的單幀,只需批處理 img2img,記住批處理輸入圖像的 canny、深度、openpose 等,而不是單個(gè)圖像。相反,參考應(yīng)該是單個(gè)圖像。如果視頻幾乎沒有運(yùn)動(dòng)或幀靠得很近,您可以添加時(shí)間網(wǎng)作為控制網(wǎng)。使用temporalnet 時(shí)選中“環(huán)回”框。
作為參考,樣式保真度應(yīng)設(shè)置為 0。
如果你想將 lora 應(yīng)用到臉部,請(qǐng)使用 Adetailer (?https://github.com/Bing-su/adetailer?),它將自動(dòng)為每批 img2img 圖像進(jìn)行臉部修復(fù)。
如果您想上傳到tiktok,分辨率應(yīng)為576x1024。
如果您想提高質(zhì)量,只需選擇適當(dāng)?shù)?img2imged 圖像并重新生成其他圖像即可。(但你需要花更多時(shí)間。)