別再M(fèi)OV2MOV了,目前為止最好的AI動(dòng)畫制作教程


為什么要多幀混合渲染,為什么又說多幀渲染已經(jīng)過時(shí)了?
controlnet的設(shè)置為什么每個(gè)教程都不一樣?
為什么參數(shù)一致,我渲染出來的畫面和其他人效果差很多?
為什么我的AI動(dòng)畫人物不會(huì)眨眼,沒有生動(dòng)的表情?
--------------------------
匯總了B站各大AI動(dòng)畫up的教程,并且實(shí)踐了一個(gè)月的時(shí)間,這里想給那些有能力,并且想做AI動(dòng)畫的伙伴們介紹一條我總結(jié)的,簡潔有效并且穩(wěn)定度高的最優(yōu)解。
本教程需要一些AI繪畫基礎(chǔ),并不是面對0基礎(chǔ)人員,如果你沒有學(xué)習(xí)過stable?diffusion的基本操作或者對Controlnet插件毫無了解,可以先看看秋葉aaaki等up的教程,做到會(huì)存放大模型,會(huì)安裝插件并且有基本的視頻剪輯能力。
--------------------------
一、準(zhǔn)備工作
@秋葉aaaki?的最新整合包(BV1iM4y1y7oA),或者用其他整合包都可以。
Controlnet插件:https://github.com/Mikubill/sd-webui-controlnet?秋葉的包中已經(jīng)整合了就可以不用下載了。
Controlnet模型:https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main下載地址。
需要至少下載softedge和depth這兩個(gè)模型。
inset插件:https://github.com/ClockZinc/sd-webui-IS-NET-pro,本教程的核心之一,該插件由大江戶戰(zhàn)士的插件為基礎(chǔ),星瞳毒唯改良并整合。
一個(gè)優(yōu)秀的大模型,這里推薦meinaMIX,截至教程時(shí)期,已經(jīng)更新到V9版本,這是我認(rèn)為最適合做二次元風(fēng)格的大模型(https://civitai.com/models/7240/meinamix)
Tagger插件,本教程的核心之一,用于提取圖片的tag,訓(xùn)練過lora的伙伴們應(yīng)該有接觸過。
--------------------------
二、AI動(dòng)畫的一些原理和問題
1.我聽說過多幀混合,是什么原理,為什么不用?

多幀混合是大江戶戰(zhàn)士開啟AI動(dòng)畫穩(wěn)定時(shí)代的一個(gè)決定性插件,簡單來說,他的優(yōu)勢是通過一次性將三張圖合并至一張渲染,來達(dá)到減小圖片之間差距的作用,推動(dòng)AI動(dòng)畫的穩(wěn)定。
同時(shí)很明顯的缺點(diǎn)就是,3張圖一起渲染需要相當(dāng)大的算力,一般的顯卡幾乎帶不動(dòng)高分辨率的圖片,從而大多數(shù)人只能退而求其次降低分辨率。而AI動(dòng)畫,分辨率是決定性的因素,現(xiàn)在新版本的controlnet可以達(dá)到穩(wěn)定性的水平,所以基本可以說多幀混合已經(jīng)不適用這個(gè)新版本了。
但是大江戶戰(zhàn)士這個(gè)插件最有用的部分,并不是三張圖一起渲染這么簡單,而是他每張圖都會(huì)讀取單獨(dú)的tag,從而達(dá)到更加穩(wěn)定畫面的作用。
這里選用的是星瞳毒唯改良并整合之后的單幀渲染腳本,僅使用一張圖渲染,同時(shí)可以讀取單張圖的tag。不選擇mov2mov的原因就在讀取tag這里。
2.新版本controlnet加入了什么,為什么這么重要?

新版本controlnet中,對于原有處理器和對應(yīng)模型做了升級,這里截取筱旒的視頻講解中一部分內(nèi)容,如果你不想了解所有的處理器,那么對于以人物為主的AI動(dòng)畫來說,我們需要使用的就是depth和HED。
depth可以很好的分辯你的人物和背景,并且分析你人物身體部位的前后關(guān)系,如果你的原視頻來自于3d模型或者真人,這個(gè)預(yù)處理器的效果就會(huì)非常出色。
HED是原來版本中的邊緣及細(xì)節(jié)檢測,它能夠識別人物的輪廓和身體服飾等細(xì)節(jié),這是AI動(dòng)畫穩(wěn)定度的關(guān)鍵,新版本中升級成為softedge,并給出四個(gè)處理器,四個(gè)處理器講解可以參考V16P411S7c7,這里直接選擇PIDInet做案例。
3.為什么選擇meinaMIX?

AI動(dòng)畫讓人困擾的有時(shí)候是,你重繪拉高了畫面波動(dòng)就變大了,重繪拉低了和原圖感覺沒什么區(qū)別,我又想二次元感覺多一些,又想多保留一些人物特征在。
那么我推薦meinaMIX大模型,這個(gè)模型非常萬能,不需要VAE,不論是掛群機(jī)器人api生圖,還是自己作圖,不需要非常嚴(yán)格的tag都能出非常好的效果,同時(shí)對于AI動(dòng)畫來說,是我嘗試過無數(shù)模型后選擇的最優(yōu)解。

4.為什么不用mov2mov?
首先單幀預(yù)讀tag的能力mov2mov是不具備的,這個(gè)功能是實(shí)現(xiàn)穩(wěn)定的一個(gè)重要要素。
其次單幀/多幀渲染可以實(shí)時(shí)觀察生成圖片效果,及時(shí)中斷并調(diào)整圖片,并且可以繼續(xù)工作,對于崩壞幀、錯(cuò)誤幀可以單獨(dú)提出來修改。還可以將一個(gè)文件分給幾臺電腦同時(shí)渲染,操作上繁瑣一些,我一般就是用2-3臺電腦同時(shí)跑一個(gè)任務(wù)。
?而mov2mov很難做到這一點(diǎn)。
5.為什么我的AI動(dòng)畫人物不會(huì)眨眼,沒有生動(dòng)的表情?

其實(shí)看AI動(dòng)畫的表情可以判斷一個(gè)作者究竟是用了什么參數(shù)。
沒有表情的動(dòng)畫有幾種可能:
是原視頻MMD就沒有表情參數(shù),甚至沒有做眨眼
鎖了SEED(大概率),或者人物L(fēng)ora權(quán)重過高(小概率)
人物臉部占畫面比例過小。
本教程中建議不是特殊情況不要鎖seed,正面作用沒有負(fù)面大。
三、操作流程
1.選取素材。
視頻素材非常重要,不論是你自己找的跳舞視頻或者音樂MV,或者自己做的MMD,游戲錄像。人物盡量和背景差距較大,受到的干擾少。人物占比要大,及時(shí)是豎屏視頻,也最好做好裁切,人物占比每大一分,ai繪圖的細(xì)節(jié)就會(huì)完全不同。
2.視頻切片。

主要有兩種方法,第一是安裝的isnet插件中,視頻生成“幀”功能,在這里拖入預(yù)制好的視頻,選擇輸出幀率(每秒多少張),選擇裁切時(shí)間,粘貼進(jìn)輸出文件夾地址。點(diǎn)擊gene frame即可生成。
mov2mov插件也有同樣的功能。
第二種發(fā)放是通過PR軟件,另存為JPG序列,這里不做過多說明。
3.生成TAG
使用Tagger插件(秋葉的包自帶這個(gè)插件,沒有的可以自行安裝)

在批量處理文件夾中,填入輸入目錄,也就是圖片序列的目錄,輸出目錄不填寫。
注意底下排除提示詞,如果你覺得圖片中有些你認(rèn)為識別會(huì)誤導(dǎo)分析的元素,填寫在這里。比如我制作洛天依的視頻,我會(huì)填入black?hair,讓它默認(rèn)去掉黑色頭發(fā)的tag,避免發(fā)色混亂。
或者你是一個(gè)裸 足的視頻,可以加入barefoot,避免將反光識別成白色襪子等。
填寫好之后,點(diǎn)擊反推提示詞。
然后等待每一張圖片的txt文本生成。

等全部tag跑完之后,點(diǎn)擊卸載所有反推模型,完成這一步,如果不卸載會(huì)占用大量顯存,影響下一步操作。
4.參數(shù)填寫。

正向提示詞中填入masterpiece, best quality,以及人物的lora(如果有的話),其他的提示詞不要過多填寫,腳本會(huì)讀取txt中的tag。
負(fù)面提示詞盡量少填,簡明扼要。

采樣方法選擇DPM++ 2M Karras
寬度和高度嚴(yán)格按照你生成的切片寬高填寫(可以右鍵圖片屬性查看)。
重繪幅度在0.55起測試,如果波動(dòng)較大就調(diào)小,如果效果不明顯就調(diào)大,這里是第一個(gè)需要在跑圖中調(diào)整的參數(shù)。

Controlnet第一個(gè)選擇depth_zoe,模型選擇下載的depth新模型,權(quán)重為1,其他的不變。

Controlnet第二個(gè)選擇softedge_pidinet或者HED,模型選擇softedge,
權(quán)重在0.6起步,如果測試畫面變化較大,則調(diào)大該數(shù)值,最高到1.

腳本選擇multi-frame?rendering
輸入輸入和輸出的目錄
將重繪幅度選擇和上面一樣的數(shù)值
勾選“單圖模式”和“read?tags from?text?files”
最后回到最上方,點(diǎn)擊生成即可。
點(diǎn)擊生成后可以在目標(biāo)文件夾中看到圖片一張張的生成,如果存在問題,可以中斷生成進(jìn)程,修改參數(shù),并重新點(diǎn)擊生成按鈕。
5.合并序列

在PR中或者inset_pro中將生成的圖片合成視頻,按照要求填寫參數(shù)即可。
以上整個(gè)流程中,需要你測試的參數(shù)只有兩個(gè),
一個(gè)是重繪幅度,在0.5-0.7之間調(diào)整,記住腳本中的重繪幅度也需要同步調(diào)整。
第二個(gè)是softedge的權(quán)重,這個(gè)代表了你生成圖像和原本圖形的相似度,如果你不想測試那就直接拉到1,如果你的畫面變化不大,那么可以嘗試使用0.6-1之間的權(quán)重,達(dá)到更好的畫面效果。
四、總結(jié)
controlnet為畫面創(chuàng)造了非常多的可能性,教程中幾個(gè)模型目前也是測試階段,就已經(jīng)表現(xiàn)出了驚人的效果。在后續(xù)的版本中我相信會(huì)有更大的突破。
操作看起來繁瑣,但是想要追求良好的最終效果,沒有哪種方法是簡單的,大量的up在前方探索了道路,我也經(jīng)歷了非常多的嘗試,才總結(jié)出來這些內(nèi)容。
看到b站推送的一些粗制濫造的AI動(dòng)畫,播放量不低,那些用心的教程,插件的設(shè)計(jì)作者反而關(guān)注寥寥,有些感慨。我也希望一些已經(jīng)火了的up,能夠通過這個(gè)教程,掌握好depth和softedge的使用,能夠用好單幀渲染,把AI動(dòng)畫質(zhì)量提升起來。