造夢師手記:騰訊加入Stable Diffusion的ControlNet模型開發(fā),效果艷麗


周末讀了一篇ghostmix模型作者的文章,也引起了我對Stable Diffusion發(fā)展方向的思考。
由于訪問C站需要科學(xué)上網(wǎng),很長一段時間國內(nèi)獲取AI大模型的方式比較不便。近期隨著liblibai等國內(nèi)AI繪畫網(wǎng)站的加入,并通過資本拿真金白銀激勵創(chuàng)作者,甚至掀起了一股模型創(chuàng)作熱潮。
但是,量多不代表質(zhì)優(yōu)。
很多所謂大模型不過是融了幾個熱門lora,并沒有真正經(jīng)過原始圖片的訓(xùn)練過程。
形成了ckpt的lora化,這是一個很不好的風(fēng)向。真正潛心做模型的創(chuàng)作者,甚至陷入了低谷。
ghostmix模型作者認為,應(yīng)該盡可能的少做大模型,然后使用lora、ControlNet等微調(diào)工具來適配更多的場景。
私以為,這個思路是非常正確的。雖然我有4T的SSD不擔(dān)心下載模型,但是越來越多的模型,動輒3、5個G起步,會大大抬高Stable Diffusion的門檻。
新版的Stable Diffusion XL 0.9剛剛發(fā)布(我正在調(diào)試,過幾天會發(fā)個“遲到”但會非常細致的保姆級教程),基礎(chǔ)模型更是達到了驚人的13G,如果模型這么泛濫下去,4T的SSD怕是也不夠用。

一、ControlNet的革命
ControlNet是一位年輕的斯坦福大學(xué)的華人選手創(chuàng)作的,Lvmin Zhang,2021 年本科畢業(yè),現(xiàn)為斯坦福 PHD,并發(fā)布了論文闡述其原理。
其實在AI領(lǐng)域,華人非常優(yōu)秀,大量的AI論文都會看到漢語拼音。
ControlNet用一種極低成本的方案,來控制畫面的主體構(gòu)成。當(dāng)然,這只是使用者的角度,原作者還是成本(時間、精力等成本,費用反而不算高)很高的。
ControlNet 在論文里提到,Canny Edge detector 模型的訓(xùn)練用了 300 萬張邊緣-圖像-標(biāo)注對的語料,A100 80G 的 600 個 GPU 小時。Human Pose (人體姿態(tài)骨架)模型用了 8 萬張 姿態(tài)-圖像-標(biāo)注 對的語料, A100 80G 的 400 個 GPU 時。

二、騰訊做的一點點工作
在大模型“群模亂舞”的時代,阿里、百度甚至科大訊飛都拿出面向C端的可用的產(chǎn)品,而騰訊一直表現(xiàn)非常低調(diào)。
是騰訊缺乏技術(shù)嗎?
非也。
我本人常年撰寫公眾號,對公眾號的廣告推流邏輯進行過細致的分析,大致可以得出結(jié)論,至少在廣告推薦系統(tǒng)中,騰訊早就使用了專用大模型。
騰訊沒有市值管理的需要,也沒有業(yè)績之憂,從經(jīng)營的視角看,比較踏實(其他視角大家觀點各異,在此不表),在大模型領(lǐng)域聲音比較小,也很正常。
T2I-Adapter 的訓(xùn)練是在 4 塊 Tesla 32G-V100 上只花了 2 天就完成,包括 3 種 condition,sketch(15 萬張圖片),Semantic?segmentation map(16 萬張)和 Keypose(15 萬張)。
騰訊做的T2I-Adapter和ControlNet有一定的相似性,但從論文看,二者的思路又不完全一樣。
發(fā)布 T2I-Adapter 的騰訊 ARC 是騰訊關(guān)注智能媒體相關(guān)技術(shù)的事業(yè)群,以視覺、音頻和自然語言處理為主要方向 。
從某種意義上講,二次元最強大的公司,是騰訊,真心希望Lvmin Zhang能和騰訊ARC珠聯(lián)璧合。
這兩套模型都被Stable Diffusion官方致謝,并將集成入官方代碼庫。
兩套模型有什么區(qū)別嗎?
ControlNet 目前提供的預(yù)訓(xùn)模型,可用性完成度更高,支持更多種的 condition detector (9 大類)。
T2I-Adapter 在工程上設(shè)計和實現(xiàn)得更簡潔和靈活,更容易集成和擴展”此外,T2I-Adapter 支持一種以上的 condition model 引導(dǎo),比如可以同時使用 sketch 和 segmentation map 作為輸入條件,或 在一個蒙版區(qū)域 (也就是 inpaint ) 里使用 sketch 引導(dǎo)。
三、做個對比
C站有人把騰訊的9個T2I-Adapter 模型進行了梳理和轉(zhuǎn)化,整理成safetensors格式,并做好了配置文件,拷貝到ControlNet的模型庫里,直接使用ControlNet調(diào)用即可。
模型庫路徑:extensions\sd-webui-controlnet\models
T2I-Adapter 模型下載地址(yaml文件需要一起下載):
https://www.123pan.com/s/ueDeVv-KJ0I.html?提取碼:lgyh

先試試最常用的openpose模型。
1、ControlNet標(biāo)準(zhǔn)模型

模型:MoonMix_Utopia_3.0(大家可能發(fā)現(xiàn)我最近真人模型基本只用這個,是因為這個模型相對“真實”)
提示詞:
<lora:school_rooftop_v0.1:1> school rooftop, 1girl, school uniform, building, chain-link fence, wind lift, skirt tug,, masterpiece, best quality, highly detailed
負面提示詞:
nsfw,logo,text,badhandv4,EasyNegative,ng_deepnegative_v1_75t,rev2-badprompt,verybadimagenegative_v1.3,negative_hand-neg,mutated hands and fingers,poorly drawn face,extra limb,missing limb,disconnected limbs,malformed hands,ugly

啊,小姐姐你站在樓頂干什么!
2、T2I-Adapter模型

除了模型換成T21Adapter對應(yīng)的openpose外,其余的保持不變。

從構(gòu)圖方面看,大同小異,基本都按照pose的構(gòu)圖來生成,但畫面的色彩方面,略有差異,T21Adapter的畫面更有膠片感。
C站上傳這組模型的作者是theally,從發(fā)布的各種模型和作品看,大概率是一位女性。

她自稱從事藝術(shù)方面的培訓(xùn),之所以推薦T21Adapter的模型,是因為:可以產(chǎn)生與官方ControlNet模型相似的結(jié)果,但增加了樣式和顏色功能。
另外,我發(fā)現(xiàn)T21Adapter的模型每個大多300m左右,而ControlNet標(biāo)準(zhǔn)模型每個1.3G左右,效果上二者區(qū)別不大,對于硬盤空間不足的選手,T21Adapter也是值得推薦的。
四、下載
1、官方下載:
https://huggingface.co/TencentARC/T2I-Adapter/tree/main/models
注意官方下載的pth文件不能直接用,需要自己做配置。
2、C站theally轉(zhuǎn)換好的直接可用下載:
(yaml文件需要一起下載)
https://www.123pan.com/s/ueDeVv-KJ0I.html?提取碼:lgyh