游戲要結(jié)束了:ControlNet正在補(bǔ)完AIGC工業(yè)化的最后一塊拼圖

就在情人節(jié)前一天一款叫ControlNet的SD插件發(fā)布了,這款插件在短短的兩天內(nèi)成為了AI繪畫領(lǐng)域最新的熱點(diǎn)。而它的出現(xiàn)代表著AI生成開始進(jìn)入真正可控的時(shí)期,而AIGC的可控性是它進(jìn)入實(shí)際生產(chǎn)最關(guān)鍵的一環(huán)。
在此之前,大家用了很多方法想讓AI生成的結(jié)果盡可能的符合要求,但是都不盡如人意,ControlNet 比之前的 img2img 要更加的精準(zhǔn)和有效,可以直接提取畫面的構(gòu)圖,人物的姿勢(shì)和畫面的深度信息等等。有了它的幫助,就不用頻繁的用提示詞來碰運(yùn)氣,抽卡式的創(chuàng)作了。
ControlNet的作者:張呂敏

ControlNet 的作者是一個(gè)2021年才本科畢業(yè),目前正在斯坦福讀博的中國(guó)人。
之前很火的 Style2Paints 也是他制作的,除此之外他還做了一款名為 YGOPro2 的Unity 紙牌游戲,這款游戲在國(guó)內(nèi)外都有不少粉絲。

AI線稿上色這個(gè)領(lǐng)域一直都是他在做,感覺幾乎沒有其他人了,不知道是大廠嫌這塊蛋糕太小還是其他原因。Style2Paints?今年1月已經(jīng)迭代到了第5版。下圖是Style2Paints 線稿到插畫的示例圖。

Style2Paints的項(xiàng)目地址:https://github.com/lllyasviel/style2paints/tree/master/V5_preview
在讀博,寫論文,做這些AI工具之余還能玩票做了一款熱度還挺高的游戲,現(xiàn)在的00后都這么強(qiáng)的么?
ControlNet是什么?
ControlNet 直譯就是控制網(wǎng),ControlNet 是作者提出的一個(gè)新的神經(jīng)網(wǎng)絡(luò)概念,就是通過額外的輸入來控制預(yù)訓(xùn)練的大模型,比如 stable diffusion。這個(gè)本質(zhì)其實(shí)就是端對(duì)端的訓(xùn)練,早在2017年就有類似的AI模型出現(xiàn),只不過這一次因?yàn)榧尤肓?stable diffusion?這樣優(yōu)質(zhì)的大模型,讓這種端對(duì)端的訓(xùn)練有了更好的應(yīng)用空間。
它很好的解決了文生圖大模型的關(guān)鍵問題:?jiǎn)渭兊年P(guān)鍵詞的控制方式無法滿足對(duì)細(xì)節(jié)控制的需要。
ControlNet 把每一種不同類別的輸入分別訓(xùn)練了模型,目前公開的有下面8個(gè)。分別是:canny,depth,hed,mlsd,normal,openpose,scribble,seg。

ControlNet 相關(guān)資源
ControlNet項(xiàng)目地址:https://github.com/lllyasviel/ControlNet
ControlNet 的 WebUI 擴(kuò)展:?https://github.com/Mikubill/sd-webui-controlnet#examples
模型下載(5G)https://huggingface.co/lllyasviel/ControlNet/tree/main/models
模型下載(700mb)https://huggingface.co/webui/ControlNet-modules-safetensors/tree/main
中文教程:https://www.bilibili.com/video/BV1Gv4y1x74L/?spm_id_from=333.337.search-card.all.click&vd_source=453933dd6891757733da4e4288779255
英文教程:https://www.youtube.com/watch?v=vFZgPyCJflE
https://www.youtube.com/watch?v=OxFcIv8Gq8ohttps://www.youtube.com/watch?v=YJebdQ30UZQ
controlNet導(dǎo)入方法(日語)https://miro.com/app/board/uXjVPnNbqTA=/
ControlNet可以做什么?
1 canny?邊緣檢測(cè),提取線稿
通過從原始圖片中提取線稿,來生成同樣構(gòu)圖的畫面。這個(gè)案例是輸入鳥的圖片和提示詞。

通過給線稿上色來制作的小動(dòng)畫,穩(wěn)定性很好。
https://twitter.com/izumisatoshi05/status/1625835599017148416
2?depth?深度檢測(cè),提取深度圖
通過提取原始圖片中的深度信息,可以生成具有同樣深度結(jié)構(gòu)的圖。

用Blender創(chuàng)建空間→創(chuàng)建深度圖→用ControlNet Depth創(chuàng)建插圖→粘貼為Blender空間中的紋理,就可以創(chuàng)建無限彈出的立體書
https://twitter.com/TDS_95514874/status/1625849823957233664
3?hed??HED邊緣提取,跟canny類似

相對(duì)于使用普通的 img2img ,邊緣線提取的方式可以生成更加清晰完整的圖,黑色描邊也得到了很好的重繪。

4?mlsd?線段識(shí)別,適用于建筑場(chǎng)景

5?normal 模型識(shí)別,適用于建模
跟深度圖有點(diǎn)類似,通過讀取原圖片中的深度信息和法線背景閾值。它比深度模型對(duì)于細(xì)節(jié)的保留更加的精確。

6?openpose?姿勢(shì)識(shí)別,用于人物動(dòng)作
這個(gè)功能對(duì)于人物設(shè)計(jì)和動(dòng)畫十分有利,應(yīng)該會(huì)很快用在影視行業(yè)。

除了生成單人的姿勢(shì),它甚至可以生成多人的姿勢(shì),這點(diǎn)非常關(guān)鍵,在此之前AI生成的畫面里多個(gè)人物的特定動(dòng)作是幾乎無法靠提示詞來實(shí)現(xiàn)的。

通過控制人物姿勢(shì),在人物角色設(shè)計(jì)上的嘗試。

7?scribble?黑白稿提取

8 seg 語義分割識(shí)別?
這個(gè)之前英偉達(dá)做過類似的產(chǎn)品。

總結(jié)
AI工具以及細(xì)分領(lǐng)域應(yīng)用的公司們,可以做的事情越來越多了。而今年才過了不到兩個(gè)月,我們無法想象在年底的時(shí)候,AIGC的發(fā)展會(huì)到達(dá)什么樣的程度。