最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

2023-06-02 15:26 作者:朝廷心腹的爸爸  | 我要投稿

一、本地部署 Stable Diffusion

1. 前言

目前市面上比較權(quán)威,并能用于工作中的 AI 繪畫(huà)軟件其實(shí)就兩款。一個(gè)叫 Midjourney(簡(jiǎn)稱(chēng) MJ),另一個(gè)叫 Stable-Diffusion(簡(jiǎn)稱(chēng) SD)。MJ 需要付費(fèi)使用,而 SD 開(kāi)源免費(fèi),但是上手難度和學(xué)習(xí)成本略大,并且非常吃電腦配置(顯卡、內(nèi)存)。

和 Midjourney 相比,Stable Diffusion 最大的優(yōu)勢(shì)是開(kāi)源,這意味著 Stable Diffusion 的潛力巨大、發(fā)展飛快。由于開(kāi)源免費(fèi)屬性,SD 已經(jīng)收獲了大量活躍用戶(hù),開(kāi)發(fā)者社群已經(jīng)為此提供了大量免費(fèi)高質(zhì)量的外接預(yù)訓(xùn)練模型(fine-tune)和插件,并且在持續(xù)維護(hù)更新。在第三方插件和模型的加持下,SD 擁有比 Midjourney 更加豐富的個(gè)性化功能,在經(jīng)過(guò)使用者調(diào)教后可以生成更貼近需求的圖片,甚至在 AI 視頻特效、AI 音樂(lè)生成等領(lǐng)域,Stable Diffusion 也占據(jù)了一席之地。

Stable Diffusion 是一種潛在擴(kuò)散模型(Latent Diffusion Model),能夠從文本描述中生成詳細(xì)的圖像。它還可以用于圖像修復(fù)、圖像繪制、文本到圖像和圖像到圖像等任務(wù)。簡(jiǎn)單地說(shuō),我們只要給出想要的圖片的文字描述在提?Stable Diffusion?就能生成符合你要求的逼真的圖像!

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

2. 電腦配置

電腦配置最核心的關(guān)鍵點(diǎn):看顯卡、看內(nèi)存、看硬盤(pán)、看 CPU。其中最重要的是看顯卡。N 卡(英偉達(dá) Nvida 獨(dú)立顯卡)首選,效率遠(yuǎn)超集顯/AMD/Intel 顯卡和 CPU 渲染,最低 10 系起步,體驗(yàn)感佳用 40 系,顯存最低 4G,6G 及格,上不封頂;內(nèi)存最低 8G,16G 及格,上不封頂;硬盤(pán)可用空間最好有個(gè) 500G 朝上,固態(tài)最佳。

系統(tǒng)要求:支持 Win10/Win11/macOS(僅限 Apple Silicon,Intel 版本的 Mac 無(wú)法調(diào)用 Radeon 顯卡)和 Linux 系統(tǒng),蘋(píng)果版 SD 兼容的插件數(shù)量較少,功能性不及 Windows 與 Linux 電腦。

如果身邊沒(méi)有合適的電腦可以考慮購(gòu)買(mǎi)云主機(jī),比如騰訊 GPU 云服務(wù)器。若無(wú)法使用獨(dú)立顯卡和云服務(wù),亦可修改啟動(dòng)配置,使用 CPU 渲染(兼容性強(qiáng),出圖速度慢,需要 16G 以上內(nèi)存)。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

從圖中可看出,與 AMD 或英特爾的任何產(chǎn)品相比,Nvidia 的 GPU 提供了卓越的性能--有時(shí)是以巨大的優(yōu)勢(shì)。隨著 Torch 的 DLL 修復(fù)到位,RTX 4090 的性能比帶有 xformers 的 RTX 3090 Ti 高出 50%,而沒(méi)有 xformers 的性能則高出 43%。生成每張圖片只需要三秒多。

3. 安裝方法

SD 開(kāi)源地址:?https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki

目前大家普遍采用的 Stable Diffusion Web UI 是發(fā)布于開(kāi)源程序分享網(wǎng)站 Github 的 Python 項(xiàng)目,和平常軟件安裝方法有所不同,不是下載安裝即可用的軟件,需要準(zhǔn)備執(zhí)行環(huán)境、編譯源碼,針對(duì)不同操作系統(tǒng)(操作系統(tǒng)依賴(lài))、不同電腦(硬件依賴(lài))還有做些手工調(diào)整,這需要使用者擁有一定的程序開(kāi)發(fā)經(jīng)驗(yàn)(可以現(xiàn)學(xué)),已經(jīng)有很多大佬們寫(xiě)了詳細(xì)的安裝教程。(如?https://www.tonyisstark.com/846.html?@托尼不是塔克)

如果像我一樣是小白不會(huì)裝,現(xiàn)在可以直接使用大佬們做的一鍵啟動(dòng)程序包,比如國(guó)內(nèi)@秋葉 aaaki 大大開(kāi)發(fā)的整合包,極大的降低了安裝門(mén)檻(強(qiáng)烈推薦?。?/p>

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

(詳見(jiàn)?https://www.bilibili.com/video/BV1ne4y1V7QU?)一鍵啟動(dòng)包只是封裝了可視化的一鍵界面,不影響出圖效果,只是降低了本地部署的門(mén)檻。

Nvidia 顯卡用戶(hù)須知:在使用 SD 前,請(qǐng)登錄 Nvidia 官網(wǎng)?https://www.nvidia.cn/geforce/drivers/下載安裝對(duì)應(yīng)顯卡最新版驅(qū)動(dòng)程序 ,與?https://blog.csdn.net/weixin_44177494/article/details/120444922顯卡支持的最新版 CUDA 驅(qū)動(dòng)。

4. 啟動(dòng) SD

進(jìn)入 SD 安裝文件夾,雙擊 webui-user.bat,待其加載完成方可使用瀏覽器(Chrome/Edge)登錄默認(rèn)的加載 IP:http://127.0.0.1:7860/

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

5. 界面漢化

如果需要中文語(yǔ)言包,可以下載如下中文語(yǔ)言包擴(kuò)展,下載界面網(wǎng)址為:?https://github.com/VinsonLaro/stable-diffusion-webui-chinese

方法 1:通過(guò) WebUI 拓展進(jìn)行安裝

  1. 打開(kāi) stable diffusion webui,進(jìn)入"Extensions"選項(xiàng)卡

  2. 點(diǎn)擊"Install from URL",注意"URL for extension's git repository"下方的輸入框

  3. 粘貼或輸入本 Git 倉(cāng)庫(kù)地址?https://github.com/VinsonLaro/stable-diffusion-webui-chinese

  4. 點(diǎn)擊下方的黃色按鈕"Install"即可完成安裝,然后重啟 WebUI(點(diǎn)擊"Install from URL"左方的"Installed",然后點(diǎn)擊黃色按鈕"Apply and restart UI"網(wǎng)頁(yè)下方的"Reload UI"完成重啟)

  5. 點(diǎn)擊"Settings",左側(cè)點(diǎn)擊"User interface"界面,在界面里最下方的"Localization (requires restart)",選擇"Chinese-All"或者"Chinese-English"

  6. 點(diǎn)擊界面最上方的黃色按鈕"Apply settings",再點(diǎn)擊右側(cè)的"Reload UI"即可完成漢化

二、界面基礎(chǔ)

1. 了解界面

接下來(lái)是具體的使用方法簡(jiǎn)介。目前 SD 并不存在通行可靠的使用規(guī)范,每個(gè)人的電腦配置、需求都不盡相同,cpkd/Safetensors 大模型、VAE、embeding、lora 等 AI 模型、各類(lèi)插件、提示詞、輸出參數(shù)的組合牽一發(fā)則動(dòng)全身,需要大家有足夠的耐心查閱插件開(kāi)發(fā)者的說(shuō)明文檔和來(lái)自?https://civitai.com/等分享網(wǎng)站的使用心得 ,大家可以先到 civitai 上搜索中意的圖例,復(fù)用原作者的出圖提示詞、參數(shù)和模型,再以此修改,這樣學(xué)習(xí)的效果最為直觀。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

文生圖:根據(jù)文本提示生成圖像

圖生圖:根據(jù)提供的圖像作為范本、結(jié)合文本提示生成圖像

更多:優(yōu)化(清晰、擴(kuò)展)圖像

圖片信息:顯示圖像基本信息,包含提示詞和模型信息(除非信息被隱藏)

模型合并:把已有的模型按不同比例進(jìn)行合并生成新模型

訓(xùn)練:根據(jù)提供的圖片訓(xùn)練具有某種圖像風(fēng)格的模型

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

描述語(yǔ)分為正向/負(fù)向描述,它們也叫 tag(標(biāo)簽)或 prompt(提示詞)

正面提示詞:相比 Midjourney 需要寫(xiě)得更精準(zhǔn)和細(xì)致,描述少就給 AI 更多自由發(fā)揮空間。

負(fù)面提示詞:不想讓 SD 生成的內(nèi)容。

正向:masterpiece, best quality, 更多畫(huà)質(zhì)詞,畫(huà)面描述

反向:nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers,extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry,根據(jù)畫(huà)面產(chǎn)出加不想出現(xiàn)的畫(huà)面。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

生成按鈕下面的 5 個(gè)小圖標(biāo)(從左到右依次分別是)

  1. 復(fù)原上次生成圖片的提示詞(自動(dòng)記錄)

  2. 清空當(dāng)前所有提示詞

  3. 打開(kāi)模型選擇界面

  4. 應(yīng)用選擇的風(fēng)格模板到當(dāng)前的提示詞

  5. 存檔當(dāng)前的正反向提示詞

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

2. 采樣方法

  1. 建議根據(jù)自己使用的 checkpoint 使用腳本跑網(wǎng)格圖(用自己關(guān)心的參數(shù))然后選擇自己想要的結(jié)果。

  2. 懶得對(duì)比:請(qǐng)使用 DPM++ 2M 或 DPM++ 2M Karras(二次元圖)或 UniPC,想要點(diǎn)驚喜和變化,Euler a、DPM++ SDE、DPM++ SDE Karras(寫(xiě)實(shí)圖)、DPM2 a Karras(注意調(diào)整對(duì)應(yīng) eta 值)

  3. eta 和 sigma 都是多樣性相關(guān)的,但是它們的多樣性來(lái)自步數(shù)的變化,追求更大多樣性的話(huà)應(yīng)該關(guān)注 seed 的變化,這兩項(xiàng)參數(shù)應(yīng)該是在圖片框架被選定后,再在此基礎(chǔ)上做微調(diào)時(shí)使用的參數(shù)。

3. 采樣步數(shù)

此參數(shù)控制這些去噪步驟的數(shù)量。通常越高越好,但在一定程度上,我們使用的默認(rèn)值是 25 個(gè)步驟。以下是不同情況下使用哪個(gè)步驟編號(hào)的指南:

  1. 如果您正在測(cè)試新的提示,并希望獲得快速結(jié)果來(lái)調(diào)整您的輸入,請(qǐng)使用 10-15 個(gè)步驟

  2. 當(dāng)您找到您喜歡的提示時(shí),請(qǐng)將步驟增加到 25

  3. 如果是有毛皮的動(dòng)物或有紋理的主題,生成的圖像缺少一些細(xì)節(jié),嘗試將其提高到 40

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

面部修復(fù):修復(fù)人物的面部,但是非寫(xiě)實(shí)風(fēng)格的人物開(kāi)啟面部修復(fù)可能導(dǎo)致面部崩壞。

平鋪:生成一張可以平鋪的圖像

高分辨率重繪:使用兩個(gè)步驟的過(guò)程進(jìn)行生成,以較小的分辨率創(chuàng)建圖像,然后在不改變構(gòu)圖的情況下改進(jìn)其中的細(xì)節(jié),選中該選項(xiàng)會(huì)有一系列新的參數(shù),

其中重要的是:

放大算法:Latent 在許多情況下效果不錯(cuò),但重繪幅度小于 0.5 后就不甚理想。ESRGAN_4x、SwinR 4x 對(duì) 0.5 以下的重繪幅度有較好支持。

放大倍數(shù): 通常 2 倍即可

重繪幅度:決定算法對(duì)圖像內(nèi)容的保留程度。該值越高,放大后圖像就比放大前圖像差別越大。低 denoising 意味著修正原圖,高 denoising 就和原圖就沒(méi)有大的相關(guān)性了。一般來(lái)講閾值是 0.7 左右,超過(guò) 0.7 和原圖基本上無(wú)關(guān),0.3 以下就是稍微改一些,0 什么都不會(huì)改變,1 會(huì)得到一個(gè)完全不同的圖像。具體的執(zhí)行步驟為 重繪強(qiáng)度 * 重繪步數(shù)。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

長(zhǎng)寬尺寸(分辨率)

長(zhǎng)寬尺寸并非數(shù)值越大越好,最佳的范圍應(yīng)在 512 至 768 像素之間,比如正方形圖多是 512*512 和 768*768,人像肖像 512x768,風(fēng)景畫(huà) 768×512,可按比例加大或減小,這個(gè)值必須是 8 的倍數(shù)。如果不希望主題對(duì)象出現(xiàn)重復(fù),應(yīng)在此范圍內(nèi)選擇適當(dāng)?shù)某叽?。如果需要更高分辨率的圖片,建議先使用 SD 模型生成圖片,然后再使用合適的模型進(jìn)行 upscale。

生成批次:每次生成圖像的組數(shù)。一次運(yùn)行生成圖像的數(shù)量為生成批次 * 每批數(shù)量。

每批數(shù)量:同時(shí)生成多少個(gè)圖像。增加這個(gè)值可以提高性能,但你也需要更多的 VRAM。圖像總數(shù)是這個(gè)值乘以批次數(shù)。除 4090 等高級(jí)顯卡以外通常保持為 1。

提示詞相關(guān)性 CFG:較高的數(shù)值將提高生成結(jié)果與提示的匹配度。

OpenArt 上使用的默認(rèn) CFG 是 7,這在創(chuàng)造力和生成你想要的東西之間提供了最佳平衡。通常不建議低于 5。

CFG 量表可以分為不同的范圍,每個(gè)范圍都適合不同的提示類(lèi)型和目標(biāo)

  1. CFG 2 – 6:有創(chuàng)意,但可能太扭曲,沒(méi)有遵循提示。對(duì)于簡(jiǎn)短的提示來(lái)說(shuō),可以很有趣和有用

  2. CFG 710:推薦用于大多數(shù)提示。創(chuàng)造力和引導(dǎo)一代之間的良好平衡

  3. CFG 10-15:當(dāng)您確定提示是詳細(xì)且非常清晰的,您希望圖像是什么樣子時(shí)

  4. CFG 16-20:除非提示非常詳細(xì),否則通常不推薦??赡苡绊懸恢滦院唾|(zhì)量

  5. CFG >20:幾乎無(wú)法使用

隨機(jī)種子(Seed):生成每張圖片時(shí)的隨機(jī)種子,這個(gè)種子是用來(lái)作為確定擴(kuò)散初始狀態(tài)的基礎(chǔ)。不懂的話(huà),用隨機(jī)的即可。

3. 提示詞生成

開(kāi)始不知道怎么寫(xiě)提示詞,可以先參考優(yōu)秀的風(fēng)格模板作為起手式,還可以借助描述語(yǔ)工具和網(wǎng)站,多出圖多研究,掌握了出圖規(guī)律,慢慢就可以自己寫(xiě)提示詞啦,寫(xiě)提示詞要盡可能寫(xiě)的詳細(xì)。跑 AI 的過(guò)程就像抽卡,抽出一堆卡,選出你審美范疇里覺(jué)得好看的。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

找 tag 關(guān)鍵詞網(wǎng)站:

  1. ChatGPT:?https://chat.openai.com/

  2. NovelAI:?https://spell.novelai.dev

4. Prompt 格式優(yōu)化

第一段:畫(huà)質(zhì) tag,畫(huà)風(fēng) tag

第二段:畫(huà)面主體,主體強(qiáng)調(diào),主體細(xì)節(jié)概括(主體可以是人、事、物、景)畫(huà)面核心內(nèi)容

第三段:畫(huà)面場(chǎng)景細(xì)節(jié),或人物細(xì)節(jié),embedding tag。畫(huà)面細(xì)節(jié)內(nèi)容

第二段一般提供人數(shù),人物主要特征,主要?jiǎng)幼鳎ㄒ话阒糜谌宋镏埃?,物體主要特征,主景或景色框架等

舉個(gè)例子:(具體場(chǎng)景還是要靈活應(yīng)用,多嘗試,找到合適自己的節(jié)奏和風(fēng)格)

第一段:masterpiece, best quality, 4k, ( Pixar - style :1.4)

第二段:1boy,(Cute,handsome,wearing outdoor sportswear :0.7), 3D,(Face close-up :1.2), (at night, surrounded by glowing plants, flowers, flying fireflies, bonfires), (Ultra detailed, aesthetic, beautiful composition, rich bright colors, volumetric soft light).

第三段:Inspired by Alice in Wonderland, magic, fairy tales. unreal Engine, octane render, cuteness render, awe inspiring, beautiful,

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

5. Prompt 規(guī)則細(xì)節(jié)

①越靠前的 Tag 權(quán)重越大。

②生成圖片的大小會(huì)影響 Prompt 的效果,圖片越大需要的 Prompt 越多,不然 Prompt 會(huì)相互污染。

③Stable-diffusion 中,可以使用括號(hào)人工修改提示詞的權(quán)重,方法如下:

(word) - 將權(quán)重提高 1.1 倍
((word)) - 將權(quán)重提高 1.21 倍(= 1.1 * 1.1)
[word] - 將權(quán)重降低至原先的 90.91%
(word:1.5) - 將權(quán)重提高 1.5 倍
(word:0.25) - 將權(quán)重減少為原先的 25%

請(qǐng)注意,權(quán)重值最好不要超過(guò) 1.5

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

④Prompt 支持使用 emoji,可通過(guò)添加 emoji 達(dá)到表現(xiàn)效果。如??形容表情,??可修手。

⑤“+” , “ AND” , “|” 用法:“+”和“ AND ”都是用于連接短 Tag,但 AND 兩端要加空格。"+"約等于" and ";“|” 為循環(huán)繪制符號(hào)(融合符號(hào))(Prompt A: w1)|(Prompt B: w2)

以上表達(dá)適用于 WebUI,w1、w2 為權(quán)重。AI 會(huì)對(duì) A、B 兩 Prompt 進(jìn)行循環(huán)繪制??赏鬅o(wú)限加入 Prompt。

⑥tag 不一定是多么充滿(mǎn)細(xì)節(jié),只要模型穩(wěn)定。小圖+高分辨率重繪。800*400 的圖變成 1600*800,初識(shí)小圖減少崩壞概率。

⑦關(guān)鍵詞最好具有特異性,譬如 Anime(動(dòng)漫)一詞就相對(duì)泛化,而 JoJo 一詞就能清晰地指向 JoJo 動(dòng)漫的畫(huà)風(fēng)。措辭越不抽象越好,盡可能避免留下解釋空間的措辭。

三、了解模型

1. 下載模型

主流模型下載網(wǎng)站:

  1. Hugging face 是一個(gè)專(zhuān)注于構(gòu)建、訓(xùn)練和部署先進(jìn)開(kāi)源機(jī)器學(xué)習(xí)模型的網(wǎng)站:?https://huggingface.co/

  2. Civitai 是一個(gè)專(zhuān)為 Stable Diffusion AI 藝術(shù)模型設(shè)計(jì)的網(wǎng)站:?https://civitai.com/

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

2. 模型選擇

如何選擇合適模型是最重要的。

從你想畫(huà)的風(fēng)格(寫(xiě)實(shí)、二次元、卡通盲盒等)來(lái)選擇大模型,再搭配合適的 Lora。

①Checkpoint

體積較大,也被稱(chēng)為大模型,不同的大模型使用不同的圖片訓(xùn)練而成,對(duì)應(yīng)不同的風(fēng)格,相當(dāng)于最底層的引擎。有時(shí)候需要大模型+VAE+emb+Lora 聯(lián)合搭配使用以達(dá)到需要的效果。

下載的大模型可放置于 SD 文件夾/models/Stable-diffusion 內(nèi)。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

②Lora

Lora 是特征模型,體積較小,是基于某個(gè)確定的角色、確定的風(fēng)格或者固定的動(dòng)作訓(xùn)練而成的模型,可使用權(quán)重控制,確定性要遠(yuǎn)強(qiáng)于 embedding。embedding 和 Lora 有功能交集的部分,也有互相不可取代的地方。

在 ckpt 大模型上附加使用,對(duì)人物、姿勢(shì)、物體表現(xiàn)較好。在 webui 界面的 Additional Networks 下勾線 Enable 啟用,然后在 Model 下選擇模型,并可用 Weight 調(diào)整權(quán)重。權(quán)重越大,該 Lora 的影響也越大。不建議權(quán)重過(guò)大(超過(guò) 1.2),否則很容易出現(xiàn)扭曲的結(jié)果。

多個(gè) Lora 模型混合使用可以起到疊加效果,譬如一個(gè)控制面部的 Lora 配合一個(gè)控制畫(huà)風(fēng)的 Lora 就可以生成具有特定畫(huà)風(fēng)的特定人物。因此可以使用多個(gè)專(zhuān)注于不同方面優(yōu)化的 Lora,分別調(diào)整權(quán)重,結(jié)合出自己想要實(shí)現(xiàn)的效果。

LoHA 模型是一種 LORA 模型的改進(jìn)。

下載的 Lora 可放置于 SD 文件夾/models/Lora 內(nèi)。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

③VAE

VAE 模型類(lèi)似濾鏡,對(duì)畫(huà)面進(jìn)行調(diào)色與微調(diào),一般需要搭配相應(yīng)的模型一起使用。(如果圖片比較灰,顏色不太靚麗,就可能是沒(méi)加載 vae)

下載的 VAE 可放置于 SD 文件夾/models/VAE 內(nèi)。

④Textual inversion(embedding)

關(guān)鍵詞預(yù)設(shè)模型,即關(guān)鍵詞打包,即等于預(yù)設(shè)好一籃子關(guān)鍵詞 a,b,c 打包,進(jìn)而來(lái)指代特定的對(duì)象/風(fēng)格。也可以通過(guò)下載 Textual inversion 進(jìn)行使用。

下載的 embedding 可放置于 SD 文件夾/embeddings 內(nèi)。

四、ControlNet

ControlNet 使得 SD 從玩具變成做商業(yè)項(xiàng)目的神器,接下來(lái)會(huì)重中之重來(lái)詳細(xì)講解一下。

ControlNet 是斯坦福大學(xué)研究人員開(kāi)發(fā)的 Stable Diffusion 的擴(kuò)展,使創(chuàng)作者能夠輕松地控制 AI 圖像和視頻中的對(duì)象。它將根據(jù)邊緣檢測(cè)、草圖處理或人體姿勢(shì)等各種條件來(lái)控制圖像生成。ControlNet 可以概括為一種簡(jiǎn)單的穩(wěn)定擴(kuò)散微調(diào)方法。ControlNet 的工作原理是將可訓(xùn)練的網(wǎng)絡(luò)模塊附加到穩(wěn)定擴(kuò)散模型的 U-Net (噪聲預(yù)測(cè)器)的各個(gè)部分。Stable Diffusion 模型的權(quán)重是鎖定的,在訓(xùn)練過(guò)程中它們是不變的。在訓(xùn)練期間僅修改附加模塊。

1. 安裝

從 github 上找到并把網(wǎng)址填到擴(kuò)展里安裝,安裝完后記得點(diǎn)擊 Apply and restart UI(?https://github.com/Mikubill/sd-webui-controlnet?)

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion
  1. 將 ControlNet 模型(.pt、.pth、.ckpt 或.safetensors)放入 models/ControlNet 文件夾。

  2. 打開(kāi)“txt2img”或“img2img”選項(xiàng)卡,寫(xiě)下您的提示。

  3. 按“刷新模型”,選擇要使用的模型。(若沒(méi)有出現(xiàn),請(qǐng)嘗試重新加載/重新啟動(dòng) webui)

  4. 上傳您的圖像并選擇預(yù)處理器,完成。

目前,它支持完整型號(hào)和修剪型號(hào)。使用 extract_controlnet.py 從原始.pth 文件中提取 controlnet。

預(yù)訓(xùn)練模型:?https://huggingface.co/lllyasviel/ControlNet/tree/main/models

2. 界面介紹

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

開(kāi)啟:選中此框以啟用 ControlNet。

顏色反轉(zhuǎn):交換黑色和白色。例如,它可以在您上傳涂鴉時(shí)使用。ControlNet 需要黑色背景和白色涂鴉。如果您使用白色背景的外部軟件創(chuàng)建涂鴉,則必須使用此選項(xiàng)。如果您使用 ControlNet 的界面創(chuàng)建涂鴉,則不需要使用此選項(xiàng)。

RGB 轉(zhuǎn)為 BGR:用于檢測(cè)用戶(hù)導(dǎo)入圖像中的顏色信息。有時(shí)圖像中的顏色信息可能與擴(kuò)展所期望的不同。如果您上傳圖像并使用預(yù)處理,則無(wú)需選中此框。

低顯存:這將減緩 ETA 進(jìn)程,但有助于使用更少的計(jì)算空間(顯存小于 8 GB VRAM 建議使用),檢查您是否用完了 GPU 內(nèi)存,或者想要增加處理的圖像數(shù)量。

推測(cè)模式:ControlNet 自動(dòng)識(shí)別圖像(不需要提示和負(fù)面提示)與選定的預(yù)處理器。它強(qiáng)制 ControlNet 編碼器遵循輸入控制圖(如深度、邊緣等),即使沒(méi)有提示也是如此。使用此模式時(shí)使用更高的步進(jìn),例如 50,但是這個(gè)效果不一定好。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

權(quán)重(Weight):代表使用 ControlNet 生成圖片時(shí)被應(yīng)用的權(quán)重占比。

引導(dǎo)介入時(shí)機(jī)(Guidance Start):在理解此功能之前,我們應(yīng)該先知道生成圖片的 Sampling steps 采樣步數(shù)功能,步數(shù)代表生成一張圖片要刷新計(jì)算多少次,Guidance Start(T) 設(shè)置為 0 即代表開(kāi)始時(shí)就介入,默認(rèn)為 0,設(shè)置為 0.5 時(shí)即代表 ControlNet 從 50% 步數(shù)時(shí)開(kāi)始介入計(jì)算。

引導(dǎo)退出時(shí)機(jī)(Guidance End):和引導(dǎo)介入時(shí)機(jī)相對(duì)應(yīng),如設(shè)置為 1,則表示在 100%計(jì)算完時(shí)才會(huì)退出介入也就是不退出,默認(rèn)為 1,可調(diào)節(jié)范圍 0-1,如設(shè)置為 0.8 時(shí)即代表從 80% 步數(shù)時(shí)退出介入。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

調(diào)整大小模式提供了調(diào)整 ControlNet 大小和上傳圖像的縱橫比。

Just Resize:不保留縱橫比的情況下,改變 ControlNet 圖像的大小以匹配 Txt2Img 設(shè)置的寬度和高度。這包括拉伸或壓縮圖像以適應(yīng)指定的尺寸。

Scale to Fit (Inner Fit):調(diào)整 ControlNet 圖像的大小以適應(yīng) Txt2Image 的尺寸。

Envelope (Outer Fit):調(diào)整 Txt2Image 的大小以適應(yīng) ControlNet 圖像的尺寸。

畫(huà)布寬度 和 畫(huà)布高度:它會(huì)調(diào)整空白畫(huà)布的大小來(lái)進(jìn)行繪制,不會(huì)影響上傳的原始圖像。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

預(yù)覽圖片處理結(jié)果:能夠快速查看選擇的預(yù)處理器是如何將上傳的圖像或繪圖轉(zhuǎn)換為 ControlNet 的檢測(cè)圖。對(duì)在渲染輸出圖像之前嘗試各種預(yù)處理器有用,可節(jié)省我們的時(shí)間。

隱藏處理結(jié)果:刪除預(yù)覽圖像。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

預(yù)處理器和模型是 ControlNet 的主要選項(xiàng)。

預(yù)處理器:用于對(duì)輸入圖像進(jìn)行預(yù)處理,例如檢測(cè)邊緣、深度和法線貼圖。None 使用輸入圖像作為控制圖。 根據(jù)所需的輸出,用戶(hù)可以選擇相應(yīng)的控制方法。

模型:如果您選擇了預(yù)處理器,您通常會(huì)選擇相應(yīng)的模型。但是它并不限制你混合和匹配所有的預(yù)處理器和模型,但是混合多了就會(huì)產(chǎn)生負(fù)面效果,所以最好使用更加匹配的模型并且越少越好。ControlNet 模型與在 AUTOMATIC1111 GUI 頂部選擇的穩(wěn)定擴(kuò)散模型一起使用。

五、預(yù)處理器

下面我們介紹幾個(gè)常用的 ControlNet,并在下面舉例說(shuō)明如何使用它。

1. Canny 邊緣檢測(cè)

Canny 通過(guò)使用邊緣檢測(cè)器創(chuàng)建高對(duì)比度區(qū)域的輪廓來(lái)檢測(cè)輸入圖像。線條可以捕捉到非常詳細(xì)的信息,但如果你的圖像背景中有一些物體,它很可能會(huì)檢測(cè)到不需要的物體。所以背景中物體越少效果越好。用于此預(yù)處理器的最佳模型是 control_sd15_canny。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

2. Depth & Depth Leres

這個(gè)預(yù)處理器有助于生成輸入圖像的深度估計(jì)。深度通常用于控制圖像內(nèi)物體的空間定位。淺色區(qū)域意味著它離用戶(hù)更近,而深色區(qū)域則離用戶(hù)更遠(yuǎn)。

在大圖像時(shí)它可能會(huì)丟失圖像內(nèi)部的細(xì)節(jié)(面部表情等)。一般會(huì)與 control_sd15_depth 模型組合使用。Midas Resolution 函數(shù)用于增加或減少 detectmap 中的大小和細(xì)節(jié)級(jí)別。它的級(jí)別越高,將使用更多的 VRAM,但可以生成更高質(zhì)量的圖像,反之亦然。

Depth Leres 有與 Depth 相同的基本概念,但在地圖中包含更廣泛的范圍。但有時(shí)它會(huì)從圖片中捕獲了太多信息,可能會(huì)生成與原始圖像略有不同的圖像。所以最好先試用兩種預(yù)處理器,然后決定哪一種。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

3. HED (Holistically-Nested Edge Detection)

Hed 可以在物體周?chē)鷦?chuàng)建清晰和精細(xì)的邊界,輸出類(lèi)似于 Canny,它的有效性在于能夠捕捉復(fù)雜的細(xì)節(jié)和輪廓,同時(shí)保留細(xì)節(jié)特征(面部表情、頭發(fā)、手指等)。Hed 預(yù)處理器可用于修改圖像的風(fēng)格和顏色。用于此預(yù)處理器的最佳模型是 control_sd15_hed。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

4. MLSD ( Mobile Line Segment Detection)

MLSD Preprocessor 最適合生成強(qiáng)有力的線條,這些線條能夠檢測(cè)出需要獨(dú)特和剛性輪廓的建筑和其他人造作品。但是它不適用于處理非剛性或彎曲的物體。MLSD 適用于生成室內(nèi)布局或建筑結(jié)構(gòu),因?yàn)樗梢酝怀鲋本€和邊緣。用于此預(yù)處理器的最佳模型是 control_sd15_mlsd。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

5. Normal map

法線圖使用了三種主要顏色(紅、綠、藍(lán)),通過(guò)不同的角度來(lái)精確定位物體的粗糙度和光滑程度。它生成法線圖可以保留相當(dāng)多的細(xì)節(jié),但可能會(huì)產(chǎn)生意想不到的結(jié)果,因?yàn)榉ň€圖完全來(lái)自圖像,而不是在 3D 建模軟件中構(gòu)建的。

法線圖有利于突出復(fù)雜的細(xì)節(jié)和輪廓,并且在定位對(duì)象方面也很有效,特別是在接近度和距離方面,設(shè)置一個(gè)更高的閾值可以移除背景的遠(yuǎn)處部分,降低閾值將命令 AI 保留甚至顯示額外的背景元素。用于此預(yù)處理器的最佳模型是 control_sd15_normal。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

6. OpenPose

這個(gè)預(yù)處理器生成了一個(gè)基本的骨骼火柴人形象。這種技術(shù)被廣泛采用,因?yàn)槎鄠€(gè) OpenPose 骨架可以組合成一個(gè)圖像,骨架圖有很多關(guān)節(jié)點(diǎn),每個(gè)點(diǎn)代表如下圖所示。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

7. Scribble

涂鴉的目的是從簡(jiǎn)單的黑白線條畫(huà)和草圖生成圖像。用戶(hù)也可以使用“Canvas”選項(xiàng)創(chuàng)建特定大小的空白畫(huà)布,用于手動(dòng)素描(也可以直接上傳圖像)。如果草圖和繪圖由白色背景上的黑線組成,則需要選中“Invert Input Color”復(fù)選框。用于這個(gè)預(yù)處理器的最佳模型是 control_sd15_openpose。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

8. Segmentation

分割預(yù)處理器檢測(cè)并將上傳的圖像分割為同一圖像內(nèi)的段或區(qū)域。該模型在生成一組新的圖像時(shí),將 detectmap 圖像應(yīng)用于文本提示。用于此預(yù)處理器的最佳模型是 control_sd15_seg。

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

附錄:預(yù)處理器與對(duì)應(yīng)模型清單

萬(wàn)字長(zhǎng)文!帶你從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion

總結(jié)

使用 AI 繪圖工具 Stable Diffusion 確實(shí)能提高美術(shù)工作者的生產(chǎn)效率,但是請(qǐng)記?。喝斯ぶ悄?,沒(méi)有人工就沒(méi)有智能。Stable Diffusion 并不是簡(jiǎn)單易上手的 APP,我們需要花費(fèi)一定的時(shí)間和精力去學(xué)習(xí)和不斷調(diào)試,才能使其真正為我們所用,高效產(chǎn)出效果符合需求的圖片。

最后,我為大家簡(jiǎn)單羅列一下使用 SD 的幾項(xiàng)核心能力:

  1. Github 使用能力,使用者在熟練掌握 Github 開(kāi)源項(xiàng)目的安裝、調(diào)參、排錯(cuò)、編程環(huán)境設(shè)置等技能后,就不會(huì)在 SD 報(bào)錯(cuò)時(shí)六神無(wú)主了。

  2. 基礎(chǔ)出圖調(diào)試能力,這項(xiàng)能力能夠讓使用者無(wú)需協(xié)助就能自行摸索穩(wěn)定輸出可用的圖片。

  3. Controlnet 構(gòu)圖能力,基于 Controlnet 的構(gòu)圖控制是美術(shù)從業(yè)者駕馭 SD 的韁繩,不會(huì)用 Controlnet,你只會(huì)被隨機(jī)噪聲牽著走。

  4. 學(xué)習(xí)插件并組合使用的能力。

  5. Lora 等小模型的訓(xùn)練能力(進(jìn)階)。

站在巨人的肩膀上

  1. https://avoid.overfit.cn/post/acbb609d015a40fc8d0cd26f8e215dd9

  2. https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Features#attentionemphasis

  3. https://muhou.net/document/236688.html

  4. https://guide.novelai.dev/guide/prompt-engineering/practice

  5. https://zhuanlan.zhihu.com/p/619721909

  6. https://zhuanlan.zhihu.com/p/612572004

  7. https://www.163.com/dy/article/I22IV66G0518R7MO.html

  8. https://stable-diffusion-art.com/controlnet/



從零開(kāi)始入門(mén)AI繪畫(huà)神器Stable Diffusion的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
汪清县| 迁西县| 从江县| 固安县| 汝阳县| 恩平市| 西峡县| 江达县| 远安县| 石阡县| 东方市| 大英县| 英山县| 庆安县| 丽水市| 河东区| 潮州市| 民县| 渭南市| 怀仁县| 盐池县| 建瓯市| 涟水县| 维西| 棋牌| 麦盖提县| 瓮安县| 鄂托克旗| 黄山市| 万宁市| 蓬溪县| 济宁市| 常熟市| 青河县| 峡江县| 雷波县| 马尔康县| 杭锦后旗| 浙江省| 平遥县| 柳林县|