Stable Diffusion穩(wěn)定的擴散 WebUI AUTOMATIC1111:初學者指南
本指南將教您如何使用 AUTOTMATIC1111 GUI。您可以將其作為教程。您可以逐步遵循大量示例。
您會看到許多示例來說明設(shè)置的效果,因為我相信這是唯一可以說服你的方法。
內(nèi)容
文本到圖像選項卡
基本用法
圖像生成參數(shù)
種子
額外的種子選項
還原人臉
平鋪
雇用。使固定。
Generate ? ? ? 按鈕下的按鈕
圖像文件操作
img2img 選項卡
圖像到圖像
草圖
修復
修補素描
修復上傳
批
從圖像中獲取提示
升級
基本用法
升級器
面部修復
巴布亞新幾內(nèi)亞信息
檢查點合并
火車
設(shè)置
面部修復
穩(wěn)定擴散
閱讀快速入門指南以決定使用哪種穩(wěn)定擴散。
文本到圖像選項卡
首次啟動 GUI 時,您將看到txt2img選項卡。此選項卡執(zhí)行 Stable Diffusion 的最基本功能:將文本提示轉(zhuǎn)換為圖像。
基本用法
如果這是您第一次使用 AUTOMATIC1111,您可能希望更改這些設(shè)置。
穩(wěn)定擴散檢查點:選擇您想要的模型。初次使用的用戶可以使用v1.5 基礎(chǔ)模型。
提示:描述您想在圖像中看到的內(nèi)容。下面是一個例子。有關(guān)教程,請參閱提示構(gòu)建的完整指南。
薩爾瓦多·達利 (Salvador Dali) 的超現(xiàn)實主義貓畫
寬度和高度:輸出圖像的大小。使用 v1 模型時,您應(yīng)該至少將一側(cè)設(shè)置為 512 像素。例如,對于縱橫比為 2:3 的肖像圖像,將寬度設(shè)置為 512,將高度設(shè)置為 768。
Batch size:每次要生成的圖像數(shù)量。您希望在測試提示時至少生成一些,因為每個都會有所不同。
最后,點擊生成按鈕。稍等片刻后,您將獲得圖像!
默認情況下,您將獲得合成縮略圖的附加圖像。
您可以將圖像保存到本地存儲。首先,使用主圖像畫布下方的縮略圖選擇圖像。右鍵單擊圖像以調(diào)出上下文菜單。您應(yīng)該可以選擇保存圖像或?qū)D像復制到剪貼板。
這就是您需要了解的所有基礎(chǔ)知識!本節(jié)的其余部分將更詳細地解釋每個功能。
圖像生成參數(shù)
Txt2img 選項卡。
Stable Diffusion 檢查點是一個用于選擇模型的下拉菜單。您需要將模型文件放在文件夾stable-diffusion-webui>?models>中Stable-diffusion。
下拉菜單旁邊的刷新按鈕用于刷新模型列表。當您剛剛將新模型放入模型文件夾并希望更新列表時使用它。
提示文本框:把你想在圖像中看到的內(nèi)容。要詳細和具體。使用一些經(jīng)過驗證的關(guān)鍵字。您可以在此處找到簡短列表或在提示生成器中找到更廣泛的列表。
否定提示文本框:把你不想看到的東西放上去。使用 v2 模型時應(yīng)使用否定提示。您可以使用通用否定提示。
采樣方法:去噪過程的算法。我使用DPM++ 2M Karras,因為它很好地平衡了速度和質(zhì)量。您可能希望避免使用任何祖先采樣器(帶有a的采樣器),因為即使在較大的采樣步驟中,它們的圖像也不穩(wěn)定。這使得調(diào)整圖像變得困難。
采樣步驟:去噪過程的采樣步驟數(shù)。越多越好,但也需要更長的時間。25 個步驟適用于大多數(shù)情況。
寬度和高度:輸出圖像的大小。對于 v1 模型,您應(yīng)該至少將一側(cè)設(shè)置為 512 像素。例如,對于縱橫比為 2:3 的肖像圖像,將寬度設(shè)置為 512,將高度設(shè)置為 768。使用 v2-768px 模型時,至少將一側(cè)設(shè)置為 768。
批次計數(shù):運行圖像生成管道的次數(shù)。
批量大?。好看芜\行管道時要生成的圖像數(shù)。
生成的圖像總數(shù)等于批計數(shù)乘以批大小。您通常會更改批量大小,因為它更快。如果遇到內(nèi)存問題,您只會更改批次計數(shù)。
CFG scale?:?Classifier Free Guidance scale?是一個參數(shù),用于控制模型應(yīng)在多大程度上尊重您的提示。
1 – 大多忽略你的提示。
3 – 更有創(chuàng)意。
7 – 遵循提示和自由之間的良好平衡。
15 – 更加遵守提示。
30 – 嚴格按照提示操作。
下圖顯示了使用固定種子值更改 CFG 的效果。您不想將 CFG 值設(shè)置得太高或太低。如果 CFG 值太低,Stable Diffusion 將忽略您的提示。當它太高時,圖像的顏色會飽和。
種子:用于在潛在空間中生成初始隨機張量的種子值。實際上,它控制圖像的內(nèi)容。生成的每個圖像都有自己的種子值。如果設(shè)置為 -1,AUTOMATIC1111 將使用隨機種子值。
修復種子的一個常見原因是修復圖像的內(nèi)容并調(diào)整提示。假設(shè)我使用以下提示生成了圖像。
女人,裙子,城市夜景背景的照片
我喜歡這張圖片并想調(diào)整提示以將手鐲添加到她的手腕上。您將種子設(shè)置為此圖像的值。種子值位于圖像畫布下方的日志消息中。
圖像的種子值(突出顯示)在日志消息中。
將該值復制到種子值輸入框。或者使用回收按鈕復制種子值。
女人,裙子,城市夜景背景,手鐲的照片
你會得到一張類似的照片,她的手腕上戴著手鐲。
場景可能會完全改變,因為某些關(guān)鍵詞的強度足以改變構(gòu)圖。您可以在稍后的抽樣步驟中嘗試交換關(guān)鍵字。
使用骰子圖標將種子設(shè)置回 -1(隨機)。
額外的種子選項
檢查額外選項將顯示額外種子菜單。
變體種子:您要使用的附加種子值。
變異強度:種子與變異種子之間的插值程度。將其設(shè)置為 0 使用種子值。將其設(shè)置為 1 使用變化種子值。
這是一個例子。假設(shè)您從相同的提示和設(shè)置生成了 2 個圖像。它們有自己的種子值,1 和 3。
第一張圖片:種子值為 1。
?第二張圖片:種子值為 3。
您想要生成這兩個圖像的混合。您可以將種子設(shè)置為 1,將變化種子設(shè)置為 3,并在 0 和 1 之間調(diào)整變化強度。在下面的實驗中,變化強度允許您在兩個種子之間產(chǎn)生圖像內(nèi)容的過渡。當變化強度從 0 增加到 1 時,女孩的姿勢和背景逐漸變化。
從寬度/高度調(diào)整種子大?。杭词鼓褂孟嗤姆N子,如果更改圖像大小,圖像也會發(fā)生顯著變化。此設(shè)置嘗試在調(diào)整圖像大小時修復圖像的內(nèi)容。您將在寬度和高度滑塊中放置新尺寸,并在此處放置原始圖像的寬度和高度。將原始種子值放入種子輸入框。將變異強度設(shè)置為 0 以忽略變異種子。
假設(shè)您喜歡這張 512×800 的圖像,種子值為 3。
512×800
當您更改圖像大小時,即使保持相同的種子值,構(gòu)圖也會發(fā)生巨大變化。
512×600
當您從高度和寬度設(shè)置中打開調(diào)整大小種子時,您將獲得更接近原始尺寸的新尺寸。它們并不完全相同,但它們很接近。
512×600
還原人臉
Restore faces應(yīng)用了一個額外的模型,該模型經(jīng)過訓練可以恢復面部缺陷。以下是之前和之后的例子。
原來的
在使用Restore Faces之前,您必須指定要使用的面部恢復模型。首先,訪問“設(shè)置”選項卡。導航到面部修復部分。選擇面部修復模型。CodeFormer是一個不錯的選擇。將 CodeFormer 權(quán)重設(shè)置為 0 以獲得最大效果。請記住單擊“應(yīng)用設(shè)置”按鈕以保存設(shè)置!
返回到txt2img選項卡。檢查恢復面孔。面部恢復模型將應(yīng)用于您生成的每張圖像。
如果您發(fā)現(xiàn)該應(yīng)用程序影響面部樣式,您可能需要關(guān)閉面部修復?;蛘撸梢栽黾?CodeFormer 權(quán)重參數(shù)以降低影響。
平鋪
使用平鋪選項生成可以平鋪的周期性圖像。下面是一個例子。
花朵圖案
此圖像可以像墻紙一樣平鋪。
2×2 平鋪。
使用 Stable Diffusion 的真正寶藏是允許您創(chuàng)建任何圖像的圖塊,而不僅僅是傳統(tǒng)圖案。您所需要的只是提出一個文本提示。
雇用。使固定。
高分辨率修復選項應(yīng)用升頻器來放大圖像。您需要這個,因為 Stable Diffusion 的原始分辨率是 512 像素(或某些 v2 模型的 768 像素)。圖像對于許多用途來說太小了。
為什么不能將寬度和高度設(shè)置得更高,比如 1024 像素?偏離原始分辨率會影響構(gòu)圖并產(chǎn)生問題,例如生成帶有兩個頭像的圖像。
所以必須先生成兩邊512像素的小圖。然后將其放大到更大的。
檢查雇用。fix以啟用高分辨率修復。
升頻器:選擇要使用的升頻器。
各種Latent upscaler 選項在潛在空間中縮放圖像。它是在文本到圖像生成的采樣步驟之后完成的。該過程類似于圖像到圖像。
其他選項是傳統(tǒng)和 AI 升頻器的混合。
雇用步驟:僅適用于潛在的升級者。它是放大潛像后的采樣步數(shù)。
去噪強度:僅適用于潛在的升級器。該參數(shù)與image-to-image中的含義相同。它控制在執(zhí)行 Hires 采樣步驟之前添加到潛像的噪聲。
?
現(xiàn)在讓我們看看將下面的圖像放大到 2 倍的效果,使用latent作為放大器。
原圖
0.65
由于某種原因,它必須大于 0.5 才能獲得清晰的圖像。將它設(shè)置得太高會使圖像發(fā)生很大變化。
使用潛在的放大器的好處是沒有像 ESRGAN 這樣的其他放大器可能引入的放大偽像。Stable Diffusion 的解碼器生成圖像,確保風格一致。缺點是它會在一定程度上改變圖像,這取決于去噪強度的值。
放大系數(shù)控制圖像的放大倍數(shù)。例如,將其設(shè)置為 2 會將 512 x 768 像素的圖像縮放為 1024 x 1536 像素。
或者,您可以指定“resize width to”和“resize height to”的值來設(shè)置新的圖像大小。
您可以通過使用像 ESRGAN 這樣的 AI upscalers 來避免設(shè)置正確的去噪強度的麻煩。一般而言,將 txt2img 和放大分為兩個步驟可為您提供更大的靈活性。我不使用高分辨率修復選項,而是使用額外頁面進行放大。
Generate 按鈕下的按鈕
從左到右:
閱讀最后的參數(shù):它將填充所有字段,以便您在按下“生成”按鈕時生成相同的圖像。請注意,將設(shè)置種子和模型覆蓋。如果這不是您想要的,請將種子設(shè)置為 -1 并刪除覆蓋。
種子值和模型覆蓋突出顯示。
2.垃圾桶圖標:刪除當前提示和否定提示。
3.模型圖標:顯示額外的網(wǎng)絡(luò)。此按鈕用于將超網(wǎng)絡(luò)、嵌入和LoRA短語插入到提示中。
您可以使用以下兩個按鈕加載和保存提示和否定提示。該集合稱為樣式。它可以是一個簡短的短語,例如藝術(shù)家的名字,也可以是一個完整的提示。
4.加載樣式:您可以從下面的樣式下拉菜單中選擇多種樣式。使用此按鈕將它們插入到提示和否定提示中。
5.保存樣式:保存提示和否定提示。您需要為樣式命名。
圖像文件操作
您會發(fā)現(xiàn)一排按鈕,用于對生成的圖像執(zhí)行各種功能。從左到右…
打開文件夾:打開圖像輸出文件夾。它可能不適用于所有系統(tǒng)。
保存:保存圖像。單擊后,它會在按鈕下方顯示一個下載鏈接。如果您選擇圖像網(wǎng)格,它將保存所有圖像。
Zip:壓縮圖像以供下載。
發(fā)送到 img2img:將所選圖像發(fā)送到 img2img 選項卡。
Send to inpainting?: 將選中的圖片發(fā)送到 img2img 選項卡中的 inpainting 選項卡。
發(fā)送到 extras:將所選圖像發(fā)送到 Extras 選項卡。
img2img 選項卡
img2img 選項卡是您使用圖像到圖像功能的地方。大多數(shù)用戶會訪問此選項卡以修復圖像并將圖像轉(zhuǎn)換為另一個圖像。
圖像到圖像
img2img 選項卡中的一個日常用例是做……圖像到圖像。您可以創(chuàng)建遵循基本圖像組成的新圖像。
第一步:將基礎(chǔ)圖片拖放到img2img頁面的img2img選項卡中。
基本圖像。
第 2 步:調(diào)整寬度或高度,使新圖像具有相同的縱橫比。您應(yīng)該會在圖像畫布中看到一個指示縱橫比的矩形框。在上面的橫向圖像中,我將寬度設(shè)置為 760,同時將高度保持在 512。
第三步:設(shè)置采樣方式和采樣步驟。我通常使用 25 個步驟的 DPM++ 2M Karass。
第 4 步:將批量大小設(shè)置為 4。
第 5 步:為新圖像編寫提示。我將使用以下提示。
龍的真實感插圖
第 6 步:按生成按鈕生成圖像。調(diào)整去噪強度并重復。下面是具有不同去噪強度的圖像。
0.4
許多設(shè)置與 txt2img 共享。我只會解釋新的。
調(diào)整大小模式:如果新圖像的縱橫比與輸入圖像的縱橫比不同,有幾種方法可以調(diào)和差異。
“?Just resize?”縮放輸入圖像以適應(yīng)新的圖像尺寸。它會拉伸或擠壓圖像。
“裁剪和調(diào)整大小”使新圖像畫布適合輸入圖像。不適合的部分被移除。原始圖像的縱橫比將被保留。
“調(diào)整大小并填充”將輸入圖像適合新圖像畫布。額外的部分用輸入圖像的平均顏色填充??v橫比將被保留。
“Just resize (latent upscale)”
類似于“Just resize”,但縮放是在潛在空間中完成的。使用大于 0.5 的去噪強度以避免圖像模糊。
只需調(diào)整大小
去噪強度:控制圖像變化的程度。如果設(shè)置為 0,則沒有任何變化。如果設(shè)置為 1,則新圖像不會跟隨輸入圖像。0.75 是一個很好的起點,它有很多變化。
您可以使用內(nèi)置腳本poor man's outpainting:用于擴展圖像。請參閱涂裝指南。
草圖
您可以勾畫初始圖片,而不是上傳圖片。啟動 webui 時,您應(yīng)該使用以下參數(shù)啟用彩色草圖工具。(它已經(jīng)在快速入門指南中的Google Colab notebook中啟用)
--gradio-img2img-tool color-sketch
第 1 步:導航到img2img 頁面上的草圖選項卡。
第 2 步:將背景圖像上傳到畫布。您可以使用下面的黑色或白色背景。
黑色背景
白色背景
第 3 步:繪制您的創(chuàng)作草圖。啟用彩色素描工具后,您應(yīng)該能夠進行彩色素描。
第 4 步:編寫提示。
獲獎的房子
第 5 步:按生成。
為圖像到圖像繪制您自己的圖片。
你不必從頭開始畫東西。您可以使用草圖功能修改圖像。下面是一個示例,通過將辮子涂在上面并進行一輪圖像到圖像來移除辮子。使用滴管工具從周圍區(qū)域中選擇一種顏色。
修復
也許img2img選項卡中最常用的功能是修復。您在 txt2img 選項卡中生成了您喜歡的圖像。但是有一個小缺陷,你想重新生成它。
假設(shè)您在txt2img選項卡中生成了以下圖像。你想重新生成人臉,因為它是亂碼。您可以使用發(fā)送到修復按鈕將圖像從txt2img選項卡發(fā)送到img2img選項卡。
當切換到 img2img 頁面的 Inpaint 選項卡時,您應(yīng)該會看到您的圖像。使用畫筆工具在要重新生成的區(qū)域上創(chuàng)建一個蒙版。
圖片大小等參數(shù)設(shè)置正確,因為你使用了“發(fā)送到修復”功能。你通常會調(diào)整
去噪強度:從 0.75 開始。減少改變更多。增加改變較少。
面膜內(nèi)容:原裝
蒙版模式:修復蒙版
批量大?。?
按生成按鈕。選擇一個你喜歡的。
修補素描
Inpaint sketch 結(jié)合了修復和素描。它可以讓您像在草圖選項卡中一樣進行繪畫,但只會重新生成繪畫區(qū)域。未上漆的區(qū)域沒有變化。下面是一個例子。
修補素描。
修復上傳
Inpaint upload 允許您上傳單獨的遮罩文件而不是繪制它。
批
Batch 讓您可以為多個圖像修復或執(zhí)行圖像到圖像。
從圖像中獲取提示
AUTOMATIC1111 的Interogate CLIP按鈕將您上傳的圖像帶到 img2img 選項卡并猜測提示。當您想處理您不知道提示的圖像時,它很有用。要從圖像中獲得猜測的提示:
第 1 步:導航到img2img 頁面。
第 2 步:將圖像上傳到img2img 選項卡。
第 3 步:單擊詢問 CLIP按鈕。
提示文本框中將出現(xiàn)提示。
Interrogate?DeepBooru按鈕提供了類似的功能,除了它是為動畫圖像設(shè)計的。
升級
您將轉(zhuǎn)到用于放大圖像的額外頁面。為什么需要 AUTOMATIC1111 來放大圖像?您可以使用PC 上通常不可用的AI 升頻器。無需支付 AI 升級服務(wù)費用,您可以在此處免費進行。
基本用法
按照以下步驟升級圖像。
第 1 步:導航到“額外”頁面。
第 2 步:將圖像上傳到圖像畫布。
第 3 步:在調(diào)整大小標簽下設(shè)置Scale by?factor?。新圖像的每一側(cè)都會大很多倍。例如,一張 200×400 的圖像將變?yōu)?800×1600,比例因子為 4。
第 4 步:選擇 Upscaler 1. 流行的通用 AI upscaler 是 R-ESRGAN 4x+。
第 5 步:按生成。你應(yīng)該在右邊得到一個新圖像。
確保以全分辨率檢查新圖像。例如,您可以在新選項卡中打開新圖像并禁用自動調(diào)整。如果縮小,放大器可能會產(chǎn)生您可能會忽略的偽像。
例如,即使您不需要放大 4 倍,它仍然可以將其放大到 4 倍并稍后調(diào)整大小。這可能有助于提高清晰度。
縮放至:您可以在“縮放至”選項卡中指定要調(diào)整大小的尺寸,而不是設(shè)置比例因子。
升級器
AUTOMATIC1111 默認提供一些升頻器。
?
升頻器:升頻器下拉菜單列出了幾個內(nèi)置選項。您也可以安裝自己的。有關(guān)說明,請參閱AI 升頻器文章。
Lanczos和Nearest是老派的高端品牌。它們沒有那么強大,但行為是可以預測的。
ESRGAN、R-ESRGAN、ScuNet和SwinIR是 AI 升級器。他們可以從字面上編造內(nèi)容以提高分辨率。有些人接受過粒子風格的訓練。找出它們是否適用于您的圖像的最佳方法是測試它們。我現(xiàn)在聽起來像是一張破唱片,但一定要以全分辨率仔細查看圖像。
Upscaler 2:有時,您想結(jié)合兩個 upscaler 的效果。此選項可讓您合并兩個升頻器的結(jié)果。混合量由Upscaler 2 Visibility滑塊控制。較高的值顯示更多的 upscaler 2。
找不到您喜歡的升級器?您可以從模型庫中安裝額外的升頻器。請參閱安裝說明。
面部修復
您可以選擇在放大過程中恢復面孔。有兩個選項可用:(1) GFPGAN 和 (2) CodeFormer。設(shè)置其中任何一個的可見性以應(yīng)用更正。作為縮略圖的規(guī)則,您應(yīng)該設(shè)置可以避免的最低值,這樣圖像的風格就不會受到影響。
巴布亞新幾內(nèi)亞信息
許多 Stable Diffusion GUI,包括 AUTOMATIC1111,將生成參數(shù)寫入圖像 png 文件。這是一個方便的快速取回生成參數(shù)的函數(shù)。
如果圖像是由 AUTOMATIC1111 生成的,您可以使用發(fā)送到按鈕將參數(shù)快速復制到各個頁面。
當您在網(wǎng)絡(luò)上找到圖像并想查看提示是否留在文件中時,它很有用。
即使對于未生成的圖像,此功能也可能有幫助。您可以快速將圖像及其尺寸發(fā)送到頁面。
檢查點合并
AUTOMATIC1111 的檢查點合并用于合并兩個或多個模型。您最多可以組合 3 個模型來創(chuàng)建一個新模型。它通常用于混合兩個或多個模型的樣式。但是,不能保證合并結(jié)果。它有時會產(chǎn)生不需要的偽影。
主要模型(A、B、C):輸入模型。合并將根據(jù)顯示的公式完成。公式將根據(jù)所選的插值方法而改變。
插值方法:
無插值:僅使用模型 A。這用于文件轉(zhuǎn)換或替換VAE。
Weighted sum?: 合并兩個模型 A 和 B,對 B 應(yīng)用乘數(shù)權(quán)重 M。公式為 A * (1 – M) + B * M。
添加差異:使用公式 A + (B – C) * M ? ? ?合并三個模型。
檢查點格式
ckpt:原始檢查點模型格式。
safetensors:SafeTensors是 ? ? ?Hugging Face 開發(fā)的一種新的模型格式。它是安全的,因為與 ckpt 模型不同,加載 Safe Tensor 模型不會執(zhí)行任何惡意代碼,即使它們在模型中也是如此。
Bake in VAE:用所選的解碼器替換VAE 解碼器。它是為了用 Stability 發(fā)布的更好的版本替換原來的版本。
火車
訓練頁面用于訓練模型。它目前支持文本反轉(zhuǎn)(嵌入)和超網(wǎng)絡(luò)。我在使用 AUTOMATIC1111 進行訓練時運氣不好,所以我不會介紹這一部分。
設(shè)置
AUTOMATIC1111 的設(shè)置頁面上有大量設(shè)置列表。我無法在本文中逐一介紹它們。這里有一些你想檢查的。
確保在更改任何設(shè)置后單擊應(yīng)用設(shè)置。
面部修復
確保選擇默認的面部恢復方法。CodeFormer是一個很好的工具??梢宰孕邢螺d。