Decrypt 穩(wěn)定擴(kuò)散指南：最強(qiáng)大的 AI 圖像生成開源工具

2023-08-20 15:30 作者:科技前沿AI 0人讀過(guò) | 我要投稿

Stable Diffusion?是一種文本到圖像生成人工智能工具，這意味著它將文字轉(zhuǎn)換為圖像。這個(gè)過(guò)程類似于將詳細(xì)的簡(jiǎn)介郵寄給一位畫家，然后等待精心創(chuàng)作的藝術(shù)品的返回。

將穩(wěn)定擴(kuò)散視為你個(gè)人的基于人工智能的創(chuàng)意盟友。這種深度學(xué)習(xí)模型主要是為了根據(jù)文本提示生成圖像而設(shè)計(jì)的，它超越了單一功能。它還可用于修復(fù)（更改圖像的部分）、覆蓋（將圖像擴(kuò)展到其現(xiàn)有邊界之外）以及根據(jù)文本提示翻譯圖像。這種多功能性相當(dāng)于擁有一位多才多藝的藝術(shù)家供你使用。

穩(wěn)定擴(kuò)散的力學(xué)

穩(wěn)定擴(kuò)散基于深度學(xué)習(xí)模型運(yùn)行，該模型根據(jù)文本描述制作圖像。其支柱是擴(kuò)散過(guò)程，其中圖像通過(guò)一系列步驟從隨機(jī)噪聲轉(zhuǎn)變?yōu)檫B貫圖像。該模型經(jīng)過(guò)訓(xùn)練可以引導(dǎo)每個(gè)階段，從而根據(jù)提供的文本提示指導(dǎo)從開始到完成的整個(gè)過(guò)程。

穩(wěn)定擴(kuò)散背后的中心思想是將噪聲（隨機(jī)性）轉(zhuǎn)換為圖像。該模型以一堆隨機(jī)噪聲（想象一下來(lái)自無(wú)信號(hào)電視的白噪聲的彩色版本）來(lái)啟動(dòng)該過(guò)程，然后在文本提示的影響下逐漸細(xì)化為可辨別的圖像。這種細(xì)化系統(tǒng)地進(jìn)行，穩(wěn)定地減少噪聲并增強(qiáng)細(xì)節(jié)，直到出現(xiàn)高質(zhì)量的圖像。

隨著擴(kuò)散過(guò)程的開始，初步階段在很大程度上決定了圖像的整體構(gòu)圖，隨后的關(guān)鍵字更改僅影響較小的部分。這強(qiáng)調(diào)需要仔細(xì)注意關(guān)鍵字權(quán)重和時(shí)間安排，以實(shí)現(xiàn)你想要的結(jié)果。

穩(wěn)定擴(kuò)散的優(yōu)點(diǎn)和缺點(diǎn)

穩(wěn)定擴(kuò)散的優(yōu)點(diǎn)之一是，它擅長(zhǎng)創(chuàng)建詳細(xì)的高質(zhì)量圖像，并根據(jù)特定提示進(jìn)行定制設(shè)計(jì)。它可以輕松地瀏覽各種藝術(shù)風(fēng)格，無(wú)縫融合不同藝術(shù)家的技術(shù)，并在不同的關(guān)鍵詞之間平滑過(guò)渡。

與 MidJourney等同類產(chǎn)品不同，Stable Diffusion 是免費(fèi)的，這對(duì)你的預(yù)算來(lái)說(shuō)是一個(gè)福音。它也是開源的，這意味著你可以根據(jù)需要對(duì)其進(jìn)行修改。無(wú)論你渴望創(chuàng)造未來(lái)派風(fēng)景還是動(dòng)漫風(fēng)格的圖像，穩(wěn)定擴(kuò)散都有一個(gè)適合你的模型。稍后我們將深入研究如何下載并根據(jù)你的喜好定制這些模型。

你可以離線運(yùn)行它，無(wú)需持續(xù)的互聯(lián)網(wǎng)連接或服務(wù)器訪問(wèn)，這使其成為注重隱私的用戶的寶貴工具。

然而，也有一些缺點(diǎn)，與?MidJourney?不同，Stable Diffusion 具有陡峭的學(xué)習(xí)曲線。要生成真正出色的圖像，你必須使用自定義模型、插件和一些提示工程。這有點(diǎn)像 Windows 與 Linux 的情況。

此外，該模型有時(shí)會(huì)表現(xiàn)出不可預(yù)見的關(guān)聯(lián)，從而導(dǎo)致意外的結(jié)果。提示中的輕微失誤可能會(huì)導(dǎo)致輸出出現(xiàn)重大偏差。例如，在提示中指定眼睛顏色可能會(huì)無(wú)意中影響生成的角色的種族（例如，藍(lán)眼睛通常與白種人相關(guān)）。因此，為了獲得最佳結(jié)果，必須深入了解其工作原理。

此外，提示中需要大量細(xì)節(jié)才能提供令人印象深刻的結(jié)果。與 MidJourney 不同，MidJourney在“一個(gè)美麗的女人在公園散步”等提示下表現(xiàn)良好，而穩(wěn)定擴(kuò)散需要對(duì)你希望（或不希望）在圖像中看到的所有內(nèi)容進(jìn)行全面描述。為冗長(zhǎng)、詳細(xì)的提示做好準(zhǔn)備。

操作穩(wěn)定擴(kuò)散

運(yùn)行穩(wěn)定擴(kuò)散的方法有多種，可以通過(guò)基于云的平臺(tái)，也可以直接在本地計(jì)算機(jī)上。?

以下是一些可讓你在云中測(cè)試它的在線平臺(tái)：

Leonardo AI：允許你嘗試不同的模型，其中一些模型模仿?MidJourney?的美學(xué)。

Sea Art：使用插件測(cè)試大量穩(wěn)定擴(kuò)散模型的好地方是其他高級(jí)工具。

Mage Space：提供穩(wěn)定擴(kuò)散版本 v1.5 和 2.1。盡管它有大量其他模型，但它需要會(huì)員資格。

Lexica：一個(gè)用戶友好的平臺(tái)，可指導(dǎo)你發(fā)現(xiàn)圖像的最佳提示。

Google Colabs：另一個(gè)易于訪問(wèn)的選項(xiàng)。

但是，如果你選擇本地安裝，請(qǐng)確保你的計(jì)算機(jī)具有必要的功能。

系統(tǒng)要求

要在本地運(yùn)行 Stable Diffusion，你的 PC 應(yīng)運(yùn)行 Windows 10 或更高版本，并且至少配備具有至少 4 GB VRAM 的獨(dú)立 Nvidia 顯卡 (GPU)、16GB RAM 和至少 10GB 可用空間。

為了獲得最佳體驗(yàn)，建議使用具有 12GB vRAM、32GB RAM 和高速 SSD 的 RTX GPU。磁盤空間將取決于你的具體需求：你計(jì)劃使用的模型和附加組件越多，你需要的空間就越多。一般來(lái)說(shuō)，模型需要 2GB 到 5GB 的空間。

使用自動(dòng) 1111 導(dǎo)航穩(wěn)定擴(kuò)散

當(dāng)你開始穩(wěn)定擴(kuò)散之旅時(shí)，選擇正確的圖形用戶界面 (GUI) 變得至關(guān)重要。在繪制方面，Invoke AI處于領(lǐng)先地位，而SD.Next 則注重效率。ComfyUI是一個(gè)基于節(jié)點(diǎn)的超輕量級(jí)選項(xiàng)，由于與新的 SDXL 兼容，最近獲得了很大的關(guān)注。然而，Automatic 1111以其流行性和用戶友好性成為最受歡迎的。讓我們深入探討如何開始使用 Automatic 1111。

運(yùn)行穩(wěn)定擴(kuò)散的兩個(gè)不同的 GUI（A1111 和 ComfyUI）

設(shè)置自動(dòng) 1111

由于此存儲(chǔ)庫(kù)上提供了一鍵式安裝程序，Automatic 1111 的安裝過(guò)程并不復(fù)雜。進(jìn)入 Github 頁(yè)面的“assets”部分，下載 .exe 文件并運(yùn)行它。這可能需要一些時(shí)間，所以請(qǐng)堅(jiān)持下去 - 請(qǐng)記住，耐心是關(guān)鍵。

成功安裝后，“A1111 WebUI”快捷方式將在新打開的文件夾中出現(xiàn)?？紤]將其固定到任務(wù)欄或創(chuàng)建桌面快捷方式以便于訪問(wèn)。單擊此快捷方式將啟動(dòng)穩(wěn)定擴(kuò)散，為你的創(chuàng)意命令做好準(zhǔn)備。

最好勾選以下復(fù)選框：自動(dòng)更新 WebUI（使程序保持最新）、自動(dòng)更新擴(kuò)展（保持插件和第三方工具更新），并且，如果你的電腦功能不是那么強(qiáng)大，還應(yīng)激活低 VRam (medvram) 和啟用 Xformers 的選項(xiàng)。

啟動(dòng) A1111 之前出現(xiàn)的屏幕
了解用戶界面

安裝了 A1111 的穩(wěn)定擴(kuò)散后，打開它時(shí)你將看到以下內(nèi)容

自動(dòng) 1111 GUI
但不要被嚇倒。以下是運(yùn)行穩(wěn)定擴(kuò)散時(shí)界面的簡(jiǎn)要瀏覽：

檢查點(diǎn)或模型：本質(zhì)上是 AI 圖像操作背后的核心，這些預(yù)先訓(xùn)練的穩(wěn)定擴(kuò)散權(quán)重可以與接受不同流派的不同藝術(shù)家進(jìn)行比較。一個(gè)人可能擅長(zhǎng)動(dòng)畫，而另一個(gè)人則擅長(zhǎng)現(xiàn)實(shí)主義。你在這里的選擇決定了你圖像的藝術(shù)風(fēng)格。

積極提示：這是你在形象中表達(dá)你想要的東西的地方。

否定提示：在此指定你不希望在你的作品中看到的內(nèi)容。

創(chuàng)建樣式：如果你希望將正面和負(fù)面提示的特定組合保存為“樣式”以供將來(lái)使用，請(qǐng)單擊此處進(jìn)行操作。

應(yīng)用樣式：將以前保存的樣式應(yīng)用到當(dāng)前提示。

生成：設(shè)置完所有參數(shù)后，單擊此處使你的圖像栩栩如生。

采樣步驟：此參數(shù)定義將隨機(jī)噪聲轉(zhuǎn)變?yōu)樽罱K圖像所采取的步驟。20 到 75 之間的范圍通常會(huì)產(chǎn)生良好的結(jié)果，25-50 是實(shí)用的中間值。

采樣方法：如果模型代表該程序的核心，那么采樣器就是一切背后的大腦。這是用于獲取提示、編碼器和每個(gè)參數(shù)并根據(jù)你的命令將噪聲轉(zhuǎn)換為連貫圖像的技術(shù)。有很多采樣器，但我們推薦“DDIM”用于快速渲染，只需幾個(gè)步驟，“Euler a”用于皮膚光滑的人的繪圖或照片，“DPM”用于詳細(xì)圖像（DPM++ 2M Karras 可能是一個(gè)不錯(cuò)的安全選擇）。以下是使用穩(wěn)定擴(kuò)散的不同采樣方法獲得的結(jié)果的匯編。

批次計(jì)數(shù)：批次計(jì)數(shù)將一個(gè)接一個(gè)地運(yùn)行多批生成。這將允許你使用相同的提示創(chuàng)建不同的圖像。這需要更長(zhǎng)的時(shí)間，但使用更少的 vRAM，因?yàn)槊總€(gè)圖像都是在前一個(gè)圖像完成后生成的

批次大小：這是每個(gè)批次中有多少并行圖像。這將為你提供更多圖像，速度更快，但也需要更多 vRAM 來(lái)處理，因?yàn)樗鼤?huì)在同一代中生成任何圖像。

CFG比例：它決定了模型的創(chuàng)作自由度，在遵循你的提示和自己的想象力之間取得平衡。較低的 CFG 將使模型忽略你的提示并更具創(chuàng)造性，較高的 CFG 會(huì)使其完全沒(méi)有自由地堅(jiān)持下去。5 到 12 之間的值通常是安全的，7.5 提供可靠的中間值。

寬度和高度：在此處指定圖像尺寸。起始分辨率可以是 512X512、512X768、768x512 或 768x768。對(duì)于 SDXL（Stability AI 的最新型號(hào)），基本分辨率為 1024x1024

種子：將其視為圖像的唯一 ID，為初始隨機(jī)噪聲設(shè)置參考。如果你打算復(fù)制特定結(jié)果，這一點(diǎn)至關(guān)重要。此外，每個(gè)圖像都有一個(gè)獨(dú)特的種子，這就是為什么不可能真正 100% 復(fù)制特定的現(xiàn)實(shí)生活圖像 - 因?yàn)樗鼈儧](méi)有種子。

骰子圖標(biāo)：將種子設(shè)置為 -1，使其隨機(jī)化。這保證了每個(gè)圖像生成的唯一性。

回收?qǐng)D標(biāo)：保留上次圖像生成的種子。

腳本：它是執(zhí)行影響你的工作流程的高級(jí)指令的平臺(tái)。作為初學(xué)者，你可能希望暫時(shí)保持不變。

保存：將生成的圖像保存在你選擇的文件夾中。請(qǐng)注意，穩(wěn)定擴(kuò)散還會(huì)自動(dòng)將圖像保存在其專用的“輸出”文件夾中。

發(fā)送到 img2img：將你的輸出發(fā)送到 img2img 選項(xiàng)卡，使其成為類似它的新一代的參考。

發(fā)送到修復(fù)：將圖像定向到修復(fù)選項(xiàng)卡，使你能夠修改特定圖像區(qū)域，例如眼睛、手或偽像。

發(fā)送到額外內(nèi)容：此操作會(huì)將你的圖像重新定位到“額外內(nèi)容”選項(xiàng)卡，你可以在其中調(diào)整圖像大小，而不會(huì)丟失大量細(xì)節(jié)。

就是這樣——一切都準(zhǔn)備好了！現(xiàn)在，讓你的創(chuàng)造力盡情發(fā)揮，見證穩(wěn)定擴(kuò)散的神奇魅力。

提示工程 101：如何為 SD v1.5 制作良好的提示

穩(wěn)定擴(kuò)散的成功很大程度上取決于你的提示——將其視為引導(dǎo)人工智能的指南針。細(xì)節(jié)越豐富，生成的圖像就越準(zhǔn)確。

快速制作有時(shí)可能看起來(lái)令人畏懼，因?yàn)榉€(wěn)定擴(kuò)散不遵循線性模式。這是一個(gè)充滿嘗試和錯(cuò)誤的過(guò)程。從提示開始，生成圖像，選擇你喜歡的輸出，修改你珍惜或希望消除的元素，然后重新開始。沖洗并重復(fù)這個(gè)過(guò)程，直到你的杰作通過(guò)修復(fù)調(diào)整和不懈的改進(jìn)而出現(xiàn)。

正面提示、負(fù)面提示和微調(diào)關(guān)鍵詞權(quán)重

Stable Diffusion 的設(shè)計(jì)可以通過(guò)語(yǔ)法（關(guān)鍵字：因子）調(diào)整關(guān)鍵字權(quán)重。低于 1 的因素會(huì)淡化其重要性，而高于 1 的因素會(huì)放大其重要性。要操縱權(quán)重，請(qǐng)選擇特定關(guān)鍵字并按 Ctrl+Up 增加或按 Ctrl+Down 減少。此外，你可以使用括號(hào)——使用的越多，關(guān)鍵字的權(quán)重就越大。

修飾符為你的圖像添加最后的華麗，指定情緒、風(fēng)格或細(xì)節(jié)（如“黑暗、復(fù)雜、高度詳細(xì)、清晰的焦點(diǎn)”）等元素。

積極的提示概述了你想要的元素?？焖贅?gòu)建的可靠策略是按順序指定圖像類型、主題、媒介、風(fēng)格、背景或風(fēng)景、藝術(shù)家、使用的工具和分辨率。civita.com 的演示可以是“真實(shí)感渲染、（數(shù)字繪畫）、（最佳質(zhì)量）、寧?kù)o的日本花園、盛開的櫻花、（（（錦鯉池）））、人行橋、寶塔、浮世繪藝術(shù)風(fēng)格，北齋靈感，異常藝術(shù)流行，8k超寫實(shí)，柔和的配色方案，柔和的燈光，黃金時(shí)刻，寧?kù)o的氛圍，風(fēng)景導(dǎo)向”

相反，負(fù)面提示詳細(xì)說(shuō)明了你希望從圖像中排除的所有內(nèi)容。示例包括：暗淡的顏色、丑陋、糟糕的手、太多的手指、NSFW、融合的四肢、最差的質(zhì)量、低質(zhì)量、模糊、水印、文本、低分辨率、長(zhǎng)脖子、超出框架、多余的手指、變異的手、單色、丑陋的、重復(fù)的、病態(tài)的、不良的解剖結(jié)構(gòu)、不良的比例、毀容、低分辨率、變形的手、變形的腳、變形的臉、變形的身體部位、（（相同的發(fā)型））等。不要害怕用不同的詞。

考慮提示的一個(gè)好方法是“What+SVCM（主語(yǔ)、動(dòng)詞、上下文、修飾語(yǔ)）?”結(jié)構(gòu)：

內(nèi)容：確定你想要的內(nèi)容：肖像、照片、插圖、繪畫等。

主題：描述你正在考慮的主題：一個(gè)美麗的女人、一個(gè)超級(jí)英雄、一個(gè)亞洲老人、一個(gè)黑人士兵、小孩、美麗的風(fēng)景。

動(dòng)詞：描述拍攝對(duì)象正在做什么：女人正在對(duì)著鏡頭擺姿勢(shì)嗎？超級(jí)英雄是飛還是跑？亞洲人是微笑還是跳躍？?

背景：描述你的想法中的場(chǎng)景：場(chǎng)景發(fā)生在哪里？在公園、在教室、在擁擠的城市？盡可能具有描述性

修改器：添加有關(guān)圖像的附加信息：如果是圖片，則使用哪個(gè)鏡頭。如果是一幅畫，是哪位藝術(shù)家畫的？使用哪種類型的照明，哪個(gè)地點(diǎn)會(huì)采用這種照明？你正在考慮哪種服裝或時(shí)尚風(fēng)格，圖像嚇人嗎？這些概念用逗號(hào)分隔。但請(qǐng)記住，越接近開始，它們?cè)谧罱K作品中就越突出。如果你不知道從哪里開始，如果你不想只是復(fù)制/粘貼其他人的提示，這個(gè)網(wǎng)站和這個(gè)Github 存儲(chǔ)庫(kù)有很多好主意供你嘗試

因此，積極提示的一個(gè)例子可以是：在一家昂貴的酒店里對(duì)著鏡頭擺姿勢(shì)的可愛貴賓犬的肖像，(((黑尾巴)))、秋天、散景、杰作、強(qiáng)光、膠片顆粒、佳能 5d 標(biāo)記4、F/1.8、Agfacolor、虛幻引擎。

否定提示不需要適當(dāng)?shù)慕Y(jié)構(gòu)，只需添加你不喜歡的所有內(nèi)容，就好像它們是修飾符一樣。如果你生成圖片并看到一些你不喜歡的內(nèi)容，只需將其添加到否定提示中，重新運(yùn)行生成并評(píng)估結(jié)果即可。這就是人工智能圖像生成的原理，這并不是什么奇跡。負(fù)面提示的一個(gè)例子可以是：模糊、畫得不好、貓、人類、人、素描、恐怖、丑陋、病態(tài)、變形、標(biāo)志、文本、不良解剖學(xué)、不良比例

關(guān)鍵詞整合和及時(shí)安排

關(guān)鍵字混合或提示調(diào)度采用語(yǔ)法[關(guān)鍵字1：關(guān)鍵字2：因子]。該因子是一個(gè)介于 0 和 1 之間的數(shù)字，決定在哪一步從關(guān)鍵字 1 切換到關(guān)鍵字 2。

懶惰的出路：復(fù)制提示

如果你不確定從哪里開始，請(qǐng)考慮利用各個(gè)網(wǎng)站的想法并進(jìn)行調(diào)整以滿足你的需求。提示的優(yōu)秀來(lái)源包括：

奇維泰

詞典

穩(wěn)定的擴(kuò)散網(wǎng)

提示英雄

或者，保存你欣賞的人工智能生成的圖像，將其拖放到“PNG 信息”選項(xiàng)卡上，穩(wěn)定擴(kuò)散會(huì)提供重新創(chuàng)建它的提示和相關(guān)信息。如果圖像不是 AI 生成的，請(qǐng)考慮使用 CLIP Interrogator 插件來(lái)更好地理解其描述。有關(guān)此附加組件的更多詳細(xì)信息將在指南后面提供。

避免陷阱

穩(wěn)定擴(kuò)散的效果取決于它給出的提示。注重細(xì)節(jié)和準(zhǔn)確性，提供清晰具體的提示并重視概念而不是解釋至關(guān)重要。不要精心設(shè)計(jì)一個(gè)句子來(lái)描述寬敞、自然光線充足的場(chǎng)景，而只需說(shuō)“寬敞、自然光線”。

請(qǐng)注意某些屬性可能帶來(lái)的意外關(guān)聯(lián)，例如指定眼睛顏色時(shí)的特定種族。對(duì)這些潛在陷阱保持警惕可以幫助你制定更有效的提示。

請(qǐng)記住，你的指示越具體，你的結(jié)果就越容易控制。但是，如果你假裝創(chuàng)建長(zhǎng)提示，請(qǐng)務(wù)必小心，因?yàn)槭褂妹艿年P(guān)鍵字（例如長(zhǎng)發(fā)，然后對(duì)頭發(fā)進(jìn)行排序，或者否定提示中的模糊和肯定提示中的模糊）可能會(huì)導(dǎo)致意外結(jié)果：

安裝新模型

安裝模型是一個(gè)簡(jiǎn)單的過(guò)程。首先確定適合你需求的模型。Civita 是一個(gè)很好的起點(diǎn)，它以最大的穩(wěn)定擴(kuò)散工具存儲(chǔ)庫(kù)而聞名。與其他替代方案不同，Civita 鼓勵(lì)社區(qū)分享他們的經(jīng)驗(yàn)，為模型的功能提供視覺參考。

訪問(wèn) Civita，單擊過(guò)濾器圖標(biāo)，然后在“模型類型”部分中選擇“檢查點(diǎn)”。

Civitai 使用過(guò)濾器讓用戶個(gè)性化搜索/Jose Lanz/Decrypt Media
然后，瀏覽網(wǎng)站上所有可用的模型。請(qǐng)記住，穩(wěn)定擴(kuò)散未經(jīng)審查，你可能會(huì)遇到 NSFW 內(nèi)容。選擇你喜歡的型號(hào)并單擊下載。確保模型具有 .safetensor 擴(kuò)展名以確保安全（舊模型使用 .ckpt 擴(kuò)展名，但不太安全）。

從 Civitai 下載特定自定義 SD v1.5 模型的頁(yè)面示例。
下載后，將其放入本地 Automatic 1111 的模型文件夾中。為此，請(qǐng)導(dǎo)航到安裝 A111 Stable Diffusion 的文件夾，然后按照以下路線操作：“stable-diffusion-webuimodelsStable-diffusion”

有數(shù)百種型號(hào)可供選擇，但作為參考，我們的一些首選是：?

如果你想玩逼真的圖像，請(qǐng)使用 Juggernaut、Photon、Realistic Vision 和 aZovya Photoreal。

Dreamshaper、RevAnimated 以及 DucHaiten 的所有模型（如果你喜歡 3d 藝術(shù)）。

DuelComicMix、DucHaitenAnime、iCoMix、DucHaitenAnime 如果你喜歡漫畫和漫畫等 2D 藝術(shù)。

編輯圖像：圖像到圖像和修復(fù)（待辦事項(xiàng)）

穩(wěn)定擴(kuò)散還允許你使用 AI 編輯你不喜歡的圖像。你可能想要更改構(gòu)圖的藝術(shù)風(fēng)格，在天空中添加鳥類，刪除人工制品，或修改手指過(guò)多的手。為此，有兩種技術(shù)：圖像到圖像和修復(fù)。

由 Stable Diffusion（右）基于用作參考的照片（左）使用 Img2img/Jose Lanz 創(chuàng)建的圖像
圖像到圖像本質(zhì)上是讓穩(wěn)定擴(kuò)散使用另一張圖片作為參考來(lái)創(chuàng)建新圖像，無(wú)論它是真實(shí)圖像還是你創(chuàng)建的圖像。為此，只需單擊圖像到圖像 (Img2Img) 選項(xiàng)卡，將參考圖像放入相應(yīng)的框中，創(chuàng)建你希望計(jì)算機(jī)遵循的提示，然后單擊生成。需要注意的是，你應(yīng)用的降噪強(qiáng)度越大，新圖像與原始圖像的相似程度就越低，因?yàn)榉€(wěn)定擴(kuò)散將具有更多的創(chuàng)作自由度。

知道了這一點(diǎn)，你可以做一些很酷的技巧，比如掃描你祖父母的舊照片作為參考，通過(guò)低降噪強(qiáng)度的穩(wěn)定擴(kuò)散和一個(gè)非?；\統(tǒng)的提示（如“RAW，4k 圖像，高度詳細(xì)”）運(yùn)行它們，看看如何人工智能重建你的照片。

修復(fù)允許你在原始圖像中繪制或編輯內(nèi)容。為此，從同一個(gè) Img2Img 選項(xiàng)卡中，選擇修復(fù)選項(xiàng)并將參考繪畫放置在那里。

然后，你只需繪制要編輯的區(qū)域（例如，角色的頭發(fā)）并添加要?jiǎng)?chuàng)建的提示（例如，直長(zhǎng)的金發(fā)），就完成了！

使用修復(fù)在金發(fā)女超人的參考圖像上編輯藍(lán)色頭發(fā)。由 AI/Jose Lanz 生成
我們建議生成多批圖像，以便你可以選擇最喜歡的圖像并修改提示。然而，最后，如果你非常細(xì)心，手頭有一個(gè)像 Photoshop 這樣的工具總是有好處的，這樣可以得到完美的結(jié)果。

增強(qiáng)穩(wěn)定擴(kuò)散功能的 5 大擴(kuò)展

現(xiàn)在你已經(jīng)熟悉了穩(wěn)定擴(kuò)散，你可能渴望進(jìn)一步發(fā)揮你的創(chuàng)造力。也許你想要固定特定的手部位置、強(qiáng)制模型生成五指手、指定某種類型的衣服、增強(qiáng)細(xì)節(jié)、使用特定的臉部，或者將小圖像轉(zhuǎn)換為大型 8K 文件，同時(shí)盡可能減少細(xì)節(jié)損失。

擴(kuò)展可以幫助你實(shí)現(xiàn)這些目標(biāo)。雖然有許多可用選項(xiàng)，但我們重點(diǎn)介紹了五個(gè)必備擴(kuò)展：

LoRA：細(xì)節(jié)決定成敗

不使用 LoRA 生成的圖像與使用 LoRA 生成的相同圖像以添加更多細(xì)節(jié)。
LoRA 是旨在增強(qiáng)模型特異性的文件，無(wú)需下載全新模型。這使你可以完善細(xì)節(jié)，采用特定的面孔、服裝或風(fēng)格。

要安裝 LoRA，請(qǐng)按照下列步驟操作：

單擊“擴(kuò)展”選項(xiàng)卡并選擇“從 URL 安裝”。

在框中輸入 URL：https:?//github.com/kohya-ss/sd-webui-additional-networks.git ，然后單擊“安裝”。

完成后，單擊“已安裝”，然后單擊“應(yīng)用并重新啟動(dòng) UI”。

安裝 LoRA 的步驟與安裝模型相同。在 Civitai 上，將過(guò)濾器設(shè)置為“LoRA”，并使用以下路徑將文件放入 LoRA 文件夾中：stable-diffusion-webuimodelsLora

請(qǐng)記住，某些 LoRA 需要在提示中輸入特定關(guān)鍵字才能激活，因此請(qǐng)務(wù)必在使用前閱讀其說(shuō)明。

要使用 LoRA，請(qǐng)導(dǎo)航到 text2img 選項(xiàng)卡，單擊類似小畫的圖標(biāo)（顯示/隱藏額外網(wǎng)絡(luò)），LoRA 將出現(xiàn)在提示下方。

ControlNet：釋放視覺魔法的力量

不使用 LoRA 生成的圖像與使用 LoRA 生成的相同圖像以添加更多細(xì)節(jié)。
如果你對(duì)穩(wěn)定擴(kuò)散的功能尚未做出決定，請(qǐng)讓 ControlNet 擴(kuò)展成為最終的答案。ControlNet 擁有巨大的多功能性和強(qiáng)大功能，使你能夠從參考圖像中提取構(gòu)圖，證明自己是圖像生成領(lǐng)域的游戲規(guī)則改變者。

ControlNet 確實(shí)是萬(wàn)事通。無(wú)論你是需要復(fù)制姿勢(shì)、模擬配色方案、重新設(shè)計(jì)你的生活空間、制作五指手、在不使 GPU 負(fù)擔(dān)過(guò)重的情況下執(zhí)行幾乎無(wú)限的升級(jí)，還是將簡(jiǎn)單的涂鴉轉(zhuǎn)變?yōu)榱钊梭@嘆的 3D 渲染或逼真的視覺效果，ControlNet 都可以為你提供幫助。方式。

安裝 ControlNet 涉及以下簡(jiǎn)單步驟：

訪問(wèn)擴(kuò)展頁(yè)面并選擇“從 URL 安裝”選項(xiàng)卡。

將以下 URL 粘貼到“擴(kuò)展存儲(chǔ)庫(kù)的 URL”字段中：https:?//github.com/Mikubill/sd-webui-controlnet

單擊“安裝”。

關(guān)閉穩(wěn)定擴(kuò)散界面。

要啟用 ControlNet，你需要從此存儲(chǔ)庫(kù)下載模型：https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main

然后，將所有下載的文件復(fù)制到此文件夾中：stable-diffusion-webuiextensionssd-webui-controlnetmodels

重新啟動(dòng)穩(wěn)定擴(kuò)散后，你會(huì)注意到 text2img 選項(xiàng)卡中出現(xiàn)了一個(gè)新的“ControlNet”部分。?

向你提供兩個(gè)主要選項(xiàng)：用于拖放參考圖像的框、控件類型選擇和預(yù)處理器。

“參考圖像框”是你上傳想要參考的姿勢(shì)、臉部、色彩構(gòu)成、結(jié)構(gòu)等的圖像的地方。

“控制類型選擇”是 ControlNet 魔法發(fā)生的地方。此功能允許你確定要復(fù)制或控制的內(nèi)容。

你還有其他更高級(jí)的選項(xiàng)可讓你微調(diào)結(jié)果：預(yù)處理器（用于激活控制網(wǎng)的技術(shù)）、權(quán)重（你的參考有多重要）和開始/結(jié)束點(diǎn)（控制網(wǎng)何時(shí)開始/結(jié)束其影響）

以下是每種控件類型的功能的快速概述：

OpenPose：精確定位身體的關(guān)鍵部位并復(fù)制姿勢(shì)。你可以使用預(yù)處理器選擇整個(gè)身體、面部或手部的姿勢(shì)。

Canny：將你的參考圖像轉(zhuǎn)換為帶有細(xì)線的黑白涂鴉。這允許你的創(chuàng)作遵循這些線條作為邊緣，從而與你的參考準(zhǔn)確相似。

深度：生成“深度圖”以創(chuàng)建圖像的 3D 印象，區(qū)分近處和遠(yuǎn)處的對(duì)象 - 非常適合模仿 3D 電影鏡頭和場(chǎng)景。

法線：法線貼圖推斷表面的方向，非常適合為盔甲、織物和外部結(jié)構(gòu)等對(duì)象提供紋理。

MLSD：識(shí)別直線，非常適合再現(xiàn)建筑設(shè)計(jì)。

藝術(shù)線條：將圖像轉(zhuǎn)換為繪圖 - 對(duì)于動(dòng)漫和卡通等 2D 視覺效果非常有用。

Softedge：與 Canny 模型類似，但邊緣更柔和，為模型提供更多自由度，但精度稍低。

涂鴉：將圖像轉(zhuǎn)換為涂鴉，產(chǎn)生比 Canny 模型更通用的結(jié)果。此外，你還可以在繪畫上創(chuàng)建涂鴉，并將其用作參考，無(wú)需預(yù)處理器即可將圖像變成現(xiàn)實(shí)的創(chuàng)作。

分割：創(chuàng)建圖像的顏色圖，推斷其中的對(duì)象。每種顏色代表一種特定的物體。你可以使用它來(lái)重新裝飾你的圖像，或者重新想象具有相同概念的場(chǎng)景（例如，將 1800 年代的照片變成賽博朋克替代現(xiàn)實(shí)中相同風(fēng)景的逼真描繪，或者只是用不同的床、墻壁重新裝飾你的房間不同顏色等）

平鋪：向圖片添加細(xì)節(jié)并促進(jìn)放大，而不會(huì)使 GPU 負(fù)擔(dān)過(guò)重。

修復(fù)：修改圖像或擴(kuò)展其細(xì)節(jié)?，F(xiàn)在，借助最近的更新和“僅修復(fù) + 駱駝”模型，你可以極其注重細(xì)節(jié)地繪制圖像

隨機(jī)播放：再現(xiàn)參考圖像的顏色結(jié)構(gòu)。

參考：生成在風(fēng)格、構(gòu)圖和偶爾的面孔方面與你的參考相似的圖像。

T2IA：讓你控制圖像的顏色和藝術(shù)構(gòu)圖。

掌握這些選項(xiàng)可能需要時(shí)間，但它們提供的靈活性和定制性值得付出努力。在線查看各種教程和指導(dǎo)視頻，以充分利用 ControlNet。

Roop：Deepfakes觸手可及

Roop 提供了一種輕松的方法來(lái)生成逼真的深度贗品。Roop 無(wú)需處理復(fù)雜的模型或 LoRA，而是可以處理繁重的工作，使你只需單擊幾下即可創(chuàng)建高質(zhì)量的深度贗品。

要下載并激活，請(qǐng)按照官方 Roop Github 存儲(chǔ)庫(kù)上的說(shuō)明進(jìn)行操作

要使用它，請(qǐng)創(chuàng)建提示，導(dǎo)航到 Roop 菜單，上傳參考面，啟用它，然后生成圖像。為了獲得最佳效果，請(qǐng)使用你想要復(fù)制的臉部的高分辨率正面照片。請(qǐng)記住，同一個(gè)人的不同圖像可能會(huì)產(chǎn)生不同的結(jié)果 - 有些比其他圖像更逼真。

Photopea：Photoshop 穩(wěn)定擴(kuò)散的力量

Photopea 擴(kuò)展在 A1111 內(nèi)部的外觀

有時(shí)，需要手動(dòng)調(diào)整才能獲得完美的結(jié)果，這就是 Photopea 的用武之地。此擴(kuò)展將類似 Photoshop 的功能直接引入穩(wěn)定擴(kuò)散界面，使你無(wú)需切換平臺(tái)即可微調(diào)生成的圖像。

你可以從此存儲(chǔ)庫(kù)安裝 Photopea：https://github.com/yankoliveira/sd-webui-photopea-embed

CLIP 詢問(wèn)器：從任何圖像創(chuàng)建提示

如果你不知道從哪里開始使用提示，那么這是一個(gè)很棒的工具。拍攝一張圖像，將其放入框中，運(yùn)行詢問(wèn)器，它會(huì)告訴你哪些單詞可以與你提供的圖像相關(guān)聯(lián)。

CLIP Interrogator 是一個(gè)方便的工具，用于從特定圖像中導(dǎo)出關(guān)鍵字。通過(guò)結(jié)合 OpenAI 的 CLIP 和 Salesforce 的 BLIP，該擴(kuò)展可以生成與給定參考圖像匹配的文本提示。

你可以從此存儲(chǔ)庫(kù)安裝：https://github.com/pharmapsychotic/clip-interrogator-ext.git

結(jié)論

通過(guò)穩(wěn)定擴(kuò)散，你將成為視覺管弦樂(lè)隊(duì)的大師。無(wú)論是“艾瑪·沃特森作為女巫的超現(xiàn)實(shí)肖像”還是“幻想環(huán)境中海盜的復(fù)雜數(shù)字繪畫”，唯一的限制就是你的想象力。?

現(xiàn)在，用你新發(fā)現(xiàn)的知識(shí)武裝起來(lái)，繼續(xù)將你的夢(mèng)想描繪成現(xiàn)實(shí)，一次一個(gè)文本提示。

由 Decrypt 使用 AI/Jose Lanz 創(chuàng)建的圖像

標(biāo)簽：

我喜歡()

本文作者的其他文章

Decrypt 穩(wěn)定擴(kuò)散指南：最強(qiáng)大的 AI 圖像生成開源工具的評(píng)論 (共條)

分享到微博請(qǐng)遵守國(guó)家法律

科技前沿AI
發(fā)短消息
 關(guān)注TA

你可能也喜歡這些文章

成都金摘葉旅游：帶你探尋中國(guó)之美
4級(jí)賽拉斯秒滿血5級(jí)劍圣？8級(jí)滿血蛇女被6級(jí)輔助一套瞬秒？配合AD進(jìn)場(chǎng)滿血就是斬
這是我公測(cè)下的單
你準(zhǔn)備好享受這場(chǎng)視覺盛宴了嗎——第一視角5號(hào)飛翼
山西/安徽/甘肅九師聯(lián)盟2023-2024學(xué)年高三教學(xué)質(zhì)量監(jiān)測(cè)8月開學(xué)考
植物細(xì)胞工程考點(diǎn)題型總結(jié)—高考就這么出~ 【選必三】|考點(diǎn)精華
姐姐試吃奶瓶糖果，這味道很不錯(cuò)
【鐵銹戰(zhàn)爭(zhēng)教學(xué)】一期視頻教會(huì)你使用所有陸軍單位！
普通家庭有必要變更峰谷電嗎？
別老抱怨學(xué)不好，基礎(chǔ)你得這樣搞?。钫?高考化學(xué)

最新發(fā)布的文章

農(nóng)發(fā)行河津市支行做好年終決算工作
農(nóng)發(fā)行河津市支行持續(xù)加強(qiáng)反洗錢工作管理
農(nóng)發(fā)行河津市支行扎實(shí)做好安保工作
農(nóng)發(fā)行河津市支行組織開展憲法主題宣傳活動(dòng)
農(nóng)發(fā)行河津市支行開展"挺膺擔(dān)當(dāng)，強(qiáng)國(guó)復(fù)興"主題團(tuán)日活動(dòng)
年終總結(jié)2023，布局2024，挑一個(gè)目標(biāo)置頂一整年！
12月20日維護(hù)結(jié)束，冰雪嘉年華開啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時(shí)尚 | 時(shí)尚趨勢(shì)是如何做出來(lái)的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機(jī)身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報(bào)
致命公司多人聯(lián)機(jī)mod，漢化游戲下載使用安裝教學(xué)！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網(wǎng)下載卡在45%登錄失敗提示2045報(bào)錯(cuò)/戰(zhàn)網(wǎng)一鍵下載注冊(cè)教程！

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Decrypt 穩(wěn)定擴(kuò)散指南：最強(qiáng)大的 AI 圖像生成開源工具

本文作者的其他文章

Decrypt 穩(wěn)定擴(kuò)散指南：最強(qiáng)大的 AI 圖像生成開源工具的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

Decrypt 穩(wěn)定擴(kuò)散指南：最強(qiáng)大的 AI 圖像生成開源工具的評(píng)論 (共條)