通過穩(wěn)定擴散(Stable Diffusion)獲得酷圖像的初級/中級指南
介紹
所以你已經(jīng)采取了行動并安裝了穩(wěn)定擴散。但這不太像 Dalle2。到處都是滑塊、不同的擴散器、種子……足以讓任何人頭暈目眩。但別擔心。一旦你熟悉了這些設置,它們將為你帶來更好的體驗。在本指南中,我將討論如何使用穩(wěn)定擴散生成 text2image 圖稿。我將介紹基本的提示理論、不同設置的作用以及在什么情況下你可能需要調整設置。
CFG(分類器免費指導):8
采樣步數(shù):50
采樣方法:k_lms
隨機種子
這些設置完全適合各種提示。這至少會讓你玩得很開心。保存這篇文章,當你準備好時再回到本指南。
?
提示
提示可以很容易地成為一個單獨的帖子(如果你喜歡這篇文章并希望我致力于此,請告訴我)。但我可以在這里回顧一些好的做法和粗略的內容。
?
擁有人工智能圖像存儲庫并包含提示和設置(例如https://lexica.art/)的網(wǎng)站就是你的上帝。翻閱這里并尋找與你想要的類似的東西?;蛘咧皇亲屪约菏艿絾l(fā)。記下提示中使用的可生成良好圖像的短語。肆意偷竊?;煲?。逐字竊取他們的提示,然后除掉一名藝術家。會發(fā)生什么?玩得開心。最終,在穩(wěn)定擴散中創(chuàng)建圖像的過程是自我驅動的。我無法告訴你該怎么做。
?
你可以在提示中一次性添加任意數(shù)量的內容。不需要一次添加一個短語來查看模型的反應。該模型喜歡震撼和敬畏。通常,提示越長、越詳細,結果就越好?;c時間具體一點。我的理論是,人們不會浪費時間詳細描述他們不喜歡的圖像。人工智能經(jīng)過奇怪的直覺訓練,可以看到“哇這個人對這件作品有很多話要說!”?作為“質量形象”。所以要大膽并具有描述性。請記住,每個提示都有一個令牌限制(我相信)75。為自己準備一個 GUI,它會告訴你何時達到此限制,否則你可能會用頭撞桌子:有些 GUI 會很樂意讓你添加盡可能多地提示你,同時默默地截斷結尾。
?
如果你的圖像在k_euler_a, 步驟 15, CFG 8?(我稍后會深入解釋這些設置)中看起來很糟糕(或者遠不及你想象的那樣),那么亂搞其他設置不會對你有太大幫助。根據(jù)提示返回繪圖板。在提示工程的早期階段,你主要關注情緒、構圖(主題如何在場景中布置)和顏色。本質上是你的口水。如果它看起來很糟糕,請?zhí)砑踊騽h除單詞和短語,直到它不再看起來很糟糕。嘗試調試出了什么問題。查看圖像并嘗試了解人工智能為何做出這樣的選擇。你的提示中總是有一個原因(盡管有時該原因可能完全難以理解)。
?
請允許我簡單介紹一下在提示中使用藝術家姓名:使用它們。他們有很大的不同。研究藝術家的技巧也能產(chǎn)生很棒的提示短語。了解粉絲和藝術評論家對藝術家的評價。他們如何描述他們的工作?
?
?
請記住標記化:
可怕的沼澤,黑暗,可怕,格雷格·魯特科斯基
此提示是標記提示的一種可能方法的示例。看到我如何用逗號將描述與心情和藝術家分開了嗎?你可以這樣做,但你不必這樣做?!澳碌稀じ窭赘瘛斕乜扑够髌贰倍皇恰案窭赘瘛斕乜扑够币埠芸岫矣行А;蛘摺案窭赘瘛斕乜扑够慕巧拍钏囆g”。這些類型的變化會對你們幾代人產(chǎn)生巨大的影響。要有創(chuàng)意。
?
只要記住順序問題即可。提示前面的內容比提示后面的內容權重更大。如果我看到上面的提示并決定想要獲得更多的 greg 影響力,我可以重新排序:
格雷格·魯特科斯基,黑暗,可怕的沼澤,可怕
本質上,提示的每個塊都是一個滑塊,你可以通過在提示中物理移動它來移動它。如果你的臉不夠詳細?在前面添加諸如“高度詳細的對稱面”之類的內容。你的作品有點太暗了?將提示中的“?dark?”移動到最后。AI也注重強調!如果提示中的某些內容對你很重要,請重復得令人厭煩。就像如果我正在想象一個恐怖的作品并且認為上述提示的結果不夠可怕,我可能會將其更改為:
格雷格·魯特科斯基,黑暗,超現(xiàn)實的可怕沼澤,可怕,恐怖,光線不足
?
想象一下,你正試圖獲得一個獨角獸的玻璃雕塑。你可以添加“玻璃,略透明,由玻璃制成”。同樣的重復想法也適用于質量。這就是為什么你會看到許多類似以下的提示:
格雷格·魯特科斯基,高度詳細,黑暗,超現(xiàn)實的可怕沼澤,可怕,恐怖,光線不足,藝術站上的趨勢,令人難以置信的構圖,杰作
請記住,將“質量術語”放在提示符的前面會使人工智能首先關注質量,因為順序很重要。成為你的提示的粉絲。當你輸入提示時,請表現(xiàn)出你很興奮的樣子。使用你在現(xiàn)實生活中使用的自然語言或自命不凡的廢話。兩者都有效。取決于你要查找的圖像類型。真正嘗試描述你的心靈之眼,不要遺漏情緒詞。
?
PS:在我的實驗中,大小寫并不重要。括號和方括號并不重要。感嘆號之所以起作用,只是因為人工智能認為你真的對這個特定的詞感到興奮。一般來說,像人類一樣編寫提示。人工智能接受了人類如何談論藝術的訓練。
?
歸根結底,提示是一種技能。它需要練習、藝術的眼光和詩意的心。你應該談論想法、隱喻、情感和能量。你的提示能力是別人無法竊取的。因此,如果你共享圖像,請共享你的提示和設置。每個提示都是一支獨特的筆。但這是一支可以通過超級創(chuàng)造力的人工智能和人類集體智慧無限重新組合的筆。我們越多地共同努力生成很酷的提示并看看什么效果最好,我們就會越好。這就是我寫這篇文章的原因。我可以坐在地下室里像一個咯咯笑的妖精一樣囤積我的知識,但我希望每個人都能做得更好。
?
無分類器指導 (CFG)
可能是穩(wěn)定擴散中最酷的單一術語。CFG 衡量人工智能會聽你的提示與做自己的事情的程度。實際上,它衡量的是你對提示的信心程度。這是 CFG 值的內部檢查:
?
·???????? CFG 2 - 6:讓 AI 掌舵。
·???????? CFG 7 - 11:讓我們合作吧,AI!
·???????? CFG 12 - 15:不,說真的,這是一個很好的提示。照我說的做吧,人工智能。
·???????? CFG 16 - 20:按照我說的做,否則,人工智能。
?
所有這些都是有效的選擇。這僅取決于你在流程中的位置。我建議大多數(shù)人主要堅持 CFG 7-11 范圍,除非你真的覺得你的提示很棒并且人工智能忽略了其中的重要元素(盡管它可能只是不理解)。如果你能讓我講一下我的肥皂盒,我相信我們正在進入人工智能歷史的一個階段,在這個階段,人機合作將是我們獲得最佳結果的地方,而不是單獨的人工智能或人類。CFG 7-11 系列代表了這種合作。
?
你越覺得你的提示很糟糕,你就越想嘗試 CFG 2-6。對人工智能向你展示的內容持開放態(tài)度。有時你可能會說“嗯,這實際上是一個有趣的想法”。相應地修改你的提示。在這個級別,人工智能甚至可以在最糟糕的提示下運行。歸根結底,人工智能是一個極具創(chuàng)造力的實體,它吸收了互聯(lián)網(wǎng)上的大部分人類藝術。它對藝術略知一二。所以相信它。
?
強大的提示可以在 CFG 15-20 中生存。但就像我上面說的,CFG 15-20 就是你對 AI 尖叫。有時人工智能會發(fā)脾氣(很少有人喜歡被吼叫)并說“閉嘴,你的提示太糟糕了。我無法處理這個!”?過去的 CFG 15。如果你在 CFG 15 上的結果看起來很糟糕,但你仍然認為自己有一個很好的提示,你可能想嘗試 CFG 12。CFG 12 是同一想法的更柔和、更具協(xié)作性的版本。
?
關于CFG還有一件事。CFG 將改變人工智能對你的提示的反應程度。似乎很明顯,但有時如果你在 CFG 7 中對復雜的提示進行更改,你會在 CFG 12-15 中看到更顯著的更改。如果你喜歡所看到的,那么這不是不入住 CFG 7 的理由,只是需要記住一些事情。
?
抽樣方法/抽樣步驟/批次計數(shù)
這些是緊密相連的,所以我把它們捆綁在一起。采樣步驟和采樣方法屬于技術性內容,因此我不會深入探討它們實際上在幕后做什么。我將主要關注它們如何影響你們幾代人。這些也經(jīng)常被誤解,我們對這個領域“最好”的理解也在不斷變化。因此,請對這一節(jié)持保留態(tài)度。我只會給你一些好的實踐來幫助你開始。我也不打算談論每個采樣器。就我所熟悉的那些。
?
k_lms:老可靠
如果你的提示很好的話,k_lms 在 50 步的情況下大多數(shù)時候都會給你帶來很好的生成。k_lms 運行得非???,因此結果也會以很快的速度出現(xiàn)。你可以輕松地在 CFG 7-8 中永遠堅持此設置,就可以了。如果事情看起來有點糟糕,你可以嘗試更高的步長值,例如 80。但是,根據(jù)經(jīng)驗,請確保較高的步長值實際上會給你帶來好處,而不僅僅是浪費你的時間。時間。你可以通過保持種子和其他設置穩(wěn)定并上下改變步數(shù)來檢查這一點。你可能會對低步數(shù)的作用感到震驚。我對那些說他們每一代人都是 150 步的人非常懷疑。
?
DDIM:速度惡魔
DDIM 的 8 個步驟(是的,你沒有看錯。8 個步驟)可以讓你以極快的速度獲得出色的結果。這是快速生成大量圖像的絕佳設置。當我測試新的提示創(chuàng)意時,我會將 DDIM 設置為 8 個步驟并生成一批 4-9 個圖像。這給你一個夢幻般的鳥瞰你的提示在多個種子上的表現(xiàn)。這是快速提示修改的絕佳設置。你可以在 DDIM:8 的提示中添加一個單詞,并在不到 5 秒的時間內查看它如何影響種子的輸出(取決于顯卡)。對于更復雜的提示,DDIM 可能需要更多幫助。如果你的輸出仍然看起來亂碼(或者是提示問題?),請隨意增加到 15、25 甚至 35。你最終會發(fā)現(xiàn)增加步數(shù)何時會有所幫助。不過,與上述規(guī)則相同。不要浪費自己的時間。每隔一段時間確保你需要所有這些步驟。
?
k_euler_a:變色龍
適用于 DDIM 的所有內容也適用于此。該采樣器速度快如閃電,并且能夠以極低的步數(shù)(步驟 8-16)獲得出色的結果。但它也極大地改變了一代人的風格。你的步數(shù)為 15 的一代可能看起來與步數(shù) 16 非常不同。然后它們可能看起來都與步數(shù) 30 非常不同。然后可能與步數(shù) 65 非常不同。這個采樣器很狂野。一般來說,這里還值得注意:根據(jù)你使用的采樣器,你的結果看起來會完全不同。所以不要害怕嘗試。如果你在 k_euler_a 中得到了你非常喜歡的結果,請將其彈出到 DDIM 中(反之亦然)。
?
k_dpm_2_a:饑餓的藝術家
在我看來,這個采樣器可能是最好的,但它有嚴重的權衡。與我上面提到的相比,它非常慢。然而,就我而言,k_dpm_2_a 在 30-80 步長范圍內非常非常好。對于實驗來說,這是一個糟糕的采樣器,但如果你已經(jīng)有一個你喜歡的提示,那就讓它撕裂吧。只要做好等待的準備就可以了。等待。不過,如果你仍處于在提示中添加和刪除術語的階段,則應堅持使用 k_euler_a 或 DDIM 以較低的步數(shù)。
?
我目前正在研究一種理論,即某些采樣器更擅長某些類型的藝術品。有些人更擅長肖像、風景等。我還沒有任何具體的想法可以分享,但如果你覺得自己有一個很好的提示,但你的結果可能值得根據(jù)我上面列出的內容稍微調整一下你的采樣器看起來異常糟糕。
?
關于大步長的注釋:許多可以通過更高步數(shù)解決的問題也可以通過更好的提示來解決。如果你的拍攝對象的眼睛非常糟糕,請嘗試在提示中添加一些內容,談論他們的“對稱的高度詳細的眼睛、奇妙的眼睛、復雜的眼睛”等。但這并不是靈丹妙藥。眼睛、臉和手是很難提示的、不平凡的東西。不要灰心。不斷嘗試,也不要害怕從提示中刪除內容。沒有什么是神圣的。你可能會對自己可以省略的內容感到震驚。例如,我看到很多人在令人驚嘆的肖像提示中添加“有吸引力”……但人工智能繪制的圖像中的大多數(shù)人已經(jīng)吸引人的。根據(jù)我的經(jīng)驗,大多數(shù)時候“有吸引力”根本不需要。(無論如何,吸引力是非常主觀的。嘗試“獨特的鼻子”或其他東西。這通常會做出很酷的面孔。制作很酷的模型。)
?
關于大批量大小的注釋:有些人喜歡生成 500 代,然后選擇最好的 4 代。我認為在這種情況下,你最好更多地修改提示。我見過的最可靠的提示在 10 代內就取得了非常好的結果。
?
種子
我們是否把最好的留到了最后?可以說。如果你正在尋找一個獨特的好形象與你的朋友分享或在 Reddit 上收獲因果報應,那么尋找一個好的種子是非常重要的。好的種子可以在各種提示、采樣器和 CFG 中強制執(zhí)行諸如構圖和顏色之類的內容。使用 DDIM:8-16 根據(jù)提示尋找種子。然而,如果你主要尋找一個有趣的提示來獲得持續(xù)良好的結果,那么種子就不那么重要了。在這種情況下,你希望提示能夠跨種子自適應,并且將其過度擬合到一顆種子有時會導致它在其他種子上看起來更糟。權衡。
?
實際的種子整數(shù)并不重要。它或多或少只是初始化一個定義擴散起點的隨機數(shù)生成器。也許有一天我們會擁有很酷的種子畫廊,但那一天不是今天。
?
種子是對提示進行 A/B 測試的絕佳工具。鎖定你的種子(選擇一個隨機數(shù),選擇你已經(jīng)喜歡的種子,等等)并在提示中添加細節(jié)或藝術家。運行。輸出如何變化?重復。這對于添加和刪除藝術家來說非常酷。作為讀者的練習,請嘗試在同一種子上運行“HR Giger 的 Oasis”,然后運行“beeple 的 Oasis” ??吹剿绾巫兓艽蟮行┰厝匀幌嗨茊??涼爽的?,F(xiàn)在試試“HR Giger 和 beeple 的 Oasis”。它結合了兩者,但成分仍然相當穩(wěn)定。這就是種子的力量。
?
或者說你有一個很好的提示,可以輸出“黑發(fā)”女性的肖像照片。你運行幾次并找到你喜歡的一代。抓住特定一代的種子以保持穩(wěn)定,并將提示改為“金發(fā)”女人。該女子將保持相同或非常相似的姿勢,但現(xiàn)在有一頭金發(fā)。你可能會看到這是多么強大和簡單。注意:較高的 CFG (12-15) 有時可以幫助此類測試,以便 AI 真正聆聽你的提示更改。
?
?