7000字干貨!如何高效率掌握Stable Diffusion的正確用法?

前言
此篇不是 Stable Diffusion 的軟件教程,而是面向 AIGC 繪圖工作流的一些開闊性思路與方法分享,核心觀點即“商業(yè)需求是題面,AIGC 是計算工具,解題思路還得是設(shè)計師!”,總之面對 AIGC 設(shè)計不要焦慮也不用回避,本篇筆者期望能夠和大家一起探討 AIGC 繪圖如何為我所用,如何融入設(shè)計流程,如何降本增效。
并且會聊聊 Stable Diffusion 究竟具備了哪些可控能力,以及進行商業(yè)設(shè)計落地的思路與解題技巧,一切皆是希望能夠幫助大家更好的認識 AIGC 繪圖工具,并幫助優(yōu)化自己的設(shè)計流程。
一、互聯(lián)網(wǎng)企業(yè)對 AIGC 的癡迷
當下 AIGC 很火,以 Chatgpt 為代表的語言大模型,還有專注繪圖領(lǐng)域的 Midjourney 與 Stable Diffusion 都很出名,甚至有企業(yè)宣稱應用 AI 模型做 CEO 管理,雖然不知道員工服不服管,股東有沒有意見,但可見 2023 很 AI。
1. 企業(yè)們又在期待 AIGC 能做些什么?
①企業(yè)內(nèi)部辦公
期望借助 AIGC 降本增效,通過智能自動化的形式滿足一些內(nèi)容產(chǎn)出以減少人力的投入,從而將人力轉(zhuǎn)移到其他更有價值或復雜的工作內(nèi)容上,以實現(xiàn)降本增效的可能。
②產(chǎn)品體驗賦能
通過 AIGC 的場景化能力,賦予產(chǎn)品更智能更前沿的技術(shù)體驗,從而產(chǎn)生更多的服務能力或是服務質(zhì)量,并減少產(chǎn)品運營的成本。
③技術(shù)創(chuàng)新性
隨著深度學習、模型訓練等,為企業(yè)提供更多定制化的技術(shù)應用或創(chuàng)新突破,為企業(yè)帶來更多產(chǎn)品創(chuàng)新應用的可能,或是其他的正向收益。
2. Midjorney&Stable Diffusion
說到設(shè)計師,Midjourney 跟 Stable Diffusion 總是要被提及,而作為一個交互設(shè)計師,我能用上的圖形繪制部分就不多,所以有必要先了解一下 AIGC 繪圖工具能做些什么了、能做到什么程度、能為你的工作做些什么,這很重要。從商業(yè)角度出發(fā),筆者認為 AIGC 繪圖更多的是應用到廣告營銷或藝術(shù)創(chuàng)作方面會多一些,就我當下嘗試和了解到的應用場景與優(yōu)勢如下,可供產(chǎn)考;

①Midjorney&Stable Diffusion 特征差異
Midjourney 是商業(yè)化產(chǎn)品、上手難度小、出圖快、效果質(zhì)量高,服務是端對端的形式,能夠基于一個大模型快速響應各種風格或內(nèi)容關(guān)鍵詞的繪制,很適合在頭腦風暴、尋覓風格參考的階段花錢消災,并且 Midjourney 的模型還在不斷覆蓋或更新事物關(guān)鍵詞的理解,如果你怕麻煩并且設(shè)計需求不復雜,那么推薦 Midjourney。
而 SD(本篇中對 Stable Diffusion 的簡稱)典型的特征就是開源免費,社區(qū)共創(chuàng)擴展創(chuàng)新,本地化運算,有階段化的可操控性,可以更好幫助設(shè)計師實現(xiàn)腦子里的創(chuàng)意,但有一定上手難度和設(shè)備局限,適合在復雜設(shè)計工作中更深入的探索應用。
用個不恰當?shù)谋扔?,Midjourney 跟 SD 就像是美圖秀秀跟 Photoshop 的關(guān)系~

3. AIGC 繪圖的短板還很明顯
給人很直觀的感覺就是 AIGC 不懂設(shè)計,也不懂產(chǎn)品,還不好馴服,事實上目前 AIGC 繪圖的商業(yè)能力還很有限,并且人機交互的溝通成本并不小(你要通過適當?shù)年P(guān)鍵詞描述需求),當你不能熟悉關(guān)鍵詞的應用以及 AIGC 繪制的功能操作方式時,開啟 AIGC 繪圖工具后就像是剛剛新建畫板 Photoshop,強大且不知所措,AIGC 繪圖工具的智能化、工業(yè)化、多模態(tài)交互、傻瓜式都還面臨不少挑戰(zhàn)。

二、為何考慮用 SD 做設(shè)計解題?
我簡單概括為三個方面:成本更低、可控性更高、有更多的可能性
①成本更低
成本一直是企業(yè)或個人關(guān)心的問題,在 AIGC 繪圖生成的過程中充滿了太多的不確定性了,市面上大多 AIGC 繪圖工具都是收費或簽到制的,在不斷抽卡中余額消耗的極快,而開源免費的 Stable Diffusion 無疑是雪中送碳。
通常設(shè)計師的電腦也都不算差勁,盡管現(xiàn)在 SD 還有一些硬件或系統(tǒng)兼容的問題,但是我認為不久的將來,強大的開源社區(qū)會給出更好的方案。
②可控性更高
設(shè)計師不同于純粹的藝術(shù)家,設(shè)計即代表有精細的布局與控制,而圖像內(nèi)容的可控性就在工作中顯得極為重要,這些具備商業(yè)化或產(chǎn)品屬性的訴求若不能在 AIGC 繪圖中解決,那 AIGC 繪圖就還不具備為設(shè)計師解題的能力。
初階段的 SD 給人的印象也還是基于模型畫畫紙片人,并支持一些涂涂換換的能力,直到相關(guān)開源社區(qū)出現(xiàn)了更多的模型、Lora 以及顛覆性的 ControlNet 控制網(wǎng)絡時,我看到的了 SD 更高的可控性與可能性,這是 AIGC 繪圖跨入工業(yè)化的一大步!
③更多的可能性
開源社區(qū)的魅力就是為愛發(fā)電多,商業(yè)化場景的應用模型越來越完善,未來充滿了各種可能,你根本不知道何時就會出現(xiàn)一款現(xiàn)象級插件或模型,并且市面上可能會出現(xiàn)更多基于 Diffusion 二開的商業(yè)場景應用,我相信在未來 SD 步入工業(yè)化的腳步會越來越快,設(shè)計師應用的場景也會更廣闊,即使你現(xiàn)在不使用 SD,但依舊值得期待一下!
1. Stable Diffusion 的可控概念
首先你不要想著像專業(yè)繪圖工具一樣控制了,你可能有時候連自己都控制不住自己!
SD 繪圖可控性的本質(zhì)是定向抽卡,方向越聚焦,結(jié)果越接近。
這個過程中,提示詞是畫面構(gòu)成的重要因素,卻不是畫面風格和語義解析的全部,SD 生成的可控性還需要借助各種擴展網(wǎng)絡的應用,這意味完全一樣的關(guān)鍵詞出來的結(jié)果依舊可能天差地別,SD 與擴展模型的運作模式可通過下圖快速理解,它們逐級影響,相互作用:


2. 里程碑 ControlNet 1.1+的概念
關(guān)于此擴展插件相信大家已經(jīng)有所了解,這里不做教程了,目前 ControlNet 還在持續(xù)更新。該插件提供了多種方式供用戶實現(xiàn)內(nèi)容生成的可控性,是一個階段性的擴展應用,還有更多新的 ControlNet 以及高版本正在生產(chǎn)中,期待一下吧;

三、應用 SD 的正確解題思路
1. 先了解 SD 繪圖工具
當工具回歸工具,設(shè)計的核心依舊是設(shè)計思維,目前想要借助 AIGC 繪圖來為工作降本增效,就需要先了解工具能做什么,有何優(yōu)勢,有何局限性,能幫你做什么?能做到什么程度?
期間筆者看了很多 AIGC 繪圖應用的分享,也參加了些相關(guān)沙龍,基本上主流的設(shè)計應用就三個方面;

另外 SD 不同于 Midjourney,由于是從主模型到擴展一層層混合作業(yè)的,想要基于同樣的提示詞實現(xiàn)抄作業(yè)不一定行的通,所以了解 SD 各種模型的關(guān)系與功能屬性是很有必要的,以下是關(guān)于 SD 基本且主流功能的概述整理:


2. 沉淀美學與設(shè)計素養(yǎng)
進行 AIGC 商業(yè)化應用,沉淀美學與設(shè)計素養(yǎng)是根基,并且針對 AIGC 生成,可以準備成一份隨時可參考的材料。
①對于各類美術(shù)風格,需要知道其特征和專用術(shù)語名詞,以保證在需要的時候能夠應用對應的提示詞,并且這些提示詞不局限于美術(shù)風格,也有根據(jù)某品牌或是某個行業(yè)提煉的藝術(shù)關(guān)鍵詞;
部分舉例
3D、2.5D、2D、CG、吉卜力風格(Ghibli style)、水彩(Watercolor)、波普藝術(shù)(Pop Art)、中國風(Chinese Fashion)、朋克風(Cyberpunk)、噪點插畫(Noise Design)、像素風(16-bit pixel art)、迪士尼風(Disney Style)、Q 版風(Q-Style)等
②對鏡頭語言的認識,掌握基本鏡頭視角的描述詞,以及高階鏡頭的效果差異與提示詞應用,不過目前體驗下來,AIGC 工具基本還不能呈現(xiàn)較為復雜的鏡頭與視角;
部分舉例
透視(perspective)、景深(depth of field)、俯視(bird's-eye view)、魚眼(fish-eye view)、頂視(top view)、廣角(wide-angle)、鳥瞰(aerial view)、等距(Equidistant perspective)等

③掌握基本的構(gòu)圖知識以及布光基礎(chǔ),并了解效果差異與提示詞應用;
部分舉例
前景(close shot)、中景(mid-shot)、遠景(prospect)、主光(Main light)、輔助光(fill light)、頂光(overhead light)、眩光(dazzle)、柔和光(soft lighting)、陰影(shadow)等
④在偏 3D 的場景中,對于物體材質(zhì)特征的基本認識與提示詞應用也很重要,目前在一些原生的 3D 渲染器中,收集了不少關(guān)鍵詞,建議大家也可以如法炮制;
部分舉例
塑料(plastic)、金屬(metal)、玻璃(glass)、皮膚(skin)、薄膜(thin)、布料(cloth)、亞麻布(linen)、水晶(crystal)、木質(zhì)(wood)、石頭(stone)、瓷器(ceramic)、絲綢(Silk)、皮革(leather)等
⑤基礎(chǔ)環(huán)境描述與提示詞應用,實際上復雜環(huán)境通過提示詞是很難搞定的,主要是還從簡到繁的將空間環(huán)境一點點根據(jù)期望去刻畫,基本上就是區(qū)分室內(nèi)還是室外、空曠還是狹小、鄉(xiāng)野還是城市等等;
部分舉例
房間(room)、森林(forest)、廢墟(ruins)、天空(sky)、宇宙(universe)、雨天(raining)、雪天(snowing)、城市(city)、廣場(square)、草原(grassland)、操場(playground)、海洋(ocean)、海底(seabed)等
⑥優(yōu)化提示詞與負面提示詞的應用,目的是讓生成圖片的質(zhì)量更高以及減少不對的負面效果,但想想還是有點傻,期待更智能的那一天早日到來!
優(yōu)化詞
高清(hd)、高分辨率(4K,8K)、最佳質(zhì)量(best quality)、杰作(masterpiece)、抗鋸齒(antialiasing)、虛幻引擎(unreal engine)、原畫級別(CG)、完整(complete)等
負面詞
畫面常用:低質(zhì)量(worst quality)、模糊(blurry)、水印(watermark)、丑陋(duplicate)、重復(duplicate)、損壞的(Damaged)、出錯(error)、單色的(monochrome)、黑暗(darkness)、非常規(guī)(nsfw)等;
人物常用:肢體多余(extra limbs)、畸形(deformation)、病態(tài)(morbid)、多手指(too many fingers)、多條腿(mang legs)、斗雞眼(cross-eyed)、變異手(mutated hands)、截肢(amputation)等;
掌握和了解以上美術(shù)素養(yǎng)或提示詞是為了更好的面向 AIGC 工具進行需求描述和控制。
此外設(shè)計素養(yǎng)是作為商業(yè)設(shè)計、工業(yè)化的重要內(nèi)核,其中包含了基本的行業(yè)設(shè)計規(guī)范、標準的理解與掌握,此外相關(guān)設(shè)計思維、審美與問題解決能力都要不斷的學習和提升,這是進行商業(yè)設(shè)計和不被 AIGC 取代的重要資本;
四、建立預期后再開工
一方面因為 SD 通過簡單的幾個提示詞并不能生成高質(zhì)量效果,依靠隨機抽卡是不可能實現(xiàn)商業(yè)需求的,另外作為商業(yè)設(shè)計,其中必然是帶有商業(yè)目的與業(yè)務信息的,因此為了保障生成效果與效率,設(shè)計師還是要先根據(jù)需求建立設(shè)計預期,在腦子里形成設(shè)計方案后開始構(gòu)建草圖或參考材料,然后再拆解成多個階段,把適合 AIGC 繪圖處理的事項交出去,中間通過墊圖或人工操作糾正方向,加速抽卡的方向聚焦,最終得到一些滿意的材料,再做商業(yè)合成產(chǎn)出交付產(chǎn)物;

1. 多元的草圖與原型圖
準備草稿或是原型是設(shè)計工作中的必要過程,可以幫助設(shè)計師對需求和目標的理解,也能形成材料與同事之間探討構(gòu)思,甚至向上對齊設(shè)計方案。此外準備草稿或原型材料也能幫 SD 在抽卡時更聚焦,減少無效的試錯。
①草稿或原型支持多樣性
SD 功能允許的條件下,經(jīng)過反復嘗試,前期的草稿材料可準備如下;部分需要采用 ControlNet 擴展進行解析應用,方法就是制作與 ControlNet 模型匹配的材料,導入到預覽作為輸出后再啟用對應模型即可,方法如下圖所示,親測有效;

以下是可準備的草稿或原型材料的參考說明;

②參考材料或生成的局限性
在以上表格的注意事項已經(jīng)提到了部分擴展應用的局限性,此外在實際工作場景中,還有一些比較頭大的局限性,主要包括了以下三點;

另外當引導詞不能被模型正確理解或不具備較高的常規(guī)性時,你也可以將關(guān)鍵詞替換成其他近似詞語,或者改成其他描述詞來代替,能夠提升一定的常規(guī)性和模型理解的概率;
例如:帽子(hat)無法得到預期的結(jié)果,便只好改為了頭部穿戴(Head wear)+其他構(gòu)成元素詞語,輸出時,帽子終于出現(xiàn)了。
③草稿復雜性拆解技巧
將草稿的復雜性進行拆解是為了簡化設(shè)計,使 SD 中的模型能夠更好理解需求進行生成,經(jīng)過嘗試或?qū)嶒灒砹艘韵聝煞N比較有效的拆解方法,但前提是保證一定的常規(guī)性以及主模型的可理解性,當然你也可以在整個過程中來回切換主模型應用,只要大的視覺風格差的不太多,例如都是 2D 或是寫實的,后續(xù)再對風格矯正即可;

但由于現(xiàn)在的 AIGC 繪圖對文本信息處理能力不佳,若你的主體視覺由信息構(gòu)成并且嵌套在視覺場景之中,而不是處于前景、近景的層次那么就會比較難搞,也因此目前市面上主流的 AIGC 營銷視覺案例基本都是“情景圖+配文”的結(jié)構(gòu),兩類應用場景如下;

2. 局部調(diào)整或后期優(yōu)化階段
借助 SD 的圖生圖模式以及 ControlNet,可以靈活的實現(xiàn)局部的優(yōu)化調(diào)整,這是 Midjourney 完全不支持的能力(文章發(fā)布前Midjourney 更新后已支持:https://www.uisdc.com/midjourney-39),功能的用途簡述在上個話題“先了解 SD 繪圖工具”中有介紹,簡單講就是我們可以的對畫面的局部進行涂改重新生成,可以是對局部錯誤的生成進行改正,也可以是將新的點子生成到當前的畫面中,相比于 PS 的創(chuàng)意填充,在 SD 中你可以對局部輪廓、色彩等更多方向進行生成控制,總之不再是 0-1 的抽卡階段,而是 1-2 的聚焦抽卡階段了;

后期優(yōu)化部分主要是指對整體的風格進行切換或是混合,此前網(wǎng)上流行的 IP 線稿轉(zhuǎn)有色稿再轉(zhuǎn) 3D 化就是典型的風格轉(zhuǎn)化,主要是借助主模型或配合 Lora 等模型的風格特征,轉(zhuǎn)移到當前的原生圖上,只要控制住“重繪幅度”基本就能保證相似度,借助 ControlNet 的 Tile 也能快速幫你應用參考圖的視覺風格,并且當你使用局部調(diào)整約束好區(qū)域配合模型的切換,你還能夠?qū)崿F(xiàn)一個風格混合的畫面,只要使用得當,也能生成效果不錯的畫面;

3. 工具混用 當 C4D、Blender、Photoshop 碰上 SD
以 ControlNet 中的深度、法線來講,其實都不是什么新鮮技術(shù),在 3D 設(shè)計工具中都很常見,這也意味著在應用 SD 的過程中,我們可以根據(jù)預期在其他軟件中完成起手材料來輔助 SD 生成,這里我放了一個在 B 站上看見的應用案例,其中就是借助 3D 軟件完成了基礎(chǔ)的城市地編,然后根據(jù) ControlNet 的語義分割協(xié)議對地編建筑進行了色彩渲染,之后就是導入到 SD 進行生成以填充相應的細節(jié);

不止 3D 軟件,我們喜聞樂見的 PS 其實也支持 SD 的擴展應用了,這意味著你可以直接在 PS 中進行更精準的涂繪、制作蒙版、繪制草稿等,加上 Beta 版 PS 自帶的創(chuàng)意生成,或許我們可以讓 AIGC 繪圖之間碰撞出更多的可能性!
4. 風格模型沉淀復用
關(guān)于模型沉淀,自己的話,反正有條件有興趣隨便弄,如果是面向企業(yè)辦公的話,則要考慮兩個屬性,一是定制化,二是復用性,即市面上的模型不能滿足,且模型訓練完有反復應用的價值。主模型可以很好的涵蓋行業(yè)特征進去,但是煉丹的難度跟成本會比較高,如果說有適合的主模型能夠滿足事物提示詞的理解生成,但是效果不佳,這個時候比較建議訓練 Lora 模型來微調(diào)結(jié)果,原因如下:
這里不講具體訓練方法了,網(wǎng)上資源很豐富,這里引用一個概念模型幫助大家理解和消化一下 Lora 模型;其中訓練 Lora 的主要任務即“打標”,這個過程有點兒像是幫助 AI 看圖識物!通過對一批規(guī)格統(tǒng)一的素材進行關(guān)鍵信息標記,以幫助主模型更深入的理解某個事物或風格,最終并在主模型生成時啟用 Lora 以達成微調(diào)的目的;
訓練方法可以在一些博客或 B 站上獲取,此處不贅述。
五、如何快速掌握 SD 的應用
在反復的嘗試和學習過程中,想要盡快熟悉軟件操作,那么自己一頓嘗試后在結(jié)合一些教程是比較快的,當你想要更深入的掌握 SD 并生成更驚艷的效果,我感覺還得是多“抄作業(yè)”,方法也很簡單,就是對著相關(guān)平臺用戶分享的作品參數(shù)對著來,從主模型選取到擴展模型權(quán)重,再到正反向提示詞等,全部復刻一邊;
當你這樣做的時候,你會發(fā)現(xiàn)有很多好處;
首先會減少 SD 圖片創(chuàng)作的門檻,通過更快的生成高質(zhì)量圖像來建立更多的自信,并感受到 SD 美妙之處;
在比照調(diào)整配置的過程中,可以快速感知到采樣、模型、步幅、提示詞之間奇妙的化學反應;
在抄作業(yè)的過程中,其實也是 SD 上手熟練度提升的過程,這比看幾篇文章、添加到收藏夾里有用多了;
在搬運他人的提示詞時,自己也能掌握更多的提示詞應用,以及配套模型的觸發(fā)詞技巧,當然了,光抄作業(yè)還不夠,最好再加上做筆記,把別人的提示詞與配套模型整理下,以后就可以更方便的調(diào)用了;
展望一下
在前面的部分,探討了 AIGC 繪圖工具應用到工作流中的思路,以及技巧與 AIGC 設(shè)計的思維培養(yǎng),同時也暴露了不少 AIGC 繪圖功能的不足,那么也展望一下吧。
最近有看到在 Midjourney 設(shè)計落地教程里的這么一段話“視覺設(shè)計師趕緊轉(zhuǎn)行吧,花幾個月學的三維軟件,結(jié)果幾個通關(guān)密語就給實現(xiàn)了”,那么真的是這樣嗎?
事實上 Midjourney 也只是掌握了一類三維視覺技法而已,當進行商業(yè)設(shè)計時,依舊是設(shè)計思維先行技法輔助,再則,更深入的三維技術(shù)甚至三維動畫,AIGC 還有待提高,期望以后可以有更驚艷的表現(xiàn);
目前行業(yè)相關(guān)模型正在快速豐富,行業(yè)化即代表具備一定的工業(yè)屬性、商業(yè)屬性,雖然還不成熟但值得期待,另外 Stable Diffusion 玩家的存儲空間應該越來越告急了吧,期待兼容更好的大模型或云服務;
情感化聯(lián)想一直是 AI 發(fā)展的重點功課,AIGC 繪圖對情緒或感情的理解與表達更是有限,會不會有一天 AIGC 設(shè)計能夠理解需求并洞察出準確的情緒與氛圍表達呢?
多模態(tài)輸入輸出同樣值得期待一下,僅是提示詞輸入與靜態(tài)圖片輸出怎么能滿足設(shè)計行業(yè)的欲望呢?比如說我先選個行業(yè)模型,然后對話式生成需求理解,并給出設(shè)計方案建議和參考材料,再進一步探討方案細節(jié)與引入?yún)⒖?,進行一次初步的設(shè)計生成,最后就是探討優(yōu)化再到生成結(jié)果之間反復循環(huán),直到把 AIGC 乙方虐爆為止 hhhhh。
又在胡思亂想了,最后也期望本文中的思路與方法能夠?qū)Υ蠹矣袔椭?,如有其他疑問或私貨歡迎聯(lián)系作者探討~