手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 萬字干貨！超全面的Stable Diffusion學習指南：模型篇

萬字干貨！超全面的Stable Diffusion學習指南：模型篇

2023-08-28 14:23 作者:張小楓聊設計 0人讀過 | 我要投稿

歡迎關注作者微信公眾號：「樂伊體驗筆記」

本文用7個章節(jié)，幫你完整掌握 Stable Diffusion 模型的分類和使用方法。

一、模型的概念

先來看看模型在 Stable Diffusion 中到底是什么概念？在維基百科中對模型的定義非常簡單：用一個較為簡單的東西來代表另一個東西。換句話說，模型代表的是對某一種事物的抽象表達。

在 AIGC 領域，研發(fā)人員為了讓機器表現(xiàn)出智能，使用機器學習的方式讓計算機從數(shù)據(jù)中汲取知識，并按照人類所期望的方向執(zhí)行各種任務。對于 AI 繪畫而言，我們通過對算法程序進行訓練，讓機器來學習各類圖片的信息特征，而在訓練后沉淀下來的文件包，我們就將它稱之為模型。用一句話來總結，模型就是經(jīng)過訓練學習后得到的程序文件。

和我們此前使用的資料數(shù)據(jù)庫完全不同，模型中儲存的不是一張張可視的原始圖片，而是將圖像特征解析后的代碼，因此模型更像是一個儲存了圖片信息的超級大腦，它會根據(jù)我們所提供的提示內容進行預測，自動提取對應的碎片信息進行重組，最后輸出成一張圖片。當然，模型的實際運行原理要比這復雜的多，但作為使用者我們無需深入學習復雜的技術算法，了解其大概概念即可。

二、重新認識下官方模型

在之前的文章里，我為大家簡單介紹了 Stable Diffusion 模型的構成和運行原理，而在今天正式介紹模型類型之前，有必要帶你重新認識下這款意義重大的官方模型。

不知你是否產(chǎn)生過這樣的疑惑：如今市面上有如此多豐富的繪圖模型，為什么 Stable Diffusion 官方模型還會被大家津津樂道？當然除了它本身能力強大外，更重要的是從零訓練出這樣一款完整架構模型的成本非常高。根據(jù)官方統(tǒng)計，Stable Diffusion v1-5 版本模型的訓練使用了 256 個 40G 的 A100 GPU（專用于深度學習的顯卡，對標 3090 以上算力），合計耗時 15 萬個 GPU 小時（約 17 年），總成本達到了 60 萬美元。除此之外，為了驗證模型的出圖效果，伴隨著上萬名測試人員每天 170 萬張的出圖測試，沒有海量的資源投入就不可能得到如今的 Stable Diffusion。這樣一款模型能被免費開源，不得不說極大地推進了 AI 繪畫技術的發(fā)展。

按理說這么大成本訓練出來的模型，繪圖效果應該非常強大吧？但實際體驗過的朋友都知道，對比開源社區(qū)里百花齊放的繪圖模型，官方模型的出圖效果絕對算不上出眾，甚至可以說有點拉垮，這是為什么呢？

這里我們用 ChatGPT 來對比就很好理解了。ChatGPT 的底層大模型是 GPT 模型，包括出道即巔峰的 GPT3.5 和后來火爆全網(wǎng)的 GPT4，這些模型雖然包含了海量的基礎知識，但并不能直接拿來使用，還需要經(jīng)過人工微調和指導才能應用在實際生活中，而 ChatGPT 就是在聊天領域的應用程序。同理，Stable Diffusion 作為專注于圖像生成領域的大模型，它的目的并不是直接進行繪圖，而是通過學習海量的圖像數(shù)據(jù)來做預訓練，提升模型整體的基礎知識水平，這樣就能以強大的通用性和實用性狀態(tài)完成后續(xù)下游任務的應用。

用更通俗的話來說，官方大模型像是一本包羅萬象的百科全書，雖然集合了 AI 繪圖所需的基礎信息，但是無法滿足對細節(jié)和特定內容的繪圖需求，所以想由此直接晉升為專業(yè)的繪圖工具還是有些困難。

Stable Diffusion 官方模型的真正價值在于降低了模型訓練的門檻，因為在現(xiàn)有大模型基礎上訓練新模型的成本要低得多。對眾多煉丹愛好者來說，只需在官方模型基礎上加上少量的文本圖像數(shù)據(jù)，并配合微調模型的訓練方法，就能得到應用于特定領域的定制模型。一方面訓練成本大大降低，只需在本地用一張民用級顯卡訓練幾小時就能獲得穩(wěn)定出圖的定制化模型，另一方面，針對特定方向訓練模型的理解和繪圖能力更強，實際的出圖效果反而有了極大的提升。

三、常見模型解析

了解了官方模型的價值，下面我們再來正式介紹下平時使用的幾種模型。根據(jù)模型訓練方法和難度的差異，我們可以將這些模型簡單劃分為 2 類：一種是主模型，另一種則是用于微調主模型的擴展模型。

主模型指的是包含了 TextEncoder（文本編碼器）、U-net（神經(jīng)網(wǎng)絡）和 VAE（圖像編碼器）的標準模型 Checkpoint，它是在官方模型的基礎上通過全面微調得到的。但這樣全面微調的訓練方式對普通用戶來說還是比較困難，不僅耗時耗力，對硬件要求也很高，因此大家開始將目光逐漸轉向訓練一些擴展模型，比如 Embedding、LoRA 和 Hypernetwork，通過它們配合合適的主模型同樣可以實現(xiàn)不錯的控圖效果。

我們可以將主模型理解為一本面向特定科目的教材，而擴展模型則是針對教材內容進行補充的輔導資料或習題冊。

我在下表中整理了常見模型的功能和特點差異，下面挨個為大家介紹。

1. Checkpoint

先來看看第一種模型：Checkpoint 模型，又稱 Ckpt 模型或大模型。Checkpoint 翻譯為中文叫檢查點，之所以叫這個名字，是因為模型訓練到關鍵位置時會進行存檔，有點類似我們玩游戲時的保存進度，方便后面進行調用和回滾，比如官方的 v1.5 模型就是從 v1.2 的基礎上調整得到的。

Checkpoint 模型的常見訓練方法叫 Dreambooth，該技術原本由谷歌團隊基于自家的 Imagen 模型開發(fā)，后來經(jīng)過適配被引入 Stable Diffusion 模型中，并逐漸被廣泛應用。為了方便大家更好的理解各個模型之間的差異，我針對每種模型的訓練過程整理了以下的示意圖，下面是 Dreambooth 訓練模型的過程：

簡單介紹下 Dreambooth 訓練模型的過程：

第一步：先為訓練樣本添加 N 步噪聲得到「噪聲圖」

第二步：再為訓練樣本添加 N-1 步噪聲得到「樣本校準圖」，這樣比上面的「噪聲圖」會稍微清晰一點的

第三步：將「噪聲圖」和由「關鍵詞 XXX」生成的文本向量都輸入到擴散模型中，得到「模型輸出圖」

第四步：將「模型輸出圖」和「樣本校準圖」進行對比，并根據(jù)差異值來微調擴散模型直到它可以將「關鍵詞 XXX」和「訓練樣本」之間進行關聯(lián)

第五步：通過這樣的訓練方式，后續(xù)我們在輸入「關鍵詞 XXX」時，模型就會繪制一張類似「訓練樣本」的圖片了。

通過上面的訓練過程我們不難看出，Dreambooth 訓練模型是通過微調整個網(wǎng)絡參數(shù)來得到一個完整的新模型。因此 Ckpt 模型可以很好的學習一個新概念，無論是用來訓練人物、畫風效果都很好。但缺點是訓練起來成本較高，正常來說從官方模型通過 Dreambooth 訓練出一款 Ckpt 模型，預計需要上萬張圖片，并且模型的文件包都比較大（至少都是在 GB 級別），常見的模型大小有 2G、4G、7G 等，使用起來不夠靈活。

需要注意的是：并非模型體積越大，其繪圖質量就越好。我們在模型社區(qū)里有時候會看到高達十幾 GB 的 Ckpt 模型，但并非意味著這些模型就十分強大，因為除了通過 Dreambooth 訓練，還可以通過模型融合的方法得到 Ckpt 模型，但如果作者沒有對模型進行優(yōu)化處理，融合后的模型中會夾雜著大量的垃圾數(shù)據(jù)，這些數(shù)據(jù)除了占用寶貴的硬盤空間外沒有任何作用。關于模型融合的亂象是目前模型社區(qū)中不可忽視的問題，我會在文章結尾進行展開說明。

使用 Checkpoint 模型的方法也很簡單，我們下載好模型文件后，將其存放到 Stable Diffusion 安裝目錄下\models\Stable-diffusion 文件夾中。如果你是在 WebUI 打開的情況下添加的新模型，需要點擊右側的刷新按鈕進行加載，這樣就能選擇新置入的模型了。

2. Embeddings

介紹完了主模型，下面我們再看看各種擴展模型，首先是最輕量的 Embeddings 模型。

雖然 Ckpt 模型包含的數(shù)據(jù)信息量很多，但動輒幾 GB 的文件包使用起來實在不夠輕便。比如有的時候我們只想訓練一款能體現(xiàn)人物特征的模型來使用，如果每次都將整個神經(jīng)網(wǎng)絡的參數(shù)進行一次完整的微調未免有太過興師動眾，而這個時候就需要 Embeddings 閃亮登場了。

Embeddings 又被稱作嵌入式向量，在之前初識篇的文章里我給大家介紹了 Stable Diffusion 模型包含文本編碼器、擴散模型和圖像編碼器 3 個部分，其中文本編碼器 TextEncoder 的作用是將提示詞轉換成電腦可以識別的文本向量，而 Embedding 模型的原理就是通過訓練將包含特定風格特征的信息映射在其中，這樣后續(xù)在輸入對應關鍵詞時，模型就會自動啟用這部分文本向量來進行繪制。

訓練 Embeddings 模型的過程，由于是針對提示文本部分進行操作，所以該訓練方法叫做 Textual Inversion 文本倒置，平時在社區(qū)中提到 Embeddings 和 Textual Inversion 時，指的都是同一種模型。

如果你此前下載過 Embeddings 模型包，會驚訝的發(fā)現(xiàn)它們普遍都非常非常小，有的可能只有幾十 KB 大小。為什么模型之間會有如此大的體積差距呢？類比來看，Ckpt 像是一本厚厚的字典，里面收錄了圖片中大量元素的特征信息，而 Embeddings 就像是一張便利貼，它本身并沒有存儲很多信息，而是將所需的元素信息提取出來進行標注。在這個基礎上，我們也能將 Embeddings 模型簡單理解為封裝好的提示詞文件，通過將特定目標的描述信息整合在 Embeddings 中，后續(xù)我們只需一小段代碼即可調用，效果要比手動輸入要方便快捷上許多。像我們平時頭疼的避免錯誤畫手、臉部變形等信息都可以通過調用 Embeddings 模型來解決，比如最出名的 EasyNegative 模型。

以守望先鋒里人氣角色 D.VA 為例。對于該角色我們都有統(tǒng)一的外貌共識，比如藍色緊身衣、棕色頭發(fā)、臉上的花紋等，這些信息如果單純通過提示詞描述往往很難表達準確，而有了 Embedding 就輕松多了?？梢钥吹秸{用了 D.VA 的 Embedding 模型后，即使是不同畫風的主模型也都能實現(xiàn)比較準確的角色形象還原。

當然，Embedding 也有自己的局限性。由于沒有改變主模型的權重參數(shù)，因此它很難教會主模型繪制沒有見過的圖像內容，也很難改變圖像的整體風格，因此通常用來固定人物角色或畫面內容的特征。使用方法也很簡單，只需將下載好的模型放置到 Stable Diffusion 安裝目錄下\embeddings 文件夾中，使用時點擊對應的模型卡片，對應的關鍵詞就會被添加到提示詞輸入框中，這時再點擊生成按鈕便會自動啟用模型的控圖效果了。

3. LoRA

雖然 Embeddings 模型非常輕量，但大部分情況下都只能在主模型原有能力上進行修正，有沒有一種模型既能保持輕便又能存儲一定的圖片信息呢？這就不得不提我們大名鼎鼎的 LoRA 模型了。

LoRA 是 Low-Rank Adaptation Models 的縮寫，意思是低秩適應模型。LoRA 原本并非用于 AI 繪畫領域，它是微軟的研究人員為了解決大語言模型微調而開發(fā)的一項技術，因此像 GPT3.5 包含了 1750 億量級的參數(shù)，如果每次訓練都全部微調一遍體量太大，而有了 lora 就可以將訓練參數(shù)插入到模型的神經(jīng)網(wǎng)絡中去，而不用全面微調。通過這樣即插即用又不破壞原有模型的方法，可以極大的降低模型的訓練參數(shù)，模型的訓練效率也會被顯著提升。

相較于 Dreambooth 全面微調模型的方法，LoRA 的訓練參數(shù)可以減少上千倍，對硬件性能的要求也會急劇下降，如果說 Embeddings 像一張標注的便利貼，那 LoRA 就像是額外收錄的夾頁，在這個夾頁中記錄了更全面圖片特征信息。

由于需要微調的參數(shù)量大大降低，LoRA 模型的文件大小通常在幾百 MB，比 Embeddings 豐富了許多，但又沒有 Ckpt 那么臃腫。模型體積小、訓練難度低、控圖效果好，多方優(yōu)點加持下 LoRA 收攬了大批創(chuàng)作者的芳心，在開源社區(qū)中有大量專門針對 LoRA 模型設計的插件，可以說是目前最熱門的模型之一。

那 LoRA 模型具體有哪些應用場景呢？總結成一句話就是固定目標的特征形象，這里的目標既可以是人也可以是物，可固定的特征信息就更加保羅萬象了，從動作、年齡、表情、著裝，到材質、視角、畫風等都能復刻。因此 LoRA 模型在動漫角色還原、畫風渲染、場景設計等方面都有廣泛應用。

安裝 LoRA 模型的方法和前面大同小異，將模型保存在\models\Lora 文件夾即可，在實際使用時，我們只需選中希望使用的 LoRA 模型，在提示詞中就會自動加上對應的提示詞組。

不同的是這里我們可以自行設置 Lora 在對畫面的影響權重，關于控制權重的強調語法大家可以看之前的提示詞篇教程，此外作者在模型介紹中大多也會提供推薦的權重數(shù)值作為參考。

需要注意的是，有些 LoRA 模型的作者會在訓練時加上一些強化認知的觸發(fā)詞，我們在下載模型時可以在右側看到 trigger word，非常建議大家在使用 LoRA 模型時加上這些觸發(fā)詞，可以進一步強化 LoRA 模型的效果。但觸發(fā)詞不是隨便添加的，每一個觸發(fā)詞可能都代表著一類細化的風格。當然有的模型詳情中沒有觸發(fā)詞，這個時候我們直接調用即可，模型會自動觸發(fā)控圖效果。

有的 trigger word 觸發(fā)詞下面還有一欄 Tag 標簽，這里表示的意思是模型在社區(qū)中所屬的類目，只是方便大家查找和定位，和我們實際使用 Stable Diffusion 并沒有什么關系，無視即可。

4. Hypernetwork

接著，我們再來了解下 Hypernetwork 模型。它的原理是在擴散模型之外新建一個神經(jīng)網(wǎng)絡來調整模型參數(shù)，而這個神經(jīng)網(wǎng)絡也被稱為超網(wǎng)絡。

因為 Hypernetwork 訓練過程中同樣沒有對原模型進行全面微調，因此模型尺寸通常也在幾十到幾百 MB 不等。它的實際效果，我們可以將其簡單理解為低配版的 LoRA，雖然超網(wǎng)絡這名字聽起來很厲害，但其實這款模型如今的風評并不出眾，在國內已逐漸被 lora 所取代。因為它的訓練難度很大且應用范圍較窄，目前大多用于控制圖像畫風。所以除非是有特定的畫風要求，否則還是建議大家優(yōu)先選擇 LoRA 模型來使用。

下面是 Hypernetwork 的安裝地址，使用流程與 LoRA 基本相同，這里就不再重復演示了。

5. VAE

最后就是 VAE 模型了，在初識篇中我們有對它進行過簡單介紹，它的工作原理是將潛空間的圖像信息還原為正常圖片。作為 ckpt 模型的一部分，VAE 模型并不像前面幾種模型用于控制圖像內容，而是對主模型的圖像修復。

我們在使用網(wǎng)絡上分享的 ckpt 模型繪圖時，有時候會發(fā)現(xiàn)圖像的飽和度很低，呈現(xiàn)出灰色質感，但是加上 VAE 模型后圖像色彩就得到了修正。因此很多人便以為 VAE 是一種調色濾鏡模型，可以增強圖像的顯示效果，但其實這樣的理解并不準確。

導致圖像發(fā)灰的真正原因是主模型本身的 VAE 文件損壞，因此從潛空間恢復成正常圖片時會存在圖像信息缺失的問題，加上現(xiàn)在社區(qū)中很多模型都是從其他熱門模型融合而來，如果初始模型的 VAE 文件有問題，就會導致融合后模型都出現(xiàn)圖像發(fā)灰的情況，最典型的就是融合模型 Anything4.5。

這種情況下一般都需要修復 VAE 才能使主模型恢復正常，但修復模型是個技術活，如果將所有模型都修復一遍未免成本過高，因此在 WebUI 中提供了外置 VAE 的選項，只要在繪圖時選擇正常的 VAE 模型，在圖像生成過程中就會忽略主模型里內置損壞的 VAE 而使用外置模型，而這才是圖像色彩被修正的真正原因。

但更換外置 VAE 并非是長久之計，有些模型在掛載外置 VAE 后反而會出現(xiàn)圖像模糊或者錯亂線條的情況（當然也是模型本身有問題）。此外，還有個問題是很多人將社區(qū)中現(xiàn)有的一些 VAE 重命名后加入自己模型來使用，這就會導致我們經(jīng)常下載了多個重復的 VAE 模型，造成極大的資源浪費。我們可以在秋葉啟動器中查看各個模型的 Hash 哈希值，它類似于模型的身份證號，無論是時間、創(chuàng)作者、訓練機器的改變都會導致哈希值不同。因此如果 2 個模型的哈希值相同，說明它們本質上是同一個模型文件，只是修改了名字。

好在社區(qū)中目前大部分新訓練的 ckpt 模型中 VAE 都比較正常，而對于有問題的模型，作者一般在介紹頁中會附上他們推薦的 VAE 模型，當然也有一些可以通用的 VAE，比如秋葉整合包里內置的「kl-f8-anime2」。

VAE 模型的放置位置是在\models\VAE，因為是輔助 Checkpoint 大模型來使用，所以可以將大模型對應的 VAE 修改為同樣的名字，然后在選項里勾選自動，這樣在切換 Checkpoint 模型時 VAE 就會自動跟隨變換了。

四、模型的功能類型

介紹了不同模型的特點和差異后，我們再回過頭來看看目前社區(qū)模型的功能類型，從控圖方向大致可以分為三類：固定對象特征、固定圖像風格和概念藝術表達

固定對象特征：這里的對象既可以指人，也可以指物。以人物角色為例，模型在訓練時只需學習人物的大致特征，比如外貌、服飾、發(fā)型、表情等，這些特征相對來說比較明確，比如金克絲標志性的藍色麻花辮和蘿莉身材、甘雨的獸角和藍色頭發(fā)等。因此，訓練特定對象的模型訓練起來相對更加簡單。

固定圖像風格：相較于明確的對象，圖像畫風包含更多的信息。最常見的如攝影風格、二次元卡通風格、2.5D 風格等，這些繪圖風格除了主體內容，還包括顏色、線條、光影、筆觸等多方面的環(huán)境信息，且不同特征信息之間相互關聯(lián)，共同組合成最終的圖片。因此模型需要學習的內容更多也更加復雜。

概念藝術表達：概念藝術指的是將某一類比較抽象的事物通過具象化的表現(xiàn)手法進行展示，最典型的就是一直很火的賽伯朋克。這類藝術作品充斥著霓虹燈、機械科技、黑客等特征元素，但又沒有具體的畫風限制，既可以是二次元的卡通動漫風格，也可以是真實的人物場景。對于這類沒有具體的對象特征，但又能被劃分為同類型的藝術概念，模型在學習和理解上又上升了一層難度，目前在開源社區(qū)中可以完美表達這類概念模型比較少見，且基本都是 Ckpt 和 LoRA 模型。

當然，還有基于服飾、背景、人物動作、產(chǎn)品概念等更多模型功能的細分，這里的分類僅方便初學者對模型功能建立初步的認知。下圖中整理了常見模型訓練方法在功能類型和訓練要求上的差異對比，大家可以作為模型學習的知識擴展，關于具體訓練方法我自己目前學習的還不夠深入，這里就先不做過多拓展啦～

五、模型的挑選和使用

在此前的文章里有給大家安利用于下載模型的社區(qū)網(wǎng)站，今天再給大家補充下如何挑選和使用合適的模型：

1. 讓人迷惑的文件后綴

之前如果大家有嘗試過自行安裝 Stable Diffusion 模型，肯定遇到過被文件后綴弄混淆的情況，因為我們通常都習慣用后綴名來判斷文件類型，比如后綴是*.psd 的一般都是 PS 文件、*.fig 則是 Figma 文件、*.pptx 指的是 Powerpoint 文件等。

但 Stable Diffusion 模型的文件后綴包括了*.ckpt、*.pt、*.pth、*.safetensors 等各種類型，甚至 WebUI 中還可以保存成*.png 和*.webp 格式。如果你單純想靠文件后綴來判斷模型類型往往會被弄的一頭霧水，因為這幾種都是標準的模型格式，在 Stable Diffusion 中并沒有基于模型類型設置對應的文件后綴。比如*.ckpt 后綴的文件既可能是 Checkpoint 模型、也可能是 LoRA 模型或者 VAE 模型。

而不同文件后綴的區(qū)別在于：*.ckpt、*.pt、*.pth 等后綴名表示的是基于 pytorch 深度學習框架構建的模型，因為模型保存和加載底層用到的是 Pickle 技術，所以存在可被用于攻擊的程序漏洞，因此這幾款模型后綴的文件中可能會潛藏著病毒代碼。為了解決安全問題，*.safetensors 后綴名的模型文件逐漸普及開來，這類模型的加載速度更快也更安全，這一點在 safe 后綴名上也能看出來。

但我們需要知道的是，這幾種后綴名的模型差異僅限于保存數(shù)據(jù)的形式，內部數(shù)據(jù)實際上是沒有太大區(qū)別的，因此不同模型間也可以通過工具進行格式轉換。

平時我們使用時盡量選擇*.safetensors 后綴的模型，并且在秋葉整合包中也有「允許加載不安全的模型」的開關選項，大家平時保持默認關閉狀態(tài)即可。

當我們需要區(qū)分模型類型時，可以使用秋葉大佬開發(fā)的 Stable Diffusion 模型在線解析工具，只需將模型文件拖入網(wǎng)頁，即可快速分析出模型類型，并會貼心的附上安裝地址提示和使用方法，并且該工具完全運行在本地，數(shù)據(jù)并不會上傳到云端。

Stable Diffusion 模型在線解析地址： https://spell.novelai.dev/

除了解析模型類型，該網(wǎng)站還有個非常好用的功能，就是可以讀取 Stable Diffusion 生成圖片的相關信息。只需將由 Stable Diffusion 繪制的原圖拖入頁面中，即可解析出之前所使用的提示詞、設置參數(shù)等信息，需要注意的是上傳的圖片必須是沒有經(jīng)過編輯的 AI 繪畫原圖。

2. 如何判斷模型質量

對大部分剛接觸 Stable Diffusion 的 AI 繪畫愛好者來說，往往都是將出圖好看作為判斷模型好壞的唯一標準。但隨著魔法水平的提升，你會發(fā)現(xiàn)社區(qū)中很多熱門模型的繪圖效果似乎都差不多，這是由于模型融合導致的同質化問題，有些模型基于相似程度甚至可以歸為一個系列，比較常見的有橘子系列、蠟筆系列、Anything 系列、Cf3 系列模型等。

除此還有前面提到的垃圾數(shù)據(jù)，也是很多融合模型都存在的問題。如今，大多數(shù)開源模型平臺都沒有人工審核標準，導致亂七八糟的模型層出不窮，這個時候就需要魔法師擁有自行判斷模型標準的能力。下面基于鏨制千秋大佬整理的模型判斷標準，給大家提供幾點參考建議。

一般來說，業(yè)內可以被稱得上優(yōu)秀的模型至少需要滿足以下幾個條件：出圖結果準確、沒有亂加細節(jié)、圖像正常、文件健康

出圖結果準確：即模型對提示詞識別的準確程度，優(yōu)質模型能正確辨別提示內容中的重要內容并給予呈現(xiàn)
沒有亂加細節(jié)：這里指的是圖像中出現(xiàn)提示詞沒有提及的內容，當然這種情況無法完全避免，只能說越少越好。比如有的模型在作者刻意引導下只靠簡單詞匯就能繪制非常精美的人像圖，但這些人物可以說千篇一律，風格完全被固定死，即使加上了 LoRA 也無法改變人物特征，會極大的影響提示內容的控圖效果。
圖像正常：圖像的美感因人而異，但至少應保證出圖結果穩(wěn)定且正常，比如出圖結果中沒有線條錯亂、五官扭曲等情況。
文件健康：這里就是前面提到的模型中沒有額外的垃圾數(shù)據(jù)，且 VAE 文件正常，無需使用外置模型。

六、關于最新的 SDXL

7 月 26 日，Stability AI 官網(wǎng)宣布開源了迄今為止最強的繪圖模型—Stable Diffusion XL 1.0，很多人都在驚嘆Midjourney的免費版平替要來了，為什么這款新模型會引起如此多熱議，相較于之前版本又有哪些區(qū)別呢？

自去年 8 月 Stable Diffusion V1 發(fā)布至今，Stability 已陸續(xù)推出過 V1.X、V2.X、XL 0.9 等多個版本，但除了一開始開源的初代版本外，后續(xù)版本似乎都沒有像 XL 1.0 這樣引起如此多熱議，XL0.9 也只是支持在 ComfyUI 上使用，而 XL 1.0 算是真正意義上大多數(shù)用戶可以體驗的全新旗艦版模型。完整的 Stable DiffusionXL 1.0 包含 2 個部分：Base 版基礎模型和 Refiner 版精修模型。前者用于繪制圖像，后者用于對圖像進行優(yōu)化，添加更多細節(jié)。

下面先來了解下下本次 Stable DiffusionXL 1.0 發(fā)布后最讓人關注的幾點信息：

1. 迄今為止最大的開源繪圖模型

Stable DiffusionXL 1.0 是目前世界上最大參數(shù)級的開放繪圖模型，基礎版模型使用了 35 億級參數(shù)，而精修版模型使用了 66 億級參數(shù)，要知道清華的 LLM—ChatGLM也才6億的參數(shù)量。巨量級參數(shù)帶來的是出圖兼容性大幅提升，Stable DiffusionXL 1.0幾乎可以支持任意風格的模型繪制，并且圖像精細度和畫面表現(xiàn)力也都得到了顯著提升。

如今的 Stable DiffusionXL 甚至可以支持生成清晰的文本，這是目前市面上絕大多數(shù)繪圖模型都無法做到的。此外，對人體結構的理解也被加強，像之前一直被詬病的手腳錯誤等問題都得到了顯著改善。

2. 原生出圖的分辨率超級加倍

在之前版本的 Stable Diffusion 模型中，由于是采用 512 或 768 尺寸的圖片進行訓練，因此當初始圖像超過這個尺寸就會出現(xiàn)多人多頭的情況，但小尺寸圖像又無法體現(xiàn)畫面中的細節(jié)內容，因此此前的做法都是先生成小圖，再通過高清修復等方式繪制大圖。

但 XL1.0 采用了 1024 x1024 分辨率的圖片進行訓練，這就保證了日后我們以同樣尺寸繪制圖像時再也不用擔心多人多頭的問題，可以直接繪制各種精美的大尺寸圖片（如果顯卡算力跟得上的話～）。并且通過 Refiner 精修模型的二次優(yōu)化，原生圖像表現(xiàn)力也得到了顯著提升。

3. 更加智能的提示詞識別

此前我們在繪制圖像時通常需要添加“masterpiece”等限定詞來提升畫面表現(xiàn)力，而如今 XL1.0 只需短短幾個詞便能生成非常精美的圖片。

更重要的是，新版 XL 對自然語言的識別能力大大增強。此前我們都是通過詞組方式來填寫提示詞，對于圖像中需要突出展示的內容我們也是手動添加括號來增強對應關鍵詞的權重。而日后我們可能更多情況下都會使用自然語言，也就是連貫的句子來描述圖像信息，Stable Diffusion 會自動識別關鍵內容給予呈現(xiàn)。簡單來說，我們編寫咒語的門檻會大大降低，只需簡單的自然語言描述就能獲得目標圖像。

4. 超豐富的藝術風格支持

舊版模型的默認繪圖風格更傾向于真系系的照片攝影，而在最新的 Stable Diffusion XL1.0 中提供了更加豐富的藝術風格選項，可以通過提示詞在十余種不同風格間自由切換，包括動漫、數(shù)字插畫、膠片攝影、3D 建模、折紙藝術、2.5D 等距風、像素畫等超多選項。

結合目前大模型的發(fā)展方向來看，模型的真正精髓應該是貴精不貴多，完美的 Stable Diffusion 模型應該是像 Midjourney 這樣包羅萬象、集百家之長的綜合模型，而最新的 XL1.0 已經(jīng)具備了這樣的雛形，可以說代表了 AI 繪畫領域的一個重要里程碑，配合豐富的開源插件生態(tài)，未來將有更多的玩法供廣大魔法師們來探索。

目前 Stable Diffusion XL1.0 在硬件兼容性上還沒有做到完美適配，對硬件要求也比較高，所以暫時不建議大家直接下載到本地使用。目前各大社區(qū)都在積極響應 SDXL 微調模型的訓練活動，相信幾個月后我們的模型庫就會迎來一次重磅更新。

目前不少社區(qū)平臺都上架了在線使用 SD 繪畫的功能，這里也為大家整理了一些可以免費體驗 SDXL 的資源鏈接，具體的使用和操作方法看平臺引導即可。

Discord 官方社區(qū)：https://discord.com/channels/sion

哩布哩布 AI： https://www.liblibai.com/

吐司網(wǎng)： https://tusi.art/

七、對模型社區(qū)的思考

先來說下現(xiàn)實問題，我自己最近在使用 SD 出圖時，發(fā)現(xiàn)開源社區(qū)里很多所謂頂流的繪圖模型并不好用，除了幾套固定的肖像圖外沒有太多發(fā)揮空間，尤其是配合角色形象的擴展模型使用時，大部分人物特征都直接失效了。后面去查找了資料發(fā)現(xiàn)了一些通用問題，以下內容僅是我個人意見，僅作參考。

以目前最火熱的模型平臺 Civitai 為例，C 站一直以資源豐富、創(chuàng)作自由而聞名，但現(xiàn)實問題是很多時候我們難以分辨模型的真實質量。用戶能看到所謂的模型效果圖往往是作者出了千百張圖后從中選擇的最優(yōu)解，模型畫廊里用戶反饋的圖片很多時候也是多模型組合產(chǎn)出的結果，可以提供的參考價值有限。

其次，很多模型平臺的流量推送邏輯是基于模型的更新速度，更新頻繁的模型往往能獲得更高熱度。但問題是需要頻繁更新的模型大多都是融合速成得來，因此后期需要經(jīng)常調整，真正優(yōu)質的模型反而更新頻率很低，因為作者在一開始已經(jīng)將模型訓練的十分出色了。

最后是很多模型平臺在發(fā)起的模型創(chuàng)作激勵活動，這類活動的初衷是為了獎勵優(yōu)秀的模型創(chuàng)作者，促進開源模型社區(qū)的發(fā)展，是一項刺激 AIGC 領域發(fā)展的有益活動。但很多創(chuàng)作者通過快速融合來批量生產(chǎn)罐頭模型薅羊毛，甚至為了沖榜可以煉制成千上萬張人臉，畢竟好看的小姐姐誰不喜歡呢？但問題是國內 AI 繪畫領域群體存在明顯的信息斷層，大部分人對模型好壞的判斷標準都僅限于可以出美女圖，導致這類模型越來越多。

綜合以上問題，最終導致如今的模型社區(qū)呈現(xiàn)出劣幣驅逐良幣的現(xiàn)象，同質化模型遍地開花，而很多真正兼容性強、訓練優(yōu)秀的模型卻很難被發(fā)現(xiàn)。

舉個真實的例子，前面提到的 GhostMix 模型制作者 GhostInShell，作為唯一一個在 C 站只發(fā)了一個 ckpt 模型就進入前十名的制作者，在非真人模型且不做任何擦邊內容的前提下，純靠模型的畫面質量和極高的兼容性 3 個月內在 C 站上做到了歷史全模型最高評價榜的第 2 名，下圖中可以看到 GhostMix 模型超強的兼容性和精美的出圖效果，且 C 站排名前十的非擦邊模型 Deliberate、ReV、DreamShaper 都是類似的效果。

雖說如今國內模型圈的資源十分豐富，但距離百家爭鳴的開源社區(qū)還有很長的路要走。如果所有人都在關注千篇一律的人像模型，遲早都會審美疲勞，而到那個時候又有誰愿意花費大精力訓練優(yōu)質模型呢？對此，我也希望國內社區(qū)平臺可以規(guī)范優(yōu)質模型的判斷標準和激勵制度，加強模型多維度能力的審核環(huán)節(jié)，流量扶持固然有助于新作品的曝光，但真正優(yōu)秀的創(chuàng)作者也應被更多人看到。而我們作為魔法協(xié)會的一員，也需加強對相關知識的學習，共同維護健康良好的社區(qū)環(huán)境。

在今天的文章里沒有涉及太多的實操案例，更多的是對目前模型知識的總結和反思，文中不少知識點都來自于開源社區(qū)中各位前輩的無私分享，非常感謝秋葉、鏨制千秋、GhostInShell、落辰星等大佬為推動國內 SD 開源學習所做的努力。

希望通過這篇文章，可以幫助更多對 Stable Diffusion 感興趣的朋友建立從原理層到應用層的知識框架，并對未來 AI 繪畫模型的發(fā)展有更加體系化的認知，如果你有更多對 SD 模型的想法也歡迎在評論區(qū)給我留言。

歡迎關注作者微信公眾號：「樂伊體驗筆記」

標簽：