關于Stable Diffusion的超全知識匯總
Stable Diffusion主要用于從文本生成圖像,是人工智能技術在內容創(chuàng)作行業(yè)中不斷發(fā)展的應用。要在本地計算機上運行Stable Diffusion,您需要一個強大的 GPU 來滿足其繁重的要求。強大的 GPU 可以讓您更快地生成圖像,而具有大量 VRAM 的更強大的 GPU 可以讓您更快地創(chuàng)建更高分辨率的圖像。那么,最適合Stable Diffusion的消費類 GPU 是什么?讓我們看看NVIDIA和AMD的部分GPU上的Stable Diffusion性能來尋找答案。
關于Stable Diffusion
什么是Stable Diffusion?
Stable Diffusion是一種機器學習模型。由于它能夠根據(jù)文本提示生成圖像,因此它越來越多地用于內容創(chuàng)建。Stable Diffusion 的獨特之處在于它缺乏商業(yè)開發(fā)的軟件,而是依賴于各種開源應用程序。此外,與其他類似的文本到圖像模型不同,它通常在本地系統(tǒng)上本地使用,而不是使用在線 Web 服務。
Stable Diffusion 可以在具有至少 8GB VRAM 的中檔 GPU 上運行。然而,它極大地受益于具有更多 VRAM 的強大現(xiàn)代 GPU。
Stable Diffusion的組成框架
您可以直接使用Stability AI和Runway開發(fā)的Stable Diffusion版本。然而,大多數(shù)人使用第三方創(chuàng)建的基于網(wǎng)絡的版本。最常用的Stable Diffusion是:
Automatic 1111:這主要用于 NVIDIA GPU,盡管 AMD 和 Apple Silicon 也有分支。它允許您使用xformers,它可以顯著提高 NVIDIA GPU 的性能。
SHARK:SHARK 是Automatic 1111 的替代方案。它本身支持 NVIDIA 和 AMD GPU。然而,AMD GPU 的性能往往較高,而 NVIDIA GPU 的性能往往較低。
自定義:有些人使用他們需要的功能創(chuàng)建自己的應用程序,因為Stable Diffusion是公開的,任何人都可以直接使用。
每個實現(xiàn)在功能和可用性方面都有獨特的優(yōu)點和缺點。從性能和基準測試的角度來看,推薦使用Automatic 1111和SHARK。根據(jù)您要測試的GPU,建議同時使用Automatic 1111和SHARK。使用 Automatic 1111 測試 NVIDIA GPU,使用 SHARK 測試 AMD GPU。
注意:Stable Diffusion 會不斷更新,因此您使用的不同版本可能會導致性能變化。
什么影響Stable Diffusion的性能?
首先,Stable Diffusion設置和模型
最常調整的設置(例如提示、否定提示、cfg 比例和種子)不會對性能產(chǎn)生顯著影響。生成狗或山地景觀的圖像需要相同的時間。即使選擇的模型也往往只會導致生成時間的微小差異??聪旅娴膱D像,盡管有不同的提示和 cfg 比例,但它們的生成時間幾乎完全相同。

其他設置(例如步長、分辨率和采樣方法)將影響Stable Diffusion的性能。
步驟:調整步驟會影響生成圖像所需的時間,但不會改變每秒迭代的處理速度。盡管許多用戶選擇 20 到 50 步,但將步數(shù)增加到 200 左右往往會在每次運行中產(chǎn)生更一致的結果。
分辨率:圖像分辨率不僅對性能影響最大,還會影響生成圖像所需的 VRAM 量。出于基準測試目的,您可以使用 512×512 分辨率來確保與各種 GPU 型號的兼容性。
采樣方法(Euler、DPM等)。它會顯著影響生成時間,某些選項所需的時間大約是其他選項的兩倍?!癊uler”和“Euler a”使用最廣泛,并且往往提供最佳性能。其他方法(例如 DPM2)往往需要大約兩倍的時間。出于 GPU 基準測試的目的,建議堅持使用 Euler 的變體以保持一致性。
其次是硬件
GPU?:GPU 對速度和圖像質量影響最大。更強大的 GPU 具有更高的內存帶寬和更多的 VRAM,可以更快地生成穩(wěn)定的擴散圖像,尤其是在更高分辨率的情況下。GPU 上的 VRAM 數(shù)量決定了可以生成的最高分辨率圖像。建議至少 8GB,更高分辨率需要 12GB 或更多。
CPU?:雖然 GPU 處理大部分繁重的工作,但快速的 CPU 仍可以在較小程度上提高性能。具有更高時鐘速度和更多內核的 CPU 可以提供較小的提升。
RAM?:系統(tǒng)內存有助于向 GPU 提供數(shù)據(jù),因此至少擁有 16GB RAM 可以確保最佳性能。更多 RAM(高達 32GB 或 64GB)可以進一步提高速度。
實現(xiàn)Stable Diffusion的最佳 GPU
要了解最適合Stable Diffusion的消費類 GPU,我們將檢查這些 GPU 在其兩個最流行的實現(xiàn)(其最新公開版本)上的Stable Diffusion性能。
許多Stable Diffusion實現(xiàn)通過計算“每秒迭代次數(shù)”或“?it/s?”來顯示它們的工作速度。因此,為了檢查Stable Diffusion性能,該指標是常用且很好的衡量標準。每秒迭代次數(shù)是通過將迭代次數(shù)除以生成圖像所需的秒數(shù)來計算的。例如,如果生成具有 200 次迭代的圖像需要 15 秒,則每秒的迭代次數(shù)約為13.3(即 200 次迭代除以 15 秒)。
首先,讓我們看一下 Puget Systems 在 4000 系列 GPU 以及最近三代 NVIDIA 和 AMD RX 7900 XTX 和 RX 6900 XT的頂級 GPU 上測試的基準測試結果。
Automatic 1111性能

Automatic 1111是Stable Diffusion最常用的表現(xiàn)形式,通??梢栽?NVIDIA GPU 上提供最佳性能。
NVIDIA 在這方面的表現(xiàn)明顯優(yōu)于 AMD。在 NVIDIA 的 GPU 列表中,RTX 4090 是獲勝者,在Automatic 1111上提供了最高的性能結果。 甚至 RTX 3060 Ti 的速度也是 Radeon GPU 的兩倍。只有 GTX 1080 Ti 比 RX 7900 XTX 差。
較新的 4000 系列 GPU 在圖像生成速度方面具有明顯的優(yōu)勢,同時性能與價格呈線性增長。RTX 4070 Ti 比之前的 RTX 3090 Ti 快約 5%,RTX 4060 Ti 比 3060 Ti 快近 43%,這表明了這一點。如果您仍然擁有 2000 或 1000 系列 GPU,即使是中檔 4000 系列 GPU 也能提供顯著的性能提升。
Shark性能測試

盡管 SHARK 不如Automatic 1111 常用,但許多 AMD 用戶更喜歡它??纯瓷厦娴幕鶞蕼y試結果,原因就很清楚了。
RX 7900 XTX 的性能在 SHARK 的幫助下翻了四倍,每秒的迭代次數(shù)與運行 1111 的 RTX 4090 類似。同樣,RX 6900 XT 的性能提升幅度甚至更大,達到了 1100%,但這僅使其與低端產(chǎn)品具有競爭力。已測試 NVIDIA GPU。
使用 SHARK 時,NVIDIA GPU 的性能比自動1111差約 30% ,盡管相對性能保持相同。
重要提示:正確使用Stable Diffusion非常重要,因為它會極大地影響性能。它可以從減少 30% 到大幅增加 1100%!上述GTX 1080 Ti的結果證明了這一點。在 Puget Systems 的本次測試中,它無法運行 SHARK。
總結
最突出的是各種Stable Diffusion實現(xiàn)之間性能的巨大差異。NVIDIA GPU 在Automatic 1111上提供最高性能,而 AMD GPU 在 SHARK 上工作效果最佳。頂級 GPU 各自的實現(xiàn)具有相似的性能。
如果您尚未決定使用特定的實現(xiàn),NVIDIA 和 AMD 的高端 GPU 都提供了出色的性能。GeForce RTX 4090 和Radeon RX 7900 XTX 在Stable Diffusion的首選實現(xiàn)中均提供約 21 it/s 的速度。
值得注意的是,Stable Diffusion是一個不斷發(fā)展的模型,具有一組工具。今天的運作方式與幾個月前或未來的運作方式截然不同。 它的性能將在未來幾個月和幾年內發(fā)生變化。因此,本文中的性能結果可能會隨著時間的推移而發(fā)生變化。作為明智的讀者,我們希望您理解這些基準測試結果僅供參考。
如果您有興趣在 RTX 4090 等頂級 GPU 上測試當前使用的Stable Diffusion實現(xiàn)的性能,請查看我們下面的服務。
贊奇云工作站- Stable Diffusion的云服務平臺
Stable Diffusion 主要是為單 GPU 使用而設計的;然而,通過一些額外的軟件和配置,它可以利用多個 GPU。通過將工作分散到多個 GPU 上,可以提高整體迭代速度。雖然大多數(shù)Stable Diffusion實現(xiàn)默認設計為在單個 GPU 上運行,但一種常用的實現(xiàn)(Automatic1111)可以選擇以最少的附加配置啟用多 GPU 支持。
運行Stable Diffusion算力越強,出圖越快。顯存越大,所設置圖片的分辨率越高,所以一般的配置電腦還是帶不動stable diffusion的,所以還是推薦選擇贊奇云工作站,相比傳統(tǒng)電腦無需一次性投入大量金錢,還可以隨開隨用,按需使用,高效助力設計。

上贊奇云工作站不需要復雜的安裝和部署,就能隨時隨地享受到行業(yè)領先配置的機器,高畫質穩(wěn)定輸出作品,減少本地配置時間和成本投入,完全不同擔心電腦卡頓、運行不動等問題。

贊奇云工作站整合打通設計者前端生態(tài)應用和設計業(yè)務全流程,可全面調用云計算資源進行云游戲、云桌面辦公開發(fā),以及涵蓋VR/AR、三維建模、實時交互、視覺設計、視頻制作、影視特效渲染、院校培訓、人工智能計算在內的應用場景,助力用戶們隨時隨地暢享高性能算力。
注:手機號注冊首次試用享優(yōu)惠,贊奇云工作站官網(wǎng)地址zanqicloud.com/找在線客服有優(yōu)惠價,企業(yè)客戶優(yōu)惠多多哦