【Stable Diffusion】“革命性突破”!GPU加速帶來的文本生成圖像的飛速突破

Stable Diffusion 是一種由文本到圖像的生成式模型,?自2022年作為開源項目被發(fā)布在 Github?上以來,?受到了廣泛的應(yīng)用和飛速的發(fā)展. 在?Stable?Diffusion?的生成過程中,?GPU?帶來了明顯的加速效果.?

本次測試針對 Stable?Diffusion?軟件在不同的GPU上的加速效果進(jìn)行了測試. 我們利用Stable?Diffusion?的文本生成圖像的功能,?利用統(tǒng)一的提示詞,?使用相同的工具,?保證了除 GPU?型號之外的硬件以及軟件的一致性.?
本次實(shí)驗(yàn)中采用的硬件規(guī)格如下 (Tab?1):?

測試過程中,?生成10個批次的512*512規(guī)格的圖像,?每個批次生成一張圖片, 與10個批次每個批次6張圖片生成的結(jié)果比較如下 (Bar?1):

從上圖 (Bar 1), 可以看出性能最好的是NVIDIA RTX 6000 Ada, 比上一代的RTX 6000 在圖片生成的速度上快了 2.2 倍, 比 RTX 2080 Ti 快了將近三倍. 第二性能比較好的shuyu RTX 4090, 但是在大批次的數(shù)據(jù)生成下, 4090 因帶寬較高, 性能比RTX 6000 Ada 稍好一些. 第三是 RTX A6000 但是也達(dá)到了 18.72的速度.
比較直觀一點(diǎn)的感受可以從下表中的圖片生成時間來進(jìn)行比較:

下圖是對生成1024*1024圖像, 在兩個不同的生成規(guī)模下 (10 Batch 1 Size 和 2 Batch 5 Size) 圖片的不同生成速度, 見 Bar 2:

當(dāng)生成圖片的規(guī)模上來之后, 發(fā)現(xiàn)企業(yè)級卡的性能表現(xiàn)更好, 在2 Batch 5 Size 的情況下, A30 可以達(dá)到 2.34 it/s. 其他個人級別的卡在性能上也出現(xiàn)了差異, RTX 8000 和 RTX 2080 Ti的速度優(yōu)于 RTX 4090 和 RTX 6000 Ada.
我們還在服務(wù)器上用企業(yè)級卡做了對比測試, 結(jié)果如下:

A800 的性能最好, 是普通T4 的 8 倍, 是 A40, A30 將近兩倍的速度.
結(jié)論
由上述實(shí)驗(yàn)結(jié)果可見, 如果只需要小批量生成數(shù)據(jù), A6000 Ada 和 RTX 4090 可以提供較快的速度; 但是當(dāng)生成需求或者數(shù)據(jù)量變大的時候, 內(nèi)存更大且?guī)捀叩钠髽I(yè)級卡更滿足要求.

上海信弘智能科技有限公司(ZENTEK)是 NVIDIA 核心合作伙伴。我們提供 NVIDIA 最新的軟硬件產(chǎn)品與解決方案,為人工智能,高性能計算,數(shù)字孿生等領(lǐng)域的客戶需求提供專業(yè)的服務(wù)。

