最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

17款主流顯卡Stable Diffusion AI繪圖性能橫向測試

2023-08-28 11:18 作者:電腦報  | 我要投稿
毫無疑問,AIGC是當下最火熱的領(lǐng)域之一,無論是語言模型ChatGPT還是圖像生成模型Stable Diffusion/Midjourney,或許都將成為改變大家未來的起點,對各種創(chuàng)作領(lǐng)域也將帶來極大的沖擊。在AIGC繁榮發(fā)展的同時,背后的功臣——GPU,也再次成為了玩家們熱議的焦點。與此同時,可以離線部署的Stable Diffusion(簡稱:SD)的出圖性能,也讓大家能從另一個維度衡量來顯卡的性能。下面我們也一起來看看吧。

Stable Diffusion是如何畫出想要的圖片的?

說起AI繪圖,除了在線生成、需要付費使用的Midjourney以外,大家肯定還會想到可以免費離線部署的Stable Diffusion。實際上,Stable Diffusion是一種算法,直譯過來就是穩(wěn)定(Stable)擴散(Diffusion)算法。而我們平時使用的在瀏覽器操作的界面,就是由 AUTOMATIC1111 開發(fā)的Stable Diffusion的WebUI,也就是圖形界面。

Stable Diffusion文生圖工作流程示意圖

在圖像算法領(lǐng)域中,擴散算法是通過一定的規(guī)則正向擴散(加噪)或反向擴散(去噪)的過程。如果開啟了Stable Diffusion WebUI的預覽功能,大家就可以看到在生成一張圖片時,圖片是從最開始的一張灰色噪點圖塊逐漸變清晰直到成為想要的圖片。

簡單來說,在Stable Diffusion的文生圖工作時,就是通過CLIP模型作自然語義處理,將自然語義提示詞(Prompt)轉(zhuǎn)化為詞向量(Embedding)。然后通過UNET大模型進行分步擴散去噪,最后通過VAE變分自編碼器進行壓縮(Encoder)和反解(Decoder),最終解析生成我們想要的分辨率大小的圖片。當然,實際的算法和流程比這個要復雜不少,限于篇幅我們不做進一步詳解。


AI深度學習與顯卡的共同進化史

硬件配置方面,由于Stable Diffusion需要用到Pytorch框架,而NVIDIA的CUDA生態(tài)在Pytorch上有著更好的表現(xiàn),AMD顯卡、Intel顯卡和CPU在Windows環(huán)境下則需要使用到Pytorch-DirectML才能正常使用,在效率、易用性和兼容性方面都有一些不足。在Linux環(huán)境下,AMD顯卡還可以通過ROCm來實現(xiàn)更高的效率,但總體而言還是不如NVIDIA的CUDA生態(tài)。所以如果想要有更好的體驗Stable Diffusion,建議使用NVIDIA GPU的顯卡。

其實在多年以前,游戲顯卡的作用其實還是比較純粹的,幾乎就是游戲娛樂,并不能很好的用于AI深度學習計算等,或者說效率不是很高。不過這一切隨著NVIDIA Volta架構(gòu)的Titan V顯卡上市而得到了改變。

TensorCore的出現(xiàn)極大的增強了AI深度學習能力

Titan V第一次將TensorCore張量計算核心帶到了用戶面前,它支持FP16和FP32下的混合精度矩陣乘法,深度學習峰值性能遠超Pascal架構(gòu)產(chǎn)品,也就是從這里開始,顯卡的深度學習性能有了大幅的進步。而Stable Diffusion可以使用FP16半精度和FP32單精度進行推理計算。

而讓普通消費級玩家真正開始接觸TensorCore張量計算核心,則是從Turing架構(gòu)的RTX 20系列GPU開始。也正因此,RTX 20系列顯卡可以完成光線追蹤和DLSS等復雜計算。在算力提升的同時,第二代TensorCore還加入了對INT8和INT4的支持,進一步豐富了深度學習訓練和推理能力。

第三代TensorCore伴隨Ampere架構(gòu)的RTX 30系列顯卡問世,在繼續(xù)提升算力的同時,還引入了BF16和TF32兩種新的數(shù)據(jù)格式,同時還能夠提供稀疏化加速,進一步提升TensorCore的性能。

當下主流的Ada Lovelace 架構(gòu)RTX 40系列顯卡搭載了最新的第四代TensorCore,新增了Hopper FP8 Transformer Engine。FP8低精度浮點數(shù)特性能夠讓近年來火熱的AI框架Transformer獲得極大的收益,讓深度學習性能得到了巨大的飛躍。對于游戲玩家來說,新的架構(gòu)所支持的全新的DLSS3,同樣也是基于深度學習神經(jīng)網(wǎng)絡(luò)完成的。

回到Stable Diffusion上,目前主流的Stable Diffusion 1.5可以使用FP16和FP32。FP32相比FP16有著更高的精度,不過RTX 20系列的FP32性能只有FP16的一半,而RTX 30和RTX 40系列雖然FP32和FP16性能一致,但FP32占用的顯存是FP16的兩倍,使用起來不是很劃算。所以在實際使用中,為了追求更高的速度和更小的顯存占用,通常大家更優(yōu)先考慮使用FP16。

也就是說,使用Stable Diffusion進行AI繪圖,我們需要關(guān)注顯卡的FP16/FP32性能(重點關(guān)注FP16)。當然,繪圖性能是一個綜合考量,和顯卡的架構(gòu)、頻率也有著一定的關(guān)系,在進行高分辨繪制時,還要留意顯存容量的大小。性能決定了繪圖的速度,而顯存容量則決定了能不能畫。

另外值得一提的是,最新的SDXL大模型還可以使用BF16進行訓練,對于不支持BF16的顯卡來說,未來的應用范圍可能會越來越窄。


AI繪圖性能測試,不同場景不同表現(xiàn)

Stable Diffusion的發(fā)展非常迅速,短短不到一年的時間,它能實現(xiàn)的功能也是越來越多,國內(nèi)社區(qū)的發(fā)展也是越來越成熟,國內(nèi)模型作者帶來的底模和Lora等數(shù)量也是越發(fā)豐富。我們也可以更全面的分析不同顯卡在不同工況下的AI繪圖性能對比。

這次我們給大家?guī)砹藦腞TX 2060 Super到RTX 4090一共17款顯卡的Stable Diffusion AI繪圖性能測試。由于目前SDXL還不夠成熟,模型數(shù)量和插件支持相對也較少,且對硬件配置的要求進一步提升,所以暫時依舊使用SD1.5進行測試。測試環(huán)境方面,我們使用國內(nèi)作者秋葉最新版整合包,模擬了3種應用場景進行測試。


測試環(huán)境:
Stable Diffusion WebUI:1.5.1
Xformers:0.0.20
python:3.10.11
torch:2.0.1+cu118
ControlNet:v1.1.237


測試平臺:
CPU:Intel酷睿i9 13900K
顯卡:NVIDIA RTX 20/RTX 30/RTX 40共17款
主板:ROG MAXIMUS Z790 HERO
內(nèi)存:十銓DDR5 7200 16GB×2
硬盤:WD_BLACK SN850X 2TB
電源:ROG雷神2代 1000W


測試一:大模型直接生成圖片/“Tag抽卡”

模型:StableSRv2
Lora:無
外掛VAE模型:無
采樣方法:Euler a
迭代步數(shù):50
分辨率:768×768
總批次數(shù):10
單批數(shù)量:2
正向提示詞:beautiful render of a Tudor style house near the water at sunset, fantasy forest. photorealistic, cinematic composition, cinematic high detail, ultra realistic, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting, ++dreamlike, vignette

測試一通過提示詞生成類似這樣的房屋與環(huán)境圖片

第一個測試來自英偉達測試指南提供的模型和提示詞,生成分辨率為768×768的圖片,這個測試基本就是使用底模純Tag抽卡,沒有加載Lora,甚至連反向提示詞也沒有,整體壓力相對比較小。

從測試結(jié)果來看,RTX 4090的出圖速度以壓倒性的優(yōu)勢排在第一,每分鐘可以生成19.73張圖,也就是差不多3秒就可以畫好一張。出圖速度達到了上代旗艦RTX 3090 Ti的1.76倍,RTX 3090 Ti是沒有跑贏RTX 4080的。而RTX 4070 Ti略微超過RTX 3090,RTX 4070也能跑贏RTX 3080??傮w來看,在中高端產(chǎn)品線上,RTX 40系列還是有著比較大的優(yōu)勢的。

在這17張顯卡中,RTX 3060的表現(xiàn)稍微有些欠佳,基本上只能和RTX 2060 Super差不多,當然,RTX 4060也沒有快多少。

雖然這套測試標準比較簡單粗暴,但是還是能比較直觀的反映出圖性能表現(xiàn)的。畢竟現(xiàn)在很多國內(nèi)大神訓練的底模,通過提示詞直接抽卡也能獲得比較不錯的圖片了。


測試二:人物大模型+Lora+高分辨率修復

模型:墨幽人造人
Lora:4個
外掛VAE模型:無
采樣方法:DDIM
迭代步數(shù):50
原生分辨率:512×768
高分辨率修復:1024×1536(迭代0步/重繪0.2/放大倍數(shù)2)
放大算法:8X_NMKD-Superscale_150000_G
總批次數(shù):10
單批數(shù)量:1

正向提示詞:1girl,eye contact,sunlight,<lora:jk uniform:0.5>,(JK_suit),(JK_shirt),JK_style,(dark blue JK_skirt),standing,arms behind back, white thighhighs,3d,unity 8k wallpaper, ultra detailed, beautiful and aesthetic,cherry blossoms,(depth of field:1.5),<lora:jkheisi_1.0:0.5>,black pantyhose,<lora:FilmGirl_3.0:0.4>,<lora:tutu face_V2.0:0.8>

測試二通過提示詞生成類似這樣的人物圖片

目前Stable Diffusion模型中最受歡迎數(shù)量最多的便是各種人物模型。在第二個測試中我們將大模型換成了國內(nèi)作者訓練的真人風格模型,同時給人物使用了4個Lora,分別控制服裝、臉部和畫面風格。為了得到更高清的圖像,同時也給顯卡更大的壓力,這次還加入了高分辨率修復(HiresFix),將圖片分辨率從初始的512*768放大2倍到1024*1536。

這一次的算力需求明顯變高,即使強如RTX 4090,每分鐘也只能畫出3.75張圖,也就是差不多16秒才能畫出一張圖了。和上一個測試不同的是,這次RTX 3060終于是跑贏了RTX 2060 Super,RT 4060也跑贏了RTX 2070 Super。從這個測試來看,在這樣負載稍高一點的情況下,最近兩代的優(yōu)勢會顯得更加明顯一些。這大概是兩方面的原因?qū)е碌?,一是在加入了高分辨率修復后,顯存壓力變大,有更大顯存的顯卡,如RTX 3060,雖然FP16算力略低于RTX 2060 Super,但憑借顯存容量優(yōu)勢獲得了更好的表現(xiàn)。而且,新版本的CUDA深度神經(jīng)網(wǎng)絡(luò)庫(cuDNN)對RTX 30和RTX 40系列的優(yōu)化顯然更好,在相對復雜的場景中有著更高的生成效率。


測試三:ControlNet Tile高清修復

模型:MajicMix_nwsj
Lora:1個
外掛VAE模型:無
采樣方法:DPM++ 2M SDE Karras
迭代步數(shù):30
原生分辨率:512×512
輸出分辨率:1280×1280
ControlNet:Control_v11f1e_sd15_tile_fp16
控制模式:均衡
縮放模式:僅調(diào)整大小

正向提示詞:(fluorescent colors:1.4),(translucent:1.4),(retro filters:1.4), (fantasy:1.4), candy world Disney land ethereal soft fluffy soft landscape forest snowavatar Pastel pink sky green blue sparkle ethereal light pastel whimsical light rainbow stars diamonds sparkle gemstone background hyper realistic Ultra quality cinematic lighting immense detail Full hd painting Well lit,diagonal bangs, .ball gown dress,rabbit pose.masterpiece, best quality,realskin,(portrait:1.5), 1girl, blunt bangs, long hair <lora:OC:0.5>.

ControlNet可以說是Stable Diffusion中必不可少的插件,為Stable Diffusion帶來了更多的玩法和更強大的畫面控制能力。其中Tile模型也是憑借強大的功能廣受大家喜愛,它的功能之一就是高清修復模糊圖片。我們這里用之前生成的一張512×512的圖片,可以看到因為分辨率的限制,細節(jié)方面還是有些不足。放入ControlNet Tile修復,并將分辨率提升至1280×1280,可以看到修復后的細節(jié)確實好了不少。

在這個測試中,RTX 4090每分鐘出圖5.45張,也就是每11秒就可以出一張圖,相對于其他顯卡依舊是壓倒性的優(yōu)勢。而其他顯卡的性能排名又有了一些細微的變化,大致來看的話,RTX 40系列的表現(xiàn)比前一個測試要好一些,RTX 4060Ti跑贏了RTX 3070 Ti,RTX 4070 Ti也略微超過了3090 Ti,看來在ControlNet Tile模型應用下,新版CUDA深度神經(jīng)網(wǎng)絡(luò)庫(cuDNN)對于RTX 40系列有著更好的優(yōu)化。

測試三高清修復后可以看到細節(jié)明顯增多

因為測試分辨率的提高,顯存占用也更大,根據(jù)Stable Diffusion系統(tǒng)信息的反饋,顯存最高占用大概是9.1GB左右,也就是說稍微超出了8GB顯存容量,所以我們也可以看到,在這個測試中,有著更大容量顯存的卡表現(xiàn)會更好一些,從有著12GB顯存的RTX 4070開始,性能有著比較明顯的提升。

從以上三個測試來看,測試中最低端的顯卡RTX 2060 Super的出圖效率,差不多剛好是最高端的RTX 4090的五分之一左右。所以大家常說的生產(chǎn)力就上RTX 4090,確實是沒錯的。因為以上測試條件也是盡量控制了不超出或者不過多的超出8GB顯存這個范圍,所以這時GPU本身的性能是要比顯存容量更為重要的。

如果以當前全新顯卡的售價為準,將出圖數(shù)量除以價格,得到的每塊錢出圖效率的話,其實低端的RTX 2060 Spuer和RTX 3060 12GB是有著很高的性價比的。在新的RTX 40系列中,則是RTX 4060 Ti和RTX 4070有著較高的性價比。當然,這是在完全不考慮效率的情況下,如果你是作為生產(chǎn)力工具來使用的話,還是建議購買更高端的產(chǎn)品。比如算成24小時連續(xù)不斷出圖數(shù)量的話,RTX 4090要比RTX 2060 Super多出4000張左右了(以測試二為基準),絕對數(shù)量的差距還是非常大了,這還是在不考慮顯存容量提升能帶來更多應用場景的前提下。

因為在生成高分辨率圖片時會占用大量顯存,而顯存耗盡后,即使通過設(shè)置或插件實現(xiàn)不爆顯存的操作,也是要調(diào)用內(nèi)存進行處理的。因為內(nèi)存帶寬遠低于顯存,還要通過PCIe總線交換數(shù)據(jù),所以會大幅增加出圖時間。

比如我們使用測試二的方法,將原始分辨率提升到720×1024并使用高分辨率修復2倍到1440×2048,單批數(shù)量改為2。此時的顯存最高占用將會達到16.4GB左右,也就是說這次參加測試的顯卡除了RTX 4090、RTX 3090 Ti和RTX 3090之外都會超出顯存范圍。

如果以RTX 4090的性能為100%的話,在這種情況下,參測的大部分顯卡相對RTX 4090的性能比例都有所下降(對比測試二),而其中8GB顯存顯卡的下降幅度要明顯多于12GB/16GB顯存的顯卡,比較直觀的是,在這里RTX 4060已經(jīng)跑不贏RTX 3060 12GB了, RTX 20系列更是幾乎是成倍的下降。


總結(jié):根據(jù)需求選顯卡,顯存容量要注意

如果你只是偶爾畫幾張圖玩一玩或者學習下使用方法,其實大概率不是隨時都能用得到這么大的顯存的,8GB顯存的顯卡其實已經(jīng)能夠滿足很多需求了。因為SD1.5大模型自身的原因,很多都無法實現(xiàn)高分辨率圖片直出。直接生成1000×1000以上分辨率的圖片大概率會出現(xiàn)“三頭六臂”或者細節(jié)模糊等情況,而相比占用顯存較高的高分辨率修復,玩家也可以通過Tiled Diffusion+Tiled VAE的方式來實現(xiàn)圖片放大。

當然,隨著目前SDXL大模型的演進,繪圖分辨率得到進一步提升,顯存需求也有著明顯的提高,如果你想在這個領(lǐng)域深耕下去,并將其轉(zhuǎn)換為生產(chǎn)力工具,那么更大顯存容量的顯卡或許是你優(yōu)先考慮的目標,畢竟顯存容量決定了能不能跑,顯卡性能才能再決定跑得快不快。這個時候再回過頭去看NVIDIA低調(diào)上線的RTX 4060 Ti 16GB,用意或許就很明顯了。如果你在生成的同時,還有訓練模型的需求,那么大顯存容量的顯卡,可以說幾乎是必備了。

不管你是支持還是反對,以Stable Diffusion為代表的AI終將會對我們未來的工作生活帶來一些影響,各位玩家覺得該如何面對呢?


17款主流顯卡Stable Diffusion AI繪圖性能橫向測試的評論 (共 條)

分享到微博請遵守國家法律
青铜峡市| 台州市| 洱源县| 明星| 佛冈县| 寿宁县| 梧州市| 榕江县| 隆回县| 襄垣县| 壤塘县| 儋州市| 长治市| 海南省| 榆中县| 文化| 和静县| 库车县| 岚皋县| 钟山县| 靖江市| 武城县| 龙山县| 祁连县| 丹凤县| 建昌县| 韶关市| 锡林浩特市| 囊谦县| 来安县| 隆子县| 吉水县| 庆城县| 志丹县| 沛县| 宁陵县| 肇庆市| 兰坪| 广平县| 公主岭市| 巴彦县|