散文網(wǎng) » 科技 »數(shù)碼 » GPU Benchmarks_1 2023.1.16 for test

GPU Benchmarks_1 2023.1.16 for test

2023-01-16 01:50 作者:無(wú)知n 0人讀過(guò) | 我要投稿

（發(fā)現(xiàn)專(zhuān)欄可以投代碼塊，就來(lái)寫(xiě)寫(xiě)試試，純粹作記錄用）

關(guān)于GPU的深度學(xué)習(xí)計(jì)算性能，因?yàn)榧揖池毢?，并沒(méi)有摸過(guò)很多卡，加上現(xiàn)在在家里，不能用學(xué)校的電腦，就先拿破筆記本試一下。

很早就看到李沐大佬的視頻環(huán)境安裝，BERT、GPT、T5 性能測(cè)試，和橫向?qū)Ρ取?00億模型計(jì)劃】，其中就提到了用Pytorch的torch.utils.benchmark進(jìn)行GPU浮點(diǎn)性能測(cè)試。

至于筆記本有多破，是15年買(mǎi)的神舟Z6，i7 6700HQ+GTX960M。經(jīng)歷過(guò)十多次大修，換過(guò)屏幕，硬盤(pán)，修過(guò)顯卡供電，顯示供電，換了屏幕排線(xiàn)（大部分是自己動(dòng)手），然而他依然能用。

(為了驗(yàn)證電腦有多破，把電腦外接電源拔了，電腦當(dāng)場(chǎng)關(guān)機(jī)，電池是壞的。結(jié)論：嗯，很破！)

（另外，這個(gè)電腦買(mǎi)了之后不久就發(fā)布了10系pascal架構(gòu)，只能說(shuō)14nm的CPU搭配28nm的顯卡顯得十分不協(xié)調(diào)，要是當(dāng)時(shí)懂芯片制程，就算死撐也要撐到10系顯卡發(fā)售）

李沐的TransformersBenchmarks項(xiàng)目開(kāi)源在github上https://github.com/mli/transformers-benchmarks，本意是各種Transformer模型在不同GPU上運(yùn)行效率的問(wèn)題，其中先測(cè)試深度學(xué)習(xí)最基礎(chǔ)的運(yùn)算：矩陣乘法在不同GPU上的運(yùn)行效率，然后測(cè)試了各個(gè)不同模型的運(yùn)行效率，包括BERT、GPT、T5。

需要注意到的一點(diǎn)是，這個(gè)運(yùn)行效率僅僅針對(duì)模型的前向運(yùn)算，而不是訓(xùn)練效率，至于訓(xùn)練效率則更相關(guān)于梯度下降算法。

在項(xiàng)目開(kāi)始之前，先看一下GPU的結(jié)構(gòu)，與計(jì)算相關(guān)的部分大概主要是GPU核心和顯存，其中顯存在進(jìn)行卷積運(yùn)算和深度學(xué)習(xí)模型中起到存儲(chǔ)數(shù)據(jù)的作用，他與GPU核心的數(shù)據(jù)交換速率更快，能夠達(dá)到百GB/s（蘋(píng)果的那種融合內(nèi)存除外）。而運(yùn)算性能主要與核心相關(guān)，除此之外，很多情況顯存也會(huì)成為瓶頸。

顯示硬件信息

Pytorch version : 1.11.0+cu113

CUDA version : 11.3

GPU : NVIDIA GeForce GTX 960M

這個(gè)倒不用多說(shuō)

測(cè)試顯卡浮點(diǎn)運(yùn)算性能

這里使用的是pytorch提供的benchmark庫(kù)（貼心），這里定義了兩個(gè)函數(shù)，首先是walltime，三個(gè)參數(shù)分別是：要執(zhí)行的命令，傳遞的參數(shù)和執(zhí)行時(shí)間，另一個(gè)函數(shù)var_dict則是傳遞參數(shù)用。

? ? ? ? ? ? ? ? ? ? ?n=128? ?n=512 n=2048 n=8192?

torch.float32? 0.060?? 0.992?? 1.300?? ?1.247

torch.float16? 0.058? ?1.101? ?1.032??? 1.052

現(xiàn)在就是性能測(cè)試階段，通過(guò)增大卷積矩陣的大小，并統(tǒng)計(jì)每秒鐘運(yùn)算的次數(shù)。理論上，驅(qū)動(dòng)和代碼優(yōu)化到位，在一個(gè)較大的矩陣大小上能得到顯卡核心浮點(diǎn)性能的理論值，單位TFLOPS。

其他

值得注意的是，除了核心性能，此性能還會(huì)收到顯存帶寬，緩存大小限制。顯存帶寬限制了小矩陣的性能，而緩存大小則更限制大矩陣卷積。英偉達(dá)的深度學(xué)習(xí)GPU上一般都有充裕的緩存，超大的顯存帶寬，當(dāng)然傳聞在游戲顯卡上對(duì)這兩項(xiàng)進(jìn)行閹割也不無(wú)道理。

另外關(guān)于LHR顯卡和專(zhuān)業(yè)礦卡，現(xiàn)在的游戲顯卡和LHR顯卡的閹割防線(xiàn)主要有：顯存位寬（嚴(yán)重影響顯存帶寬），顯存大?。ㄐ×说V沒(méi)法挖，深度學(xué)習(xí)跑不了，乖乖去買(mǎi)高價(jià)專(zhuān)業(yè)卡），而挖礦與深度學(xué)習(xí)的功能則及其相似，專(zhuān)業(yè)礦卡會(huì)閹割PCIE帶寬，導(dǎo)致無(wú)法用于游戲，但深度學(xué)習(xí)對(duì)此并不敏感，

在Volta及之后的架構(gòu)，英偉達(dá)加入了Tensorcore，是顯卡中專(zhuān)門(mén)用作矩陣計(jì)算的核心。英偉達(dá)發(fā)布DLSS之后，從30系游戲顯卡開(kāi)始也搭載了Tensorcore，用來(lái)支持DLSS運(yùn)算，這就給了煉丹玩家的可乘之機(jī)。能夠注意到，30系顯卡開(kāi)始，F(xiàn)P16浮點(diǎn)計(jì)算性能發(fā)瘋似的往上漲，在最新的4090已經(jīng)接近100TFLOPS。判斷方法就是顯卡的FP16性能比FP32性能強(qiáng)一倍以上。

目前二手顯卡來(lái)說(shuō)，對(duì)煉丹玩家最友好的應(yīng)該是3060ti，現(xiàn)價(jià)1500左右，愿意折騰且囊腫羞澀可以考慮專(zhuān)業(yè)礦卡40HX和50HX（turing架構(gòu)）和p104，p102（pascal架構(gòu)），都在200-500rmb不等。等回學(xué)校做一個(gè)rtx3060ti的性能評(píng)測(cè)。

標(biāo)簽：