最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

GPU Benchmarks_1 2023.1.16 for test

2023-01-16 01:50 作者:無(wú)知n  | 我要投稿

(發(fā)現(xiàn)專(zhuān)欄可以投代碼塊,就來(lái)寫(xiě)寫(xiě)試試,純粹作記錄用)

關(guān)于GPU的深度學(xué)習(xí)計(jì)算性能,因?yàn)榧揖池毢?,并沒(méi)有摸過(guò)很多卡,加上現(xiàn)在在家里,不能用學(xué)校的電腦,就先拿破筆記本試一下。

很早就看到李沐大佬的視頻環(huán)境安裝,BERT、GPT、T5 性能測(cè)試,和橫向?qū)Ρ取?00億模型計(jì)劃】,其中就提到了用Pytorch的torch.utils.benchmark進(jìn)行GPU浮點(diǎn)性能測(cè)試。

至于筆記本有多破,是15年買(mǎi)的神舟Z6,i7 6700HQ+GTX960M。經(jīng)歷過(guò)十多次大修,換過(guò)屏幕,硬盤(pán),修過(guò)顯卡供電,顯示供電,換了屏幕排線(xiàn)(大部分是自己動(dòng)手),然而他依然能用。

(為了驗(yàn)證電腦有多破,把電腦外接電源拔了,電腦當(dāng)場(chǎng)關(guān)機(jī),電池是壞的。結(jié)論:嗯,很破!)

(另外,這個(gè)電腦買(mǎi)了之后不久就發(fā)布了10系pascal架構(gòu),只能說(shuō)14nm的CPU搭配28nm的顯卡顯得十分不協(xié)調(diào),要是當(dāng)時(shí)懂芯片制程,就算死撐也要撐到10系顯卡發(fā)售)

李沐的TransformersBenchmarks項(xiàng)目開(kāi)源在github上https://github.com/mli/transformers-benchmarks,本意是各種Transformer模型在不同GPU上運(yùn)行效率的問(wèn)題,其中先測(cè)試深度學(xué)習(xí)最基礎(chǔ)的運(yùn)算:矩陣乘法 在不同GPU上的運(yùn)行效率,然后測(cè)試了各個(gè)不同模型的運(yùn)行效率,包括BERT、GPT、T5。

需要注意到的一點(diǎn)是,這個(gè)運(yùn)行效率僅僅針對(duì)模型的前向運(yùn)算,而不是訓(xùn)練效率,至于訓(xùn)練效率則更相關(guān)于梯度下降算法。

在項(xiàng)目開(kāi)始之前,先看一下GPU的結(jié)構(gòu),與計(jì)算相關(guān)的部分大概主要是GPU核心和顯存,其中顯存在進(jìn)行卷積運(yùn)算和深度學(xué)習(xí)模型中起到存儲(chǔ)數(shù)據(jù)的作用,他與GPU核心的數(shù)據(jù)交換速率更快,能夠達(dá)到百GB/s(蘋(píng)果的那種融合內(nèi)存除外)。而運(yùn)算性能主要與核心相關(guān),除此之外,很多情況顯存也會(huì)成為瓶頸。

顯示硬件信息

Pytorch version : 1.11.0+cu113

CUDA version : 11.3

GPU : NVIDIA GeForce GTX 960M

這個(gè)倒不用多說(shuō)

測(cè)試顯卡浮點(diǎn)運(yùn)算性能

這里使用的是pytorch提供的benchmark庫(kù)(貼心),這里定義了兩個(gè)函數(shù),首先是walltime,三個(gè)參數(shù)分別是:要執(zhí)行的命令,傳遞的參數(shù)和執(zhí)行時(shí)間,另一個(gè)函數(shù)var_dict則是傳遞參數(shù)用。

? ? ? ? ? ? ? ? ? ? ?n=128? ?n=512 n=2048 n=8192?

torch.float32? 0.060?? 0.992?? 1.300?? ?1.247

torch.float16? 0.058? ?1.101? ?1.032??? 1.052

現(xiàn)在就是性能測(cè)試階段,通過(guò)增大卷積矩陣的大小,并統(tǒng)計(jì)每秒鐘運(yùn)算的次數(shù)。理論上,驅(qū)動(dòng)和代碼優(yōu)化到位,在一個(gè)較大的矩陣大小上能得到顯卡核心浮點(diǎn)性能的理論值,單位TFLOPS。

其他

值得注意的是,除了核心性能,此性能還會(huì)收到顯存帶寬,緩存大小限制。顯存帶寬限制了小矩陣的性能,而緩存大小則更限制大矩陣卷積。英偉達(dá)的深度學(xué)習(xí)GPU上一般都有充裕的緩存,超大的顯存帶寬,當(dāng)然傳聞在游戲顯卡上對(duì)這兩項(xiàng)進(jìn)行閹割也不無(wú)道理。

另外關(guān)于LHR顯卡和專(zhuān)業(yè)礦卡,現(xiàn)在的游戲顯卡和LHR顯卡的閹割防線(xiàn)主要有:顯存位寬(嚴(yán)重影響顯存帶寬),顯存大?。ㄐ×说V沒(méi)法挖,深度學(xué)習(xí)跑不了,乖乖去買(mǎi)高價(jià)專(zhuān)業(yè)卡),而挖礦與深度學(xué)習(xí)的功能則及其相似,專(zhuān)業(yè)礦卡會(huì)閹割PCIE帶寬,導(dǎo)致無(wú)法用于游戲,但深度學(xué)習(xí)對(duì)此并不敏感,

在Volta及之后的架構(gòu),英偉達(dá)加入了Tensorcore,是顯卡中專(zhuān)門(mén)用作矩陣計(jì)算的核心。英偉達(dá)發(fā)布DLSS之后,從30系游戲顯卡開(kāi)始也搭載了Tensorcore,用來(lái)支持DLSS運(yùn)算,這就給了煉丹玩家的可乘之機(jī)。能夠注意到,30系顯卡開(kāi)始,F(xiàn)P16浮點(diǎn)計(jì)算性能發(fā)瘋似的往上漲,在最新的4090已經(jīng)接近100TFLOPS。判斷方法就是顯卡的FP16性能比FP32性能強(qiáng)一倍以上。

目前二手顯卡來(lái)說(shuō),對(duì)煉丹玩家最友好的應(yīng)該是3060ti,現(xiàn)價(jià)1500左右,愿意折騰且囊腫羞澀可以考慮專(zhuān)業(yè)礦卡40HX和50HX(turing架構(gòu))和p104,p102(pascal架構(gòu)),都在200-500rmb不等。等回學(xué)校做一個(gè)rtx3060ti的性能評(píng)測(cè)。

GPU Benchmarks_1 2023.1.16 for test的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
周宁县| 嵊州市| 漯河市| 胶州市| 新沂市| 舟山市| 濉溪县| 大连市| 阳山县| 汉寿县| 莒南县| 双辽市| 昌平区| 琼结县| 邢台市| 八宿县| 西平县| 云浮市| 汶上县| 陈巴尔虎旗| 青海省| 剑河县| 长丰县| 肇庆市| 阳高县| 福泉市| 朝阳县| 高淳县| 巴东县| 晋州市| 五莲县| 囊谦县| 神农架林区| 乌兰浩特市| 类乌齐县| 全南县| 旬阳县| 新巴尔虎左旗| 临西县| 绍兴市| 方山县|