【轉(zhuǎn)】算力單位概述(TFLOPS TOPS)
算力單位概述

Wilder
行到水窮處,坐看云起時(shí)
TFLOPS與TOPS有什么區(qū)別?
1TFLOPS與1TOPS,前者代表是每秒執(zhí)行1萬(wàn)億次浮點(diǎn)運(yùn)算次數(shù),后者代表每秒執(zhí)行1萬(wàn)億次運(yùn)算次數(shù),區(qū)別FL即float浮點(diǎn),大多數(shù)NPU都是定點(diǎn)運(yùn)算,故通TOPS來(lái)標(biāo)稱(chēng)算力。
如下表示FLOPS,分別以M,G,T,P四種級(jí)別來(lái)表示,當(dāng)然你也可以用到TOPS上面
一個(gè)MFLOPS(megaFLOPS)等于每秒一百萬(wàn)(=10^6)次的浮點(diǎn)運(yùn)算,
一個(gè)GFLOPS(gigaFLOPS)等于每秒十億(=10^9)次的浮點(diǎn)運(yùn)算,
一個(gè)TFLOPS(teraFLOPS)等于每秒一萬(wàn)億(=10^12)次的浮點(diǎn)運(yùn)算,(1太拉)
一個(gè)PFLOPS(petaFLOPS)等于每秒一千萬(wàn)億(=10^15)次的浮點(diǎn)運(yùn)算,
在某些情況下,還使用 TOPS/W 來(lái)作為評(píng)價(jià)處理器運(yùn)算能力的一個(gè)性能指標(biāo),TOPS/W 用于度量在1W功耗的情況下,處理器能進(jìn)行多少萬(wàn)億次操作。
FP32 = float32 單精度浮點(diǎn)格式
IEEE 754-2008?標(biāo)準(zhǔn)指定了額外的浮點(diǎn)類(lèi)型,例如 64 位 base-2雙精度,以及最近的 base-10 表示。
TF32 = TensorFlow-32 英偉達(dá)提出的代替FP32的單精度浮點(diǎn)格式
NVIDIA A100/Ampere安培架構(gòu)?GPU?中的新數(shù)據(jù)類(lèi)型,TF32 使用與半精度 (FP16) 數(shù)學(xué)相同的 10 位尾數(shù),表明對(duì)于 AI 工作負(fù)載的精度要求有足夠的余量。并且TF32采用與FP32相同的8位指數(shù),因此可以支持相同的數(shù)值范圍。

TF32 在性能、范圍和精度上實(shí)現(xiàn)了平衡。
TF32 采用了與半精度( FP16 )數(shù)學(xué)相同的10 位尾數(shù)位精度,這樣的精度水平遠(yuǎn)高于AI 工作負(fù)載的精度要求,有足夠的余量。同時(shí), TF32 采用了與FP32 相同的8 位指數(shù)位,能夠支持與其相同的數(shù)字范圍。
這樣的組合使TF32 成為了代替FP32?,進(jìn)行單精度數(shù)學(xué)計(jì)算的絕佳替代品,尤其是用于大量的乘積累加計(jì)算,其是深度學(xué)習(xí)和許多HPC 應(yīng)用的核心。
借助于NVIDIA 函示庫(kù),用戶(hù)無(wú)需修改代碼,即可使其應(yīng)用程式充分發(fā)揮TF32 的各種優(yōu)勢(shì)。TF32 Tensor Core 根據(jù)FP32 的輸入進(jìn)行計(jì)算,并生成FP32 格式的結(jié)果。目前,其他非矩陣計(jì)算仍然使用FP32 。
為獲得最佳性能, A100 還具有經(jīng)過(guò)增強(qiáng)的16 位數(shù)學(xué)功能。它以?xún)杀队赥F32 的速度支持FP16 和Bfloat16 ( BF16 )。利用自動(dòng)混合精度,用戶(hù)只需幾行代碼就可以將性能再提高2 倍。

所以通過(guò)降低精度讓TF32新單精度數(shù)據(jù)類(lèi)型代替了FP32原有的單精度數(shù)據(jù)類(lèi)型,從而減少了數(shù)據(jù)所占空間大小在同樣的硬件條件下可以更多更快地運(yùn)行。

發(fā)布于 2023-03-14 14:29?IP 屬地四川
TFLOPS
每秒浮點(diǎn)運(yùn)算次數(shù)
FLOPS,即每秒浮點(diǎn)運(yùn)算次數(shù)?[1]??(亦稱(chēng)每秒峰值速度)
是每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)
(英文:Floating-point operations per second;縮寫(xiě):FLOPS)的簡(jiǎn)稱(chēng),
被用來(lái)評(píng)估電腦效能,尤其是在使用到大量浮點(diǎn)運(yùn)算的科學(xué)計(jì)算領(lǐng)域中。
正因?yàn)镕LOPS字尾的那個(gè)S,代表秒,而不是復(fù)數(shù),所以不能夠省略。
中文名
每秒浮點(diǎn)運(yùn)算次數(shù)
外文名
TFLOPS
包????括
所有涉及小數(shù)的運(yùn)算
運(yùn)算次數(shù)
ENIAC: 300 FLOPS
基準(zhǔn)程式
測(cè)量每秒浮點(diǎn)運(yùn)算次數(shù)
目錄
1?基本介紹
2?其他信息
基本介紹
編輯?播報(bào)
浮點(diǎn)運(yùn)算實(shí)際上包括了所有涉及小數(shù)的運(yùn)算,在某類(lèi)應(yīng)用軟件中常常出現(xiàn),比整數(shù)運(yùn)算更費(fèi)時(shí)間。
現(xiàn)今大部分的處理器中都有浮點(diǎn)運(yùn)算器。
因此每秒浮點(diǎn)運(yùn)算次數(shù)所量測(cè)的實(shí)際上就是浮點(diǎn)運(yùn)算器的執(zhí)行速度。
而最常用來(lái)測(cè)量每秒浮點(diǎn)運(yùn)算次數(shù)的基準(zhǔn)程序(benchmark)之一,就是Linpack。
一個(gè)MFLOPS(megaFLOPS)等于每秒一百萬(wàn)(=10^6)次的浮點(diǎn)運(yùn)算,
一個(gè)GFLOPS(gigaFLOPS)等于每秒十億(=10^9)次的浮點(diǎn)運(yùn)算,
一個(gè)TFLOPS(teraFLOPS)等于每秒一萬(wàn)億(=10^12)次的浮點(diǎn)運(yùn)算,
一個(gè)PFLOPS(petaFLOPS)等于每秒一千萬(wàn)億(=10^15)次的浮點(diǎn)運(yùn)算,
一個(gè)EFLOPS(exaFLOPS)等于每秒一百億億(=10^18)次的浮點(diǎn)運(yùn)算。
其他信息
編輯?播報(bào)
以下列出幾個(gè)有代表性硬件的每秒浮點(diǎn)運(yùn)算次數(shù)
FLOPS
ENIAC: 300 FLOPS
MFLOPS
CRAY-1: 160 MFLOPS
GFLOPS
Intel Xeon 3.6 GHz: <1.8 GFLOPS
Intel Pentium 4 HT 3.6Ghz: 7 GFLOPS
Intel Core 2 Duo E4300 14 GFLOPS
Intel Core 2 Duo E8400 24 GFLOPS
AMD Phenom 9950: 29.05 GFLOPS
Intel Core 2 Quad Q8200: 37 GFLOPS
Intel Core 2 QX9770: 39.63 GFLOPS
AMD Phenom II x4 955: 42.13 GFlopS
Intel Core i7-965: 69.23 GFLOPS
Intel Core i7-980 XE : 107.6 GFLOPS
Intel Core i5-2500K @4.5GHz: 123.35 GFLOPS (w/AVX instruction set)
IBM POWER7: 264.96GFLOPS[2]
nVIDIA Geforce 8800 Ultra(G80-450 GPU):393.6 GFLOPS
nVIDIA Geforce GTX 280(G200-300 GPU):720 GFLOPS
AMD Radeon HD 3870(RV670 GPU):497 GFLOPS
AMD Radeon HD 4870(RV770 GPU):1008 GFlops
TFLOPS
nVIDIA Geforce GTX 580(GF110-375 GPU):2.37 TFLOPS
AMD Radeon HD 6990(R900 GPU):4.98 TFLOPS
nVIDA Geforce GTX 1070: 6.5 TFLOPS
nVIDA Geforce GTX 1080: 9 TFLOPS
nVIDA Geforce GTX 1080Ti: 10.8 TFLOPS
nIVIDIA Titan Xp : 12.1 TFLOPS
ASCI White:12.3TFLOPS
AMD Vega Frontier Edition : 13.1 TFLOPS
Earth Simulator: 35.61 TFLOPS
Blue Gene/L: 135.5 TFLOPS
中國(guó)曙光Dawning 5000A: 230 TFLOPS
HUAWEI Acsend 910: 256 TFLOPS
PFLOPS
IBM Roadrunner:1.026 PFLOPS
Jaguar:1.75 PFLOPS
天河一號(hào):2.566 PFLOPS
Folding@home運(yùn)算平臺(tái):4.769 PFLOPS
BOINC運(yùn)算平臺(tái):6.282 PFLOPS (持續(xù)增加中)
IBM Mira: 8.16 PFLOPS
京:10.51 PFLOPS
IBM Sequoia:16.32 PFLOPS
Cray Titan:17.59 PFLOPS
天河二號(hào):33.86PFLOPS
神威·太湖之光:125PFLOPS