NVIDIA RTX GPU 性能單位的一些問題
0. Shader TFLOPs
這個(gè)放在第 0 號(hào),其實(shí)就是 SIMD 的 FP32 浮點(diǎn)計(jì)算性能,等同于 FP32 TFLOPs. 沒有任何問題。
1. RTX-OPS?
NVIDIA 官方給出的解釋是每秒鐘的光線追蹤操作(萬億次),稍微了解圖形的人都知道這是非常籠統(tǒng)的說法,實(shí)際上這個(gè)算法還包括了用于處理深度神經(jīng)網(wǎng)絡(luò)的張量單元負(fù)載(DLSS)的權(quán)重。最重要的是該性能數(shù)據(jù)的計(jì)算方法也說得很含糊。(RTX-OPS 這個(gè)說法也只用在了圖靈架構(gòu)上)

與此同時(shí) NV 開圖靈架構(gòu)顯卡發(fā)布會(huì)的同時(shí),還略微提到了一個(gè)人叫 GigaRays/sec 的衡量指標(biāo)。實(shí)際上這個(gè)比什么 RTX-OPS 有價(jià)值多了,因?yàn)?10 GigaRays/s 可以直接認(rèn)為是一般情況下每個(gè)像素進(jìn)行 1 次采樣的實(shí)時(shí)路徑跟蹤(目前所有主流光追游戲都是 1 spp 的標(biāo)準(zhǔn)),這樣其實(shí)更形象化。

2. RT TFLOPs?
這個(gè)概念就更抽象了,NV 直接不給你提包含了哪些數(shù)據(jù),也找不到任何資料能得出該指標(biāo)的衡量標(biāo)準(zhǔn)。個(gè)人認(rèn)為是 RTX OPS 的翻版說法,然后略微更改各個(gè)子數(shù)據(jù)的權(quán)重。只不過"TFLOPs"這個(gè)常用于衡量計(jì)算機(jī)浮點(diǎn)性能的指標(biāo)更被人熟知,聽起來更熟悉而已。不過這個(gè)指標(biāo) NV 在發(fā)布 30 系之后對(duì)部分圖靈卡進(jìn)行了“單位轉(zhuǎn)換”,用該指標(biāo)對(duì)比對(duì)比?N 卡之間的光追性能水平還是可以的。但是該單位仍不具備普適性。

3. Tensor TFLOPs

相信了解過一點(diǎn)圖靈或者安培卡的張量性能的人,最開始看到 4090 的這個(gè)所謂的 1.32 Tensor PFLOPs 是非常震撼的,因?yàn)?NV 的上一代旗艦 3090 Ti 也才 320 Tensor TFLOPs.

事實(shí)是,由于 Ada 架構(gòu)使用了從 Hopper GPU 上扒拉下來的 FP8 Transformer 引擎,支持了 FP8 精度的數(shù)據(jù)運(yùn)算。吞吐量比 FP16 高出一倍。

然而,NV 在不明面上告知任何人的情況下更改了 Tensor TFLOPs 的計(jì)算標(biāo)準(zhǔn),從 Tensor FP16 改為了 FP8,并且用于衡量 40 系得顯卡張量核心性能。
如果換成 FP16 格式的數(shù)據(jù)并且和 30 系對(duì)比,其實(shí)張量核心的性能提升沒有從 320T 到 1320T 那么恐怖。

不過 NV 提供的 AI 算力數(shù)據(jù)還是比較值得普遍使用的,指明了衡量標(biāo)準(zhǔn)是什么。不僅僅是?FP16,還有蘋果衡量他們家“神經(jīng)引擎"性能標(biāo)準(zhǔn)的 INT8 格式數(shù)據(jù)指標(biāo)也是提供在了架構(gòu)文檔里,可以直接比較。
最后也不得不感嘆一句,NV 是會(huì)玩的。