新n卡如此多的流處理器+新架構(gòu)安培+7納米 amd是否還能yes？

2020-02-28 15:00 作者:我的DIY之路 0人讀過(guò) | 我要投稿

如果是大佬想討論的請(qǐng)看完整篇文章??

若只是想獲得新n卡消息麻煩拉到最低下? 本文已獲得他人轉(zhuǎn)載同意? 若不吱聲的搬運(yùn)我的文章? 一通算抄襲處理

抄襲行為可恥望各位觀眾老爺們理解那么開(kāi)始吧

既然安培架構(gòu)圖已經(jīng)公布，我之前所有猜測(cè)基本都是打臉，因?yàn)槲抑皩?duì)NV新產(chǎn)品的預(yù)估【還是保守了點(diǎn)，因?yàn)槲乙膊桓蚁嘈盘嵘龝?huì)太大】

看來(lái)實(shí)際的情況【比我預(yù)估的要樂(lè)觀了好多倍，雖然性能提升是樂(lè)觀的。但反過(guò)來(lái)說(shuō)：價(jià)格提升多少，或者怎么定價(jià)。都是NV去決定了】

首先感謝吧友Rye對(duì)安培架構(gòu)圖曝光的帖子進(jìn)行轉(zhuǎn)載，我這里打算做一個(gè)科普性質(zhì)的內(nèi)容集中貼。

來(lái)說(shuō)說(shuō)個(gè)人對(duì)曝光的信息進(jìn)行的一些分析和看法：
首先我們還是先看看原貼曝光的人，對(duì)安培架構(gòu)的一些闡述?！疚覀兿瓤纯此@些闡述，是不是專業(yè)的?；蛘呖孔V不靠譜】

首先我跟大家說(shuō)：【判斷一個(gè)人說(shuō)話是不是真的，或者靠譜不靠譜：絕對(duì)不能看數(shù)值！一定要看他提到的內(nèi)容，是不是有理有據(jù)，而且能不能用真貨加以論證，能不能在現(xiàn)有歷史基礎(chǔ)上進(jìn)行呼應(yīng)。如果能做到，他說(shuō)的這種思路。就不能輕易否定，因?yàn)榉穸ㄒ灿幸凶銐蛘镜米∧_的理由：不能光一句（我不信老黃這么良心提升那么大，這一句非常流氓的話來(lái)否定別人。）】

首先我給大家翻一下：

1、INT32仍舊是每個(gè)SM固定數(shù)量對(duì)比圖靈架構(gòu)沒(méi)本質(zhì)提升【基本就是原地踏步】
2、每一個(gè)SM內(nèi)部FP32單元翻倍了
3、每一個(gè)SM內(nèi)部Tensor翻倍
4、L1緩存從98k提升到128k。
5、RT核心變成了先進(jìn)RT核心。

以上5個(gè)點(diǎn)，很多人光看這5個(gè)點(diǎn)【必然各種不信，心存疑慮，認(rèn)為這個(gè)提升幅度過(guò)于巨大了】
所以我們必須通過(guò)這個(gè)人實(shí)際拿出來(lái)的證據(jù)，加以論證判斷他說(shuō)的是不是屬實(shí)。能不能呼應(yīng)

首先我們來(lái)看看，這個(gè)爆料人配套公布的【安培架構(gòu)ALU團(tuán)簇結(jié)構(gòu)圖】的信息，這個(gè)信息數(shù)據(jù)量還是很爆炸的?；旧先绱烁咔宓腟M結(jié)構(gòu)圖【絕對(duì)不是個(gè)人輕易做出來(lái)的，而是NV官方的東西幾率很大。如果個(gè)人去做這樣一個(gè)很高清的圖，那么費(fèi)時(shí)費(fèi)力，正常腦子的人是不會(huì)YY這樣一個(gè)圖的。而且這種圖一旦做不好，馬上就會(huì)被暴露很多坐標(biāo)對(duì)不上，比例不搭的問(wèn)題。導(dǎo)致被細(xì)心的網(wǎng)友看出來(lái)】

所以我個(gè)人認(rèn)為【可以排除私人制作的可能性，因?yàn)樗饺藳](méi)這種時(shí)間去做這么復(fù)雜的東西。一旦做的不好，會(huì)被看出來(lái)，被噴。一旦做的很完美，也不會(huì)拿到一分錢。還費(fèi)時(shí)費(fèi)力。正常腦子的人不會(huì)去做，就比如：我也不會(huì)去做這種圖，就算能做。也懶得去做】

所以可以判斷：這種圖來(lái)自于【NV內(nèi)部，或者合作伙伴內(nèi)部的某些白皮書文件里面，絕對(duì)不是個(gè)人瞎做的。】

回過(guò)頭來(lái)分析架構(gòu)：

先看架構(gòu)圖，估計(jì)很多人會(huì)認(rèn)為很暈，看不懂。那么我們不去瘋狂扣那些【根本看不懂的英文鳥(niǎo)語(yǔ)地方，我們就看能看得懂的那部分】

就說(shuō)說(shuō)FP32單元把。我們可以清楚的看到：【一個(gè)ALU團(tuán)簇內(nèi)，也就是一個(gè)SM內(nèi)部。被分為4個(gè)區(qū)塊。每個(gè)區(qū)塊大概有一個(gè)統(tǒng)一邏輯控制管理。這個(gè)結(jié)果仍舊是模仿最初麥克斯韋架構(gòu)的設(shè)計(jì)。而每個(gè)區(qū)塊里面的FP32單元，是16個(gè)。大家可以數(shù)數(shù)是不是。而每個(gè)SM是4個(gè)區(qū)塊，總計(jì)就是16X4=64個(gè)CUDA FP32。這點(diǎn)大家都可以看出來(lái)】

此外大家還可以看到下圖圖靈架構(gòu)的SM結(jié)構(gòu)圖，里面INT32和FP32，是完全一樣的比例。一比一存在。仍舊也是16個(gè)。此外，還有2個(gè)Tensor。以及一個(gè)很大的RT核心。構(gòu)成了圖靈架構(gòu)一個(gè)ALU團(tuán)簇。

所以總計(jì)：一個(gè)圖靈架構(gòu)的SM內(nèi)部，分為4個(gè)區(qū)域。每個(gè)區(qū)域2個(gè)tensor 16個(gè)INT32以及16個(gè)FP32。整體是4個(gè)區(qū)域，總計(jì)就是64個(gè)FP32和64個(gè)INT32，以及8個(gè)Tensor，配合一個(gè)最終作為最下端輸出的RT核心。構(gòu)成了。

所以圖靈架構(gòu)的ALU團(tuán)簇完整就是：64 INT32 64FP32 8Tensor 1RT核心

然后大家看看安培架構(gòu)的ALU團(tuán)簇結(jié)構(gòu)圖：
你們可以對(duì)比圖靈架構(gòu)那個(gè)，看出很多細(xì)節(jié)區(qū)別：

首先我給大家一個(gè)一個(gè)解釋：、

1、可以看到，安培架構(gòu)仍舊一個(gè)SM內(nèi)部，還是分成4組區(qū)塊
2、但是我們細(xì)節(jié)去看一個(gè)區(qū)塊，內(nèi)部的FP32單元數(shù)量，不再是16個(gè)，而是32個(gè)！
3、然后我們?cè)倏从覀?cè)，這個(gè)區(qū)塊內(nèi)，不再是2個(gè)Tensor，而是分成了4個(gè)！
4、然后我們看最下端整體的共享L1緩存，是這4個(gè)區(qū)塊都使用同一個(gè)LV1緩存整體，但從圖靈架構(gòu)的96k到了128k
5、我們繼續(xù)看最下面末端的RT 核心，從普通版RT核心變成了【高端advance版本的RT核心】

所以大家看出來(lái)區(qū)別了吧？
================================================
總結(jié)一下：
1、安培架構(gòu)一個(gè)ALU內(nèi)部，INT32單元，沒(méi)有任何變化。還是64個(gè)
2、但是ALU內(nèi)部的每個(gè)區(qū)塊內(nèi)的FP32單元，從16變成了32。4個(gè)區(qū)塊總計(jì)就是一個(gè)SM最終有128個(gè)CUDA FP32。意味著翻倍CUDA。
3、既然FP32翻倍，那么沒(méi)理由FP16不翻倍，很遺憾：圖靈架構(gòu)和安培架構(gòu)都是Tensor負(fù)責(zé)FP16，那么結(jié)果就是：每個(gè)區(qū)塊內(nèi)Tensor也從2個(gè)變成4個(gè)。4個(gè)區(qū)塊就是總計(jì)16個(gè)Tensor，對(duì)比圖靈架構(gòu)也是翻倍了
4、L1緩存擴(kuò)大了一些。
5、RT核心升級(jí)內(nèi)核版本，哪怕同一個(gè)頻率下。仍舊是性能有1.5倍提升沒(méi)問(wèn)題。所以RT核心數(shù)量沒(méi)有提升。

==========================================

所以總結(jié)就是：和爆料人的說(shuō)法【完全一致】
有理有據(jù)，不容置疑??！你沒(méi)有質(zhì)疑他的技術(shù)資源，也沒(méi)辦法從技術(shù)角度論證去質(zhì)疑。除非是胡攪蠻纏。否則確實(shí)沒(méi)辦法去推翻它的說(shuō)法。

所以圖靈架構(gòu)對(duì)比安培架構(gòu)，老黃新版本的架構(gòu)大改了SM結(jié)構(gòu)?！九c我之前的說(shuō)法，打臉】

因?yàn)楸救苏f(shuō)的是【安培架構(gòu)，對(duì)比圖靈架構(gòu)應(yīng)該是馬甲堆料提升，架構(gòu)效率不會(huì)有很大變化，SM結(jié)構(gòu)不會(huì)變化很大，而是增加SM數(shù)量，提升密度為主。這是本人之前說(shuō)的話】

但現(xiàn)在，打臉。

實(shí)際老黃怎么做呢？【和之前帕斯卡和麥克斯韋架構(gòu)不一樣，麥克斯韋架構(gòu)28nm到帕斯卡架構(gòu)16nm。老黃幾乎效率原地踏步，每個(gè)GPC內(nèi)部?jī)H僅比麥克斯韋架構(gòu)，提升了一組SM?？梢哉f(shuō)CUDA也沒(méi)有提升太大，真正提升巨大是頻率。因?yàn)?6nm比28nm足足提升幾乎400-500MHz頻率。而boost 3.0直接讓頻率飛上天了。這才是本質(zhì)提升！】

而老黃在安培架構(gòu)和圖靈架構(gòu)里面，提升幅度，完全不同于當(dāng)年16nm到28nm。
而是【架構(gòu)大體框架沒(méi)改，GPC和TPC結(jié)構(gòu)都沒(méi)改。反倒是把ALU團(tuán)簇這個(gè)底層計(jì)算單元團(tuán)簇給大改了。完全是每個(gè)團(tuán)簇內(nèi)部的FP32和Tensor直接翻倍，RT核心也大幅度改進(jìn)內(nèi)核！并非優(yōu)化了密度，而是靠著新工藝nm帶來(lái)的同一個(gè)尺寸內(nèi)密度提升，直接重新排列了FP32和Tensor結(jié)構(gòu)，大幅度改進(jìn)了密度。讓FP32和Tensor直接翻倍！但SM數(shù)量沒(méi)有提升】

所以大家看看爆料人拿出來(lái)的GA104架構(gòu)圖，實(shí)際上。你對(duì)比圖靈架構(gòu)【這完全是是一個(gè)結(jié)構(gòu)嘛，根本宏觀沒(méi)有改進(jìn)。還是6GPC，而且仍舊是32bit 一共8組顯存控制器。總計(jì)256bit】、

但是你看看SM改了多少？雖然還是6GPC。GP104仍舊是每個(gè)GPC內(nèi)部，只有8個(gè)SM
但是換來(lái)的卻是，翻倍的CUDA數(shù)量和Tensor數(shù)量。同等級(jí)別RT核心數(shù)量。以及升級(jí)新版本RT內(nèi)核。

結(jié)果就是GA104，雖然SM數(shù)量總計(jì)還是48組。
但換來(lái)的是：
128X48=6144個(gè)FP32?
64X48=3072個(gè)INT32。
48X1=48個(gè)新版本加強(qiáng)RT核心
48X16=768個(gè)Tensor
32bit X8 =256bit 顯存控制器

瞬間，除了顯存位寬固定MC 256bit【可以說(shuō)這個(gè)GA104全面指標(biāo)超過(guò)了TU102，就是這么可怕】

我們?cè)倏纯戳硗庖粡圙A103的結(jié)構(gòu)圖。
這個(gè)就更嚇人了，雖然還是6GPC。但是每個(gè)GPC內(nèi)部，多了兩組SM。對(duì)不對(duì)？
那就是10組了。而且MC，也從8組32bit 變成10組32bit?

結(jié)果就是GA103，雖然SM數(shù)量對(duì)比TU102有所削減，不是72個(gè)。而是每個(gè)GPC內(nèi)部10組SM，一共6個(gè)GPC就是60組SM

但換來(lái)的是：
128X60=7680個(gè)FP32?
64X60=3840個(gè)INT32
60X1=60個(gè)新版本加強(qiáng)RT核心
60X16=960個(gè)Tensor
32bit X10 =320bit 顯存控制器

===================================================
所以以上，我們雖然不能確定安培架構(gòu)的Rops對(duì)比圖靈架構(gòu)有所提升。
但光看規(guī)格和SM結(jié)構(gòu)圖，可以判斷：GA103對(duì)比TU102，毫無(wú)疑問(wèn)是【規(guī)模少了一些，因?yàn)闆](méi)有做到72SM。而是60SM。這也就是為什么老黃給他交GA103，因?yàn)樗莻€(gè)320bit核心。不是384bit】

所以GA103是一個(gè)GA104和GA102之間的核心。

但是GA103這次確實(shí)很大幾率是3080Ti首發(fā)核心，因?yàn)镚A103足足7680個(gè)SP。就算頻率還是這一代1800-2000MHz原地踏步的頻率，他的性能對(duì)比TU102也是50-60%提升了。畢竟SP都提升了1.4倍了。

老黃這一次GA104提升幅度過(guò)于巨大，6144個(gè)CUDA基本石錘。
而為了降低3080Ti的性能，老黃故意給了GA103，沒(méi)敢給GA102。不給72SM。
為什么？因?yàn)?2SM幾乎9200個(gè)CUDA。根本用不上了?；蛘逜MD根本追不上毫無(wú)意義

所以問(wèn)題來(lái)了：【市場(chǎng)外部代號(hào)產(chǎn)品的SKU該怎么應(yīng)對(duì)？】

如果GA103和GA104提升這么大，GA102估計(jì)可能延期到2021年去了？我認(rèn)為合理！

所以這么看，最壞的結(jié)果：

這一代是這樣的。

New RTX Titan GA103 320bit 完整版GA103 60SM 可能7680 SP 320bit 40GB 性能大約是2080Ti 180-190% 價(jià)格2499?
3080Ti GA104閹割版 42SM 5376 SP 256bit 16GB 預(yù)計(jì)999美元，性能大約是2080Ti的140-150%
3080 GA106完整版 36 SM 4608 SP 256bit 16GB 預(yù)計(jì)699美元性能大約2080Ti的122%
3070 GA106閹割版 30 SM 3840 SP 256bit 16GB 預(yù)計(jì)499美元性能等同于2080Ti
3060 GA106閹割版 3072SP 192bit 12GB 預(yù)計(jì)399美元，性能等于2080 Super
3050Ti GA107完整版 2560 128bit 8GB 預(yù)計(jì)279美元，性能等同于2070

3050 GA107閹割版 2048 128bit 8GB 預(yù)計(jì) 199 ，性能等于2060

么2021年的情況，我覺(jué)得一如既往：

New RTX Titan 完整版GA102 72SM 可能9216 SP 384bit 48GB 性能大約是2080Ti 220-230% 價(jià)格2499?
3080Ti Super GA103閹割版 56SM 7160 SP 320bit 20GB 預(yù)計(jì)999美元，性能大約是2080Ti的170-180%
3080 Super GA104完整版 48 SM 6144 SP 256bit 16GB 預(yù)計(jì)699美元性能大約3080Ti 120%
3070 Super GA104亞呢吧 42 SM 5376 SP 256bit 16GB 預(yù)計(jì)499美元性能等同于3080Ti
3060 GA106完整版

你后續(xù)基本能猜出來(lái)?！纠宵S是肯定拆分成2-3年內(nèi)發(fā)布這些東西，你給你牙膏慢慢擠】