【轉(zhuǎn)】RTX4090性能測試 RTX4090比3090提升多少?
RTX4090性能測試 RTX4090比3090提升多少?

裝機天下
2022-10-14 07:01
關(guān)注
過去兩年的顯示卡市場,可以說是歷經(jīng)波折,疫情造成全球供應(yīng)鏈吃緊,貨本來就不多,NVIDIA首發(fā)RTX
30系列顯卡沒多久就缺貨,再來隨即經(jīng)歷礦潮,不但缺而且價格搞的跟房地產(chǎn)一樣飛漲,直到今年價格終于回落了,供貨也日漸充足,但此時RTX
40系列顯示卡也要來了,我們就在這樣的風(fēng)風(fēng)雨雨中,迎接新一代的顯卡。

這次NVIDIA的RTX 40系列顯示卡采用了全新的Ada Lovelace架構(gòu),簡稱為Ada架構(gòu),這次的命名來自于英國的一位數(shù)學(xué)家Ada Lovelace,他也普遍被認為是世界上第一位電腦程序的設(shè)計師。
之前的發(fā)布會上公布了RTX 4080以及4090顯卡,官方宣稱比前代快上2-4倍,今天我們就來測試NVIDIA所推出的GeForce RTX 4090,看看這張性能怪獸到底表現(xiàn)如何。
這里我先整理出RTX40系列的三大重點:
1、采用臺積電4nm制程,晶體管密度以及能耗比上都有著大幅的提升
2、采用第三代的Ray Tracing Core光線追蹤核心,并加入了兩種全新的處理單元,
分別是OMM(Opacity
Micromap)以及DMM(Displaced Micro-Mesh),讓光線追蹤的運算效率相較前代翻倍,搭配SER(Shader
Execution Reordering)調(diào)度系統(tǒng),讓SM單元以及RT Core能更有效率的協(xié)調(diào)工作。
3、采用第四代的Tensor Core,支持全新的DLSS 3.0,通過在GPU中加入了全新的光流加速器,讓DLSS 3.0的性能相較2.0提升了兩倍。
綜合以上3點,讓這次的RTX 40系列顯示卡有著大幅的性能提升,可以達到前代的翻倍,整體來說在硬件及技術(shù)上都有亮點。

下面我們來詳細了解下這次的RTX40顯卡。首先是制程的部分,NVIDIA總算又回歸臺積電的懷抱,RTX 40系列顯卡用上目前最先進的4nm制程,雖然它跟5nm是屬于同一個節(jié)點,但性能還是要比5nm再強上13%左右。

光追方面,NVIDIA這幾年一直極力的發(fā)展光線追蹤,不單是游戲上可以獲得更精良的真實畫面,光追更重要的意義還在于生產(chǎn)力上,你能通過特定的RT Core加速單元去提升光追渲染的效率,更快速的去模擬出接近真實的光線路徑。
第一款支持光追的游戲是戰(zhàn)地風(fēng)云5,那時候每個像素會動用到39次的光追計算,而到了近年推出的賽博朋克2077,每個像素動用到的光追計算已經(jīng)突破600次了,面對如此大量的計算需求,NVIDIA一直在想方設(shè)法的提升硬體對于光追的運算性能。
這次Ada架構(gòu)配備了第三代的RT
Core,擁有兩倍的光線三角交叉(Ray-Triangle intersection)傳輸量,以及兩個全新的光追硬件單位,Opacity
Micromap
Engine(OMM)不透明微圖引擎可以直接對物體進行Alpha幾何測試,并且顯著的分擔(dān)基于著色器的工作量,所以開發(fā)人員可以借助這項硬件技術(shù)對像是葉子邊緣或是火焰等等這些有半透明樣貌的物體進行詳細分析,通過RT-Core對他們進行直接、并且更有效率的光線追蹤。
而Displaced
Micro-Mesh
Engine(DMM)置換微網(wǎng)引擎,在建構(gòu)3D圖像的過程中,以前會需要去記錄下每個三角形的座標(biāo),所以當(dāng)物體細節(jié)越多的時候,往往會產(chǎn)生很大的數(shù)據(jù)量,并且對硬件的運算效能也相當(dāng)嚴苛,而通過DMM,它不是記錄每個座標(biāo),而是透過記錄一個三角形,搭配向量的方式,可以大幅的減少數(shù)據(jù)量,有點類似資料壓縮的概念,但是他卻又能大幅節(jié)省運算能耗以及VRAM空間,所以透過DMM引擎,能將建構(gòu)BVH(Bounding
volume hierarchy)的速度提升10倍。

除此之外AdaDA也加入了SER,著色器執(zhí)行重新排序技術(shù)。光追一直是出了名的難平行處理,一道光打在不同角度的物品平面上上,會產(chǎn)生各個方向的反彈,對于這些繁雜的負載導(dǎo)致GPU必須動用不同的線程來處理不同的著色器,而造成運算效率低下。而通過SER技術(shù),他可以即時重新安排著色工作負載。光是這項技術(shù)的加入,官方宣稱說光追的運算效率就可以提升2-3倍,并且?guī)碚w25%的游戲性能提升。
接下來是DLSS的部分。這項技術(shù)的出現(xiàn)讓我們得以在游戲中用更少的運算資源來獲得更多的幀率提升,這其中是歸功于Tensor Core的AI運算,透過深度學(xué)習(xí)讓硬件預(yù)先去模擬游戲畫面,再通過超采樣將低解析度畫面放大成高解析度。

這次的AdaDA架構(gòu),配備第四代的Tensor
Core,而其中最重要的是加入了光流加速器(Optical Flow
Accelerator),搭配動態(tài)向量引擎,AI能去預(yù)判游戲中每個像素的運動軌跡,并且不需要額外的渲染就能產(chǎn)生一個完整的畫面,更好理解的說法就是「補幀」,但這個補幀不是通過接合前后幀做生成,而是通過現(xiàn)有的畫面,搭配運動軌跡來預(yù)知下一幀的畫面,搭配原先就有的超解析度技術(shù),這次的DLSS
3.0將會帶來4倍的游戲性能提升。

此外這次的RTX
40系列顯卡在編解碼規(guī)格上也有了更新,支持了AV1編碼功能,并且它搭載了雙編碼器,NVIDIA通過這個雙編碼器可以在影像輸出的過程中協(xié)同運作,一個畫面可以分成上下兩個部分,分別由雙編碼器去做渲染,并且再將上下畫面做合成,這樣一來就可以使圖形處理速度翻倍,對于很多視頻創(chuàng)作者來說,這項功能將會帶來更高的生產(chǎn)效率。
接著我們來看下這次RTX
4090的規(guī)格,剛看到規(guī)格參數(shù)的時候真的很令人傻眼,作為RTX 3090的下一代,你漲價貴100美金就算了,但這功耗是怎么回事?RTX
4090比RTX 3090整整上升了100W,直接跟RTX 3090Ti齊平,不過先別急著開噴,看完評測再說。

RTX 4090核心是AD102,后綴型號是300-A1,配備128組SM單元,16384個CUDA,是完整AD102的88.88888%。完整的AD102會留給更高階的RTX 4090Ti以及RTX 6000 Ada。
單從CUDA數(shù)來看,這代的RTX
4090就極其恐怖,受惠于先進制程的淫威之下,其晶體管密度真的是大躍進,直接增長了64%。核心頻率部分,RTX
4090也是上到2.5GHz,RTX 3090也才不過1.7GHz,搭配72MB的L2大緩存,其實這次Ada架構(gòu)在硬體規(guī)格上提升是非常巨大的。
而現(xiàn)在的問題就是這些強大的規(guī)格提升,對比高出100W的功耗以及貴100美元的價格,平衡下來到底哪邊勝出?下面就是大家最關(guān)心的實測環(huán)節(jié)了。
先來做個烤機機測試。

RTX
4090在Furmark的壓力測試下,功耗吃滿可達450W,整機平臺功耗更是接近600W大關(guān),單看功耗的話,它就是一張RTX 3090
Ti,電源建議為850W,不過考慮到90級別卡通常都會搭高端的CPU,所以我個人會建議還是直上1000W比較保險。

溫度方面,滿載狀態(tài)下溫度保持在73度,相對于它的功耗來說這個溫度完全在可接受范圍。

首先是我們最熟悉的3D Mark,在DX 11環(huán)境的FSU中,RTX 4090對比RTX 3090領(lǐng)先了96%,比RTX 3090 Ti強上74%。

DX12環(huán)境的TSE中,RTX 4090也領(lǐng)先RTX 3090 85%,比RTX 3090 Ti高67%。
這樣對比下來,RTX
4090性能基本達到RTX 3090的翻倍,這要比RTX 2080對上RTX 3080時的幅度更大,功耗跟當(dāng)時RTX
3080類似,對比前代同樣上升了100W左右,所以這樣看起來,倒是有種之前30系列顯卡卡的影子,性能提升雖然巨大,但是同時也用了更多的功耗來換,不過實際的能耗表現(xiàn)如何,我們先別急著下定論,接著我們來看NVIDIA主打的光追和DLSS性能。

在Port Royal的光追測試中,RTX 4090有著86.5%的成長。

而針對光追硬件的DXR測試里,RTX 4090更是比RTX 3090跑出多達2.3倍的FPS,可以說從RTX 20系列到RTX 30系列光追性能翻倍,接著從RTX 30 系列到RTX 40系列又再次的翻倍,呈現(xiàn)指數(shù)成長的曲線。

在DLSS 2.0的測試中,RTX 4090的幀率表現(xiàn)明顯高出一截,效果部分則是跟RTX 30系列顯卡差不多,在開啟DLSS之后FPS能夠有翻倍的成長。

不過換作是DLSS
3.0的測試里,結(jié)果就有所不同了。這里RTX 30系列卡因為不支持DLSS 3.0,所以無法跑測試。而RTX
4090大家可以觀察它的FPS增長,從原始的57幀,開啟DLSS
3.0之后竟然是暴增到恐怖的169幀,直接是成長了整整3倍。而這不單單是在理論測試,就連后面的游戲?qū)崪y中也能發(fā)現(xiàn)不錯的效果。
2077光追+DLSS
3.0全開,4K幀率可以達到140FPS,就問你怕不怕?值得留意的是功耗部分,RTX
4090在跑CUDA測試的時候,實際公耗其實是不到300W,但RTX 3090卻需要跑到350W,這意味著RTX 4090他只用RTX
3090不到9成的功耗,就跑出了比他翻倍的成績,而且在游戲表現(xiàn)上也是如此。

首先是GPU的傳統(tǒng)性能,也就是不開光追,也不蹭AI運算,我們單看這代Ada架構(gòu)在物理運算上到底成長多少。在我測試的5款游戲中,分辨率統(tǒng)一設(shè)定在4K,特效全開。只能說RTX
4090是強到?jīng)]朋友,對比RTX
3090基本都是50%的增長起步,尤其是地平線5更是跑出高達66%的表現(xiàn),即便在4K特效全開的高壓環(huán)境下,都沒能讓RTX
4090吃滿功耗,甚至最變態(tài)的是其中四款游戲,功耗竟然還比RTX 3090低,這未免也太不科學(xué)了吧。這就是我前面所說的,先別對RTX
4090的能耗下定論指的就是這個。當(dāng)我們實際拿它來打游戲時,它不但比RTX 30系列卡強之外,竟然還更省電,新架構(gòu)搭配臺積電真的是太猛了。

這里我用2077 4K光追全開來進行測試,RTX 4090和RTX 3090在開啟光追后,性能同樣都減損了30%左右,這里兩者倒是沒有明顯的差距,不過RTX 4090的幀率還是比較高,能耗表現(xiàn)也更好一些。
接下來是DLSS測試,目前第一批支持DLSS 3.0的游戲有賽博朋克2077、逆水寒、微軟模擬飛行等。

賽博朋克在開啟DLSS平衡模式下,RTX 4090出現(xiàn)了2.6倍的幀率提升,比起RTX 3090的2倍要多出0.6倍,平均150幀的2077都足以喂飽4K 144的電競屏了,如果是性能檔位下,更是會有多達3倍的幀率提升。
總結(jié):RTX4090性能測試 RTX4090比3090提升多少?
總結(jié)一個字就是“強“,雖然功耗確實上升了,也貴了100刀,但是它所提供的性能以及能耗都完全掩蓋不了它目前在市場上的強勢性,NVIDIA確實是充分利用制程優(yōu)勢,加上大量的導(dǎo)入新技術(shù),實現(xiàn)比RTX
3090多兩倍以上的性能提升,同時卻有更優(yōu)異的能耗,即便老黃說摩爾定律在GPU上已經(jīng)難以實現(xiàn),但依靠著NVIDIA的軟實力,同樣是讓我們看到不亞于摩爾定律的表現(xiàn)。
不過希望gpu廠家不要再繼續(xù)上調(diào)硬件功耗了,以前的硬件出廠功耗比較保守,可以留給玩家們超頻探索的空間,但現(xiàn)在的硬件是原廠先幫你超到冒煙后再拿出來給你,性能強是沒錯,但留給玩家的探索空間越來越少了,并且功耗也提升了。這次Ada架構(gòu),確實擁有更優(yōu)異的能耗,并且在高功耗的區(qū)間上,還有更寬廣的性能延伸空間,這也是為什么NVIDIA這次會上調(diào)RTX
4090的功耗,畢竟到450W,也還不足以達到明顯的邊際效應(yīng),所以調(diào)高一些功耗來換取性能,是很常見的作法。但是當(dāng)硬件繼續(xù)往這個方向發(fā)展,之后的60、70級別卡要突破200、300W的功耗也不是不可能,即便你的能耗再優(yōu)異,但周邊的花費成本無疑是會提高的,以前5000塊就能配到一臺性能不錯的電腦,現(xiàn)在同樣價錢買個顯卡都差不多了。