麗臺(tái)實(shí)測(cè) | 全面解析NVIDIA RTX A6000“核爆”性能
NVIDIA??Ampere 架構(gòu)自發(fā)布以來(lái),無(wú)論是新的功能還是性能的提升都吸引了大量業(yè)內(nèi)外人士的關(guān)注。GA102的滿血性能、第二代光線追蹤硬件加速,第三代的Tensor Core加持,AV1的硬件解碼,都是這次更新中非常亮眼的特性。NVIDIA? RTX? A6000作為企業(yè)級(jí)專業(yè)應(yīng)用市場(chǎng)的高端顯卡,企業(yè)級(jí)的專業(yè)用戶對(duì)其都有很大的期待。
本次我們就針對(duì)這些專業(yè)用戶測(cè)試一下RTX A6000相對(duì)于RTX 6000,都有哪些提升?性能提升了多少?
測(cè)試環(huán)境

測(cè)試說(shuō)明

測(cè)試顯卡規(guī)格對(duì)比


1. CUDA-Z
CUDA-Z和CPU-Z、GPU-Z相類似,是對(duì)NVIDIA GPU處理器的一些基本信息的采集。

從CUDA-Z的測(cè)試數(shù)據(jù)看,RTX A6000的單精度浮點(diǎn)運(yùn)算性能達(dá)到了40T,這是RTX 6000的2.3倍的性能。所以涉及到單精度計(jì)算能力的應(yīng)用,都會(huì)有翻倍的性能提升。雙精度兩張顯卡依然都不高,需要雙精度計(jì)算能力的,還是要選擇NVIDIA A100 GPU或者NVIDIA?Quadro?GV100這種支持雙精度計(jì)算能力高的顯卡。
?
2. SPECviewperf 2020
SPECviewperf 2020主要是用來(lái)評(píng)測(cè)顯卡專業(yè)圖形性能的軟件,其中包括了我們常見(jiàn)的3ds Max、Maya、Catia、UG NX、Solidworks、Creo軟件性能測(cè)試,以及醫(yī)療和能量仿真性能測(cè)試。通過(guò)模擬對(duì)軟件場(chǎng)景的交互操作的速度來(lái)評(píng)分,得出顯卡的圖形性能的相對(duì)性能。


以上數(shù)據(jù)是RTX A6000和RTX 6000性能的對(duì)比情況。在各個(gè)軟件性能上都有不同程度的提升,性能基本上是1.1~1.2倍的提升,在Creo中提升的性能較少,在Energy仿真中會(huì)用到大量計(jì)算,所以性能提升較多達(dá)到了1.5倍的性能提升。
?3. 離線渲染測(cè)試結(jié)果
渲染在媒體娛樂(lè)、設(shè)計(jì)制造以及建筑行業(yè)得到廣泛的應(yīng)用,目前很多渲染器均支持GPU渲染,渲染的速度就取決于顯卡的計(jì)算速度。
Blender CUDA Benchmark(s)

Blender使用CUDA做渲染,RTX A6000相較于RTX 6000可以取得1.3-2.7倍的性能提升。
Blender OptiX?Benchmark(s)

Blender可以支持CUDA和Optix光追渲染,使用光追的新技術(shù)渲染的速度明顯比使用傳統(tǒng)的CUDA速度更快。比如,在場(chǎng)景Victor中使用RTX A6000 CUDA渲染需要408秒的時(shí)間,而使用Optix光追渲染僅需要130秒,速度提高了3倍。相同設(shè)置下RTX A6000對(duì)比RTX 6000則有了1.5~2倍的性能提升。
V-Ray Benchmark

V-Ray是目前比較主流的渲染器之一,從4.0開(kāi)始支持GPU的離線渲染。同時(shí)支持CUDA和光線追蹤兩種加速渲染技術(shù)。從測(cè)試結(jié)果看相較RTX 6000,RTX A6000在V-Ray上取得2倍左右的渲染性能,渲染速度有了很大的提高。
?
Octane Benchmark

OC是傳統(tǒng)的GPU渲染器,目前也支持Optix光追渲染。在開(kāi)啟了RTX渲染之后RTX A6000渲染性能是RTX 6000的1.6倍。
Autodesk VRED

Autodesk VRED有很多制造業(yè)的用戶,可以支持VR、實(shí)時(shí)交互渲染和離線渲染。我們對(duì)比的是4K離線渲染的性能。在開(kāi)啟了光線追蹤和全局光照的情況下,從成績(jī)來(lái)看RTX A6000的渲染性能是RTX 6000的2倍。
?4. 實(shí)時(shí)渲染
對(duì)比離線渲染,Superposition是測(cè)試實(shí)時(shí)渲染的性能,攝像機(jī)在3D場(chǎng)景里漫游,顯卡實(shí)時(shí)渲染物品運(yùn)動(dòng)、光影和材質(zhì)然后輸出到顯示設(shè)備。
Superposition Benchmark

Superposition支持兩種圖形API的實(shí)時(shí)渲染,在DirectX上,有1.5倍的性能提升。在OpenGL上有1.3倍的性能提升。Superposition是基于Unigine2 渲染引擎的軟件,所以基于Unigine開(kāi)發(fā)的軟件都會(huì)有不錯(cuò)的提升。
3DMark

3DMark測(cè)試的3項(xiàng)內(nèi)容對(duì)比,全部都是基于DX12進(jìn)行測(cè)試的,其中Port Royal是基于DXR的光線追蹤性能的測(cè)試:
> Time Spy Extreme 4K實(shí)時(shí)渲染 RTX A6000的性能是RTX 6000的1.3倍;
> Time Spy FHD情況下RTX A6000是RTX 6000的1.2倍;
> Port?Royal使用光線追蹤渲染測(cè)試下,RTX A6000是RTX 6000的1.4倍性能。
這項(xiàng)測(cè)試主要測(cè)試的是游戲性能,依靠RTX A6000的高性能,像UE4、Unity的開(kāi)發(fā)工作流都會(huì)取得很好的交互體驗(yàn)。
5. 解碼測(cè)試
AV1解碼是安培架構(gòu)的一個(gè)新功能,RTX A6000具有對(duì)AV1的硬解功能。本次解碼測(cè)試對(duì)象選用的是8K 60fps的視頻,編碼格式為AV1,使用Potplayer視頻播放軟件進(jìn)行測(cè)試。以下為RTX 6000和RTX A6000的解碼測(cè)試對(duì)比。
CPU軟件解碼

RTX 6000不支持AV1格式視頻的硬解,所以只能使用CPU解碼。原本60幀每秒的畫面,解碼程度只能達(dá)到46幀左右,此時(shí)畫面會(huì)有卡頓。
RTX A6000硬件解碼

使用RTX A6000解碼,可以實(shí)現(xiàn)每秒60幀實(shí)時(shí)解碼,沒(méi)有絲毫卡頓的感覺(jué)。而且此時(shí)解碼芯片的里利用率僅占了30%左右。
??
6. DL ResNet50測(cè)試

ResNet50訓(xùn)練半精情況下RTX A6000是RTX 6000的1.3倍,單精情況下RTX A6000是RTX 6000的1.6倍。
7. Image-classification測(cè)試

在推理方面,RTX A6000集成了第三代Tensor Core核心,顯卡整體的推理能力提升了。FP16和INT8差不多都是1.2倍左右的性能。
總結(jié)
NVIDIA RTX A6000采用的是8nm的工藝,可以讓GPU可以集成更多的CUDA核心。RTX A6000作為滿血版的GA102,計(jì)算性能的提升,在渲染、仿真、單精度計(jì)算方面都提高了很多。
在渲染方面,本次測(cè)評(píng)工具多選用大家常用的渲染軟件,在與RTX 6000的對(duì)比之下,RTX A6000在其中大部分場(chǎng)景中都有2倍渲染速度的提升。RTX A6000 48GB的大顯存可以加載更多的數(shù)據(jù),承載更多的場(chǎng)景,讓Blender、Davinci這種全部場(chǎng)景都要在顯存里的計(jì)算軟件,避免了因場(chǎng)景太大導(dǎo)致軟件無(wú)法渲染的尷尬局面。
在解碼方面,AV1解碼功能的增加可以解決被迫使用CPU解碼的性能問(wèn)題,可以充分解放CPU,提高解碼效率。
在深度學(xué)習(xí)和推理方面,RTX A6000也有了很大提升,在人工智能飛速發(fā)展的今天,可以提供更好的訓(xùn)練算力節(jié)省模型訓(xùn)練消耗的大量時(shí)間。
本文作者:青松