最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Intel Xeon Platinum 8490H "Sapphire Rapids" 性能測試

2023-02-10 02:31 作者:某科學(xué)的氕氘氚  | 我要投稿

注:

  • 本文搬運(yùn)自phoronix,非原創(chuàng),原文地址https://www.phoronix.com/review/intel-xeon-platinum-8490h

  • UP只是搬運(yùn)文章,不能100%熟悉甚至很不熟悉原文中的各種測試項目,如有錯誤請各位大佬諒解指正

  • 下文使用SPR代指Sapphire Rapids

先來簡單回顧下Intel Xeon Platinum 8490H(以下簡稱8490H)的規(guī)格,這款旗艦SKU擁有60個核心120個線程intel果然還是不敢在服務(wù)器上用大小核的,基本頻率1.9GHz,全核心加速頻率2.9GHz,最大加速頻率3.5GHz,8通道DDR5-4800內(nèi)存。緩存共112.5MB,TDP350W。intel給這一代可拓展至強(qiáng)里面塞進(jìn)去幾種加速器,8490H配有DSA、QAT、DLB、IAA各四個,本次測試中全部啟動。8490H的建議客戶價格為17,000美元(約合人民幣115,260元)。詳細(xì)規(guī)格大家可以去intel官網(wǎng)查看,這里不再詳細(xì)介紹

Xeon典中典的CPU粘在散熱器上(霧

8490H的對手應(yīng)當(dāng)是AMD?Genoa陣容中的旗艦產(chǎn)品EPYC 9654(以下簡稱9654)。9654的規(guī)格就十分暴力了:96核心192線程,2.4GHz基本頻率,全核心加速頻率3.55GHz,最大加速頻率3.7GHz,TDP360W,12通道DDR5-4800,一千片批發(fā)價格卻僅為11,805美元,明顯低于8490H。不過9654缺乏8490H上的專用加速器,也沒有AMX指令集的支持,不過這一代EPYC終于開始支持avx512用魔法戰(zhàn)勝魔法(錯亂

8490H和9654

測試平臺均為廣達(dá)電腦生產(chǎn)的參考服務(wù)器

本次測試包括的CPU有:

  • AMD EPYC 7713

  • AMD EPYC 7763

  • AMD EPYC 7773X

  • AMD EPYC 9374F

  • AMD EPYC 9554

  • AMD EPYC 9654

  • Intel Xeon Platinum 8362

  • Intel Xeon Platinum 8380

  • Intel Xeon Platinum 8390H

所有處理器都在其最大額定頻率和最大內(nèi)存通道配置下進(jìn)行測試,存儲使用鎂光9300系列NVMe硬盤,詳細(xì)硬件細(xì)節(jié)見下圖

測試進(jìn)行在Ubuntu 22.10和Linux 6.0內(nèi)核下,GCC 12.2使用默認(rèn)編譯器,所有處理器都使用Linux 6.0的"performance"模式進(jìn)行測試,測試過程中使用暴露的RAPL接口監(jiān)測和記錄CPU封裝的功耗,"每美元性能"項目中IceLake和Milan(X)使用NewEgg定價為參考,SPR和Genoa使用官方建議零售價作為參考

OpenVINO測試

因為Intel最近對AI負(fù)載越來越重視,業(yè)界也對AI表達(dá)出越來越多的興趣,所以說讓咱們從Intel自己的OpenVINO開始測試,SPR應(yīng)該已經(jīng)充分兼容了這個軟件畢竟都是自家的東西,可以充分發(fā)揮它的潛力

人臉識別FP16,幀率,越高越好
人臉識別FP16-INT8,幀率,越高越好

原作者的話:從AMD EPYC Milan(X)到Genoa,我在11月時就對OpenVINO的性能感到震驚,因為EPYC有AVX-512和Zen 4。但是在SPR上的OpenVINO結(jié)果讓我對其性能感到興奮不已。誠然,OpenVINO是英特爾開發(fā)的開源軟件,并且已經(jīng)針對英特爾處理器進(jìn)行了優(yōu)化。由于AMX的存在,Xeon Platinum 8490H的性能比Ice Lake和AMD EPYC都要驚人。OpenVINO在SPR上的表現(xiàn)完全是主導(dǎo)性的。

人臉識別FP16,幀率每美元,越高越好

雖然與EPYC 9004系列的定價相比,8490H 17,000刀的定價非常離譜,但如果是能利用到AMX指令集的AI負(fù)載或是其他的能夠利用SPR新功能的工作負(fù)載,這個價格還算合理

人臉識別FP16延遲,毫秒(ms),越低越好

8490H不只是吞吐量遠(yuǎn)超其他處理器,延遲也低得多

CPU功耗,瓦特,越低越好

9654和8490H的平均功耗都在325W左右,但是8490H峰值功耗377W,9654峰值功耗360W

退休人員年齡及性別識別 0013 FP16,幀率,越高越好

OpenVINO測試中的最壞情況下,雙路8490H只能提供雙路9554到雙路9654之間的性能,甚至偶爾9554比9654更有優(yōu)勢

退休人員年齡及性別識別 0013 FP16延遲,毫秒(ms),越低越好
人身檢測FP16,幀率,越高越好


人身檢測FP16延遲,毫秒(ms),越低越好

人身檢測FP32,幀率,越高越好
焊縫孔隙率缺陷檢測FP16-INT8,幀率,越高越好
焊縫孔隙率缺陷檢測FP16,幀率,越高越好
焊縫孔隙率缺陷檢測FP16延遲,毫秒(ms),越低越好
人-車-自行車檢測FP16,幀率,越高越好
機(jī)器翻譯英語到德語FP16,幀率,越高越好
機(jī)器翻譯英語到德語FP16延遲,毫秒(ms),越低越好

原作者的話:這些基準(zhǔn)測試是用OpenVINO 2022.2.dev完成的,因為那是我開始第四輪服務(wù)器CPU基準(zhǔn)測試時的最新版本,而我后來加入了OpenVINO 2022.3,它有進(jìn)一步的優(yōu)化,將在后續(xù)的SPR CPU基準(zhǔn)測試中出現(xiàn)。

總的來說8490H在Intel OpenVINO AI工具包中表現(xiàn)不錯,接下來讓我們康康其他的一些工作負(fù)載,畢竟不是所有服務(wù)器都在算AI

HPC測試

GROMACS測試

MPI CPU - lnput: water GMX50 bare,納秒每天,越高越好

GROMACS仍然是HPC領(lǐng)域中一個有趣的CPU基準(zhǔn)。GROMACS有一個oneAPI + SYCL后端,可以從更大的緩存中獲益??梢钥吹?773X比7763有明顯的提升,因此intel的Max系列的CPU和GPU應(yīng)該能取得更高的性能。在這項測試中8490H性能比上一代8380好得多,單路8490H性能與雙路8380差不多,但是還是被9554和9654暴揍

CPU功耗,瓦特,越低越好

在這項測試中,不管是單路還是雙路,8490H的功耗表現(xiàn)都是最差的。8490H平均功耗315W,峰值376W,而9654平均功耗為267W,峰值為344瓦

小聲BB:按道理HPC還算是intel的強(qiáng)項,結(jié)果不論性能還是能效比都表現(xiàn)稀爛,屬實(shí)丟人,非常失望

MPI CPU - lnput: water GMX50 bare,納秒每天每秒,越高越好

當(dāng)計算每瓦性能時,8490H僅能稍微領(lǐng)先于Milan系列,完全落后于EPYC 9004系列,但至少比8380提高了35%

MPI CPU - lnput: water GMX50 bare,納秒每美金,越高越好

每美元性能的話,17,000美元一顆的東西理所當(dāng)然的排在了最后...丟人


Graph500測試

規(guī)模:26,sssp TEPS中位數(shù),越高越好

在Graph500 HPC基準(zhǔn)測試中,8490H相比8380有非常巨大的提升,單路8490H就能達(dá)到雙路8380 1.13倍的性能,但是顯而易見還是被9654暴揍

規(guī)模:26,sssp 最高TEPS,越高越好

如果看最高TEPS結(jié)果還能稍微好點(diǎn),勉強(qiáng)超過9374F


HPCG測試

GFLOP每秒,越高越好

在HPCG基準(zhǔn)測試中,8490H相比8380大致提升了50%左右,但是相比EPYC 9004系列就更丟人了(


WRF測試

conus 2.5km模型,秒,越低越好

在WRF天氣預(yù)報基準(zhǔn)測試中,老樣子,雖然相對于8380有明顯的提升,但是8490H還是被EPYC 9004系列摁著打,連9374F都打不過。有意思的是WRF也可以從大帶寬的內(nèi)存中獲益,因此EPYC 9004系列的12通道內(nèi)存會帶來一些優(yōu)勢,Milan-X的巨大緩存也能帶來增益,由此來看intel的Max系列或許能取得高一些的性能

CPU功耗,瓦特,越低越好

在跑WRF的時候8490H平均功耗348W,峰值376W倒數(shù),懂?

RELION測試

秒,越低越好

Xcompact3d Incompact3d測試

秒,越低越好

ACES DGEMM測試

持續(xù)浮點(diǎn)率,GFLOP每秒,越高越好

沒什么好說的,全程被EPYC 9004系列按在地上摩擦,唯一好看一點(diǎn)的也就是至少相比IceLake有很大提升,一顆8490H差不多可以和兩顆8380相當(dāng)


NAS Parallel Benchmarks測試

BT.C,總Mop每秒,越高越好

可以看到在這項測試中7773X靠著超大緩存的表現(xiàn)很好,反過來暴揍8490H一轉(zhuǎn)攻勢,或許intel的Max系列能取得更好的表現(xiàn)

EP.D,總Mop每秒,越高越好

CPU功耗,瓦特,越低越好
EP.D,總Mop每秒每瓦,越高越好

8490H在每瓦性能和原始性能方面只能相比IceLake有明顯提升,和EPYC 9004相比還是落后很多


Rodinia測試

OpenMP LavaMP,秒,越低越好

AI性能測試

LeelaChessZero測試

Nodes每秒,越高越好

在國際象棋基準(zhǔn)測試中,8490H表現(xiàn)還不錯,單路就能打敗雙路9654和9554,不過9374F居然拿了第一名,很怪(

CPU功耗,瓦特,越低越好
Nodes每秒每瓦,越高越好

雖然原始性能方面8490H還算優(yōu)秀,但是每瓦性能還是9654和9554更強(qiáng),只能說是至少比IceLake有明顯提升


oneDNN測試

卷積形狀自動批處理 數(shù)據(jù)類型f32,毫秒,越低越好

在跑intel自家oneDNN神經(jīng)網(wǎng)絡(luò)庫的時候8490H表現(xiàn)出出色的性能,這或許要?dú)w功于SPR搭載的AMX指令集

卷積形狀自動批處理 數(shù)據(jù)類型u8s8f32,毫秒,越低越好

intel的oneDNN庫被NNX、OpenVINO、PaddlePaddle、PyTorch、TensorFlow、Apache MXNet等AI軟件使用,這些軟件在SPR上跑應(yīng)該可以取得不錯的性能

反卷積3D圖形批處理 數(shù)據(jù)類型f32,毫秒,越低越哈

不論相比上代IceLake還是相比EPYC 9004系列,8490H在運(yùn)行AI負(fù)載時的表現(xiàn)都不錯

CPU功耗,瓦特,越低越好

不過拋開性能不說,8490H的功耗遠(yuǎn)超其他處理器你性能差!你功耗高!

編譯性能測試

構(gòu)建系統(tǒng):Ninja,秒,越低越好
編譯時間,秒,越低越好
構(gòu)建:默認(rèn)設(shè)置,秒,越低越好

在編譯任務(wù)無法調(diào)用SPR的加速器的時候,8490H明顯落后于9654和9554,甚至連9374F都打不過,這可能是因為9374F有比較高的頻率

構(gòu)建:allmod配置,秒,越低越好

這下被上代產(chǎn)品揍了

CPU功耗,瓦特,越低越好

對于代碼編譯負(fù)載,8490H的功耗仍然顯著高于其他處理器

編譯時間,秒,越低越好

帶有HBM2e的Max系列CPU跑代碼編譯可能會有點(diǎn)意思,它可能在CI環(huán)境中取得不錯的成績,直接把HBM2e當(dāng)作系統(tǒng)內(nèi)存用

java測試:jython,毫秒,越低越好

雖然沒有利用到所有核心,但是8490H在運(yùn)行OpenJDK java工作負(fù)載時表現(xiàn)不錯,不過intel一向在這項測試中發(fā)揮都算可以

渲染性能測試

Blender測試

教室場景,秒,越低越好

理發(fā)店場景,秒,越低越好

對于基于CPU的3D渲染,EPYC 9004系列依靠海量的核心/線程數(shù)輕松獲勝,8490H甚至連Milan(X)都打不過,不過至少對于8490H的核心數(shù)來講它的性能還不錯


Embree測試

模式:亞洲龍,幀每秒,越高越好

跑光追時候8490H直接給大家表演個雙路打不過人家單路,雙路8490H落后于單路9654


Intel Open Image Denoise測試

圖像每秒,越高越好

圖像每秒,越高越好
圖像每秒,越高越好

當(dāng)運(yùn)行intel自家的oneAPI的一部分的開放圖像降噪庫時,8490H取得了不錯的性能但是我記得Embree也是i家的啊

CPU功耗,瓦特,越低越好

圖像每秒每瓦特,越高越好

雖然8490H性能還行,但是在功耗和每瓦性能方面還是9654更勝一籌


OSPRay測試

項目每秒,越高越好

intel的OSPRay光追引擎可以有效利用到avx512,60核心的8490H幾乎可以和64核心的9554相當(dāng),并且相對于8380性能提高了大約75%,不過還是喜聞樂見的被9654暴揍96核心的絕對力量

CPU功耗,瓦特,越低越好

項目每秒每瓦特,越高越好

能耗方面就很難看了,典中典國家電網(wǎng)戰(zhàn)略合作伙伴

項目每秒,越高越好
毫秒,越低越好
毫秒,越低越好
毫秒,越低越好

在運(yùn)行OSPRay Studio的時候,8490H只能說是比上一代有巨大提升,和9654甚至9554比還是沒啥希望


GraphicsMagick測試

選項:增強(qiáng),迭代每分鐘,越高越好

選項:銳化,迭代每分鐘,越高越好


ASTC Encoder測試

預(yù)設(shè):詳細(xì),MT每秒,越高越好

好不容易遇到自家軟件,EPYC 9004系列發(fā)揮一如既往的優(yōu)秀,8490H還是被64核和96核的絕對力量摩擦


網(wǎng)頁性能測試

Node.js HTTP負(fù)載測試

每秒請求,越高越好

就Node.js性能來講8490H表現(xiàn)不錯,遠(yuǎn)遠(yuǎn)超過IceLake,還能領(lǐng)先EPYC 9004系列,不過很反常的是單路8490H性能要比雙路更好,可能是這個負(fù)載更要求單核性能。另外雖然在單線程腳本執(zhí)行方面落后,但是EPYC 9004系列可以憑借它超多的核心提供更密集的Node.js環(huán)境


simdjson測試

GB每秒,越高越好
GB每秒,越高越好
GB每秒,越高越好

SIMDjson的結(jié)果就很有意思了,因為它可以吃到avx512的優(yōu)化;zen4因為支持了avx512所以跑出了非常不錯的性能,不過很怪的是9374F超過了自家的9654和9554


Python測試

總平均測試時間,毫秒,越低越好
測試項目:crypto_pyaes,毫秒,越低越好
測試項目:django_template,毫秒,越低越好
測試項目:regex_compile,毫秒,越低越好


PHP測試

分?jǐn)?shù),越高越好

PHP和python的成績中規(guī)中矩,雖然超過了9654但是被9374F摁著打,不過9374F能碾壓自家大哥還挺奇怪的


OpenSSL測試

算法:RSA4096,每秒簽名,越高越好

理所當(dāng)然的被64核和96核暴揍

工業(yè)軟件測試

BRL-CAD測試

VGR性能統(tǒng)計,越高越好

在多線程的開源CAD軟件BRL-CAD中,8490H至少可以領(lǐng)先64核的9554,但還是落后9654非常多


Liquid-DSP測試

線程數(shù):128-緩沖長度:256-迭代長度:57,采樣每秒,越高越好

線程數(shù):256-緩沖長度:256-迭代長度:57,采樣每秒,越高越好

在測試Liquid-DSP開源數(shù)字信號處理庫時,8490H表現(xiàn)非常差,但是至少超過了Milan(X),相比8380提高了兩倍以上


Coremark測試

尺寸666,每秒迭代次數(shù),越高越好

我不好說.jpg


OpenFOAM測試

秒,越低越好

在OpenFOAM測試中,8490H雖然遠(yuǎn)超8380,但是甚至連9374F和7773X都打不過,不過7773X的大緩存在這里表現(xiàn)很好,也許Max系列CPU可以取得好一點(diǎn)的成績

CPU功耗,瓦特,越低越好

8490H的功耗遠(yuǎn)超其他處理器,intel老傳統(tǒng)了屬于是

總結(jié)

因為每個專欄只能插入100張圖片,所以這個部分的圖片塞進(jìn)另外一個專欄,點(diǎn)下面?zhèn)魉烷T查看

在創(chuàng)作工作負(fù)載中,雙路8490H的性能大概是雙路8380的2.16倍,但是還是落后于9654,雖然可以領(lǐng)先9554,但是要知道9554僅售9k多美元,還有64個核心

注:創(chuàng)作工作負(fù)載包括OSPRay、OSPRay Studio、C-Ray、Tachyon、POV-Ray、Blender、GraphicsMagick、Embree、oneDNN、OIDN、OpenVINO、ASTC Encoder


在高性能計算(HPC)中,8490H甚至無法戰(zhàn)勝9554,不過至少雙路8490H達(dá)到了雙路8380 2.27倍的性能,但是考慮到售價和能耗,相比EPYC 9004系列還是沒什么競爭力

注:HPC負(fù)載包括NPB、Rodinia、HPCG、MT-DGEMM、AMG、NAMD、GROMACS、LULESH、Pennant、Incompact3D、OpenFOAM、RELION、oneDNN、OpenVINO、LCzero、WRF、Graph500


在機(jī)器學(xué)習(xí)測試中,Xeon占有較大優(yōu)勢,8490H可以輕松達(dá)到8380三倍以上的性能,也可以輕松超過9654和9554,這可能是由AMX和AVX-512造成的


至于oneAPI,畢竟是自家軟件,取得優(yōu)秀成績也是意料之中


但是想代碼編譯或是3D渲染這樣的工作,對核心和內(nèi)存的要求更加緊迫,EPYC 9004系列憑借超多核心數(shù)和12通道內(nèi)存輕松取勝


在Python執(zhí)行性能方面,結(jié)果和其他常見的腳本語言測試性能類似


根據(jù)原作者發(fā)布這篇文章時已經(jīng)進(jìn)行過的100多個測試結(jié)果進(jìn)行幾何平均,雙路8490H總體上略微領(lǐng)先雙路9374F和雙路9554,可以達(dá)到上代8380性能的1.79-1.83倍,9654比8490H快大概16%,9554則快9%


至于功耗,8490H功耗明顯高于8380,也高于EPYC 9004系列的每一款處理器,單路時就能達(dá)到最高380瓦的功耗


總的來說,四代可拓展在人工智能方面優(yōu)勢較大,像oneDNN,DeepSparse和OpenVINO可以充分利用到SPR的新增功能,類似AMX,還有AI加速模塊;同時四代可拓展在運(yùn)行Open Image Denoise圖像降噪、OSPRay、GraphicsMagick、PHP、OpenJDK等方面也還算差強(qiáng)人意。但是涉及到HPC或渲染等工作負(fù)載時,四代可拓展的性能就會受到影響,這些工作負(fù)載可以很好的從超多線程數(shù)或是高速的內(nèi)存中獲益,雙路9654可是能達(dá)到384線程。另外在有些內(nèi)存密集型工作負(fù)載中四代可拓展的表現(xiàn)甚至不如7773X,但是這些任務(wù)也許更適合Max系列CPU

至于價格,8490H定價17000美元,而9654每一千顆批發(fā)價格僅11805美元,8490H的定價可以說是很高了,除非你的工作負(fù)載可以充分利用四代可拓展的各種新增特性如加速模塊或是AMX指令集,否則性價比不高,不過在這里原作者有句話我不太認(rèn)同,放在這里大家評價

考慮到每個9654使用12個DIMMs而不是8個DIMMs的成本,如果想要填充所有可用的內(nèi)存通道,仍然會比8940H的定價高。

不過如果完全不計成本,四代可拓展的計算密度還能略占優(yōu)勢,畢竟支持最高8路,單機(jī)性能可以靠純粹的砸錢戰(zhàn)勝9654,我記得超聚變已經(jīng)推出的FusionServer X6000 V7可以在2U的空間里塞進(jìn)8顆8490H,還是比較驚喜的

另外如果不需要用到加速器的話,Max系列或許是不錯的選擇,每顆Max9480擁有56個核心,和8490H相同的112.5MB緩存,同樣的350W TDP,8通道DDR5-4800,四個DSA加速器,雖然沒有QAT/DLB/IAA,但是9480還擁有64GB的HBM2e作為系統(tǒng)內(nèi)存,價格為12980美元,這或許在某些HPC負(fù)載中能取得超過8490H的性能,取得不錯的性價比

也可以把視線從8490H上挪開縱觀全局,四代可拓展還有些優(yōu)勢正如其名——拓展性;EPYC產(chǎn)品線簡潔清晰,但是著實(shí)細(xì)分性不強(qiáng),無法準(zhǔn)確匹配每一種需求。而Xeon系列更注重多CPU互聯(lián),采用UPI總線不占用PCIE,多路損耗也低于EPYC系列,例如需要超多PCIE插槽的時候,6416H就是不錯的選擇,雖然單路僅支持80條PCIE不及EPYC 9004系列的128條,但是雙路就能達(dá)到和EPYC一致的160條,甚至還可以四路達(dá)到320條,整機(jī)成本卻還能控制在可以接受的范圍內(nèi)(一顆6416H的建議零售價僅為1444美金)。總之如果對拓展性有較高要求,四代可拓展也算是一個不錯的選擇


個人來講對這代至強(qiáng)比較失望,性價比和能耗比奇差,除了AI負(fù)載幾乎就是沒眼看,印象中HPC一向是Intel的強(qiáng)項也完全敗給9654,再期待一波Max系列的表現(xiàn)。最后感謝各位的閱讀,碼字不易求點(diǎn)贊求點(diǎn)贊求點(diǎn)贊(錯亂

Intel Xeon Platinum 8490H "Sapphire Rapids" 性能測試的評論 (共 條)

分享到微博請遵守國家法律
天峨县| 大悟县| 汾阳市| 梁山县| 栾川县| 封开县| 涿鹿县| 芒康县| 高雄市| 武冈市| 阿坝县| 瑞金市| 长武县| 马山县| 万宁市| 新泰市| 壶关县| 黔西县| 调兵山市| 澄迈县| 视频| 锦屏县| 石河子市| 岑溪市| 高州市| 罗甸县| 临潭县| 肃北| 邻水| 历史| 邵阳县| 赤壁市| 东宁县| 沅江市| 金华市| 岗巴县| 哈密市| 安图县| 息烽县| 石首市| 甘南县|