Intel Xeon Platinum 8490H "Sapphire Rapids" 性能測試

注:
本文搬運(yùn)自phoronix,非原創(chuàng),原文地址https://www.phoronix.com/review/intel-xeon-platinum-8490h
UP只是搬運(yùn)文章,不能100%熟悉甚至很不熟悉原文中的各種測試項目,如有錯誤請各位大佬諒解指正
下文使用SPR代指Sapphire Rapids

先來簡單回顧下Intel Xeon Platinum 8490H(以下簡稱8490H)的規(guī)格,這款旗艦SKU擁有60個核心120個線程intel果然還是不敢在服務(wù)器上用大小核的,基本頻率1.9GHz,全核心加速頻率2.9GHz,最大加速頻率3.5GHz,8通道DDR5-4800內(nèi)存。緩存共112.5MB,TDP350W。intel給這一代可拓展至強(qiáng)里面塞進(jìn)去幾種加速器,8490H配有DSA、QAT、DLB、IAA各四個,本次測試中全部啟動。8490H的建議客戶價格為17,000美元(約合人民幣115,260元)。詳細(xì)規(guī)格大家可以去intel官網(wǎng)查看,這里不再詳細(xì)介紹

8490H的對手應(yīng)當(dāng)是AMD?Genoa陣容中的旗艦產(chǎn)品EPYC 9654(以下簡稱9654)。9654的規(guī)格就十分暴力了:96核心192線程,2.4GHz基本頻率,全核心加速頻率3.55GHz,最大加速頻率3.7GHz,TDP360W,12通道DDR5-4800,一千片批發(fā)價格卻僅為11,805美元,明顯低于8490H。不過9654缺乏8490H上的專用加速器,也沒有AMX指令集的支持,不過這一代EPYC終于開始支持avx512用魔法戰(zhàn)勝魔法(錯亂

測試平臺均為廣達(dá)電腦生產(chǎn)的參考服務(wù)器




本次測試包括的CPU有:
AMD EPYC 7713
AMD EPYC 7763
AMD EPYC 7773X
AMD EPYC 9374F
AMD EPYC 9554
AMD EPYC 9654
Intel Xeon Platinum 8362
Intel Xeon Platinum 8380
Intel Xeon Platinum 8390H
所有處理器都在其最大額定頻率和最大內(nèi)存通道配置下進(jìn)行測試,存儲使用鎂光9300系列NVMe硬盤,詳細(xì)硬件細(xì)節(jié)見下圖

測試進(jìn)行在Ubuntu 22.10和Linux 6.0內(nèi)核下,GCC 12.2使用默認(rèn)編譯器,所有處理器都使用Linux 6.0的"performance"模式進(jìn)行測試,測試過程中使用暴露的RAPL接口監(jiān)測和記錄CPU封裝的功耗,"每美元性能"項目中IceLake和Milan(X)使用NewEgg定價為參考,SPR和Genoa使用官方建議零售價作為參考

OpenVINO測試
因為Intel最近對AI負(fù)載越來越重視,業(yè)界也對AI表達(dá)出越來越多的興趣,所以說讓咱們從Intel自己的OpenVINO開始測試,SPR應(yīng)該已經(jīng)充分兼容了這個軟件畢竟都是自家的東西,可以充分發(fā)揮它的潛力


原作者的話:從AMD EPYC Milan(X)到Genoa,我在11月時就對OpenVINO的性能感到震驚,因為EPYC有AVX-512和Zen 4。但是在SPR上的OpenVINO結(jié)果讓我對其性能感到興奮不已。誠然,OpenVINO是英特爾開發(fā)的開源軟件,并且已經(jīng)針對英特爾處理器進(jìn)行了優(yōu)化。由于AMX的存在,Xeon Platinum 8490H的性能比Ice Lake和AMD EPYC都要驚人。OpenVINO在SPR上的表現(xiàn)完全是主導(dǎo)性的。

雖然與EPYC 9004系列的定價相比,8490H 17,000刀的定價非常離譜,但如果是能利用到AMX指令集的AI負(fù)載或是其他的能夠利用SPR新功能的工作負(fù)載,這個價格還算合理

8490H不只是吞吐量遠(yuǎn)超其他處理器,延遲也低得多

9654和8490H的平均功耗都在325W左右,但是8490H峰值功耗377W,9654峰值功耗360W

OpenVINO測試中的最壞情況下,雙路8490H只能提供雙路9554到雙路9654之間的性能,甚至偶爾9554比9654更有優(yōu)勢



人身檢測FP16延遲,毫秒(ms),越低越好

人身檢測FP32,幀率,越高越好






原作者的話:這些基準(zhǔn)測試是用OpenVINO 2022.2.dev完成的,因為那是我開始第四輪服務(wù)器CPU基準(zhǔn)測試時的最新版本,而我后來加入了OpenVINO 2022.3,它有進(jìn)一步的優(yōu)化,將在后續(xù)的SPR CPU基準(zhǔn)測試中出現(xiàn)。
總的來說8490H在Intel OpenVINO AI工具包中表現(xiàn)不錯,接下來讓我們康康其他的一些工作負(fù)載,畢竟不是所有服務(wù)器都在算AI

HPC測試
GROMACS測試

GROMACS仍然是HPC領(lǐng)域中一個有趣的CPU基準(zhǔn)。GROMACS有一個oneAPI + SYCL后端,可以從更大的緩存中獲益??梢钥吹?773X比7763有明顯的提升,因此intel的Max系列的CPU和GPU應(yīng)該能取得更高的性能。在這項測試中8490H性能比上一代8380好得多,單路8490H性能與雙路8380差不多,但是還是被9554和9654暴揍

在這項測試中,不管是單路還是雙路,8490H的功耗表現(xiàn)都是最差的。8490H平均功耗315W,峰值376W,而9654平均功耗為267W,峰值為344瓦
小聲BB:按道理HPC還算是intel的強(qiáng)項,結(jié)果不論性能還是能效比都表現(xiàn)稀爛,屬實(shí)丟人,非常失望

當(dāng)計算每瓦性能時,8490H僅能稍微領(lǐng)先于Milan系列,完全落后于EPYC 9004系列,但至少比8380提高了35%

每美元性能的話,17,000美元一顆的東西理所當(dāng)然的排在了最后...丟人
Graph500測試

在Graph500 HPC基準(zhǔn)測試中,8490H相比8380有非常巨大的提升,單路8490H就能達(dá)到雙路8380 1.13倍的性能,但是顯而易見還是被9654暴揍

如果看最高TEPS結(jié)果還能稍微好點(diǎn),勉強(qiáng)超過9374F
HPCG測試

在HPCG基準(zhǔn)測試中,8490H相比8380大致提升了50%左右,但是相比EPYC 9004系列就更丟人了(
WRF測試

在WRF天氣預(yù)報基準(zhǔn)測試中,老樣子,雖然相對于8380有明顯的提升,但是8490H還是被EPYC 9004系列摁著打,連9374F都打不過。有意思的是WRF也可以從大帶寬的內(nèi)存中獲益,因此EPYC 9004系列的12通道內(nèi)存會帶來一些優(yōu)勢,Milan-X的巨大緩存也能帶來增益,由此來看intel的Max系列或許能取得高一些的性能

在跑WRF的時候8490H平均功耗348W,峰值376W倒數(shù),懂?
RELION測試

Xcompact3d Incompact3d測試

ACES DGEMM測試

沒什么好說的,全程被EPYC 9004系列按在地上摩擦,唯一好看一點(diǎn)的也就是至少相比IceLake有很大提升,一顆8490H差不多可以和兩顆8380相當(dāng)
NAS Parallel Benchmarks測試

可以看到在這項測試中7773X靠著超大緩存的表現(xiàn)很好,反過來暴揍8490H一轉(zhuǎn)攻勢,或許intel的Max系列能取得更好的表現(xiàn)



8490H在每瓦性能和原始性能方面只能相比IceLake有明顯提升,和EPYC 9004相比還是落后很多
Rodinia測試


AI性能測試
LeelaChessZero測試

在國際象棋基準(zhǔn)測試中,8490H表現(xiàn)還不錯,單路就能打敗雙路9654和9554,不過9374F居然拿了第一名,很怪(


雖然原始性能方面8490H還算優(yōu)秀,但是每瓦性能還是9654和9554更強(qiáng),只能說是至少比IceLake有明顯提升
oneDNN測試

在跑intel自家oneDNN神經(jīng)網(wǎng)絡(luò)庫的時候8490H表現(xiàn)出出色的性能,這或許要?dú)w功于SPR搭載的AMX指令集

intel的oneDNN庫被NNX、OpenVINO、PaddlePaddle、PyTorch、TensorFlow、Apache MXNet等AI軟件使用,這些軟件在SPR上跑應(yīng)該可以取得不錯的性能

不論相比上代IceLake還是相比EPYC 9004系列,8490H在運(yùn)行AI負(fù)載時的表現(xiàn)都不錯

不過拋開性能不說,8490H的功耗遠(yuǎn)超其他處理器你性能差!你功耗高!

編譯性能測試



在編譯任務(wù)無法調(diào)用SPR的加速器的時候,8490H明顯落后于9654和9554,甚至連9374F都打不過,這可能是因為9374F有比較高的頻率

這下被上代產(chǎn)品揍了

對于代碼編譯負(fù)載,8490H的功耗仍然顯著高于其他處理器

帶有HBM2e的Max系列CPU跑代碼編譯可能會有點(diǎn)意思,它可能在CI環(huán)境中取得不錯的成績,直接把HBM2e當(dāng)作系統(tǒng)內(nèi)存用

雖然沒有利用到所有核心,但是8490H在運(yùn)行OpenJDK java工作負(fù)載時表現(xiàn)不錯,不過intel一向在這項測試中發(fā)揮都算可以

渲染性能測試
Blender測試


對于基于CPU的3D渲染,EPYC 9004系列依靠海量的核心/線程數(shù)輕松獲勝,8490H甚至連Milan(X)都打不過,不過至少對于8490H的核心數(shù)來講它的性能還不錯
Embree測試

跑光追時候8490H直接給大家表演個雙路打不過人家單路,雙路8490H落后于單路9654
Intel Open Image Denoise測試



當(dāng)運(yùn)行intel自家的oneAPI的一部分的開放圖像降噪庫時,8490H取得了不錯的性能但是我記得Embree也是i家的啊


雖然8490H性能還行,但是在功耗和每瓦性能方面還是9654更勝一籌
OSPRay測試

intel的OSPRay光追引擎可以有效利用到avx512,60核心的8490H幾乎可以和64核心的9554相當(dāng),并且相對于8380性能提高了大約75%,不過還是喜聞樂見的被9654暴揍96核心的絕對力量


能耗方面就很難看了,典中典國家電網(wǎng)戰(zhàn)略合作伙伴




在運(yùn)行OSPRay Studio的時候,8490H只能說是比上一代有巨大提升,和9654甚至9554比還是沒啥希望
GraphicsMagick測試


ASTC Encoder測試

好不容易遇到自家軟件,EPYC 9004系列發(fā)揮一如既往的優(yōu)秀,8490H還是被64核和96核的絕對力量摩擦

網(wǎng)頁性能測試
Node.js HTTP負(fù)載測試

就Node.js性能來講8490H表現(xiàn)不錯,遠(yuǎn)遠(yuǎn)超過IceLake,還能領(lǐng)先EPYC 9004系列,不過很反常的是單路8490H性能要比雙路更好,可能是這個負(fù)載更要求單核性能。另外雖然在單線程腳本執(zhí)行方面落后,但是EPYC 9004系列可以憑借它超多的核心提供更密集的Node.js環(huán)境
simdjson測試



SIMDjson的結(jié)果就很有意思了,因為它可以吃到avx512的優(yōu)化;zen4因為支持了avx512所以跑出了非常不錯的性能,不過很怪的是9374F超過了自家的9654和9554
Python測試




PHP測試

PHP和python的成績中規(guī)中矩,雖然超過了9654但是被9374F摁著打,不過9374F能碾壓自家大哥還挺奇怪的
OpenSSL測試

理所當(dāng)然的被64核和96核暴揍

工業(yè)軟件測試
BRL-CAD測試

在多線程的開源CAD軟件BRL-CAD中,8490H至少可以領(lǐng)先64核的9554,但還是落后9654非常多
Liquid-DSP測試


在測試Liquid-DSP開源數(shù)字信號處理庫時,8490H表現(xiàn)非常差,但是至少超過了Milan(X),相比8380提高了兩倍以上
Coremark測試

我不好說.jpg
OpenFOAM測試

在OpenFOAM測試中,8490H雖然遠(yuǎn)超8380,但是甚至連9374F和7773X都打不過,不過7773X的大緩存在這里表現(xiàn)很好,也許Max系列CPU可以取得好一點(diǎn)的成績

8490H的功耗遠(yuǎn)超其他處理器,intel老傳統(tǒng)了屬于是

總結(jié)
因為每個專欄只能插入100張圖片,所以這個部分的圖片塞進(jìn)另外一個專欄,點(diǎn)下面?zhèn)魉烷T查看

在創(chuàng)作工作負(fù)載中,雙路8490H的性能大概是雙路8380的2.16倍,但是還是落后于9654,雖然可以領(lǐng)先9554,但是要知道9554僅售9k多美元,還有64個核心
注:創(chuàng)作工作負(fù)載包括OSPRay、OSPRay Studio、C-Ray、Tachyon、POV-Ray、Blender、GraphicsMagick、Embree、oneDNN、OIDN、OpenVINO、ASTC Encoder
在高性能計算(HPC)中,8490H甚至無法戰(zhàn)勝9554,不過至少雙路8490H達(dá)到了雙路8380 2.27倍的性能,但是考慮到售價和能耗,相比EPYC 9004系列還是沒什么競爭力
注:HPC負(fù)載包括NPB、Rodinia、HPCG、MT-DGEMM、AMG、NAMD、GROMACS、LULESH、Pennant、Incompact3D、OpenFOAM、RELION、oneDNN、OpenVINO、LCzero、WRF、Graph500
在機(jī)器學(xué)習(xí)測試中,Xeon占有較大優(yōu)勢,8490H可以輕松達(dá)到8380三倍以上的性能,也可以輕松超過9654和9554,這可能是由AMX和AVX-512造成的
至于oneAPI,畢竟是自家軟件,取得優(yōu)秀成績也是意料之中
但是想代碼編譯或是3D渲染這樣的工作,對核心和內(nèi)存的要求更加緊迫,EPYC 9004系列憑借超多核心數(shù)和12通道內(nèi)存輕松取勝
在Python執(zhí)行性能方面,結(jié)果和其他常見的腳本語言測試性能類似
根據(jù)原作者發(fā)布這篇文章時已經(jīng)進(jìn)行過的100多個測試結(jié)果進(jìn)行幾何平均,雙路8490H總體上略微領(lǐng)先雙路9374F和雙路9554,可以達(dá)到上代8380性能的1.79-1.83倍,9654比8490H快大概16%,9554則快9%
至于功耗,8490H功耗明顯高于8380,也高于EPYC 9004系列的每一款處理器,單路時就能達(dá)到最高380瓦的功耗
總的來說,四代可拓展在人工智能方面優(yōu)勢較大,像oneDNN,DeepSparse和OpenVINO可以充分利用到SPR的新增功能,類似AMX,還有AI加速模塊;同時四代可拓展在運(yùn)行Open Image Denoise圖像降噪、OSPRay、GraphicsMagick、PHP、OpenJDK等方面也還算差強(qiáng)人意。但是涉及到HPC或渲染等工作負(fù)載時,四代可拓展的性能就會受到影響,這些工作負(fù)載可以很好的從超多線程數(shù)或是高速的內(nèi)存中獲益,雙路9654可是能達(dá)到384線程。另外在有些內(nèi)存密集型工作負(fù)載中四代可拓展的表現(xiàn)甚至不如7773X,但是這些任務(wù)也許更適合Max系列CPU
至于價格,8490H定價17000美元,而9654每一千顆批發(fā)價格僅11805美元,8490H的定價可以說是很高了,除非你的工作負(fù)載可以充分利用四代可拓展的各種新增特性如加速模塊或是AMX指令集,否則性價比不高,不過在這里原作者有句話我不太認(rèn)同,放在這里大家評價
考慮到每個9654使用12個DIMMs而不是8個DIMMs的成本,如果想要填充所有可用的內(nèi)存通道,仍然會比8940H的定價高。
不過如果完全不計成本,四代可拓展的計算密度還能略占優(yōu)勢,畢竟支持最高8路,單機(jī)性能可以靠純粹的砸錢戰(zhàn)勝9654,我記得超聚變已經(jīng)推出的FusionServer X6000 V7可以在2U的空間里塞進(jìn)8顆8490H,還是比較驚喜的
另外如果不需要用到加速器的話,Max系列或許是不錯的選擇,每顆Max9480擁有56個核心,和8490H相同的112.5MB緩存,同樣的350W TDP,8通道DDR5-4800,四個DSA加速器,雖然沒有QAT/DLB/IAA,但是9480還擁有64GB的HBM2e作為系統(tǒng)內(nèi)存,價格為12980美元,這或許在某些HPC負(fù)載中能取得超過8490H的性能,取得不錯的性價比
也可以把視線從8490H上挪開縱觀全局,四代可拓展還有些優(yōu)勢正如其名——拓展性;EPYC產(chǎn)品線簡潔清晰,但是著實(shí)細(xì)分性不強(qiáng),無法準(zhǔn)確匹配每一種需求。而Xeon系列更注重多CPU互聯(lián),采用UPI總線不占用PCIE,多路損耗也低于EPYC系列,例如需要超多PCIE插槽的時候,6416H就是不錯的選擇,雖然單路僅支持80條PCIE不及EPYC 9004系列的128條,但是雙路就能達(dá)到和EPYC一致的160條,甚至還可以四路達(dá)到320條,整機(jī)成本卻還能控制在可以接受的范圍內(nèi)(一顆6416H的建議零售價僅為1444美金)。總之如果對拓展性有較高要求,四代可拓展也算是一個不錯的選擇
個人來講對這代至強(qiáng)比較失望,性價比和能耗比奇差,除了AI負(fù)載幾乎就是沒眼看,印象中HPC一向是Intel的強(qiáng)項也完全敗給9654,再期待一波Max系列的表現(xiàn)。最后感謝各位的閱讀,碼字不易求點(diǎn)贊求點(diǎn)贊求點(diǎn)贊(錯亂