2023年3月MD benchmark測試中篇——新平臺首發(fā)測試(量化亂入)

[本文首發(fā)于計算化學(xué)公社(http://bbs.keinsci.com/thread-35986-1-1.html) | 文 熵增焓減 | yult-entropy@qq.com | 2023-03]
0 寫在前面
近期intel W790平臺的系列產(chǎn)品即將或已經(jīng)上市,筆者對其中2個具有代表性的型號進行了性能測試,分別是intel Xeon w7-2495X和intel Xeon w9-3495X。
本文MD測試部分只包括GROMACS 2023,其中所用模型與此系列首篇完全一致;另增加了Gaussian 16 Rev. C.02 AVX2和ORCA 5.0.4這2個量子化學(xué)程序的測試,具體信息在后文介紹。
1?測試平臺
硬件:

W790平臺CPU超頻參數(shù)(Ai Tweaker):ASUS MultiCore Enhancement [Enabled - Remove limits],CPU Core Ratio [By Core Usage],DIGI+ VRM > CPU Load-line Calibration [Level 7],Internal CPU Power Management > Maximum CPU core Temperature [105]。3495X核心電壓Auto,2495X所有核心電壓offset調(diào)為+0.15V。
需要注意的是,GPU加速GMX時CPU浮點計算壓力較低,功耗不高,超頻調(diào)試思路與CPU密集型應(yīng)用有巨大差別,后者一般不能給太高的核心電壓,甚至需要降壓超頻,而前者應(yīng)當(dāng)保證核心電壓足夠高,用降壓超頻的思路反而不穩(wěn)定。
CPU散熱器采用ABEE SPR360,該散熱器能將920W的3495X和650W的2495X的核心溫度控制在100℃以內(nèi)。
軟件環(huán)境:Ubuntu 22.04.2 LTS Desktop; Linux version 5.19.0-35-generic x86_64; GNU 11.3; CUDA Toolkit 12.1; NVIDIA GPU Driver 530.30.02
若使用Sync All Cores方式超頻3495X,在Linux下有不能解釋的bug:空載功耗360W,運行低負載任務(wù)(如解壓壓縮包、測試核間延遲、使用較少核心運行GPU加速GMX等)性能異常地弱,大約只有正常的十分之一,但檢查所用到的CPU核心頻率是正常的;滿載性能趨向正常,例如運行mlc(intel的內(nèi)存帶寬/延遲測試工具),讓CPU接近滿載,此時運行其他低負載的任務(wù)性能就基本恢復(fù)正常了。
2?新平臺搭配RTX4090加速GROMACS的性能
對于核數(shù)如此多的CPU,考察GMX比考察其他純GPU方案的MD程序更有意義。圖1展示了相關(guān)測試結(jié)果。其中3495X只展示了前32核的數(shù)據(jù),一方面由于需要給其他核數(shù)較少的CPU留出空間以便于閱讀,另一方面由于32核后曲線接近水平,展示價值不大。若要了解詳細數(shù)據(jù)(包括3495X完整數(shù)據(jù)),可下載SI閱讀。需要注意的是,對于支持超線程的CPU核心,1核的含義是用完2個邏輯核心。
去年10月文章中提到,CPU核心間延遲對GPU加速GMX的性能有負面影響,因此本輪測試最先做的就是核間延遲測試。2495X和3495X的核間延遲測試結(jié)果此前已公開在BB空間和GitHub上。

從圖中首先可以看出,同樣模式中,在前8核時,2495X和3495X相較于7950X和13900KF仍有可觀測的差距,而8核之后2495X和3495X全“大核”且核間延遲均勻的優(yōu)勢就有明顯體現(xiàn),逐漸接近并反超7950X和13900KF。
對于7950X和13900KF,多數(shù)情況下超過8核性能提升就不明顯了;而對于2495X和3495X,多數(shù)情況下12核之后性能提升也不明顯。其中GPU-resident模式(bonded GPU)到達平臺區(qū)更早。顯然,對于2495X和3495X這樣極為昂貴、擴展性極強的CPU來說,最合適的做法是1顆CPU配合多塊RTX4090,每塊RTX4090分配8~12核;而對于7950X和13900KF,若要追求極致性價比,也可搭配2塊RTX4090,若預(yù)算很少,還可用8核的7700X搭配1塊RTX4090。關(guān)于具體的硬件搭配,在此系列文章的最終章會有詳細討論。另外,實際使用時也要注意最好給CPU留出至少1個邏輯核心用于處理系統(tǒng)進程和驅(qū)動開銷,但如果是類似于2495X配3塊4090這樣可以剛好把所有CPU資源平均分配完,同時又需要用腳本批量、連續(xù)運行MD模擬+數(shù)據(jù)分析的情況,也可自行考慮是否留出1個邏輯核心(如果只讓其中一個任務(wù)留出1個邏輯核心,可能需要寫至少2,操作起來比較復(fù)雜),比較好的做法是每個任務(wù)都留出1個邏輯核心,這樣每個任務(wù)速度基本相同,操作也不需要增加額外的復(fù)雜度。
在benchPEP-h模型的曲線中普遍出現(xiàn)了令人難以理解的跳躍,多次測試結(jié)果都是如此,且去年10月測試中benchPEP-h模型的曲線也有類似的情況,此現(xiàn)象有待詳細解釋。
3?特別篇:w9-3495X的Gaussian和ORCA性能
由于Gaussian和ORCA對CPU壓力較大,故對3495X使用降壓超頻,將所有核心電壓offset調(diào)為-0.1V,全核頻率降為4.5GHz。
本節(jié)測試使用了武漢大學(xué)鐘成老師開發(fā)的xbench3測試腳本,同時也參考了計算化學(xué)公社上已有測試所用的關(guān)鍵詞。測試所用的體系是最經(jīng)典的Gaussian Test0397,沒有測試多個任務(wù)的性能,因為3495X主要優(yōu)勢就在于能夠以更少的物理核心數(shù)達到與服務(wù)器CPU相似的理論多核性能,只測試優(yōu)勢項目就夠了。

圖2用雙路EPYC 7T83、雙路EPYC 9554和雙路Xeon 8375C作為對比,在“b3lyp 3-21g force scf=novaracc”關(guān)鍵詞下,w9-3495X大幅領(lǐng)先于EPYC 7T83和雙路Xeon 8375C,略強于雙路EPYC 7T83,但弱于單路EPYC 9554。
至于更進一步的測試,由于和其他CPU的對比都是從網(wǎng)絡(luò)上拼湊出來的(來源:http://bbs.keinsci.com/thread-34590-1-1.html,http://bbs.keinsci.com/thread-28607-1-1.html,http://bbs.keinsci.com/thread-29384-1-1.html,http://bbs.keinsci.com/thread-32755-1-1.html),故數(shù)據(jù)不是很全,難以制圖,只能以表格的形式公布。

從表2中可以發(fā)現(xiàn),3495X在耗時較長的任務(wù)(即所謂的“大任務(wù)”)下可以擊敗單路EPYC 9554,但在“小任務(wù)”下仍不如單路EPYC 9554。在表3的ORCA測試結(jié)果中,3495X完全領(lǐng)先于雙路EPYC 7T83和雙路Xeon 8375C。此外,不論Gaussian還是ORCA,3495X在任何時候都領(lǐng)先于EPYC 7T83和雙路Xeon 8375C,在絕大多數(shù)情況下領(lǐng)先于雙路EPYC 7T83。
上述情況是非常、非常令人意外的,因為EPYC 9554的理論多核性能比全核心4.5GHz的w9-3495X弱,理論上來說前者運行Gaussian和ORCA的性能不應(yīng)該比后者強。目前只能找到1個明確的原因從一定程度上解釋此狀況,但不能完全解釋。3495X在跑較小的任務(wù)時單輪SCF計算很快,而在切換到下一輪時有一個CPU負載較低的階段,于是CPU在高負載和低負載之間快速反復(fù)切換,相應(yīng)地,CPU頻率也在高低之間快速反復(fù)切換,低負載時CPU頻率只有2.9GHz甚至1.9GHz(即base clock),且從低頻切換到高頻的反應(yīng)比較遲鈍,頻率boost機制不能很好地發(fā)揮,影響了性能,這可能由于BIOS沒有優(yōu)化到位(類似的問題在默認BIOS設(shè)定下測試CPU核間延遲時也存在,筆者在GitHub上和網(wǎng)友提到過此事)。另一個可能的原因是w9-3495X的RAM只有8通道DDR5 4800MT/s,與AMD EPYC 9004系列的12通道DDR5 4800MT/s相差極大,故w9-3495X超頻至全核心4.5GHz后的高頻優(yōu)勢被EPYC 9004系列的內(nèi)存帶寬優(yōu)勢扳回。
總之,由于w9-3495X超頻后全核頻率達到4.5GHz,能夠以更少的物理核心數(shù)達到與雙路EPYC 7T83/7763相同的理論多核性能,減弱了高并行度下的邊際效應(yīng),故w9-3495X在Gaussian和ORCA戰(zhàn)勝了雙路EPYC 7T83;但又由于各方面的、已確認或還未確認的原因,w9-3495X似乎不能超過單路EPYC 9554。需要注意的是,互聯(lián)網(wǎng)上關(guān)于EPYC 9554的測試沒有給出詳細的關(guān)鍵詞(例如是否加了“scf=novaracc”,這非常重要),結(jié)合目前令人意外的對比結(jié)果,關(guān)于w9-3495X不如EPYC 9554的結(jié)論有待進一步確認。
4 圖一樂:w9-3495X的R23分數(shù)
用的是測Gaussian和ORCA時的超頻設(shè)置,R23分數(shù)108016pts,只跑了2min,若用默認的10min設(shè)置,由于偶爾觸及功耗上限和溫度上限導(dǎo)致部分核心偶爾降頻,最終分數(shù)會更低一些。
至于其他大眾關(guān)心的測試項目,@普普通通Tony大叔已于昨晚發(fā)布了相關(guān)內(nèi)容,可前往觀看。

5?硬件前瞻
2024世代的CPU(intel Redwood+ Cove / Lion Cove和AMD Zen5)的IPC提升很可能比較大,這對GPU加速來說是個好消息,值得期待。具體地說,今年下半年發(fā)布的P-Core微內(nèi)核架構(gòu)為Redwood Cove (intel 4)的Meteor Lake由于頻率和核心數(shù)雙雙退步,故其實際性能并不值得期待(至今不能確定這一代是否有桌面版,看起來極有可能是沒了),但可以期待2024年發(fā)布的基于Redwood+ Cove (intel 3)微內(nèi)核架構(gòu)的Granite Rapids-SP和基于Lion Cove微內(nèi)核架構(gòu)的Arrow Lake-S;而AMD Zen5目前只能根據(jù)極為有限的信息源了解到IPC有較大提升。
SI
經(jīng)簡單整理的測試結(jié)果原始數(shù)據(jù)(MD_benchmark_data_Mar2023_Pub2.xlsx)。文件下載地址:https://www.aliyundrive.com/s/SizpbDitRtM,提取碼:n2k7