手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 科技 »數(shù)碼 » 主流分子動(dòng)力學(xué)程序在AMD、NVIDIA和Intel的消費(fèi)級(jí)GPU上的性能基準(zhǔn)測(cè)試

主流分子動(dòng)力學(xué)程序在AMD、NVIDIA和Intel的消費(fèi)級(jí)GPU上的性能基準(zhǔn)測(cè)試

2023-08-24 19:50 作者:ア熵增焓減ウ 0人讀過(guò) | 我要投稿

主流分子動(dòng)力學(xué)程序在AMD、NVIDIA和Intel的消費(fèi)級(jí)GPU上的性能基準(zhǔn)測(cè)試

——Switch to AMD【第1集】

[首發(fā)于計(jì)算化學(xué)公社：http://bbs.keinsci.com/thread-39266-1-1.html]

Aug-2023 by ア熵增焓減ウ

打擊黃狗，人人有責(zé)

0??前言

近兩年，全球有大量頂級(jí)超級(jí)計(jì)算機(jī)采用了AMD GPU作為異構(gòu)加速器，因此大量HPC應(yīng)用程序開(kāi)始了移植到ROCm軟件棧的進(jìn)程，并且其中很大一部分已經(jīng)具有很高的完成度和很好的性能，可以用于正式的科學(xué)研究。此外，也有一部分程序原生支持了intel GPU。鑒于此，筆者集齊了所有NVIDIA Ada Lovelace架構(gòu)桌面GPU、近4年所有的高端消費(fèi)級(jí)AMD GPU，以及intel當(dāng)前最高端的消費(fèi)級(jí)GPU (ARC A770)，進(jìn)行了一系列針對(duì)分子動(dòng)力學(xué)（MD）性能的基準(zhǔn)測(cè)試。

一些程序在很多年前就已通過(guò)OpenCL支持了不同廠商的GPU，但OpenCL效率低下，實(shí)際性能無(wú)法達(dá)到可用的水平，因此主流GPU廠商早已放棄了對(duì)OpenCL的維護(hù)。鑒于此，本次測(cè)試將采用更為高效和現(xiàn)代化的解決方案。

AMD Infinity Hub (https://www.amd.com/en/technologies/infinity-hub)列出了所有已經(jīng)兼容AMD GPU和ROCm軟件棧的HPC和AI應(yīng)用程序，但其中的介紹過(guò)于粗淺，若要了解如何在AMD GPU上運(yùn)行這些應(yīng)用程序，應(yīng)當(dāng)仔細(xì)閱讀相應(yīng)程序的官方文檔/手冊(cè)/Readme/Wiki。本次測(cè)試涉及4款分子動(dòng)力學(xué)應(yīng)用程序：GROMACS、Amber、OpenMM和LAMMPS。關(guān)于它們?nèi)绾卧贏MD GPU上運(yùn)行，可進(jìn)一步閱讀Switch to AMD的第2集。

關(guān)于對(duì)AMD GPU的適配，在這4款程序中，除GROMACS以外均直接走了HIP路線，即直接使用AMD提供的HIP編程模型實(shí)現(xiàn)與CUDA平臺(tái)相同的GPU加速功能，這樣的做法具有和CUDA一樣的缺點(diǎn)——一份代碼只適用于一家制造商的GPU。

GROMACS的路線則與其他程序不同。從2023版開(kāi)始，GROMACS可以使用一種新型異構(gòu)編程模型——SYCL——來(lái)實(shí)現(xiàn)不同種類、不同制造商的計(jì)算硬件之間的靈活遷移，而無(wú)需更改源代碼。通過(guò)SYCL后端，GROMACS 2023如今可以在任何已有可用的SYCL編程接口的計(jì)算硬件上實(shí)現(xiàn)所有CUDA支持的加速功能，而在用戶應(yīng)用層面上與CUDA版本完全沒(méi)有區(qū)別。因此，先前基于NVIDIA GPU的大部分GROMACS使用經(jīng)驗(yàn)和模板都可直接套用在這些不同的硬件上?！耙延锌捎玫腟YCL編程接口的計(jì)算硬件”包括一切LLVM支持的CPU、AMD GPU、intel GPU、NVIDIA GPU、海光DCU等。值得一提的是，摩爾線程GPU未來(lái)也將通過(guò)MUSA Toolkit的更新來(lái)支持SYCL。

此外，雖然最新版的Kokkos（LAMMPS的GPU加速模塊）已經(jīng)初步支持了SYCL后端，可以通過(guò)intel oneAPI DPC++編譯兼容intel GPU的Kokkos，但intel ARC A770沒(méi)有雙精度計(jì)算能力，因此，本次測(cè)試并不會(huì)涉及ARC A770的LAMMPS Kokkos性能。

最后，本文不會(huì)提供關(guān)于全文的結(jié)論，讀者應(yīng)當(dāng)仔細(xì)閱讀文章的每一部分，乃至每一句話，然后各取所需。

1? 測(cè)試方法

硬件：

操作系統(tǒng)：

Ubuntu 22.04.3 LTS, Linux 6.2.0-26-generic x86_64, GNU 11.4.0

GPU驅(qū)動(dòng)和工具鏈：

For AMD: AMD GPU driver version 6.1.5.50600-1609671, ROCm 5.4.6~5.6.0;

For NVIDIA: NVIDIA GPU driver 535.86.05, CUDA Toolkit 11.8;

For Intel: Intel GPU driver i915 release 4/21/2023, xpu-smi, Intel oneAPI Toolkits 2023.2 (Base Toolkit + HPC Toolkit)

應(yīng)用程序：

GROMACS 2023.2 – OpenSYCL develop 25Jul2023 (AMD GPUs) / v0.9.4 (NVIDIA GPUs) - SYCL-based oneAPI DPC++ 2023.2 (intel GPU)
Amber 22 - AmberTools 22 (AMD GPUs) / 23 (NVIDIA GPUs) – Amber 22 HIP Patch 3Jan2023 (AMD GPUs)
OpenMM 8.0.0 – OpenMM HIP Plugin 8Mar2023 (AMD GPUs)
LAMMPS 2Aug2023 – Kokkos v. 4.1.0 (AMD GPUs) / LAMMPS bundled (NVIDIA GPUs)

4款應(yīng)用程序均從源碼編譯，啟用針對(duì)GPU架構(gòu)的優(yōu)化。需注意，對(duì)于NVIDIA GPU的GROMACS測(cè)試，不僅編譯了CUDA版本，也編譯了OpenSYCL + CUDA Runtime的版本。

基準(zhǔn)測(cè)試數(shù)據(jù)集：

GROMACS、Amber、LAMMPS的數(shù)據(jù)集基本上與去年10月的測(cè)試相同。在GROMACS和Amber中包含了一些筆者個(gè)人的數(shù)據(jù)集（A、A-2、B和B-TI），詳見(jiàn)去年10月文章。在Amber數(shù)據(jù)集中新增了用來(lái)與OpenMM進(jìn)行公平對(duì)比的模型，但本文不會(huì)討論這部分內(nèi)容。修改了LAMMPS數(shù)據(jù)集的模型規(guī)模：在LAMMPS官方原版的基礎(chǔ)上，向3個(gè)空間維度replicate，使VRAM消耗量達(dá)到50%以上，以匹配NVIDIA網(wǎng)站上的測(cè)試結(jié)果。此外，對(duì)于OpenMM，使用來(lái)自官方軟件包捆綁的基準(zhǔn)測(cè)試數(shù)據(jù)集。本此測(cè)試所使用的數(shù)據(jù)集（包含運(yùn)行測(cè)試所用的腳本）可通過(guò)下方鏈接下載。Aliyun Drive（EXE格式的自解壓文件，雙擊以解壓）: https://www.aliyundrive.com/s/5L35M77DCzA；提取碼：8si3。Google Drive: https://drive.google.com/drive/folders/1pKfgHuk3eb0VZ-txbv03TMPCB8tFR_J-

2? 結(jié)果與討論

2.1??GROMACS原生CUDA版和SYCL+CUDA版在NVIDIA GPU上的效率對(duì)比

相較于CUDA原生版本，SYCL+CUDA版本普遍存在12-17%的性能損失，且對(duì)于較小的體系，性能損失更嚴(yán)重。有趣的是，對(duì)于benchPEP-h這樣的超大體系，SYCL+CUDA版本有令人難以置信的加速效果。通過(guò)性能-核數(shù)曲線可以看出，SYCL后端會(huì)產(chǎn)生一些額外的開(kāi)銷，導(dǎo)致GROMACS在bonded CPU的情況下耗盡最后一個(gè)CPU核心后性能大幅下降。

2.2??性能排行

排序依據(jù)：對(duì)于GROMACS、Amber和OpenMM，選擇足以“榨干”GPU的STMV體系，使用原版參數(shù)，不做任何修改；對(duì)于LAMMPS，使用修改后的ReaxFF/C體系。

2.2.1 GROMACS 2023.2

此處所使用的數(shù)據(jù)是掃描不同核數(shù)以及不同bonded選項(xiàng)所得的最大值。AMD GPU和intel GPU在GROMACS中的性能表現(xiàn)與其理論性能相去甚遠(yuǎn)，這或許可以被解釋為當(dāng)前SYCL后端的效率仍然不足。

2.2.2 Amber 22

AMD GPU的表現(xiàn)基本符合預(yù)期，在STMV體系中RX 7900 XTX比RX 6900 XT快了41%，達(dá)到了RTX 4090的70%。Radeon Ⅶ令人印象深刻：在STMV體系中達(dá)到了RTX 4070的92%。

2.2.3 OpenMM 8.0.0

AMD GPU在STMV體系上的表現(xiàn)非常好：7900XTX可以達(dá)到RTX4090的86%的性能；6900XT可以達(dá)到RTX4080的90%的性能；而Radeon Ⅶ幾乎打平了RTX 3080Ti / 3090，這非常令人驚奇。

本次測(cè)試的部分?jǐn)?shù)據(jù)近期或?qū)⒏略贠penMM官網(wǎng)。值得一提的是，其他用戶也對(duì)OpenMM-HIP的性能做了許多測(cè)試，包括使用最新推出的Windows HIP SDK在Windows下運(yùn)行。該用戶使用了Sapphire Nitro+（藍(lán)寶石超白金），具有比筆者的MSI GAMING TRIO CLASSIC（微星魔龍）高得多的TGP和boost頻率，因此在STMV體系中獲得了53.5723 ns/day的性能，是RTX 4090的90%以上。

2.2.4 LAMMPS 2Aug2023 – Kokkos

AMD Radeon Ⅶ憑借3.36 TFLOPS的峰值FP64性能，使ReaxFF模擬的性能超越了RTX 4080、RX 7900 XTX和RX 6900 XT，達(dá)到了RTX 4090的78%。進(jìn)一步與NVIDIA官方的數(shù)據(jù)對(duì)照，Radeon Ⅶ具有V100 SXM的35%的性能。RX 7900 XTX的峰值FP64性能高于RX 6900 XT，但ReaxFF模擬的性能卻相反，這令人意外。

2.3??數(shù)據(jù)總表

總的來(lái)說(shuō)，相較于NVIDIA GPU，AMD GPU對(duì)于較大的體系具有很好的性能，但對(duì)于較小的體系表現(xiàn)不佳。

3? 額外的補(bǔ)充說(shuō)明

對(duì)SYCL的全面支持是GROMACS 2023最重要的升級(jí)，遺憾的是目前廣大用戶對(duì)此還沒(méi)有明顯反響。根據(jù)經(jīng)驗(yàn)，到今年底或明年初時(shí)GROMACS 2023將進(jìn)入patch更新的中后期，屆時(shí)使用AMD和intel GPU搭配GROMACS 2023將可用于生產(chǎn)模擬，正好屆時(shí)AMD ROCm軟件棧也將正式支持RDNA 3 GPU。

文章只展示了本次測(cè)試獲得的不到5%的數(shù)據(jù)，因此討論是高度概括性的。實(shí)際上，有大量更加詳細(xì)的對(duì)照實(shí)驗(yàn)，限于篇幅和數(shù)據(jù)處理的工作量，沒(méi)有發(fā)布。例如不同軟件版本、編譯器版本、驅(qū)動(dòng)版本、浮點(diǎn)精度、FFT后端等。關(guān)于這些詳細(xì)的對(duì)比，諸位可以隨意提問(wèn)，筆者會(huì)視情況提供相應(yīng)的數(shù)據(jù)。

本文中不同應(yīng)用程序中名稱相似的體系并不代表其具有相同的參數(shù)，因此無(wú)法用于公平對(duì)比不同應(yīng)用程序的效率。在去年10月的文章中，就曾對(duì)比過(guò)這種效率，當(dāng)時(shí)的結(jié)論是：在硬件搭配和GROMACS MDRUN并行參數(shù)設(shè)置合適的前提下，GROMACS效率明顯高于其他軟件。本次測(cè)試加入了OpenMM，但真正可用于公平對(duì)比的數(shù)據(jù)未在文章中展示（雖然它們都在），此處僅補(bǔ)充一個(gè)簡(jiǎn)要結(jié)論：OpenMM 8.0.0對(duì)于較小的體系效率更高，最大~60%（DHFR）；Amber22對(duì)于較大的體系的效率更高，最大~10%（STMV）。該結(jié)論是基于參數(shù)相同的模擬得出的，需要考慮的關(guān)鍵參數(shù)是力場(chǎng)、cutoff、步長(zhǎng)、熱浴和壓浴。

關(guān)于硬件的多樣性，目前AMD、NVIDIA和intel的消費(fèi)級(jí)GPU都已經(jīng)有充足的基準(zhǔn)測(cè)試，NVIDIA的“RTX Pro”GPU和數(shù)據(jù)中心GPU也有一些基準(zhǔn)測(cè)試（包括NVIDIA官方提供的數(shù)據(jù)，以及筆者幾個(gè)月前測(cè)試的H100 PCIe、A100 PCIe和V100 PCIe的數(shù)據(jù)），而AMD Instinct MI系列和intel Data Center GPU MAX系列的基準(zhǔn)測(cè)試仍然缺乏，因此，歡迎有條件的網(wǎng)友在這些方面做貢獻(xiàn)。

標(biāo)簽：分子動(dòng)力學(xué)高性能計(jì)算 GROMACS LAMMPS GPU AMD 硬件評(píng)測(cè)科學(xué)計(jì)算計(jì)算化學(xué)GPU加速