最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

主流分子動(dòng)力學(xué)程序在AMD、NVIDIA和Intel的消費(fèi)級(jí)GPU上的性能基準(zhǔn)測(cè)試

2023-08-24 19:50 作者:ア熵增焓減ウ  | 我要投稿

主流分子動(dòng)力學(xué)程序在AMD、NVIDIA和Intel的消費(fèi)級(jí)GPU上的性能基準(zhǔn)測(cè)試

——Switch to AMD【第1集】

[首發(fā)于計(jì)算化學(xué)公社:http://bbs.keinsci.com/thread-39266-1-1.html]

Aug-2023 by ア熵增焓減ウ

打擊黃狗,人人有責(zé)

0??前言

近兩年,全球有大量頂級(jí)超級(jí)計(jì)算機(jī)采用了AMD GPU作為異構(gòu)加速器,因此大量HPC應(yīng)用程序開(kāi)始了移植到ROCm軟件棧的進(jìn)程,并且其中很大一部分已經(jīng)具有很高的完成度和很好的性能,可以用于正式的科學(xué)研究。此外,也有一部分程序原生支持了intel GPU。鑒于此,筆者集齊了所有NVIDIA Ada Lovelace架構(gòu)桌面GPU、近4年所有的高端消費(fèi)級(jí)AMD GPU,以及intel當(dāng)前最高端的消費(fèi)級(jí)GPU (ARC A770),進(jìn)行了一系列針對(duì)分子動(dòng)力學(xué)(MD)性能的基準(zhǔn)測(cè)試。

一些程序在很多年前就已通過(guò)OpenCL支持了不同廠商的GPU,但OpenCL效率低下,實(shí)際性能無(wú)法達(dá)到可用的水平,因此主流GPU廠商早已放棄了對(duì)OpenCL的維護(hù)。鑒于此,本次測(cè)試將采用更為高效和現(xiàn)代化的解決方案。

AMD Infinity Hub (https://www.amd.com/en/technologies/infinity-hub)列出了所有已經(jīng)兼容AMD GPU和ROCm軟件棧的HPC和AI應(yīng)用程序,但其中的介紹過(guò)于粗淺,若要了解如何在AMD GPU上運(yùn)行這些應(yīng)用程序,應(yīng)當(dāng)仔細(xì)閱讀相應(yīng)程序的官方文檔/手冊(cè)/Readme/Wiki。本次測(cè)試涉及4款分子動(dòng)力學(xué)應(yīng)用程序:GROMACS、Amber、OpenMM和LAMMPS。關(guān)于它們?nèi)绾卧贏MD GPU上運(yùn)行,可進(jìn)一步閱讀Switch to AMD的第2集。

關(guān)于對(duì)AMD GPU的適配,在這4款程序中,除GROMACS以外均直接走了HIP路線,即直接使用AMD提供的HIP編程模型實(shí)現(xiàn)與CUDA平臺(tái)相同的GPU加速功能,這樣的做法具有和CUDA一樣的缺點(diǎn)——一份代碼只適用于一家制造商的GPU。

GROMACS的路線則與其他程序不同。從2023版開(kāi)始,GROMACS可以使用一種新型異構(gòu)編程模型——SYCL——來(lái)實(shí)現(xiàn)不同種類、不同制造商的計(jì)算硬件之間的靈活遷移,而無(wú)需更改源代碼。通過(guò)SYCL后端,GROMACS 2023如今可以在任何已有可用的SYCL編程接口的計(jì)算硬件上實(shí)現(xiàn)所有CUDA支持的加速功能,而在用戶應(yīng)用層面上與CUDA版本完全沒(méi)有區(qū)別。因此,先前基于NVIDIA GPU的大部分GROMACS使用經(jīng)驗(yàn)和模板都可直接套用在這些不同的硬件上?!耙延锌捎玫腟YCL編程接口的計(jì)算硬件”包括一切LLVM支持的CPU、AMD GPU、intel GPU、NVIDIA GPU、海光DCU等。值得一提的是,摩爾線程GPU未來(lái)也將通過(guò)MUSA Toolkit的更新來(lái)支持SYCL。

此外,雖然最新版的Kokkos(LAMMPS的GPU加速模塊)已經(jīng)初步支持了SYCL后端,可以通過(guò)intel oneAPI DPC++編譯兼容intel GPU的Kokkos,但intel ARC A770沒(méi)有雙精度計(jì)算能力,因此,本次測(cè)試并不會(huì)涉及ARC A770的LAMMPS Kokkos性能。

最后,本文不會(huì)提供關(guān)于全文的結(jié)論,讀者應(yīng)當(dāng)仔細(xì)閱讀文章的每一部分,乃至每一句話,然后各取所需。

1? 測(cè)試方法

硬件

操作系統(tǒng):

Ubuntu 22.04.3 LTS, Linux 6.2.0-26-generic x86_64, GNU 11.4.0

GPU驅(qū)動(dòng)和工具鏈:

For AMD: AMD GPU driver version 6.1.5.50600-1609671, ROCm 5.4.6~5.6.0;

For NVIDIA: NVIDIA GPU driver 535.86.05, CUDA Toolkit 11.8;

For Intel: Intel GPU driver i915 release 4/21/2023, xpu-smi, Intel oneAPI Toolkits 2023.2 (Base Toolkit + HPC Toolkit)

應(yīng)用程序:

  • GROMACS 2023.2 – OpenSYCL develop 25Jul2023 (AMD GPUs) / v0.9.4 (NVIDIA GPUs) - SYCL-based oneAPI DPC++ 2023.2 (intel GPU)

  • Amber 22 - AmberTools 22 (AMD GPUs) / 23 (NVIDIA GPUs) – Amber 22 HIP Patch 3Jan2023 (AMD GPUs)

  • OpenMM 8.0.0 – OpenMM HIP Plugin 8Mar2023 (AMD GPUs)

  • LAMMPS 2Aug2023 – Kokkos v. 4.1.0 (AMD GPUs) / LAMMPS bundled (NVIDIA GPUs)

4款應(yīng)用程序均從源碼編譯,啟用針對(duì)GPU架構(gòu)的優(yōu)化。需注意,對(duì)于NVIDIA GPU的GROMACS測(cè)試,不僅編譯了CUDA版本,也編譯了OpenSYCL + CUDA Runtime的版本。

基準(zhǔn)測(cè)試數(shù)據(jù)集:

GROMACS、Amber、LAMMPS的數(shù)據(jù)集基本上與去年10月的測(cè)試相同。在GROMACS和Amber中包含了一些筆者個(gè)人的數(shù)據(jù)集(A、A-2、B和B-TI),詳見(jiàn)去年10月文章。在Amber數(shù)據(jù)集中新增了用來(lái)與OpenMM進(jìn)行公平對(duì)比的模型,但本文不會(huì)討論這部分內(nèi)容。修改了LAMMPS數(shù)據(jù)集的模型規(guī)模:在LAMMPS官方原版的基礎(chǔ)上,向3個(gè)空間維度replicate,使VRAM消耗量達(dá)到50%以上,以匹配NVIDIA網(wǎng)站上的測(cè)試結(jié)果。此外,對(duì)于OpenMM,使用來(lái)自官方軟件包捆綁的基準(zhǔn)測(cè)試數(shù)據(jù)集。本此測(cè)試所使用的數(shù)據(jù)集(包含運(yùn)行測(cè)試所用的腳本)可通過(guò)下方鏈接下載。Aliyun Drive(EXE格式的自解壓文件,雙擊以解壓): https://www.aliyundrive.com/s/5L35M77DCzA;提取碼:8si3。Google Drive: https://drive.google.com/drive/folders/1pKfgHuk3eb0VZ-txbv03TMPCB8tFR_J-

2? 結(jié)果與討論

2.1??GROMACS原生CUDA版和SYCL+CUDA版在NVIDIA GPU上的效率對(duì)比

相較于CUDA原生版本,SYCL+CUDA版本普遍存在12-17%的性能損失,且對(duì)于較小的體系,性能損失更嚴(yán)重。有趣的是,對(duì)于benchPEP-h這樣的超大體系,SYCL+CUDA版本有令人難以置信的加速效果。通過(guò)性能-核數(shù)曲線可以看出,SYCL后端會(huì)產(chǎn)生一些額外的開(kāi)銷,導(dǎo)致GROMACS在bonded CPU的情況下耗盡最后一個(gè)CPU核心后性能大幅下降。

2.2??性能排行

排序依據(jù):對(duì)于GROMACS、Amber和OpenMM,選擇足以“榨干”GPU的STMV體系,使用原版參數(shù),不做任何修改;對(duì)于LAMMPS,使用修改后的ReaxFF/C體系。

2.2.1 GROMACS 2023.2

此處所使用的數(shù)據(jù)是掃描不同核數(shù)以及不同bonded選項(xiàng)所得的最大值。AMD GPU和intel GPU在GROMACS中的性能表現(xiàn)與其理論性能相去甚遠(yuǎn),這或許可以被解釋為當(dāng)前SYCL后端的效率仍然不足。

2.2.2 Amber 22

AMD GPU的表現(xiàn)基本符合預(yù)期,在STMV體系中RX 7900 XTX比RX 6900 XT快了41%,達(dá)到了RTX 4090的70%。Radeon Ⅶ令人印象深刻:在STMV體系中達(dá)到了RTX 4070的92%。

2.2.3 OpenMM 8.0.0

AMD GPU在STMV體系上的表現(xiàn)非常好:7900XTX可以達(dá)到RTX4090的86%的性能;6900XT可以達(dá)到RTX4080的90%的性能;而Radeon Ⅶ幾乎打平了RTX 3080Ti / 3090,這非常令人驚奇。

本次測(cè)試的部分?jǐn)?shù)據(jù)近期或?qū)⒏略贠penMM官網(wǎng)。值得一提的是,其他用戶也對(duì)OpenMM-HIP的性能做了許多測(cè)試,包括使用最新推出的Windows HIP SDK在Windows下運(yùn)行。該用戶使用了Sapphire Nitro+(藍(lán)寶石超白金),具有比筆者的MSI GAMING TRIO CLASSIC(微星魔龍)高得多的TGP和boost頻率,因此在STMV體系中獲得了53.5723 ns/day的性能,是RTX 4090的90%以上。

2.2.4 LAMMPS 2Aug2023 – Kokkos

AMD Radeon Ⅶ憑借3.36 TFLOPS的峰值FP64性能,使ReaxFF模擬的性能超越了RTX 4080、RX 7900 XTX和RX 6900 XT,達(dá)到了RTX 4090的78%。進(jìn)一步與NVIDIA官方的數(shù)據(jù)對(duì)照,Radeon Ⅶ具有V100 SXM的35%的性能。RX 7900 XTX的峰值FP64性能高于RX 6900 XT,但ReaxFF模擬的性能卻相反,這令人意外。

2.3??數(shù)據(jù)總表

總的來(lái)說(shuō),相較于NVIDIA GPU,AMD GPU對(duì)于較大的體系具有很好的性能,但對(duì)于較小的體系表現(xiàn)不佳。

3? 額外的補(bǔ)充說(shuō)明

對(duì)SYCL的全面支持是GROMACS 2023最重要的升級(jí),遺憾的是目前廣大用戶對(duì)此還沒(méi)有明顯反響。根據(jù)經(jīng)驗(yàn),到今年底或明年初時(shí)GROMACS 2023將進(jìn)入patch更新的中后期,屆時(shí)使用AMD和intel GPU搭配GROMACS 2023將可用于生產(chǎn)模擬,正好屆時(shí)AMD ROCm軟件棧也將正式支持RDNA 3 GPU。

文章只展示了本次測(cè)試獲得的不到5%的數(shù)據(jù),因此討論是高度概括性的。實(shí)際上,有大量更加詳細(xì)的對(duì)照實(shí)驗(yàn),限于篇幅和數(shù)據(jù)處理的工作量,沒(méi)有發(fā)布。例如不同軟件版本、編譯器版本、驅(qū)動(dòng)版本、浮點(diǎn)精度、FFT后端等。關(guān)于這些詳細(xì)的對(duì)比,諸位可以隨意提問(wèn),筆者會(huì)視情況提供相應(yīng)的數(shù)據(jù)。

本文中不同應(yīng)用程序中名稱相似的體系并不代表其具有相同的參數(shù),因此無(wú)法用于公平對(duì)比不同應(yīng)用程序的效率。在去年10月的文章中,就曾對(duì)比過(guò)這種效率,當(dāng)時(shí)的結(jié)論是:在硬件搭配和GROMACS MDRUN并行參數(shù)設(shè)置合適的前提下,GROMACS效率明顯高于其他軟件。本次測(cè)試加入了OpenMM,但真正可用于公平對(duì)比的數(shù)據(jù)未在文章中展示(雖然它們都在),此處僅補(bǔ)充一個(gè)簡(jiǎn)要結(jié)論:OpenMM 8.0.0對(duì)于較小的體系效率更高,最大~60%(DHFR);Amber22對(duì)于較大的體系的效率更高,最大~10%(STMV)。該結(jié)論是基于參數(shù)相同的模擬得出的,需要考慮的關(guān)鍵參數(shù)是力場(chǎng)、cutoff、步長(zhǎng)、熱浴和壓浴。

關(guān)于硬件的多樣性,目前AMD、NVIDIA和intel的消費(fèi)級(jí)GPU都已經(jīng)有充足的基準(zhǔn)測(cè)試,NVIDIA的“RTX Pro”GPU和數(shù)據(jù)中心GPU也有一些基準(zhǔn)測(cè)試(包括NVIDIA官方提供的數(shù)據(jù),以及筆者幾個(gè)月前測(cè)試的H100 PCIe、A100 PCIe和V100 PCIe的數(shù)據(jù)),而AMD Instinct MI系列和intel Data Center GPU MAX系列的基準(zhǔn)測(cè)試仍然缺乏,因此,歡迎有條件的網(wǎng)友在這些方面做貢獻(xiàn)。


主流分子動(dòng)力學(xué)程序在AMD、NVIDIA和Intel的消費(fèi)級(jí)GPU上的性能基準(zhǔn)測(cè)試的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
北宁市| 双柏县| 遂宁市| 太谷县| 北辰区| 嘉祥县| 德州市| 航空| 烟台市| 营口市| 运城市| 乌兰浩特市| 安溪县| 白银市| 湘乡市| 广河县| 中卫市| 岑溪市| 阿拉善右旗| 深圳市| 富裕县| 师宗县| 拜城县| 平远县| 手游| 黔南| 纳雍县| 德安县| 论坛| 乌拉特后旗| 讷河市| 铜川市| 崇左市| 林周县| 泸溪县| 屯留县| 阜新市| 长白| 巴彦淖尔市| 惠安县| 岑溪市|