全球首臺200億億次超算安裝完成:擁有21248個CPU和63744個GPU!

當?shù)貢r間6月22日,英特爾(Intel)官方宣布,美國能源部阿拉貢國家實驗室已經(jīng)完成基于英特爾CPU及GPU的新一代超算“Aurora”的安裝工作,今年晚些時候上線后將提供超過2 exaflops(2百億億次計算每秒)的FP64浮點性能,將超越隸屬于美國能源部橡樹嶺國家實驗室的“Frontier”,有望成為全球第一臺理論峰值性能超過2 exaflops的超級計算機。
據(jù)介紹,Aurora 超級計算機由英特爾、惠普企業(yè) (HPE) 和美國能源部 (DOE) 合作,旨在大規(guī)模釋放高性能計算 (HPC) 三大支柱的潛力:模擬、數(shù)據(jù)分析和人工智能 (AI)。該系統(tǒng)配備了所有 10624 個刀片服務器,每個刀片由兩個英特爾Xeon Max 系列 CPU(至強Max 9480) 和六個英特爾 Max 系列 GPU 組成,使得Aurora 超級計算機總共擁有 63744 個英特爾數(shù)據(jù)中心 Max 系列 GPU 和21248 個英特爾Xeon Max 系列CPU。


英特爾Xeon Max CPU中的 56 個內核均為 P 核,可提供 112 個線程和 350W TDP。它采用基于 EMIB 的設計,分為四個集群。它還具有 64 GB 的 HBM2e 內存,分為 4 個 16 GB 的集群,總內存帶寬為 1 TB / s,每個內核的 HBM 都超過 1 GB。在性能方面,英特爾稱,Xeon Max配備的高帶寬內存足以滿足最常見的HPC工作負載,與舊的英特爾至強 8380 系列處理器或 AMD EPYC 7773X 相比,可在某些工作負載中提供接近 5 倍的性能。

英特爾Xeon Max CPU中還包含 20 個加速引擎,主要是用于 AVX-512、AMX、DSA 和英特爾 DL Boost 工作負載。據(jù)稱,英特爾在 MLPerf DeepCAM 訓練中的性能比 AMD 7763 提升了 3.6 倍,比 NVIDIA 的 A100 提升了 1.2 倍。
至于英特爾MAX GPU實際上就是之前的Ponte Vecchio芯片,使用了英特爾有史以來最先進的封裝技術,擁有超過1000億個晶體管。其總共有63個模塊,包括了16個Xe-HPG架構的計算芯片、8個Rambo cache芯片、2個Xe基礎芯片、11個EMIB連接芯片、2個Xe Link I/O芯片和8個HBM芯片、以及16個負責TDP輸出的模塊,通過EMIB與Foveros 3D封裝中整合在一起。其中最強的MAX 1550配備了英特爾性能最高的OAM模塊,擁有128個Xe核心和128GB的HBM2e內存,TDP為600W。

此外,Aurora 系統(tǒng)還配備了10.9PB的傲騰持久內存。同時正如前面所介紹的,每個Xeon Max CPU內還封裝了64 GB 的 HBM2e 內存,這也意味著21248 個英特爾Xeon Max 系列CPU內的 HBM2e高帶寬內存容量達到了1.36PB;每個 Max GPU內最高還封裝了128 GB 的 HBM2e 內存, 63744個Max GPU內的HBM2e內存容量達到了8.16PB。三者合計達20.42PB內存。存儲方面,Aurora 集成了超過 1024 個存儲節(jié)點(使用 DAOS,英特爾的分布式異步對象存儲技術),并利用HPE Slingshot高性能結構,以每秒31TB的總帶寬提供220PB的總的存儲容量。

以上所有的CPU、GPU、內存及存儲等組件都將通過英特爾的oneAPI軟件互相鏈接。借助 oneAPI,開發(fā)者對整個系統(tǒng)中的節(jié)點進行編程,無需更改代碼,應用程序可以有效在 CPU 和 GPU 上運行,為開發(fā)人員提供無縫系統(tǒng)集成。

英特爾表示,Aurora將充分利用英特爾Max系列GPU和CPU產(chǎn)品系列的強大功能。Max系列GPU的早期結果旨在滿足動態(tài)和新興HPC和AI工作負載的需求,在現(xiàn)實世界的科學和工程工作負載上顯示出領先的性能,在OpenMC上顯示出高達AMD MI250X GPU性能的2倍,以及接近線性擴展到數(shù)百個節(jié)點。在許多現(xiàn)實世界的HPC工作負載(如地球系統(tǒng)建模、能源和制造)中,Intel Xeon Max系列CPU比競爭對手具有40%的性能優(yōu)勢。

目前世界第一的超級計算機是隸屬于美國能源部橡樹嶺國家實驗室的“Frontier”,最大性能每秒1.19百億億次浮點計算,峰值性能可達1.68百億億次,其采用的是正是AMD EPYC 7A53 64核心處理器,以及Instinct MI250X GPU加速器。隨著“Aurora”的安裝工作完成,今年晚些時候上線后將可提供超過2 exaflops的性能,成為全球最強的超級計算機。
為了更好的發(fā)揮Aurora的性能,近期,英特爾還公布了一個主要面向于科學領域的生成式 AI 模型——Aurora genAI。
據(jù)介紹,Aurora genAI?模型以 Megatron?和 DeepSpeed 為基礎,其規(guī)模達到了 1 萬億個參數(shù),相比之下基于GPT-3的ChatGPT?的規(guī)模僅為 1750 億參數(shù),Aurora genAI 在參數(shù)規(guī)模上提升到了5.7倍。該模型將在通用文本、科學文本、科學數(shù)據(jù)和與該領域相關的代碼上進行訓練??梢酝苿忧鍧嵞茉淳圩?、催化劑、癌癥、航空航天、神經(jīng)科學研究、宇宙學等方面的研究。

英特爾公司副總裁兼超級計算集團總經(jīng)理Jeff McVeigh表示:“Aurora是英特爾Max系列GPU的首次部署,這是世界上最大的基于Xeon Max CPU的系統(tǒng),也是世界上最大的GPU集群。我們很自豪能成為這個系統(tǒng)的一部分,并為Aurora將實現(xiàn)的突破性AI,科學和工程感到興奮?!?/p>
阿貢國家實驗室副實驗室主任Rick Stevens表示:“在我們努力進行驗收測試的同時,我們將使用Aurora來訓練一些大規(guī)模的開源生成AI模型,Aurora 擁有超過 60000 個 Intel Max GPU、非常快速的 I/O 系統(tǒng)和全固態(tài)大容量存儲系統(tǒng),是訓練這些模型的完美環(huán)境?!?/p>