美國重奪全球超算第一!人類實(shí)現(xiàn)百億億次E級(jí)超算,F(xiàn)rontier屠榜全球Top500

??新智元報(bào)道??
編輯:好困 David 袁榭
【新智元導(dǎo)讀】最新超算Top500榜單揭曉!美國的性能怪獸Frontier以橫掃之勢(shì)拿下第一,算力超過身后468臺(tái)的總和。
已經(jīng)霸榜兩年,完成四連冠的日本富岳終于跌落了「神壇」。
?在剛剛公布的2022年全球超算Top500名單中,美國橡樹嶺國家實(shí)驗(yàn)室(ORNL)的Frontier奪得第一。?憑借1.102 Exaflop/s的HPL分?jǐn)?shù),F(xiàn)rontier不僅是有史以來最強(qiáng)大的超級(jí)計(jì)算機(jī),它也是第一臺(tái)真正的「E級(jí)超算」。?

?相比之下,中國的神威·太湖之光和天河二號(hào)排名下滑至第六和第九。?去年,美國將神威·太湖之光的處理器供應(yīng)商申威列入了實(shí)體清單,或多或少給中國超算的發(fā)展造成了影響。?

?這次Top500的64位浮點(diǎn)計(jì)算總算力為4.4 exaflops,比六個(gè)月前的上一期榜單增長了44.7%。
,時(shí)長00:58
?Frontier:突破百億億次
?那么,F(xiàn)rontier的性能到底達(dá)到了怎樣「逆天」的程度呢?!?簡單來說,就是把排在它之后的7個(gè)超算的算力加起來,都比不過一個(gè)Frontier。?

?除了如此炫目的算力之外,F(xiàn)rontier還是全球跑AI最快的超級(jí)電腦之一。在HPL-AI基準(zhǔn)的混合精度性能測(cè)試中,F(xiàn)rontier跑出了6.88 ExaFlops的成績。?用白話說,這個(gè)性能相當(dāng)于,給一個(gè)860億神經(jīng)元組成的智能體中的每個(gè)神經(jīng)元,每秒都下達(dá)6800萬個(gè)指令。?用這個(gè)訓(xùn)練AI大模型,那可真是火箭發(fā)動(dòng)機(jī)搭上了一級(jí)方程式賽車,可以直接在賽道上起飛。?全新的Frontier占地372平方米,由74個(gè)HPE Cray EX機(jī)柜組成,可容納9408個(gè)節(jié)點(diǎn)。?其中,每個(gè)節(jié)點(diǎn)有一個(gè)AMD Milan 「Trento」 7A53 Epyc CPU,搭配512GB DDR4內(nèi)存和4個(gè)AMD Radeon Instinct MI250X GPU。?總的來說,該系統(tǒng)有602,112個(gè)CPU核心,與4.6PB的DDR4內(nèi)存相連接。?此外,37,888個(gè)AMD MI250X GPU具有8,138,240個(gè)核心,并搭配了4.6PB的HBM內(nèi)存(每個(gè)GPU有128GB)。?CPU和GPU使用基于以太網(wǎng)的HPE Cray Slingshot-11網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行連接。?

?儲(chǔ)存上則與一個(gè)性能極佳的存儲(chǔ)子系統(tǒng)相連,有著700PB的容量,75TB/s的吞吐量和150億IOPS的性能。?元數(shù)據(jù)層分布在480個(gè)NVMe SSD上,提供10PB的整體容量,而5400個(gè)NVMe SSD為主要的高速存儲(chǔ)層提供11.5PB的容量。?同時(shí),47,700個(gè)PMR硬盤提供679PB的容量。?

?散熱方面,基于水冷的系統(tǒng)讓6000加侖的水在350馬力的泵在整個(gè)系統(tǒng)中「移動(dòng)」,由此將溫度控制在了85度左右。?直觀來說,這些水泵可以在30分鐘內(nèi)填滿一個(gè)奧林匹克標(biāo)準(zhǔn)游泳池。?Frontier不僅是現(xiàn)在世界上最快的超算,也是最環(huán)保的超算。?Frontier的能耗比,亦居全球超算的環(huán)保程度Green500榜單之首。單個(gè)由第三代AMD的Epyc處理器與Instinct MI250x加速器組建的機(jī)柜單元,其能耗效率是每瓦電能運(yùn)算62.68 gigaflops。?

?不過,想把Frontier組裝起來可不容易,ORNL必須采購685個(gè)不同編號(hào)的6000萬個(gè)部件。?此外,在建造過程中還不得不去應(yīng)對(duì)芯片的短缺。?ORNL受影響的零件編號(hào)有167個(gè),算下來是200萬個(gè)零件。而AMD缺少M(fèi)I200 GPU的15個(gè)編號(hào)的零件。?于是ORNL與ASCR合作,為這些零件獲得了國防優(yōu)先權(quán)和分配系統(tǒng)(DPAS)評(píng)級(jí),這意味著美國政府可以使用年度的防務(wù)預(yù)算,用顯著高于市場(chǎng)價(jià)的更優(yōu)厚價(jià)格來采購這些部件。?很快,「短缺」的問題也就得到了解決。?

?經(jīng)過這波操作,是不是可以解開很多人心中所謂的「疑惑」了呢??美國:為了我們的國防事業(yè),加大力度搞超算!?

?雖然這么花錢,但用處不可謂不廣。在英偉達(dá)老黃這種財(cái)主老爺都要做地球數(shù)字孿生體的時(shí)代,各國官方部門的超級(jí)計(jì)算機(jī)在開發(fā)處理龐大數(shù)據(jù)的AI、模擬氣候和產(chǎn)業(yè)用途等方面越來越重要。?就算橡樹林自己用不完這算力,也可以租、售嘛,工業(yè)界對(duì)算力可是嗷嗷待哺。?而且這已有他國先例:在預(yù)測(cè)機(jī)床材料加工結(jié)果的實(shí)驗(yàn)中,日本DMG森精機(jī)床自帶工業(yè)電腦需要8小時(shí),但富岳只需要10分鐘就完成了。?
中國:玩你們的,我就看看
在新一期榜單上,中國和美國仍然是上榜最多的國家。
?在上榜超算數(shù)量上,中國仍為173臺(tái),和上期持平,繼續(xù)位列榜首。美國從上期的150臺(tái)下降到127臺(tái),排名次席。盡管如此,這兩個(gè)國家仍然占了TOP 500榜單總數(shù)的60%。?日本、德國、法國分別以34、31、22臺(tái)位列3-5位。?

?雖然此次Frontier正式成為世界上最強(qiáng)大的超級(jí)計(jì)算機(jī),但它還沒有與去年被曝光的兩個(gè)中國超算進(jìn)行比較。?不過,這兩個(gè)系統(tǒng)目前都沒有向Top500提交測(cè)試數(shù)據(jù)。?根據(jù)爆料的數(shù)據(jù),有不少外媒推斷Sunway OceanLight(神威·海洋之光)超級(jí)計(jì)算機(jī)在HPL基準(zhǔn)上的峰值約為1.3 exaflops/1.05 exaflops,而天河三號(hào)則能夠達(dá)到1.7 exaflops峰值/1.3 exaflops持續(xù)值。
然而,考慮到美國在芯片上的各種「卡脖子」,中國超算刷榜的后果很有可能就變成了一個(gè)制裁的「靶子」,想必短時(shí)間內(nèi)應(yīng)該不會(huì)看到任何有關(guān)數(shù)據(jù)的更新了。
?

?上榜數(shù)量占比上,中國以34.6%的比例占據(jù)榜首,美國以25.4%的比例位列第二,中美爭(zhēng)霸的態(tài)勢(shì)依舊。?

?而在總性能排行榜上,美國的優(yōu)勢(shì)仍然不可動(dòng)搖,以47.3%的總算力牢牢占據(jù)首位,不難看出,此次登頂?shù)腇rontier為美國穩(wěn)定霸榜貢獻(xiàn)不小。?

?此外,此次Top 500榜單還統(tǒng)計(jì)了自1990年起超算算力的進(jìn)步趨勢(shì),并進(jìn)行了線性回歸。?表中橫軸為時(shí)間,縱軸為算力(取對(duì)數(shù))。?綠色點(diǎn)為上榜超算的總算力,黃色三角為榜單冠軍的算力,藍(lán)色方塊為榜單倒數(shù)第一(第500名)超算的算力。對(duì)應(yīng)顏色的直線為線性回歸的結(jié)果。?可以看到,這三條直線大致符合摩爾定律的對(duì)算力提升的預(yù)測(cè)性判斷。?都說摩爾定律已死,看起來在超算領(lǐng)域,它還活的很好很健壯。?
歐洲崛起:Top10占據(jù)7席
美國并不是唯一取得顯著成績的地區(qū)。歐洲也表現(xiàn)良好,從總排名上看,美、中、日占據(jù)前3,前十中剩余的七席則全部為歐洲國家占據(jù)。
?其中德國上榜31臺(tái),法國上榜22臺(tái),意大利上榜14臺(tái)。?芬蘭新部署的LUMI超級(jí)計(jì)算機(jī)以151.9 petaflops的FP64性能勉強(qiáng)超過美國的Summit,獲得第3名。?另外,法國GENCI-CINES的Adastra以46.1 petaflops的性能險(xiǎn)些奪得第10名。雖然遠(yuǎn)不及LUMI強(qiáng)大,但Adastra仍然保持著歐洲第二強(qiáng)大的超級(jí)計(jì)算機(jī)的殊榮。?LUMI和Adastra等系統(tǒng)也說明了另一個(gè)趨勢(shì)。與Frontier一樣,它們基于HPE的全AMD Cray EX平臺(tái),使用第三代Epyc CPU和Instinct GPU。?

?
為啥不用GPU加速:還是差錢
長久以來,AMD第一次在Top500中的系統(tǒng)內(nèi)的主機(jī)CPU中占有代表性的份額,但英特爾至強(qiáng)處理器仍然占主導(dǎo)地位。
?

?從本世紀(jì)初開始,英特爾在高性能計(jì)算領(lǐng)域開始發(fā)力,只用了幾年時(shí)間,就將IBM、惠普等幾家之前的主要玩家排擠得元?dú)獯髠?從2017年到2020年,英特爾在高性能計(jì)算領(lǐng)域達(dá)到極盛的市場(chǎng)占有率一度超過90%。?直到目前,英特爾的份額仍高達(dá)77.4%,下降了4.2個(gè)百分點(diǎn),而AMD的份額正好上升了這個(gè)數(shù)字。預(yù)計(jì)Epycs會(huì)在與Xeon SP的競(jìng)爭(zhēng)中獲得更大的動(dòng)力。?而且,AMD有后來居上的勢(shì)頭。在2022年的全球超算Top500榜單中,現(xiàn)在有94臺(tái)超算依賴AMD的產(chǎn)品,年度增長95%。而且AMD的 Instinct MI200 加速器首次被其中7臺(tái)超算采用。?另一個(gè)問題是,為什么不用GPU加速器?可能是因?yàn)橘F??GPU加速器作為計(jì)算引擎,可以提升巨大的性能和性價(jià)比,但目前,加速器并沒有在Top500榜單上的超算架構(gòu)中占據(jù)主導(dǎo)地位。這些GPU加速器主要是英偉達(dá)的。?但是,除了英偉達(dá)自家的HPC中心有大量應(yīng)用需要移植到GPU上,而且不差錢之外,世界上成千上萬的其他HPC中心還是差錢的,這些HPC的代碼是明確為CPU編寫的。?

?目前的Top500榜單中,只有170臺(tái)超算采用了GPU加速器--當(dāng)然大部分來自英偉達(dá)。?另一個(gè)因素是,更便宜的CPU本身現(xiàn)在也在陸續(xù)添加類似于GPU的加速計(jì)算功能,比如向量和現(xiàn)在的矩陣計(jì)算等。?這樣就比將CPU程序轉(zhuǎn)移至GPU運(yùn)行更省錢,也更容易編程。我們可能永遠(yuǎn)不會(huì)看到一個(gè)主要由GPU加速系統(tǒng)組成的Top500榜單了。?事實(shí)上,在「富岳」、「太湖之光」這樣排名靠前的超算系統(tǒng)中,CPU基本上充當(dāng)了具備向量和矩陣計(jì)算型GPU的作用。
參考資料:
https://www.top500.org/news/ornls-frontier-first-to-break-the-exaflop-ceiling/https://www.nextplatform.com/2022/05/30/at-long-last-hpc-officially-breaks-the-exascale-barrier/https://www.nytimes.com/2022/05/30/business/us-supercomputer-frontier.html