超算平臺(tái)入門教程 —— 簡(jiǎn)介
超級(jí)計(jì)算平臺(tái)是什么?怎么用?
1. 超級(jí)計(jì)算平臺(tái)(服務(wù)器)
“超算”全稱“超級(jí)計(jì)算”(super computing) 或者“超級(jí)計(jì)算機(jī)”(super computer),用于處理大規(guī)模和高性能的科學(xué)計(jì)算任務(wù)。這些平臺(tái)通常擁有強(qiáng)大的計(jì)算能力,適用于處理需要大量計(jì)算資源的問(wèn)題,如氣象模擬、分子模擬、基因組學(xué)分析等。
超級(jí)計(jì)算機(jī)也是計(jì)算機(jī),擁有普通計(jì)算機(jī)的所有部件,但超級(jí)計(jì)算機(jī)的規(guī)模和性能要比普通計(jì)算機(jī)強(qiáng)很多個(gè)數(shù)量級(jí)。超級(jí)計(jì)算機(jī)由大量的計(jì)算節(jié)點(diǎn)組成,每個(gè)計(jì)算節(jié)點(diǎn)由?CPU?(中央處理器,必需) 和?GPU?(圖形處理單元,非必需) 組成,計(jì)算節(jié)點(diǎn)之間由高速互聯(lián)網(wǎng)絡(luò)連接。此外,整個(gè)系統(tǒng)還包括大規(guī)模存儲(chǔ)系統(tǒng)、系統(tǒng)軟件、應(yīng)用軟件和冷卻系統(tǒng)等。與普通計(jì)算機(jī)相比,超級(jí)計(jì)算機(jī)具有極大的數(shù)據(jù)存儲(chǔ)容量和極快速的數(shù)據(jù)處理速度,因此超級(jí)計(jì)算機(jī)成為解決重大工程時(shí)難以取代的工具。
2. 合理使用超算需掌握的技能
為了充分利用超級(jí)計(jì)算平臺(tái),你需要掌握以下一些關(guān)鍵技能和知識(shí)
2.1 訪問(wèn)遠(yuǎn)程計(jì)算機(jī)(超算)
由于我們?cè)谑惯h(yuǎn)程計(jì)算機(jī)完成自己任務(wù)的時(shí)候,使用者通常都不可能直接在遠(yuǎn)程計(jì)算機(jī)上面對(duì)面操作,而是通過(guò)自己的個(gè)人計(jì)算機(jī)和遠(yuǎn)程計(jì)算機(jī)進(jìn)行交互完成作業(yè)。所以,使用超級(jí)計(jì)算平臺(tái)需要通過(guò)網(wǎng)絡(luò)遠(yuǎn)程訪問(wèn)計(jì)算資源。你需要了解如何通過(guò)SSH(Secure Shell)等遠(yuǎn)程訪問(wèn)協(xié)議連接到超級(jí)計(jì)算機(jī),以便進(jìn)行文件編輯、命令執(zhí)行和作業(yè)提交等。
2.2 Linux基本命令和Shell腳本編寫
超級(jí)計(jì)算平臺(tái)通常運(yùn)行在Linux操作系統(tǒng)上,因此你需要熟悉基本的Linux命令,以便你完成上述提到的文件編輯、命令執(zhí)行和作業(yè)提交等操作。與Windows系統(tǒng)擁有豐富的用戶交互界面不同,我們與Linux系統(tǒng)進(jìn)行交互的方式通常以命令行的形式進(jìn)行,所以對(duì)于長(zhǎng)時(shí)間只使用Windows終端的用戶可能需要一定的時(shí)間學(xué)習(xí)和適應(yīng)。
2.3 作業(yè)管理系統(tǒng)Slurm
超級(jí)計(jì)算平臺(tái)通常有龐大的軟硬件資源集成,為了計(jì)算資源得到更充分的利用,所以需要專門的軟件對(duì)用戶的作業(yè)進(jìn)行管理。目前眾多的超算平臺(tái)上基本都使用Slurm作業(yè)管理系統(tǒng)來(lái)分配和管理計(jì)算資源。了解如何提交、監(jiān)控和管理作業(yè)非常重要,以便充分利用計(jì)算節(jié)點(diǎn)。
2.4 編程技能
作為初學(xué)者,我們可能只需要應(yīng)用別人開(kāi)發(fā)的軟件,但隨著分析的深入我們不免需要修改腳本甚至是自行編寫腳本或程序以完成自己的作業(yè)。所以如果你需要在超級(jí)計(jì)算平臺(tái)上進(jìn)行科學(xué)計(jì)算或數(shù)據(jù)分析,編程技能是不可或缺的。掌握編程語(yǔ)言(如R、Python、C/C++、Perl等)和腳本編寫可以幫助你開(kāi)發(fā)高效的計(jì)算代碼。
2.5 環(huán)境配置
了解如何配置計(jì)算環(huán)境,包括安裝和管理所需的軟件包和庫(kù),以及設(shè)置環(huán)境變量,對(duì)于順利完成計(jì)算任務(wù)至關(guān)重要。
2.6 高算平臺(tái)選擇
不同的超級(jí)計(jì)算平臺(tái)可能適用于不同類型的任務(wù)。需要綜合考慮節(jié)點(diǎn)數(shù)、單節(jié)點(diǎn)性能(核心和內(nèi)存)、是否有GPU節(jié)點(diǎn)、存儲(chǔ)大小、成本、穩(wěn)定性及售后支持等因素
???轉(zhuǎn)載聲明:感謝您對(duì)文章內(nèi)容的認(rèn)可,轉(zhuǎn)載請(qǐng)聯(lián)系微信公眾號(hào)“房子下面一頭豬”獲得授權(quán),轉(zhuǎn)載后請(qǐng)?jiān)谛涯课恢脴?biāo)明來(lái)源,且禁止聲明原創(chuàng)。

供稿:李偉寧
編輯:孫福騰
? 校對(duì):李偉寧?

團(tuán)隊(duì)其他公眾平臺(tái):
Bilibili?|?房子下面一頭豬
知乎?|?房子下面一頭豬(https://www.zhihu.com/people/mang-guo-c-60-10)
微信公眾號(hào)?| 房子下面一頭豬(https://github.com/CAU-TeamLiuJF)
