虹科案例 | 超級(jí)計(jì)算中心如何使用高性能計(jì)算推進(jìn)科學(xué)研究?

計(jì)算、理論、實(shí)驗(yàn)被稱(chēng)為現(xiàn)代科學(xué)研究的“三駕馬車(chē)”,無(wú)論是高校、研究所還是企業(yè),高性能計(jì)算對(duì)于材料、化學(xué)、計(jì)算機(jī)、工程、生命科學(xué)、大氣等領(lǐng)域以及計(jì)算機(jī)輔助工程 (CAE) 、計(jì)算流體動(dòng)力學(xué)(CFD)、電子設(shè)計(jì)自動(dòng)化(EDA)、分子動(dòng)力學(xué)(MD)等技術(shù)的科學(xué)研究都至關(guān)重要。
北德超級(jí)計(jì)算聯(lián)盟簡(jiǎn)介
北德超級(jí)計(jì)算聯(lián)盟(HLRN)成立于2001年,是德國(guó)北部七個(gè)州的聯(lián)合項(xiàng)目。HLRN超級(jí)計(jì)算機(jī)已被100多所大學(xué)和120多家研究機(jī)構(gòu)所使用,以此探索科學(xué)研究的許多前沿領(lǐng)域,幫助開(kāi)啟更美好的未來(lái)。HLRN?III超級(jí)計(jì)算機(jī)系統(tǒng)在2014年1月被研發(fā)出來(lái),是世界上最強(qiáng)大的超級(jí)計(jì)算機(jī)之一,擁有約25000臺(tái)高端PC的計(jì)算能力,由柏林Zuse研究所和漢諾威萊布尼茨大學(xué)對(duì)其進(jìn)行托管。

HLRN面臨的挑戰(zhàn)
1.需要啟用并行計(jì)算來(lái)管理和優(yōu)化站點(diǎn):為了給德國(guó)北部各州提供強(qiáng)大、高效的PB級(jí)計(jì)算資源,HLRN需要將HLRN?III作為一個(gè)組合系統(tǒng)聯(lián)合運(yùn)行。然而,對(duì)兩個(gè)遠(yuǎn)程位置進(jìn)行負(fù)載平衡是有挑戰(zhàn)的,例如時(shí)間延遲和獨(dú)立集群之間不斷變化的通信。因此,HLRN需要啟用并行計(jì)算來(lái)管理和優(yōu)化柏林和漢諾威站點(diǎn)之間的多個(gè)集群。
2.難以處理龐大的計(jì)算作業(yè):作為由德國(guó)州和聯(lián)邦政府資助的非營(yíng)利組織,HLRN的超級(jí)計(jì)算系統(tǒng)除了免費(fèi)為德國(guó)北部的科學(xué)家和研究人員提供重要服務(wù)外,HLRN還為組織的項(xiàng)目提供技術(shù)支持以解決關(guān)鍵用戶(hù)問(wèn)題,例如優(yōu)化、批量處理作業(yè)、資源分配等,這導(dǎo)致HLRN?III的需求量很大。為了處理如此龐大的計(jì)算作業(yè)隊(duì)列,柏林和漢諾威站點(diǎn)必須保持24h全天候運(yùn)行,這給資源正常運(yùn)行時(shí)間和作業(yè)吞吐量帶來(lái)了非常大的挑戰(zhàn)。
3.工作負(fù)載要求多:HLRN每分每秒都運(yùn)行著150多個(gè)項(xiàng)目,平均作業(yè)大小為10GB,這些項(xiàng)目對(duì)工作負(fù)載具有不同的要求,因此需要研究人員創(chuàng)建自定義應(yīng)用程序。
4.項(xiàng)目準(zhǔn)備時(shí)間長(zhǎng):一個(gè)項(xiàng)目成功完成后,必須創(chuàng)建新的數(shù)據(jù)集為下一個(gè)傳?項(xiàng)目做準(zhǔn)備,HLRN的顧問(wèn)幫助系統(tǒng)可能需要幾天甚至幾周的時(shí)間去準(zhǔn)備算法以運(yùn)行密集計(jì)算。
?
HLRN選擇虹科Adaptive高性能計(jì)算套件Moab
HLRN于2008年開(kāi)始使用Moab來(lái)管理其計(jì)算工作負(fù)載,目前在其分布式Cray?XC30的超級(jí)計(jì)算系統(tǒng)“HLRN?III”上運(yùn)行Moab?HPC?Suite企業(yè)版。HLRN站點(diǎn)利用Moab來(lái)支持其在廣泛領(lǐng)域的先進(jìn)科學(xué)研究,包括生物信息學(xué)、化學(xué)、氣候和海洋建模、工程、環(huán)境研究、流體動(dòng)力學(xué)和物理學(xué)等領(lǐng)域。其次,還利用Adaptive?Big?Workflow(即更高效的處理密集模擬和大數(shù)據(jù)分析)來(lái)加速數(shù)據(jù)洞察和解決HLRN的大數(shù)據(jù)挑戰(zhàn),使得研究人員能夠在復(fù)雜的異構(gòu)HPC集群環(huán)境中提供有價(jià)值的見(jiàn)解,而Moab?HPC?Suite是Adaptive?Big?Workflow解決方案中不可或缺的一部分。
Moab HPC Suite(Moab高性能計(jì)算套件)是虹科Adaptive?Computing的一個(gè)工作負(fù)載和資源編排平臺(tái),可自動(dòng)調(diào)度、管理、監(jiān)控和報(bào)告大規(guī)模的HPC 工作負(fù)載。獲得專(zhuān)利的Moab智能引擎使用多維策略和先進(jìn)的未來(lái)建模以?xún)?yōu)化各種資源上的工作負(fù)載啟動(dòng)和運(yùn)行時(shí)間。這些策略平衡了高利用率和吞吐量目標(biāo)與相互競(jìng)爭(zhēng)的工作負(fù)載優(yōu)先級(jí)和SLA要求,從而通過(guò)優(yōu)先級(jí)順序在更短的時(shí)間內(nèi)完成更多的工作。Moab HPC Suite 優(yōu)化HPC系統(tǒng)的價(jià)值和可用性,同時(shí)降低了管理成本和復(fù)雜性。
高性能計(jì)算解決方案
1.選擇Moab?HPC?Suite:為了充分滿(mǎn)足其研究目標(biāo)并實(shí)現(xiàn)并行計(jì)算,HLRN選擇了Moab?HPC?Suite作為其新的分布式超級(jí)計(jì)算系統(tǒng)。HPC套件由Adaptive?Computing的智能工作負(fù)載管理軟件Moab提供?持,該軟件可根據(jù)策略?xún)?yōu)化跨工作負(fù)載并調(diào)度、管理資源。
2.通過(guò)BigWorkflow進(jìn)行模擬和數(shù)據(jù)分析:為了將兩個(gè)集群的計(jì)算資源結(jié)合起來(lái),HLRN通過(guò)Big?Workflow進(jìn)行模擬和數(shù)據(jù)分析。Big?Workflow還能夠協(xié)調(diào)和優(yōu)化分析流程,以提高吞吐量和生產(chǎn)力,降低成本、復(fù)雜性和錯(cuò)誤。即使面臨大數(shù)據(jù)挑戰(zhàn),HLRN仍然可以保證最大限度地延長(zhǎng)正常運(yùn)行時(shí)間、保證服務(wù)交付且資源得到公平分配。
3.使用Moab模塊:在Moab?HPC?Suite企業(yè)版中,HLRN使用了許多Moab模塊。
網(wǎng)格管理-統(tǒng)一工作負(fù)載決策
Moab模塊中強(qiáng)大的網(wǎng)格工作負(fù)載管理解決方案使HLRN能夠連接柏林和漢諾威不同集群并共享計(jì)算資源,這允許HLRN跨策略和資源同步管理、合并報(bào)告、優(yōu)化跨集群的工作負(fù)載共享和數(shù)據(jù)管理。此外,網(wǎng)格環(huán)境使HLRN能夠同時(shí)在兩個(gè)站點(diǎn)上運(yùn)行計(jì)算作業(yè),自動(dòng)化和統(tǒng)一所有復(fù)雜的工作負(fù)載決策,從而實(shí)現(xiàn)更大的負(fù)載平衡。
策略引擎-加速生產(chǎn)力
隨著條件和工作負(fù)載的變化,Moab能主動(dòng)滿(mǎn)足HLRN的優(yōu)先事項(xiàng),優(yōu)化HLRN集群利用率。例如:如果一組研究人員在某個(gè)時(shí)間沒(méi)有工作要運(yùn)行時(shí),Moab將允許運(yùn)行其他具有低優(yōu)先級(jí)的作業(yè)(進(jìn)行回填調(diào)度)。此外,策略引擎也將自動(dòng)確保正確的工作負(fù)載在最佳時(shí)間的運(yùn)行(例如,回填作業(yè)獲得低優(yōu)先級(jí)或在預(yù)期運(yùn)行新的高優(yōu)先級(jí)作業(yè)時(shí)暫停)。
計(jì)費(fèi)管理-預(yù)算保證
HLRN將MAM(Moab Accounting Manager)與其會(huì)計(jì)軟件集成,從而根據(jù)資源共享協(xié)議安排資源。此功能用于管理不同研究組的賬戶(hù),確保每個(gè)研究組都能基于預(yù)算、時(shí)間和MAM中可用的其他參數(shù)來(lái)“公平、共享”使用集群的。此外,MAM可以使HLRN的預(yù)算分配與利用率保持一致,確保不超過(guò)使用限制和執(zhí)行預(yù)算。

價(jià)值成果
HLRN在使用Moab?HPC?Suite后獲得了如下成果:
1.實(shí)現(xiàn)并行計(jì)算:通過(guò)協(xié)調(diào)的動(dòng)態(tài)配置和多集群網(wǎng)格環(huán)境,Moab?HPC?Suite使HLRN能夠利用其分布式超級(jí)計(jì)算系統(tǒng)實(shí)現(xiàn)并行計(jì)算。
2.統(tǒng)一任務(wù)管理:通過(guò)Big?Workflow將兩個(gè)集群作為一個(gè)生態(tài)系統(tǒng)運(yùn)行,HLRN能夠統(tǒng)一管理從工作流調(diào)度到賬戶(hù)管理的所有任務(wù)。
3.滿(mǎn)足工作負(fù)載需求:通過(guò)Moab的調(diào)度能力,HLRN不僅可以更好地處理激增的工作負(fù)載需求,在多個(gè)異構(gòu)系統(tǒng)之間實(shí)現(xiàn)更高的管理效率,還能夠滿(mǎn)足大量的需求并提高作業(yè)吞吐量。
4.最大化多集群ROI:Moab使HLRN實(shí)現(xiàn)高達(dá)80%的資源利用率、最大限度地提高用戶(hù)生產(chǎn)力并滿(mǎn)足大量工作負(fù)載需求并基本消除工作延誤和故障。
Moab的這些優(yōu)勢(shì)加快了HLRN研究人員的分析速度,幫助科學(xué)研究快速”打開(kāi)新世界的大門(mén)“!
想要了解【虹科Adaptive computing Moab高性能計(jì)算套件】及【行業(yè)解決方案】,歡迎關(guān)注虹科云科技或者評(píng)論交流!
關(guān)于虹科云科技
虹科云科技,致力于為您提供云解決方案,我們通過(guò)分享公有云、私有云、數(shù)據(jù)庫(kù)等相關(guān)知識(shí)、產(chǎn)品信息、應(yīng)用案例及行業(yè)信息,幫助您找到最適合您的企業(yè)級(jí)云解決方案。
掃描下方二維碼,第一時(shí)間獲取企業(yè)級(jí)云解決方案!??
