結(jié)構(gòu)流體多物理場耦合高性能仿真計(jì)算集群簡介
集群面臨問題
經(jīng)常聽到客戶反饋,某某分布式多機(jī)集群、某某云計(jì)算平臺(tái),在集群上做計(jì)算還不如普通電腦快,高性能計(jì)算集群做工程仿真計(jì)算效率很低,花了一大筆經(jīng)費(fèi),經(jīng)過一年多的方案論證、審批通過、采購、交貨、使用,但集群性能表現(xiàn)很差

看似高性能集群的計(jì)算服務(wù)器、存儲(chǔ)服務(wù)器、管理服務(wù)器、infiniband交換機(jī)等硬件設(shè)備放到機(jī)柜上,通過網(wǎng)絡(luò)交換機(jī)全部連接好,系統(tǒng)、軟件、開發(fā)工具也都安裝調(diào)試正常了,HPC集群就OK了,真這么簡單嗎? 實(shí)際情況:
可能1? 計(jì)算服務(wù)器硬件配置選型不合理,
可能2? 并行存儲(chǔ)服務(wù)器硬件配置有問題
可能3? 作業(yè)調(diào)度方法存在問題
可能4? 計(jì)算方式選擇有問題,通過GPU計(jì)算更快,但確用CPU計(jì)算方式
可能5? 網(wǎng)絡(luò)io有問題,永遠(yuǎn)是滿負(fù)荷
。。。
出現(xiàn)這些問題的原因,集群的配置方案往往是使用者想要一個(gè)“最先進(jìn)、成熟的”集群計(jì)算架構(gòu),自己認(rèn)為的一個(gè)方案,或者過度相信“豐富有經(jīng)驗(yàn)的系統(tǒng)集成商”(大品牌,不用質(zhì)疑),根據(jù)客戶的預(yù)算,給出的高性能計(jì)算集群方案
使用者大部分是對(duì)軟件熟悉,對(duì)工作計(jì)算任務(wù)熟悉,但因工作知識(shí)的局限性,可能對(duì)硬件配置,最新計(jì)算架構(gòu)不是很精通,
集成商,大部分都是賣設(shè)備的,關(guān)心的是設(shè)備能否賣出去,對(duì)客戶應(yīng)用了解很少或不是很深入,因此這樣兩類人,在一起交流討論仿真計(jì)算集群硬件配置方案,未來必然存在隱患。
那么一個(gè)合理、完美、高效的高性能計(jì)算集群方案的關(guān)鍵點(diǎn)都有什么?
首先 要根據(jù)客戶的應(yīng)用要求,跑什么軟件,對(duì)這些軟件特點(diǎn)進(jìn)行分析
其次,根據(jù)掌握了應(yīng)用情況,結(jié)合最新的硬件規(guī)格,分別給出計(jì)算服務(wù)器、GPU服務(wù)器、并行存儲(chǔ)服務(wù)器、管理服務(wù)器、網(wǎng)絡(luò)低延遲的交換機(jī)的對(duì)應(yīng)方案,另外還要配備好一個(gè)高效的作業(yè)調(diào)度系統(tǒng),這樣這個(gè)集群方案更貼近仿真軟件的計(jì)算要求,
關(guān)鍵點(diǎn)1? 計(jì)算服務(wù)器用什么規(guī)格CPU、GPU、內(nèi)存、硬盤,性能最大化?
關(guān)鍵點(diǎn)2? 存儲(chǔ)服務(wù)器,作為數(shù)據(jù)交換最密集的地方,最大的瓶頸,是什么?
不能忽略的情況:
如果不知道仿真數(shù)值模擬軟件的不同求解器的特點(diǎn),很可能計(jì)算服務(wù)器配置正常,軟件運(yùn)行正常,速度很慢,怎么回事?
如果不熟悉計(jì)算硬件架構(gòu),計(jì)算服務(wù)器的CPU頻率高低無所謂,內(nèi)存帶寬無所謂,硬盤io無所謂,便宜就行,可能結(jié)果性能表現(xiàn)很差
如果不清楚很多軟件已經(jīng)支持GPU加速,求解過程得到10幾倍的提升(用CPU就可以,或用最貴的GPU,也不快,什么情況?)
如果不清楚作業(yè)調(diào)度正確方式,按核調(diào)用,計(jì)算規(guī)模越大,分配更多核,速度就快?
因此,集群配置缺陷,將來必然面臨并行計(jì)算效率低,性能表現(xiàn)差的問題,再加上作業(yè)調(diào)度軟件問題或使用問題,集群運(yùn)算效率自然好不到哪里。
(二)代表性機(jī)型:CX650高性能仿真計(jì)算集群
經(jīng)過多年實(shí)際集群系統(tǒng)的應(yīng)用軟件運(yùn)行和監(jiān)測(cè)分析,我們可以給出從集群硬件配置和集群架構(gòu)、作業(yè)調(diào)度全方位的滿足不同仿真計(jì)算特點(diǎn),通過采用最新CPU和GPU,以及合理硬件配置和高效作業(yè)調(diào)用,保證了集群的計(jì)算效率發(fā)揮到最大。
以UltraLAB品牌集群為例,仿真計(jì)算集群應(yīng)充分考慮應(yīng)用軟件的算法特點(diǎn),保證整個(gè)集群每個(gè)環(huán)節(jié),計(jì)算服務(wù)器或GPU超算服務(wù)器,并行存儲(chǔ)服務(wù)器等集群配置架構(gòu),無死角、無卡頓、均衡,都能最大限度發(fā)揮各自的性能。
應(yīng)用軟件并行計(jì)算特點(diǎn)

CX650仿真集群系統(tǒng)介紹
CX650是采用intel xeon第三代可擴(kuò)展處理器組成的集群,代表著目前最新的計(jì)算架構(gòu),求解更快、更高效。CX650集群系統(tǒng)是由【高頻服務(wù)器】、【計(jì)算服務(wù)器】、【GPU超算服務(wù)器】、【管理與存儲(chǔ)服務(wù)器】、【高性能低延遲交換機(jī)】、作業(yè)調(diào)度系統(tǒng)組成。

具體方案:
5個(gè)計(jì)算節(jié)點(diǎn)集群
總核數(shù):200核@2.8GHz?
CPU算力 8.9TFlops
總內(nèi)存容量 1.28TB

2.10個(gè)計(jì)算節(jié)點(diǎn)集群
總核數(shù):400核@2.8GHz ,
CPU算力 17.9TFlops?
GPU算力(FP32) 80Tfops
總內(nèi)存容量 2.56TB

3.15個(gè)計(jì)算節(jié)點(diǎn)集群
總核數(shù):600核@2.8GHz ,
CPU算力 26.88TFlops?
GPU算力(FP32) 80Tfops
總內(nèi)存容量 3.84TB
