華為數(shù)據(jù)存儲(chǔ)集群 構(gòu)建東數(shù)西算數(shù)據(jù)底座
分布式文件存儲(chǔ)方案 7月29日到31日,首屆中國算力大會(huì)在山東濟(jì)南拉開帷幕。同時(shí),中國算力大會(huì)面向全社會(huì)征集了在新基建領(lǐng)域具有突出創(chuàng)新性、顛覆性和引領(lǐng)性的“創(chuàng)新先鋒”優(yōu)秀案例,其中由國家超級(jí)計(jì)算濟(jì)南中心和華為共同打造的“數(shù)據(jù)存儲(chǔ)集群系統(tǒng)”脫穎而出,因其創(chuàng)新性好、示范性強(qiáng)、完整度高而入選其中。 這一方案一大特點(diǎn)是圍繞濟(jì)南作為山東省內(nèi)超算核心、未來全國超算中心互聯(lián)點(diǎn),對(duì)數(shù)據(jù)存儲(chǔ)的方式做了創(chuàng)新。該方案通過構(gòu)建數(shù)據(jù)存儲(chǔ)集群系統(tǒng),實(shí)現(xiàn)了山東省內(nèi)多個(gè)數(shù)據(jù)中心存儲(chǔ)資源的一體化,使多個(gè)數(shù)據(jù)中心之間的互聯(lián)和全局?jǐn)?shù)據(jù)的共享流動(dòng)更加高效、節(jié)能、安全。 計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)是數(shù)據(jù)中心的三大要素,此次算力大會(huì)發(fā)布了《中國算力白皮書》《中國存力白皮書》和《中國運(yùn)力白皮書》,中國信通院云大所副總工程師郭亮對(duì)《中國存力白皮書》進(jìn)行了解讀。郭亮認(rèn)為:數(shù)據(jù)存力是算力價(jià)值的前提和基礎(chǔ),只有數(shù)據(jù)“存得好、算得快、傳得穩(wěn)”,算力基礎(chǔ)設(shè)施才能充分發(fā)揮數(shù)據(jù)要素的價(jià)值。這體現(xiàn)出在當(dāng)前高度重視算力的同時(shí),已經(jīng)認(rèn)識(shí)到數(shù)據(jù)存力的重要性,數(shù)據(jù)存儲(chǔ)是算力價(jià)值發(fā)揮的前提和基礎(chǔ),在挖掘算力價(jià)值之前,要首先構(gòu)建相適應(yīng)的“數(shù)據(jù)存力”。 濟(jì)南超算難題,存儲(chǔ)首當(dāng)其沖 國家超級(jí)計(jì)算正是數(shù)據(jù)存力在基礎(chǔ)設(shè)施建設(shè)的最佳落地實(shí)踐。國家超級(jí)計(jì)算濟(jì)南中心(以下簡(jiǎn)稱濟(jì)南超算)由科技部批準(zhǔn)成立,創(chuàng)建于2011年10月,是從事高性能計(jì)算和智能信息處理技術(shù)研究并提供計(jì)算服務(wù)的綜合性研究中心。 濟(jì)南中心是我國首臺(tái)完全采用自主處理器研制千萬億次超級(jí)計(jì)算機(jī)“神威·藍(lán)光”的誕生地,算力平臺(tái)分別位于齊魯軟件園和國家超級(jí)計(jì)算濟(jì)南中心科技園。目前濟(jì)南中心有超算科技園、神威藍(lán)光超級(jí)計(jì)算機(jī)、神威E級(jí)原型機(jī)、山河超級(jí)計(jì)算平臺(tái)、以及還在構(gòu)建中的下一代超級(jí)計(jì)算機(jī)。 大科學(xué)與大數(shù)據(jù)相伴,超算的數(shù)據(jù)量也越來越大。1顆遙感衛(wèi)星每天的數(shù)據(jù)量是50TB,每年數(shù)據(jù)量達(dá)到18PB;1個(gè)高能同步輻射光源中心或者一個(gè)FAST天眼,一天的數(shù)據(jù)量則是500TB,一年達(dá)到180PB。自動(dòng)駕駛汽車、類腦研究也都是這樣巨量的數(shù)據(jù),SKA平方公里陣列射電望遠(yuǎn)鏡的數(shù)據(jù)量再次爆發(fā),每秒的數(shù)據(jù)量就是1 Pb。 “濟(jì)南超算在應(yīng)對(duì)異構(gòu)算力和多樣化應(yīng)用中主要的工作是在存儲(chǔ)方面。目前濟(jì)南超算平臺(tái)總存儲(chǔ)量是245PB,覆蓋了文件、對(duì)象和大數(shù)據(jù)存儲(chǔ)。我們要把數(shù)據(jù)搬遷到超算里做計(jì)算,數(shù)據(jù)遷移中的安全要保證。” 國家超級(jí)計(jì)算濟(jì)南中心總工程師王繼彬說,“我們的超算中有科學(xué)計(jì)算集群、數(shù)據(jù)計(jì)算,還有國產(chǎn)的、神威的計(jì)算集群,不同計(jì)算集群構(gòu)建了不同的存儲(chǔ)集群。在用戶把數(shù)據(jù)搬到計(jì)算機(jī)群的過程中,搬遷過程是非常頭疼的。今年上半年,我們接收到了某項(xiàng)目快遞過來的幾百塊硬盤,數(shù)據(jù)接收和導(dǎo)入花費(fèi)了很多時(shí)間和資源。這種方式導(dǎo)致超算在目前的存儲(chǔ)架構(gòu)上沒有辦法應(yīng)對(duì)大數(shù)據(jù)量的搬遷。” 因此,濟(jì)南超算和華為攜手要解決的是三大挑戰(zhàn):一是數(shù)據(jù)孤島的挑戰(zhàn),海量數(shù)據(jù)進(jìn)不來、出不去,數(shù)據(jù)流入/流出難:硬盤快遞+專線傳輸耗時(shí)長(zhǎng),且存在安全風(fēng)險(xiǎn),不同應(yīng)用資源池,數(shù)據(jù)互通難。二是混合負(fù)載,高帶寬與高性能業(yè)務(wù)并存,海量小IO要求高性能,超大文件要求大帶寬。三是智能管理難,在數(shù)據(jù)全生命周期安全管理中,系統(tǒng)運(yùn)行性能低于預(yù)期,故障定位難,數(shù)據(jù)交換要防泄漏。 統(tǒng)一數(shù)據(jù)底座,逐一化解挑戰(zhàn) 華為提出的解決之道是構(gòu)建分布式存儲(chǔ)的統(tǒng)一數(shù)據(jù)底座。這個(gè)存儲(chǔ)的底座圍繞數(shù)據(jù)打造,分類為文件存儲(chǔ)、對(duì)象存儲(chǔ)、HDFS(Hadoop分布式文件系統(tǒng))存儲(chǔ),多種算力可以按需加持——超算中心需要HPC(高性能計(jì)算)算力,人工智能計(jì)算中心需要AI算力,大數(shù)據(jù)中心需要大數(shù)據(jù)算力,云計(jì)算中心需要云通用算力。