中國高?!熬怼备咝阅苡嬎闫脚_,卷什么?【轉(zhuǎn)】
高性能計算已經(jīng)成為衡量一所學(xué)??蒲袑嵙Φ淖钪匾笜?biāo),高校其他各學(xué)科對高性能計算資源的依賴越來越強,需求遞增攀升

圖:《財經(jīng)十一人》走訪南京大學(xué)高性能計算中心
文 | 顧翎羽
編輯 | 謝麗容無論在國內(nèi)還是全球,加強基礎(chǔ)科研工作,都是高校的機遇、責(zé)任和使命。高性能計算已成為繼理論和實驗之后科學(xué)研究的第三大支柱,各學(xué)科對高性能計算資源的需求不斷攀升。高性能計算(High performance computing, 縮寫HPC),指利用超級計算機實現(xiàn)并行計算,以處理標(biāo)準(zhǔn)工作站無法完成的數(shù)據(jù)密集型計算任務(wù),常見的應(yīng)用領(lǐng)域有仿真模擬、機器學(xué)習(xí)和深度學(xué)習(xí)等。簡單理解,高性能計算可以通過分布式計算實現(xiàn)單臺計算機無法達(dá)到的運算速度,高性能計算系統(tǒng)的運行速度比商用臺式機或服務(wù)器系統(tǒng)快一百萬倍以上。原因在于高性能計算能夠讓整個計算機集群為同一個任務(wù)工作,以更快的速度來解決一個復(fù)雜問題。也正是因為此,在存儲和處理海量數(shù)據(jù),數(shù)據(jù)挖掘、圖像處理和基因測序等場景里,如果想要獲得突破性結(jié)果,高性能計算有時是唯一解法。舉例來說,人類首次嘗試基因組測序耗時達(dá)13年,而如今,高性能計算只需要不到一天的時間內(nèi)便可完成這項任務(wù)。從算力的目標(biāo)和分類來看,高性能計算設(shè)計目標(biāo)是提供完備、復(fù)雜的計算能力,范疇廣闊,包含了超算,也包含了強調(diào)AI的智能計算。在國內(nèi),由于成本高昂和應(yīng)用領(lǐng)域有限,高性能計算目前主要應(yīng)用于高校、科研機構(gòu)以及大型制造業(yè)企業(yè)的研發(fā)側(cè)。南京大學(xué),北京大學(xué)、上海交通大學(xué)、南方科技大學(xué)等數(shù)十所高校均擁有自己的高性能計算平臺,作為高??蒲袆?chuàng)新的底座。這個只在科學(xué)研究領(lǐng)域發(fā)揮獨特作用的計算平臺,究竟是何樣貌?它最新的發(fā)展趨勢是什么?5月30日,《財經(jīng)十一人》來到南京大學(xué)高性能計算中心,這所歷史可以追溯到2000年的計算中心是國內(nèi)最早的高校高性能計算中心之一,它的發(fā)展和變遷是國內(nèi)高性能計算中心發(fā)展的縮影。

圖:南京大學(xué)2015年決定投入5000萬元升級高性能計算平臺。新建平臺主要采用聯(lián)想Flex X240M5刀片服務(wù)器,理論CPU計算峰值870萬億次/秒,Linpack實測值79.62%,在2017年6月發(fā)布的全球超級計算機Top500排行榜中列第284位。來源:南京大學(xué)高性能計算中心官方網(wǎng)站
南京大學(xué)的科研利器從外表上看,這是幾間普普通通的機房:數(shù)十個機柜緊密排列,幾十臺空調(diào)制冷發(fā)出的巨大的轟鳴聲顯示出機器的繁忙,也透露出年代感。南京大學(xué)從事高性能計算方面的建設(shè)始于1980年天文系的應(yīng)用需求。隨著科學(xué)技術(shù)以及教育需求的提升,各個院系也相繼開始購買服務(wù)器解決自己的計算需求。但是各個院系由于成本、人力等原因自己建設(shè)科研教學(xué)用高性能計算節(jié)點過于浪費。因此,在985工程二期的項目中,南京大學(xué)撥出了專門款項購置和更新全校所需的共享大型計算設(shè)備,力求為全校理科院系提供更強大的計算能力。南京大學(xué)高性能計算中心也因此孕育而生。南京大學(xué)高性能計算中心高級工程師盛樂標(biāo)博士介紹,南京大學(xué)高性能計算中心全系統(tǒng)共有33280個CPU核,理論浮點運算峰值1500萬億次/秒,為南京大學(xué)流體力學(xué)模擬、系統(tǒng)仿真、中大尺度氣象模式模擬等多個領(lǐng)域提供科研所需的算力支撐。南京大學(xué)在2000年配置第一臺高性能計算機,隨后又進(jìn)行了多次增建,但擴(kuò)建速度始終難以跟上科研需求的發(fā)展。隨著學(xué)校師生對高性能計算的需求日益增長,全校的計算資源缺口不斷拉大。目前我們能看到的機房,是2015年南京大學(xué)和聯(lián)想打造的二期計算平臺擴(kuò)建而來。該平臺在2017年6月發(fā)布的環(huán)球超級計算TOP500排行榜中名列第284位。六年來系統(tǒng)運行穩(wěn)定,故障率小于1%,近三年的CPU利用率大于93%。盛樂標(biāo)告訴《財經(jīng)十一人》,建超算平臺或者高性能計算平臺,效率和穩(wěn)定性是最關(guān)鍵的因素——科研計算任務(wù)有時需要歷經(jīng)數(shù)月甚至數(shù)年,因此,計算平臺除了追求計算效率,還要盡可能降低計算過程發(fā)生故障的可能性。另一個重要需求是節(jié)能。這一需求可以通過兩種可行的路徑來滿足:首先是使用軟件。包括服務(wù)器內(nèi)置的節(jié)能的軟件和開源的第三方軟件去對整個系統(tǒng)來進(jìn)行節(jié)能。舉例來說,高性能計算平臺CPU的占用通常長期維持在一個較高的水平,軟件則可以在CPU占用相對比較低的時候自動判斷,讓機器關(guān)機;其次是通過器件,即可以采用更高轉(zhuǎn)換效率的電源和低損耗的材料來構(gòu)建整個高性能計算的系統(tǒng)。高性能計算中心對南京大學(xué)在基礎(chǔ)科研方面的幫助很大。以高性能計算典型應(yīng)用場景——行星物理環(huán)境模擬為例,受限于客觀條件,對行星內(nèi)部環(huán)境和物質(zhì)的實驗觀測、研究挑戰(zhàn)巨大,有必要采用理論模擬計算。依托南京大學(xué)高性能計算中心的高性能算力,物理學(xué)院師生研究了行星內(nèi)部高壓下的新材料,且大幅提高了研究效率,目前相關(guān)成果已在Nature、Physics、PRX、NSR等國際一流學(xué)術(shù)刊物發(fā)表。地質(zhì)探測也是高性能計算的典型應(yīng)用場景,中國石油集團(tuán)東方地球物理公司數(shù)據(jù)中心原總工程師賴能和表示,高性能計算與AI技術(shù)結(jié)合大幅提升了油氣勘探效率,同時企業(yè)與高校的合作,進(jìn)一步促進(jìn)了產(chǎn)學(xué)研用融合發(fā)展。
上述案例之外,南大高性能計算中心已經(jīng)助力產(chǎn)出一批杰出科研成果,覆蓋流體力學(xué)模擬、系統(tǒng)仿真、中大尺度氣象模式模擬等多個領(lǐng)域。僅2019至2021三年,高性能計算中心超算平臺就支持了超百篇卓越學(xué)科論文的發(fā)表,并支撐學(xué)校教師承擔(dān)三十多項國家重大科研項目,在學(xué)校學(xué)科發(fā)展中,發(fā)揮了不可替代的重要作用。
高性能計算在科研領(lǐng)域至關(guān)重要在科學(xué)研究領(lǐng)域,AI for Science是近年來的新的研究風(fēng)潮。傳統(tǒng)科學(xué)計算不能滿足Ai for science的需求,高性能計算可以,AI for science的興起會提高對高性能計算的需求。所謂AI for Science,即在科學(xué)計算中引入AI的方法,來進(jìn)行科學(xué)研究——今天的通用人工智能,通過大數(shù)據(jù)、大算力和強算法,學(xué)會了沒有教過它的技能,但這些技能仍是人類已掌握的。而未來,通用人工智能則是把人類的知識壓縮給到計算機,通過新的技術(shù)和模型,繼續(xù)訓(xùn)練人工智能,從而發(fā)現(xiàn)過去人類未知的領(lǐng)域。AI for Science不僅可以幫助科學(xué)家解決已有的問題,也可以幫助科學(xué)家發(fā)現(xiàn)新的問題和方向。AI可以通過生成新的假設(shè)、設(shè)計新的實驗、提出新的問題等方式,激發(fā)科學(xué)家的創(chuàng)造力和好奇心。例如,在醫(yī)藥領(lǐng)域,微軟研究院科學(xué)智能中心(AI4Science)利用深度學(xué)習(xí)對藥物分子進(jìn)行生成和優(yōu)化,從而加速藥物開發(fā)和創(chuàng)新。在地球科學(xué)領(lǐng)域,美國國家氣象局利用AI對氣象數(shù)據(jù)進(jìn)行預(yù)測和分析,從而提高災(zāi)害預(yù)警報和應(yīng)對。目前,全球各國大學(xué)目前都在高性能計算領(lǐng)域進(jìn)行深度攻關(guān),高性能計算(HPC)、理論、實驗成為當(dāng)今高校開展科學(xué)研究的三大支柱,尤其是高性能計算,已經(jīng)成為衡量一所學(xué)校科研實力的最重要指標(biāo),高校其它各學(xué)科對高性能計算資源的依賴越來越強,需求遞增攀升。上海交通大學(xué)有“思源一號”綠色水冷高性能計算機群,總計算力為6000萬億次/秒,可實現(xiàn)42%的節(jié)能減排。類似的還有北京大學(xué)‘未名一號’,這是國內(nèi)首個大型溫水水冷高性能計算集群,理論計算峰值高達(dá)411萬億次/秒。該平臺可以為數(shù)學(xué)、力學(xué)、物理學(xué)、化學(xué)、生物學(xué)、地球科學(xué)、計算機科學(xué)等學(xué)科提供了高性能計算環(huán)境。

北京大學(xué)未名一號計算中心。圖源:企業(yè)提供。高校建高性能計算中心,是由高校進(jìn)行科研創(chuàng)新、培養(yǎng)科研人才的切實需求決定的。中國石油集團(tuán)東方地球物理公司數(shù)據(jù)中心原總工程師賴能和告訴《財經(jīng)十一人》,高性能計算有助于推動科技創(chuàng)新能力的跨越式發(fā)展,要跨越式發(fā)展就一定要使用高性能計算進(jìn)行突破。他表示,中國高性能計算已經(jīng)進(jìn)入全球第一梯隊,TOP100高性能計算機平均能力比全球TOP500平均能力高出30%。其中自主研發(fā)的集群占95%。不過,中國高性能計算整體實力仍有待提高。根據(jù)國防科技大學(xué)的統(tǒng)計數(shù)據(jù),在全球高性能計算機性能TOP50機器制造臺數(shù)上,中國雖然近年來一直保持?jǐn)?shù)量穩(wěn)步增長,但距離美國仍有較大差距。特別是2015年起,美國將多所中國高性能計算相關(guān)機構(gòu)或企業(yè),包括國防科大、無錫江南計算技術(shù)研究所、曙光等列入實體清單。
全球高性能計算機性能TOP50機器制造臺數(shù)。數(shù)據(jù)來源:《國防科技大學(xué)學(xué)報》,東吳證券研究所。圖源:東吳證券研報。
也就是說,高性能計算正在成為大國之間科技競爭的前沿。發(fā)展自主可控的高性能計算至關(guān)重要。

高校之外,高性能計算商用前景拓寬?根據(jù)國防科技大學(xué)統(tǒng)計,國內(nèi)高性能計算市場格局穩(wěn)定,聯(lián)想、曙光和浪潮分別占據(jù)市場份額前三,但是只有曙光一家擁有從硬件到軟件系統(tǒng)的國產(chǎn)自主知識產(chǎn)權(quán)。賴能和認(rèn)為,國產(chǎn)GPU要獲得大規(guī)模應(yīng)用,需要實現(xiàn)與國際主流生態(tài)的兼容,并要解決自身生態(tài)建設(shè)問題。雖然目前我們還有差距,但可以一步一個腳印地來。盛樂標(biāo)則認(rèn)為,ChatGPT帶動了AI大模型熱度居高不下,但它的熱度總有一天會降下去。新的GPT模型對硬件資源需求非常大,并且開始閉源,預(yù)示著很多應(yīng)用要建立自己的軟件生態(tài)并要持續(xù)優(yōu)化算法。通過計算方法的革新和軟件算法的優(yōu)化,以降低AI對硬件大規(guī)模數(shù)量的依賴,或許是國內(nèi)科研領(lǐng)域?qū)崿F(xiàn)彎道超車更經(jīng)濟(jì)的方法。根據(jù)東吳證券的研究,目前,我國高性能計算中心建設(shè)主要通過部省(市)合作協(xié)議確立高性能計算中心的建設(shè)計劃,國家科技部代表國家科技戰(zhàn)略對主機性能設(shè)定目標(biāo)。地方政府希望高性能計算中心能成為區(qū)域科技發(fā)展的功能載體,為其聚集人才、創(chuàng)新科技并推動經(jīng)濟(jì)發(fā)展。東吳證券2021年預(yù)計,大型高性能計算中心單個投入在 20 億元以上,按平均每年新建5個高性能計算中心來計算,政府規(guī)劃的高性能計算中心市場規(guī)模每年將達(dá)到 100 億元。除了高校和科研機構(gòu),更廣闊的使用前景理應(yīng)是在產(chǎn)業(yè)。根據(jù)第三方機構(gòu)觀研天下數(shù)據(jù),2022年中國整體高性能計算市場規(guī)?;虺?400 億元。除政府規(guī)劃外,互聯(lián)網(wǎng)巨頭、運營商和硬件制造廠商均在均積極布局高性能計算建設(shè)。隨著高性能計算的發(fā)展,尤其是使用成本的不斷下降,其應(yīng)用領(lǐng)域也從過去傳統(tǒng)的核武器研制、石油勘探、國防安全等專業(yè)領(lǐng)域向更廣泛的制藥、基因工程、動漫渲染、互聯(lián)網(wǎng)等更“平民”經(jīng)濟(jì)領(lǐng)域延伸。利用高性能算力+專業(yè)數(shù)字研發(fā)平臺+AI已經(jīng)成為了新的趨勢。吉利汽車就打造了自家的高性能計算中心,用于新車研發(fā)中碰撞試驗。不過,并不是所有企業(yè)都如此財大氣粗。在高性能計算商用前景中,成本是第一道大考。計算中心的建設(shè)成本高昂,除了后續(xù)電費運維支出,南京大學(xué)高性能計算中心2015年二期一次性建設(shè)費用為5000萬,這一價格為高校采購價格,遠(yuǎn)低于企業(yè)自建高性能計算中心所需費用。盛樂標(biāo)告訴《財經(jīng)十一人》,如果企業(yè)自建高性能計算中心,明面上的成本是購買服務(wù)器這些硬件基礎(chǔ)設(shè)施和后續(xù)每年的電費、維護(hù)費,這些投入已經(jīng)不菲;而超算建好以后,隱性的成本是軟件和人。企業(yè)使用的商用軟件非常貴,特別是一些工業(yè)軟件仍舊存在卡脖子問題,對于特殊行業(yè),甚至難以買到國外的軟件。人才也分兩種:一類是會管理的人、一類是會應(yīng)用的人。超算管理相關(guān)的人才在國內(nèi)是短缺的;至于應(yīng)用的人才,跟企業(yè)的業(yè)務(wù)密切相關(guān),也跟企業(yè)在研發(fā)上的投入力度有關(guān)。“到底企業(yè)能有多少相關(guān)的研發(fā)投入?企業(yè)能支持引進(jìn)或招聘多少大規(guī)模應(yīng)用超算平臺人才?沒有足夠的人才的投入,即使自建了超算,也發(fā)揮不出超算的價值。國內(nèi)自建超算的制造業(yè)企業(yè),一般都是需要超算幫助其產(chǎn)品更新的大型制造企業(yè),但是對于更多的企業(yè),不一定能舍得投入這么多經(jīng)費和人力來進(jìn)行研發(fā)?!笔窐?biāo)說。而如果企業(yè)選擇到外面的超算/智算中心租用資源,雖然每次使用成本會高些,但是一次性的投入就少了。不過即使是外面租用,也得是認(rèn)真做深入研發(fā)的企業(yè)才會投入。也就是說,只有極少數(shù)的企業(yè),才能有需求、有資源且有人才來采用高性能計算。因此,在未來,AI for Science將會給高性能計算帶來新的機遇和挑戰(zhàn)。巨頭企業(yè)現(xiàn)在投入高性能計算中心,更有可能獲得技術(shù)上的領(lǐng)先和突破。但是,高性能計算發(fā)展前景,尤其是商用前景仍舊需要生態(tài)圈里的各個角色的共同努力。