“百模大戰(zhàn)”下算力租賃需求猛增,超算架構(gòu)為大模型訓練提速
“百模大戰(zhàn)”下大模型算力需求猛增。北京超級云計算中心計劃今年下半年起陸續(xù)上線3萬余張滿足大模型訓練場景用的GPU卡,搭建超算架構(gòu)大模型算力矩陣;并組建一支7×24小時技術(shù)服務團隊?!霸谖磥淼氖袌龈偁幧?,誰能把可用的資源變成好用的資源,誰就會在市場上勝出。”

北京超級云計算中心機房。
算力是當代生產(chǎn)力,超級計算也被稱為高性能計算,同時使用幾十臺甚至幾千臺服務器這樣龐大的算力資源共同完成一個計算任務。人工智能大模型的爆發(fā)讓算力需求陡增。
“目前主流的大模型訓練是超算使用模式,超算相比云計算更加貼合大模型訓練場景,服務器之間的計算帶寬配比更大,是目前主流云計算環(huán)境中的計算網(wǎng)絡(luò)帶寬的數(shù)十倍,數(shù)據(jù)傳輸效率要求更高。”2023世界人工智能大會期間,北京超級云計算中心CTO甄亞楠對澎湃科技(www.thepaper.cn)表示,北京超級云計算中心當前可調(diào)度超100萬CPU核心、超2萬張基于超算架構(gòu)的大模型GPU算力卡。今年下半年起,北京超級云計算中心計劃陸續(xù)上線3萬余張適用大模型訓練場景用的GPU卡,滿足國產(chǎn)大模型研發(fā)需求,構(gòu)建算力生態(tài)。
北京超級云計算中心(下稱“北京超算”)成立于2011年,是在北京市人民政府指導下“院市”共建的國家重要信息化基礎(chǔ)平臺,坐落于北京市懷柔綜合性國家科學中心懷柔科學城,成立之初主要為北京市提供在線算力資源,已在北京、內(nèi)蒙古、寧夏布局三大算力樞紐。
計劃陸續(xù)上線超3萬余張GPU滿足大模型訓練
算力是人工智能大模型訓練的核心生產(chǎn)力,GPT-4等大模型成功的背后有著萬張訓練卡的計算資源支撐,大模型爆發(fā)直接帶來了算力需求陡增。北京超級云計算中心營銷總監(jiān)王永旭切身感受到了大模型爆發(fā)帶來的“顛覆性”算力業(yè)務。在大模型興起前,他所在的單位算力客戶小而散,以科研院所為主;大模型流行后,AI算力需求猛增,客戶主要為AIGC(生成式人工智能)企業(yè),“ChatGPT的盛行為市場打了一劑強心針。”

北京超級云計算中心CTO甄亞楠。
北京超級云計算中心CTO甄亞楠介紹,“從客戶需求情況來看,現(xiàn)在大模型單次訓練任務基本上都需要幾百張甚至幾千張GPU卡做計算加速,同時需要長周期、穩(wěn)定可靠的計算環(huán)境,保障計算任務不中斷?!彼硎?,相對于大型科技公司,科研院所和初創(chuàng)企業(yè)的資金實力較弱,建設(shè)算力中心的投入高,因此平衡算力成本是重要考量。如果要新建1000張GPU卡的算力規(guī)模,包括服務器、交換機、存儲、運營等相關(guān)資金投入就需要2億元甚至更多。與此同時,目前國內(nèi)仍處于缺卡狀態(tài),“各大服務器廠商要拿到新的GPU卡資源,預計供貨周期都在半年以上,算力卡供不應求的情況應該會一直持續(xù)到至少明年年初。”
市場對于人工智能算力的需求旺盛。甄亞楠表示,北京超算具備天然的“技術(shù)基因”,目前可調(diào)度超100萬CPU核心、超2萬張基于超算架構(gòu)的大模型GPU算力卡。從今年7月起,北京超算計劃上線11720余張英偉達A800算力卡,以及19000余張英偉達H800算力卡??傮w來看,從今年下半年起,北京超算將總計上線超3萬張滿足大模型訓練場景用的GPU卡。
北京超算將符合推理與訓練的算力資源通過云服務方式共享給用戶,用戶通過租賃方式遠程訪問算力資源。在甄亞楠看來,這種算力使用方式性價比高,用戶無需自建算力中心就能獲得穩(wěn)定可靠的計算資源,節(jié)省使用成本,縮短計算時長,提高效率。相對于企業(yè)根據(jù)產(chǎn)品研發(fā)需求自建算力中心形成算力使用的波峰和波谷,算力服務商提供彈性算力,拉平算力需求,不浪費算力資源。
把可用的算力資源變成好用的算力資源
“我們最近看到一些大模型的訓練需求,服務器之間的互聯(lián)網(wǎng)帶寬一般要求達到3200Gbps,但主流的云計算服務器之間的網(wǎng)絡(luò)帶寬在200Gbps,相差十幾倍。如果環(huán)境配置和用戶需求無法統(tǒng)一,用戶的模型要么跑不起來,要么運行效果大打折扣?!闭鐏嗛f,目前主流的大模型訓練是超算使用模式,比如一個模型需要用數(shù)百甚至千張卡連續(xù)計算兩個月或者更久,超算則是把多臺服務器進行統(tǒng)一管理和調(diào)度,實現(xiàn)高性能計算。大模型訓練正是需要超算這種多臺服務器并行的模式,而非傳統(tǒng)云計算所采用的虛擬化共享模式。相比云計算,超算更加貼合大模型訓練場景,服務器之間的計算帶寬配比更大,是目前主流云計算環(huán)境中的計算網(wǎng)絡(luò)帶寬的數(shù)十倍,數(shù)據(jù)傳輸效率要求更高。
根據(jù)王永旭的觀察,大模型算力客戶在選擇算力服務商時,主要關(guān)注GPU卡的型號、卡間互聯(lián)、節(jié)點間互聯(lián)、是否為超算架構(gòu)的物理集群。大模型單次訓練需要上百張甚至幾千張卡,因此通訊非常重要,它會極大影響訓練的速度。用于大模型訓練的芯片必須是卡間互聯(lián)大、節(jié)點間互聯(lián)好的集群,這就好比高速公路暢通無阻、不堵車。
北京超算通過算力預測判斷用戶真正需要的算力資源,基于算力選型首先保證用戶擁有可用的算力資源。甄亞楠表示,在解決可用以后要考慮如何讓算力更好用,“我們?yōu)橛脩籼峁┑牟皇菃我患夹g(shù)、單一資源,而是一套滿足用戶綜合發(fā)展需求的行業(yè)解決方案。通過7×24專家服務、平臺預置AI主流框架、常用數(shù)據(jù)集等方式,滿足用戶在算力使用中方方面面的需求?!睘閷崿F(xiàn)算力資源的好用,北京超算在提供算力資源基礎(chǔ)上組建了一支7×24小時技術(shù)服務團隊,針對模型框架的安裝、部署、優(yōu)化以及長時間運行的保障訴求等提供在線技術(shù)支持,讓終端用戶輕松調(diào)度算力資源。
“在未來的市場競爭上,誰能把可用的資源變成好用的資源,誰就會在市場上勝出?!闭鐏嗛硎?,目前北京超算已服務國內(nèi)超20萬用戶,包括1000多家企業(yè),并為北京智源人工智能研究院、智譜AI等單位提供大模型預訓練所需的基于超算架構(gòu)的GPU算力資源。
搭建算力網(wǎng)絡(luò)期望GPU算力全國調(diào)度
今年5月,中國科學技術(shù)信息研究所發(fā)布的《中國人工智能大模型地圖研究報告》顯示,中國10億參數(shù)規(guī)模以上的大模型已發(fā)布79個。“我們希望以超算架構(gòu)支撐大模型算力應用,成為超算架構(gòu)大模型算力領(lǐng)跑者,不管是基于當前的大模型訓練,還是未來可能會進一步爆發(fā)的模型推理?!闭鐏嗛硎荆凇鞍倌4髴?zhàn)”之下,需要分析行業(yè)的真正痛點,考慮未來芯片、算力規(guī)模、業(yè)務場景的發(fā)展趨勢。
大模型所需的算力分為兩類,一類是訓練算力,一類是推理算力。訓練是一個計算密集型的學習過程,每一次訓練可以提升模型的精準度,如果計算結(jié)果沒有達到預期,就需要調(diào)整參數(shù)重新訓練,直到達到預期。一旦模型精準度達到一定水準后,就會產(chǎn)生推理需求。推理是一個判斷過程,基于訓練好的模型,每次喂新數(shù)據(jù),產(chǎn)生更多的預測結(jié)果。
甄亞楠表示,大模型訓練的參數(shù)多、循環(huán)次數(shù)多,單次訓練的算力需求大,而推理的判斷邏輯相對固定,單次算力需求較小,當推理的并發(fā)量提升,也會提高推理的算力需求。目前國內(nèi)大模型仍處于發(fā)展初期,大模型企業(yè)百舸爭流,發(fā)力點主要集中在大模型訓練上,因此訓練算力緊缺?!艾F(xiàn)在我們面向大模型訓練是提供基于超算架構(gòu)的算力資源,面對推理以及小規(guī)模的測試驗證,我們也提供基于云計算的算力資源,兩條腿走路?!?/p>
為了更好地支持人工智能產(chǎn)業(yè)發(fā)展,王永旭表示,北京超算除了部署算力資源,也在全國搭建算力網(wǎng)絡(luò),以實現(xiàn)GPU算力全國調(diào)度的目標。此外參與到大模型用戶的MaaS(模型即服務)推廣中,計劃集成算力、模型和用戶端數(shù)據(jù),為用戶提供基于大模型基座的人工智能解決方案。
“中長期內(nèi),我們關(guān)注國產(chǎn)算力以及國產(chǎn)大模型研發(fā)需求,希望構(gòu)建完善的算力生態(tài),一方面建設(shè)滿足行業(yè)需求的算力資源,提供算力共享、性能評測、應用場景支撐等服務,另一方面推動算力供應多元化,既提供通用GPU芯片,也提供國產(chǎn)芯片,解決供需失衡問題?!闭鐏嗛硎荆本┏銓⒁劳?2年超算技術(shù)積淀和超算架構(gòu)大模型算力矩陣,持續(xù)領(lǐng)跑大模型算力建設(shè),以超算云服務模式實現(xiàn)海量算力資源隨需供應,為大模型訓練需求提供一站式解決方案。

稿件來自澎湃科技 作者張靜