數(shù)據(jù)中心的能耗焦慮, 到底有沒有最優(yōu)解?

算力正在進入“基建化”的時代。
幾年前的時候,每當電商大促、春晚紅包等節(jié)點,宕機和救火幾乎是從不缺席的戲份。近兩年卻是另一番景象:即便是在618大促這樣的流量波峰,大多數(shù)電商平臺都頂住了高并發(fā)的壓力,背后離不開算力的迅猛增長。
正如中國信通院在一份研究報告中所揭示的:2016年到2020年期間,中國的算力規(guī)模平均每年增長42%,其中2020年的算力總規(guī)模已經(jīng)達到135EFlops,并仍在保持55%的高速增長。
只是算力高速增長的同時,也帶來了新的問題。
01 計算與散熱的“零和博弈”
對于不少人來說,“計算”早已不是什么新概念。每一次打開“綠碼”、每一次視頻會議、每一次搜索點擊……都離不開數(shù)據(jù)中心的處理計算?!坝嬎恪痹谌粘I钪械臒o縫滲透,勾勒出了多彩的數(shù)字世界。
可當計算量越來越大,產(chǎn)生的功耗也隨之增大。以全球最為知名的預訓練大模型GPT-3為例,一次訓練要消耗巨量的算力,需要消耗約19萬度的電力,產(chǎn)生85萬噸的二氧化碳,將其形容為“耗電怪獸”絕不為過。
倘若這些電力用在了“計算”本身,或許不是什么壞消息。畢竟在數(shù)字經(jīng)濟的時代,有一個著名的經(jīng)濟學解釋,即算力上每投入一元,將帶動3-4元的經(jīng)濟產(chǎn)出,“性價比”遠高于傳統(tǒng)的農(nóng)牧業(yè)和工業(yè)生產(chǎn)。
現(xiàn)實的情況卻并不樂觀。根據(jù)開源證券研究所的統(tǒng)計結(jié)果,一個數(shù)據(jù)中心的能耗分布中,散熱系統(tǒng)的占比高達40%。也就是說,數(shù)據(jù)中心每耗費一度電,只有一半用在了“計算”上,其他的則浪費在了散熱、照明等方面。計算和散熱幾乎陷入了一場零和博弈,計算量越大散熱消耗的電量越大,如果不消耗足夠的能源提高散熱能力,將直接影響數(shù)據(jù)中心的性能、密度和可靠性。

行業(yè)內(nèi)也由此流行起了PUE的概念,即電源使用效率,用來測算數(shù)據(jù)中心消耗的所有能源與IT負載消耗的能源的比值,被視為評價數(shù)據(jù)中心能源效率的重要指標,PUE值越接近1,表明非IT設(shè)備的耗能越少,數(shù)據(jù)中心的能效水平越高。目前國內(nèi)大型數(shù)據(jù)中心的平均PUE值為1.55,超大型數(shù)據(jù)中心平均PUE值也只有1.46。
2020年時國內(nèi)數(shù)據(jù)中心的用電量已經(jīng)超過2000億千瓦時,占到了用電總量的2.7%,預計2023年數(shù)據(jù)中心的能耗就將超過2500億千瓦時,2030年時將超過4000億千瓦時,用電量占比也將上升到3.7%。就這個角度而言,解決數(shù)據(jù)中心的能耗問題,已經(jīng)是擺在案前的棘手挑戰(zhàn)。
工信部在《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》中,對數(shù)據(jù)中心的PUE進行了明確規(guī)定:2021年底新建大型及以上數(shù)據(jù)中心的PUE降低到1.35以下,到2023年時要低于1.3。北京、深圳等城市也對新建數(shù)據(jù)中心提出了嚴格要求,其中深圳已經(jīng)發(fā)文鼓勵PUE值低于1.25的數(shù)據(jù)中心。
聯(lián)想到“碳達峰與碳中和”的時代背景,低PUE的“綠色計算”已經(jīng)是不爭的趨勢。淘汰掉高耗能的組件,升級算力高、空間節(jié)省、碳排放低的新組件,已經(jīng)是很多數(shù)據(jù)中心無法規(guī)避的現(xiàn)實問題。
02 被捧上神壇的“液冷”技術(shù)
在算力正在重塑產(chǎn)業(yè)格局的機遇面前,數(shù)據(jù)中心已然是無法拒絕的剛需,為數(shù)不多的選擇在于提高算力效率并降低能耗,而能否找到新的散熱方案,逐漸成為計算產(chǎn)業(yè)上下游必須應對的課題。
傳統(tǒng)的散熱方案以風冷為主,即將空氣作為冷媒,把服務器主板、CPU等散發(fā)出的熱量傳遞給散熱器模塊,再利用風扇或空調(diào)制冷等方式將熱量吹走,也是散熱系統(tǒng)消耗數(shù)據(jù)中心近半電力的主要誘因。
當PUE值被嚴格限定,綠色計算漸漸深入人心的時候,上世紀80年代就開始嘗試的“液冷”技術(shù),迅速成了產(chǎn)業(yè)上下游的新焦點。其實“液冷”技術(shù)的原理并不復雜,簡單來說就是利用礦物油、氟化液等絕緣低沸點的冷卻液作為冷媒,通過熱交換將服務器的熱量排出,并演變出了冷板式、噴淋式、浸沒式等多種散熱方案。

看似只是“冷媒”的改變,卻為數(shù)據(jù)中心的節(jié)能降耗帶來了諸多可能:
比如風冷熱傳導存在過程復雜、熱阻總和大、換熱效率較低等痛點,在很大程度上制約了數(shù)據(jù)中心的算力密度,并且常常會產(chǎn)生很大的噪聲。液冷技術(shù)所呈現(xiàn)出的節(jié)能降耗、減少噪聲、節(jié)約空間的特性,不可謂不誘人。
一個直接的例子就是普渡大學的Bell集群,10個機架的戴爾PowerEdge C6525 服務器直接浸沒在冷卻液中,運行時產(chǎn)生的熱量直接被冷卻液吸收,PUE最低可以降到1.05左右,散熱所需的功耗比傳統(tǒng)方案降低了90%以上。
再比如風冷想要提高散熱能力,最“簡單粗暴”的做法就是提高風扇轉(zhuǎn)速,可把熱量帶出去的同時,風扇和硬盤間也會形成大的漩渦,不規(guī)則的湍流可能會影響硬盤的讀寫能力,甚至會因為磁頭震動導致硬盤報廢。
液冷技術(shù)近乎完美地規(guī)避了這些不利因素,由于液冷方案是一個相對靜止的環(huán)境,可以有效降低由空氣、灰塵和震動引起的硬件產(chǎn)品故障率,且數(shù)據(jù)中心始終在低溫環(huán)境中運行,極大地提升了內(nèi)部電子元器件的使用壽命。
可以看到的是,液冷技術(shù)的出現(xiàn)和應用,在很大程度上讓計算和散熱跳出了“囚徒困境”,對風冷降維打擊的綜合優(yōu)勢,也讓液冷技術(shù)被不少人捧上神壇。然而和很多新技術(shù)一樣,液冷方案同樣存在天然短板:冷卻液的價格堪比茅臺,無形中增加了散熱的硬性成本;液冷技術(shù)對數(shù)據(jù)中心的機房環(huán)境要求苛刻,重新改造的成本較高;液冷技術(shù)降低了PUE,運營成本卻難言優(yōu)勢……
液冷是各種散熱方案中毋庸置疑的翹楚,卻也要考慮到現(xiàn)實的考量。
03 戴爾科技給出的最優(yōu)解
就像國家發(fā)改委等部委在年初啟動的“東數(shù)西算”工程,目的是將東部的算力需求轉(zhuǎn)移到西部,堪比“南水北調(diào)”的工程量。除了國內(nèi)東西部電力資源的不平衡,一個重要的因素就是對自然冷源的利用。
有機構(gòu)曾經(jīng)估算,即使是在現(xiàn)有的散熱方案下,即使按照工業(yè)平均電價每千瓦時0.5元來計算,數(shù)據(jù)中心所在地的氣溫每降低1℃,10萬臺服務器的標準數(shù)據(jù)中心機房每天可節(jié)約9.6萬元的電費。
這樣的舉措無疑向外界傳遞了一個清晰的信號:在液冷技術(shù)的價格居高不下的局面下,不可能在短時間內(nèi)徹底取代風冷,現(xiàn)階段需要的仍然是多元化的散熱方案。挑戰(zhàn)其實留給了大大小小的IT廠商,到底是All in 理想化的液冷,還是根植市場的現(xiàn)實訴求,推出多樣性的解決方案?
在服務器市場牢牢占據(jù)一席之地的戴爾科技,已經(jīng)給出了自己的答案。
外界普遍將風冷打入“冷宮”的時候,戴爾并未放棄風冷散熱的技術(shù)創(chuàng)新,一邊利用最佳的計算流體動力學CFD氣流模擬技術(shù)來優(yōu)化系統(tǒng)設(shè)計,一邊推出了將數(shù)據(jù)中心的溫暖廢氣循環(huán)到主空氣調(diào)節(jié)的新風(Fresh Air)系統(tǒng),結(jié)合最新的空氣輸送解決方案和先進的軟件控制算法,刷新了風冷能耗的“成績單”。

比如新一代戴爾PowerEdge系列產(chǎn)品R750,通過合理的散熱布局減少過多氣流,讓服務器的散熱能效比前代產(chǎn)品提高了60%,大大降低了工作流程中的能源消耗,同時避免了因過熱導致服務器宕機、業(yè)務中斷的尷尬。
哪怕是“傳統(tǒng)”的風冷散熱,戴爾的Fresh Air硬件冷卻解決方案也讓外界看到了新可能:在冬季為建筑設(shè)施提供“免費”的熱量,在溫暖月份直接將外部空氣吸入數(shù)據(jù)中心,通過減少運行冷水機時間等方式,進一步降低了服務器的運營管理成本,PUE值同樣有機會降低到1.05的水平。
而對于CPU功率超過150w的需求,戴爾科技針對不同的場景提供了冷板式和浸沒式兩種液冷技術(shù):前者對應的例子有Triton液體冷卻系統(tǒng),將冷卻液直接放入服務器sled冷卻CPU,不僅帶來了最高的冷卻效率,還降低了冷卻液的用量;PowerEdge C6520則是后者的典型代表,以閉環(huán)水流取代典型的金屬散熱器,使服務器能夠同時支持高功率處理器和更高的機架密度。

戴爾科技的答案并不復雜,相比于對某種技術(shù)的過度依賴,戴爾科技的策略是針對客戶需求提供不同散熱方案的產(chǎn)品,再通過統(tǒng)一能耗管理軟件OpenManage Power Center,提高了客戶對服務器功耗的可見性和控制性,繼而幫助客戶低成本、自動化、智能化地應對各種能耗事件,找到適合自己的最優(yōu)解。
04 寫在最后
根據(jù)賽迪顧問的預測,2025年中國浸沒式液冷數(shù)據(jù)中心的市場規(guī)模將超過526億元,市場份額有望突破40%。
站在行業(yè)的立場上,液冷散熱的高速普及不失為一個好消息??蓪σ延械臄?shù)據(jù)中心運營者來說,綠色計算是一件等不得的事,存量的數(shù)據(jù)中心也需要提高散熱能力,找到性能和散熱間的新平衡;對于一些追求“性價比”的客戶,降低PUE的渠道不應只有液冷散熱一種,而是適合自己的產(chǎn)品和方案。
沿循這樣的邏輯,提供多樣化解決方案的戴爾科技,及其深入市場需求的理性思考,不失為借鑒和學習的對象。