GPU和液冷等AI基礎(chǔ)設(shè)施需求繼續(xù)擴大

? ? ?隨著人工智能的飛速發(fā)展,其對算力和基礎(chǔ)設(shè)施的需求也在指數(shù)級增長。長期以來,CPU一直是驅(qū)動數(shù)據(jù)中心運行的主力芯片。但CPU在AI工作負載上表現(xiàn)不佳,這導(dǎo)致Meta(Facebook)等公司在AI領(lǐng)域被競爭對手超越。
? ? ?直到去年,Meta才開始優(yōu)先考慮發(fā)展生成式AI產(chǎn)品。今年2月,Meta成立了一個生成式AI高級團隊,目的是“加速”公司在該領(lǐng)域的工作。隨后,Meta開始改造其數(shù)據(jù)中心以支持GPU。這需要大量的網(wǎng)絡(luò)容量和液冷系統(tǒng)來管理熱量,以致需要“完全重新設(shè)計”。
? ? ?GPU由于在深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)訓(xùn)練方面的出色表現(xiàn),已成為AI系統(tǒng)的基石。但GPU也意味著更高的功耗和發(fā)熱,這使其部署與管理難度大幅提高。Meta購買的NVIDIA GPU芯片售價高達1萬美元,這也加重了AI基礎(chǔ)設(shè)施投資的負擔(dān)。
? ? ?Meta AI研究團隊花了5個月的時間,使用2048個NVIDIA A100 GPU,訓(xùn)練出一個新的語言模型。這證實了GPU在推動AI發(fā)展方面的關(guān)鍵作用,但也暴露出GPU供應(yīng)緊張的困境。全球GPU供應(yīng)已基本售罄,6-18個月的交貨周期,將減緩AI創(chuàng)新者開發(fā)新技術(shù)和產(chǎn)品的步伐。
? ? ?與GPU相伴生的是對液冷等散熱系統(tǒng)的需求激增。傳統(tǒng)的風(fēng)扇散熱已不足以應(yīng)對GPU的高熱發(fā)散,這使得液冷等高效散熱系統(tǒng)成為AI數(shù)據(jù)中心不可或缺的一部分。但液冷系統(tǒng)也更加復(fù)雜昂貴,這無疑加重了AI基礎(chǔ)設(shè)施投資的負擔(dān)。
? ? ?人工智能對算力和基礎(chǔ)設(shè)施的需求之巨大,令業(yè)內(nèi)難以在短時間內(nèi)完全滿足。GPU和液冷系統(tǒng)等的供應(yīng)緊張,將對AI發(fā)展產(chǎn)生一定影響與阻力。但隨著供應(yīng)商進一步擴產(chǎn),以及新技術(shù)的推出,這種狀況有望得到改善。無論如何,AI帶來的數(shù)據(jù)中心升級,注定會持續(xù)驅(qū)動這些支撐技術(shù)的高速發(fā)展與變革。
部分內(nèi)容來源:https://www.163.com/tech/article/I35FB9QR00097U7R.html