GPT訓(xùn)練一次相當(dāng)于“報廢”3000輛特斯拉,大模型到底有多燒錢?
由OpenAI自主開發(fā)的聊天應(yīng)用ChatGPT風(fēng)靡全球后,立即在全球范圍內(nèi)掀起了大模型開發(fā)的熱潮。但準(zhǔn)備參戰(zhàn)的玩家們很快便認(rèn)清現(xiàn)實(shí),這不過是一場由巨頭主宰的游戲,其中的關(guān)鍵,就是能耗。
知名計算機(jī)專家吳軍的形容并不夸張——ChatGPT每訓(xùn)練一次,相當(dāng)于3000輛特斯拉的電動汽車,每輛跑到20萬英里,約32.19萬公里。而普通家用汽車年均行駛里程在1.5萬公里左右,ChatGPT每訓(xùn)練一次,就相當(dāng)于3000輛特斯拉在一個月走完了21年的路。
即便是對大模型躍躍欲試,準(zhǔn)備“帶資入組”的大佬,也不得不掂量下:腰包里的銀兩,究竟夠花多久?
過去一年,OpenAI的總支出是5.44億美元。國盛證券估算,GPT-3的單次訓(xùn)練成本就高達(dá)140萬美元,對于一些更大的LLM(大型語言模型),訓(xùn)練成本介于200萬美元至1200萬美元之間。
其中,“大模型訓(xùn)練成本中60%是電費(fèi),”華為AI首席科學(xué)家田奇在近日一場AI大模型技術(shù)論壇上強(qiáng)調(diào),電力的降本增效已迫在眉睫。如果大模型普及,全球飛速運(yùn)轉(zhuǎn)的服務(wù)器,怕不會把地球燒了。
既然大模型訓(xùn)練的成本中,電費(fèi)占主要部分,那么究竟是哪些環(huán)節(jié)在耗電?又能如何優(yōu)化?
大模型是“電老虎”
OpenAI曾在其《AIandCompute》分析報告中指出,自2012年以來,AI訓(xùn)練應(yīng)用的電力需求每3個月到4個月就會翻一倍。根據(jù)田奇給出的數(shù)據(jù),AI算力在過去10年至少增長了40萬倍。其中,拉高AI大模型能耗的一大要因,就是參數(shù)訓(xùn)練集的規(guī)模。
OpenAI首席執(zhí)行官SamAltman在接受公開采訪時表示,GPT-3的參數(shù)量為1750億。最近發(fā)布的GTP-4?參數(shù)量是GTP-3的?20?倍,計算量是GTP-3的10倍。最快于2024?年底發(fā)布的GTP-5?,參數(shù)量將達(dá)到GTP-3的100?倍,計算量將飆升至200到400倍。
根據(jù)斯坦福人工智能研究所(HAI)發(fā)布的《2023年人工智能指數(shù)報告》,訓(xùn)練像OpenAI的GPT-3這樣的人工智能模型所需消耗的能量,足可以讓一個普通美國家庭用上數(shù)百年了。GPT-3是目前大模型中有據(jù)可查的第一大“電老虎”,耗電量高達(dá)1287兆瓦時。

數(shù)據(jù)來源:Luccioni et al., 2022,虎嗅制圖
即使是由人工智能初創(chuàng)公司?Hugging Face?搭建的更為高效的BLOOM模型,耗電量也達(dá)到433兆瓦時,足以為一個普通美國家庭供電41年。
參數(shù)訓(xùn)練集的規(guī)模,是拉高大模型能耗的主要因素。其中AI處理器和芯片,是產(chǎn)生能耗最主要的地方,一位信息和通信技術(shù)從業(yè)者告訴虎嗅,CPU?和GPU?的功耗通常占服務(wù)器整機(jī)的80%。不過和普通服務(wù)器750W到1200W的標(biāo)準(zhǔn)功耗相比,AI服務(wù)器由于配置多個系統(tǒng)級芯片,在運(yùn)行AI模型時會產(chǎn)生更多的能耗。
以英偉達(dá)DGX A100服務(wù)器為例,搭載8顆A100 80GB GPU,最大系統(tǒng)功耗達(dá)到6500W,外形尺寸為6U,考慮42U的標(biāo)準(zhǔn)機(jī)柜,則單機(jī)柜可放置7個DGX A100服務(wù)器,對應(yīng)功耗為45.5KW。
按照ChatGPT在今年1月日均1300萬的UV標(biāo)準(zhǔn),OpenAI需要3萬多張A100 GPU,初始投入成本約為8億美元,折算下來的電費(fèi)每天是5萬美元左右。
“如果大模型的使用者越來越多,為了保證時延,需要追加服務(wù)器訂單,來提供更多的基礎(chǔ)算力。假設(shè)有10萬用戶的并發(fā)計算量,差不多要30萬到40萬張GPU才夠?!蹦愁^部數(shù)據(jù)中心業(yè)務(wù)負(fù)責(zé)人推算道。
數(shù)據(jù)顯示,ChatGPT的總算力消耗約為3640PF-days,這需要七到八個投資規(guī)模30億、算力為500P的數(shù)據(jù)中心才能支撐運(yùn)行。根據(jù)半導(dǎo)體行業(yè)資訊機(jī)構(gòu)SemiAnalysis估算,未來如果讓ChatGPT承擔(dān)谷歌搜索的全部訪問量,至少也需要410萬張英偉達(dá)A100 GPU。

OpenAI訓(xùn)練其模型所需的云計算基礎(chǔ)設(shè)施規(guī)模是前所未有的,比業(yè)內(nèi)任何人試圖構(gòu)建的GPU算力集群都要龐大
目前,微軟在六十多個Azure數(shù)據(jù)中心部署了幾十萬張GPU,為ChatGPT提供超強(qiáng)算力。作為OpenAI最大的投資方,微軟拿到了云計算基礎(chǔ)設(shè)施的獨(dú)家供應(yīng)權(quán),并開始下一代AI超級計算機(jī)的開發(fā)工作當(dāng)中,數(shù)萬張英偉達(dá)A100 GPU以及新一代H100 GPU都將被導(dǎo)入其中。
前所未有的算力規(guī)模,連業(yè)內(nèi)專家都在感慨,這是一件多么瘋狂的事。
AI引發(fā)新技術(shù)革命
瘋狂的事,催生更瘋狂的想象力。
眼下,就連呼吁暫停大模型開發(fā)的馬斯克,也要打造“推特版的ChatGPT”了。
根據(jù)美國知名科技媒體Business Insider?報道,馬斯克已經(jīng)購買了一萬塊GPU,通過生成式的AI大模型和海量數(shù)據(jù),強(qiáng)化推特的搜索功能并幫助其廣告業(yè)務(wù)重整旗鼓。
作為OpenAI的早期投資人,外界一直對馬斯克抵制AI發(fā)展的態(tài)度半信半疑。就在本月初,網(wǎng)絡(luò)上還有傳言稱馬斯克將在半年后打造比GPT4更強(qiáng)大的大模型。
更有傳言稱,馬斯克計劃通過SpaceX把超級計算機(jī)搬到太空上,目的是節(jié)約制冷和耗能。且不論這件事的真假,看起來倒是個好點(diǎn)子。

截圖來自網(wǎng)絡(luò)
打造太空數(shù)據(jù)中心,似乎能享有得天獨(dú)厚的資源稟賦:24小時天然低溫散熱,全年無限量太陽能,而且全部都免費(fèi)。那么這個絕妙的創(chuàng)意,到底靠不靠譜?
一位民營商業(yè)航天專家否定了這個想法,他告訴虎嗅,太空超低溫環(huán)境確實(shí)不假,但很多人忽略了一個基本的物理常識,那就是所有熱量的交換都是靠分子運(yùn)動實(shí)現(xiàn)的。而太空環(huán)境趨近于真空,所含物質(zhì)過于稀少,因此,“雖然溫度低,但是導(dǎo)熱慢,自然散熱條件其實(shí)遠(yuǎn)不如地面?!?/p>
其次,目前衛(wèi)星太陽能帆板的供電系統(tǒng)普遍功率只有1200W,無論是電力供應(yīng)還是成本,地面光伏解決方案都有絕對的優(yōu)勢。
另外,訓(xùn)練大模型需要大量的數(shù)據(jù)輸入和輸出,這要求服務(wù)器具備超高的網(wǎng)絡(luò)帶寬能力。太空信息基礎(chǔ)設(shè)施提供商艾可薩聯(lián)合創(chuàng)始人王瑋認(rèn)為,數(shù)據(jù)中心作為網(wǎng)絡(luò)互聯(lián)底座,保證數(shù)據(jù)傳輸?shù)姆€(wěn)定性和速率至關(guān)重要。但就目前來看,“即便消耗星鏈全部的帶寬,都未必都能保證大模型訓(xùn)練所需的數(shù)據(jù)實(shí)時傳輸需求?!?/p>
當(dāng)然,還有一些革命性的技術(shù)創(chuàng)新被ChatGPT帶火,中科創(chuàng)星創(chuàng)始合伙人米磊表示,最典型的就是光子技術(shù)。比如具備高算力、低能耗優(yōu)勢的光電共封裝(CPO)技術(shù)。簡而言之就是將光器件和交換芯片封裝在一起,為暴漲的算力需求提供了一種高密度、高能效、低成本的高速互連解決方案。
米磊認(rèn)為,本輪大模型領(lǐng)域的熱潮代表了“AI技術(shù)的發(fā)展進(jìn)入了全新階段”。作為一種用光進(jìn)行運(yùn)算的芯片,其耗電量僅占同等級電子芯片的六分之一。隨著人工智能不斷發(fā)展,訓(xùn)練、運(yùn)行這些產(chǎn)品需要的算力水平也越來越高,行業(yè)對高速率、低能耗的光芯片也越發(fā)期待。
截至目前,中科創(chuàng)星在光電領(lǐng)域累計投資了超過150家企業(yè)。早在2016年米磊就提出,光是人工智能的基礎(chǔ)設(shè)施,光子是新一代信息技術(shù)基石的理念。“喊了這么多年,冷門的技術(shù)終于被ChatGPT帶火了?!弊罱壥袌錾瞎庑酒嚓P(guān)股票的大漲也體現(xiàn)出了這一點(diǎn)。這種偶然性,在米磊看來是必然趨勢。
著眼于當(dāng)下,降低AI模型整體能耗、節(jié)省電費(fèi)開支的主要方式,依然是想辦法提高數(shù)據(jù)中心的散熱效率。中金公司認(rèn)為,以液冷技術(shù)為代表的主動散熱技術(shù)有望憑借優(yōu)良的散熱性能被更多地采用。
相較于傳統(tǒng)的風(fēng)冷系統(tǒng),液冷系統(tǒng)直接將熱負(fù)荷傳遞至冷凍水系統(tǒng)中,制冷效率更高且占地更小,能夠提升服務(wù)器的使用效率及穩(wěn)定性,滿足高功率密度機(jī)柜的散熱要求。
例如英偉達(dá)HGX A100采用的直接芯片(Direct-to-Chip)冷卻技術(shù),在機(jī)架內(nèi)直接整合液冷散熱系統(tǒng),取代傳統(tǒng)的風(fēng)冷系統(tǒng)散熱,實(shí)測消耗的能源減少了約30%。而液冷數(shù)據(jù)中心的PUE(電源使用效率)能達(dá)到1.15,遠(yuǎn)低于風(fēng)冷的PUE 1.6。
隨著大模型對算力的渴求,市場對高性能芯片的需求還將進(jìn)一步提升。新思科技全球資深副總裁兼中國董事長葛群就曾表示,到2025年全球數(shù)據(jù)中心占整個全球用電量將要提升到全球的20%?!耙虼?,在全球最領(lǐng)先的科技公司中,最重要的一項技術(shù)方向就是如何能夠使他們的數(shù)據(jù)中心能耗降低,成本降低。”
早在7年前,作為全球EDA(電子設(shè)計自動化)和半導(dǎo)體IP領(lǐng)域龍頭的新思科技就啟動了一項叫做“高能效設(shè)計”的項目,將芯片的能效最大化。
這種能耗管理的邏輯是,數(shù)據(jù)中心有多塊芯片,每個芯片上有幾十億甚至上百億的晶體管,一個晶體管,相當(dāng)于一個用電單位,以此推斷,一顆指甲蓋大小的芯片,就是一個規(guī)模龐大的能源網(wǎng)絡(luò)。如果能夠?qū)⒚總€晶體管的能耗優(yōu)化,那么最后的節(jié)能就能輻射到整個數(shù)據(jù)中心。
一位資深分析師人士坦言,市場大可不必對大模型的能耗問題過度擔(dān)憂。“很多人忽略了一個事實(shí),那就是大模型對算力的需求未來必然會逐漸下降,這意味著能耗也會相應(yīng)降低。”例如,微軟剛剛宣布開源的DeepSpeed-Chat就充分印證了這一點(diǎn)。
據(jù)了解,DeepSpeed-Chat是基于微軟?DeepSpeed?深度學(xué)習(xí)優(yōu)化庫開發(fā)而成,具備訓(xùn)練、強(qiáng)化推理等功能,并使用了RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))技術(shù),可將訓(xùn)練速度提升15?倍以上,算力成本大大降低。比如,僅憑單個?GPU就能支持一個130億參數(shù)的類ChatGPT模型,訓(xùn)練時間也只需要?1.25?小時。
與此同時,該分析師補(bǔ)充說,未來算力的分布結(jié)構(gòu)一定會朝著分布式、去中心化的方式演進(jìn),即訓(xùn)練過程在云端完成,在邊緣和端側(cè)重推理。“而不會像現(xiàn)在一樣,所有的壓力全部由超算中心承擔(dān)。”