GPU短缺:人工智能行業(yè)的可持續(xù)發(fā)展問題
原創(chuàng) |文 BFT機器人

2023年8月,人工智能似乎會受到GPU供應的瓶頸。
“人工智能熱潮被低估的一個原因是GPU/TPU短缺。這種短缺導致了產(chǎn)品推出和模型培訓的各種限制,但這些都不明顯。相反,我們看到的是英偉達的股價飆升。一旦供給滿足需求,事情就會加速發(fā)展?!薄狝dam D’angelo, Quora首席執(zhí)行官,Poe.com,前Facebook首席技術(shù)官
01
GPU是造成人工智能發(fā)展的瓶頸嗎?
埃隆·馬斯克表示:“在這一點上,GPU比藥物要難得多。”Sam Altman說OpenAI的GPU有限的,它推遲了他們的短期計劃。
小型和大型云提供商的大規(guī)模H100集群的容量正在耗盡。
“每個人都希望英偉達能生產(chǎn)更多的A/H100”——來自云提供商高管的消息
“我們的gpu太少了,使用我們產(chǎn)品的人越少越好”
“如果他們少使用我們的產(chǎn)品我們就會很高興,因為我們沒有足夠的GPU”——Sam Altman, OpenAI的首席執(zhí)行官
簡而言之:是的,H100 gpu存在供應短缺。有人告訴我,對于那些需要100個或1000個H100的公司來說,Azure和GCP實際上已經(jīng)沒有容量了,AWS也快不行了。
這種“容量不足”是基于Nvidia給他們的分配。
02
GPU的供需情況,誰需要/擁有Has1000 + H100或A100
??初創(chuàng)公司
OpenAI (Azure), Anthropic, Inflection (Azure與CoreWeave), Mistral AI
??CSP(云服務提供商)
三大巨頭:Azure、GCP、AWS
其它公共云:Oracle
大型私有云:如CoreWeave, Lambda
? 其他大公司
Tesla
對于使用私有云的公司(CoreWeave, Lambda),擁有數(shù)百或數(shù)千H100的公司,幾乎都是大型語言模型LLM,一些擴散模型可以工作。其中一些是對現(xiàn)有模型的微調(diào),但大多數(shù)是你可能還不知道的新初創(chuàng)公司,他們正在根據(jù)H100 GPU的需求構(gòu)建新模型。他們在3年內(nèi)將使用幾百到幾千個GPU。
對于使用按需H100和少量GPU的公司來說,它仍然可能有>50%的LLM相關(guān)使用。
03
人們需要哪種GPU?
主要是H100s。為什么?無論是為LLM的推理還是訓練,它都是最快的。(H100在推理方面的性價比也是最好的)
04
訓練LLM最常見的需求是什么?
3.2Tb/s 無限帶寬的H100。
05
企業(yè)LLM訓練和推理的需求是什么?
對于訓練,他們傾向于要H100,對于推理,更多的是關(guān)于每美元的表現(xiàn)。
H100和A100仍然是一個性價比問題,但H100通常更受青睞,因為它們可以使用更多的GPU進行更好的擴展,并提供更快的訓練時間,并且加快/壓縮啟動或訓練或改進模型的時間對初創(chuàng)公司來說至關(guān)重要。
“對于多節(jié)點培訓,他們都要求配備無限帶寬的A100或H100。我們只看到非A/H100請求是針對單GPU或單節(jié)點工作負載的推斷?!?——私有云執(zhí)行官
“H100是首選,因為它的效率高達3倍,但成本只有(1.5-2倍)。結(jié)合整體系統(tǒng)成本,H100每美元的性能要高得多(如果您查看系統(tǒng)性能,每美元的性能可能要高出4-5倍)”——深度學習研究員
06
市場上除了Nvidia,還有AMD,是什么原因令LLM公司不怎么使用AMD GPU?
“從理論上講,一家公司可以購買一堆AMD的GPU,但要讓所有的東西都工作起來需要時間。開發(fā)時間(即使只有2個月)可能意味著比競爭對手更晚進入市場。所以CUDA現(xiàn)在是英偉達的護城河。”——私有云執(zhí)行官
“誰會冒險部署1萬塊AMD GPU或1萬塊隨機初創(chuàng)公司的芯片呢?那幾乎是3億美元的投資?!?——私有云執(zhí)行官
“MosaicML/MI250 -有人問過AMD的可用性嗎?AMD似乎并沒有為Frontier開發(fā)出他們需要的產(chǎn)品,現(xiàn)在臺積電的CoWoS產(chǎn)能被英偉達吸走了。MI250可能是一個可行的選擇,但不可獲得?!薄诵莅雽w行業(yè)專業(yè)人士
07
市場上除了Nvidia,還有AMD,是什么原因令LLM公司不怎么使用AMD GPU?
16位推理快3.5倍,16位訓練快2.3倍。



大多數(shù)人會想購買H100并將其用于訓練和推理,而將他們的A100轉(zhuǎn)換為主要用于推理。但是,有些人可能會因為成本、容量、使用和設置新硬件的風險以及他們現(xiàn)有的軟件已經(jīng)針對A100進行了優(yōu)化而猶豫不決。
08
H100, GH200s, DGX GH200s, HGX H100和DGX H100之間的區(qū)別是什么?
? H100 = 1 × H100 GPU。
? HGX H100 = Nvidia服務器參考平臺,oem廠商使用該平臺構(gòu)建4-GPU或8-GPU服務器。由美超微等第三方oem廠商制造。
? DGX H100 = Nvidia官方H100服務器,有8個H100。英偉達是唯一的供應商。
? GH200 = 1x H100 GPU + 1x Grace CPU。
? DGX GH200 = 256x GH200,到2023年底可用??赡苤挥杏ミ_提供。
09
這些GPU要花多少錢?
? 1x HGX H100(SXM)配備8x H100 GPU的售價在30萬至38萬美元之間,取決于規(guī)格(網(wǎng)絡、存儲、內(nèi)存、CPU)以及銷售商的利潤和支持水平。
? 高端價格范圍是36萬至38萬美元,包括支持,與DGX H100的相同規(guī)格相符。
? 1x HGX H100(PCIe)配備8x H100 GPU的售價約為30萬美元,根據(jù)規(guī)格可能有所變動,包含支持。
? PCIe卡的市場價格約為3萬至3.2萬美元。
? SXM卡通常作為4-GPU和8-GPU服務器銷售,難以給出單卡的定價。
? 大約70-80%的需求是針對SXM H100,其余部分是針對PCIe H100。
? SXM部分的需求趨勢上升,因為最初幾個月只有PCIe卡可用。
? 由于大多數(shù)公司購買8-GPU HGX H100s(SXM),每購買8個H100s的大致支出為36萬至38萬美元,包括其他服務器組件。
? DGX GH200(提醒一下,其中包含256個GH200,每個GH200包含1個H100 GPU和1個Grace CPU)的價格可能在1500萬至2500萬美元范圍內(nèi),盡管這只是猜測,沒有基于定價表。
10
GPU的需求數(shù)量
? GPT-4可能是在1萬到2.5萬塊A100 GPU上進行訓練的。
? Meta擁有約2.1萬塊A100 GPU,特斯拉擁有約7,000塊A100 GPU,Stability AI擁有約5,000塊A100 GPU。
? Falcon-40B模型是在384塊A100 GPU上進行訓練的。
? Inflection公司在其等效的GPT-3.5模型訓練中使用了3,500塊H100 GPU。
在供應有限的情況下,Nvidia可以純粹地提高價格以找到一個市場均衡價格,他們在一定程度上正在這樣做。但重要的是要知道,最終H100 GPU的分配取決于Nvidia更傾向于將分配權(quán)給誰。
11
展望與預測
英偉達透露,他們在今年下半年有更多的供應,但除此之外,他們沒有透露更多,也沒有量化。
“我們正在著手處理本季度的供應問題,同時我們也已經(jīng)為下半年采購了大量的供應?!?/p>
“我們相信下半年我們將擁有的供應量將遠遠大于上半年?!?——英偉達首席財務官科萊特·克雷斯在2023年2月至4月的財報電話會議上說
什么時候會有H100的后繼機型?
可能要到2024年底(2024年中期到2025年初)才會公布,這是基于英偉達在不同架構(gòu)之間的歷史時間。
在此之前,H100將是英偉達GPU的頂級產(chǎn)品。(GH200和DGX GH200不算,它們不是純GPU,它們都使用H100作為GPU)
會有更高VRAM容量的H100 GPU嗎?
也許是液冷120GB H100。
短缺何時結(jié)束?
2023年底前的產(chǎn)品已經(jīng)售罄。
作者?| LJH
排版 |?居居手
更多精彩內(nèi)容請關(guān)注公眾號:BFT機器人
本文為原創(chuàng)文章,版權(quán)歸BFT機器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應。