散文網(wǎng) » 科技 »學習 » GPU短缺：人工智能行業(yè)的可持續(xù)發(fā)展問題

GPU短缺：人工智能行業(yè)的可持續(xù)發(fā)展問題

2023-08-17 16:24 作者:BFT白芙堂機器人 0人讀過 | 我要投稿

原創(chuàng) |文 BFT機器人

2023年8月，人工智能似乎會受到GPU供應的瓶頸。

“人工智能熱潮被低估的一個原因是GPU/TPU短缺。這種短缺導致了產(chǎn)品推出和模型培訓的各種限制，但這些都不明顯。相反，我們看到的是英偉達的股價飆升。一旦供給滿足需求，事情就會加速發(fā)展?！薄狝dam D’angelo, Quora首席執(zhí)行官，Poe.com，前Facebook首席技術(shù)官

01 GPU是造成人工智能發(fā)展的瓶頸嗎?

埃隆·馬斯克表示:“在這一點上，GPU比藥物要難得多。”Sam Altman說OpenAI的GPU有限的，它推遲了他們的短期計劃。

小型和大型云提供商的大規(guī)模H100集群的容量正在耗盡。

“每個人都希望英偉達能生產(chǎn)更多的A/H100”——來自云提供商高管的消息

“我們的gpu太少了，使用我們產(chǎn)品的人越少越好”

“如果他們少使用我們的產(chǎn)品我們就會很高興，因為我們沒有足夠的GPU”——Sam Altman, OpenAI的首席執(zhí)行官

簡而言之:是的，H100 gpu存在供應短缺。有人告訴我，對于那些需要100個或1000個H100的公司來說，Azure和GCP實際上已經(jīng)沒有容量了，AWS也快不行了。

這種“容量不足”是基于Nvidia給他們的分配。

02 GPU的供需情況，誰需要/擁有Has1000 + H100或A100

??初創(chuàng)公司

OpenAI (Azure), Anthropic, Inflection (Azure與CoreWeave), Mistral AI

??CSP（云服務提供商）

三大巨頭：Azure、GCP、AWS

其它公共云：Oracle

大型私有云：如CoreWeave, Lambda

? 其他大公司

Tesla

對于使用私有云的公司(CoreWeave, Lambda)，擁有數(shù)百或數(shù)千H100的公司，幾乎都是大型語言模型LLM，一些擴散模型可以工作。其中一些是對現(xiàn)有模型的微調(diào)，但大多數(shù)是你可能還不知道的新初創(chuàng)公司，他們正在根據(jù)H100 GPU的需求構(gòu)建新模型。他們在3年內(nèi)將使用幾百到幾千個GPU。

對于使用按需H100和少量GPU的公司來說，它仍然可能有>50%的LLM相關(guān)使用。

03 人們需要哪種GPU？

主要是H100s。為什么?無論是為LLM的推理還是訓練，它都是最快的。(H100在推理方面的性價比也是最好的)

04 訓練LLM最常見的需求是什么？

3.2Tb/s 無限帶寬的H100。

05 企業(yè)LLM訓練和推理的需求是什么？

對于訓練，他們傾向于要H100，對于推理，更多的是關(guān)于每美元的表現(xiàn)。

H100和A100仍然是一個性價比問題，但H100通常更受青睞，因為它們可以使用更多的GPU進行更好的擴展，并提供更快的訓練時間，并且加快/壓縮啟動或訓練或改進模型的時間對初創(chuàng)公司來說至關(guān)重要。

“對于多節(jié)點培訓，他們都要求配備無限帶寬的A100或H100。我們只看到非A/H100請求是針對單GPU或單節(jié)點工作負載的推斷?！?——私有云執(zhí)行官

“H100是首選，因為它的效率高達3倍，但成本只有(1.5-2倍)。結(jié)合整體系統(tǒng)成本，H100每美元的性能要高得多(如果您查看系統(tǒng)性能，每美元的性能可能要高出4-5倍)”——深度學習研究員

06 市場上除了Nvidia，還有AMD，是什么原因令LLM公司不怎么使用AMD GPU?

“從理論上講，一家公司可以購買一堆AMD的GPU，但要讓所有的東西都工作起來需要時間。開發(fā)時間(即使只有2個月)可能意味著比競爭對手更晚進入市場。所以CUDA現(xiàn)在是英偉達的護城河。”——私有云執(zhí)行官

“誰會冒險部署1萬塊AMD GPU或1萬塊隨機初創(chuàng)公司的芯片呢？那幾乎是3億美元的投資?！?——私有云執(zhí)行官

“MosaicML/MI250 -有人問過AMD的可用性嗎?AMD似乎并沒有為Frontier開發(fā)出他們需要的產(chǎn)品，現(xiàn)在臺積電的CoWoS產(chǎn)能被英偉達吸走了。MI250可能是一個可行的選擇，但不可獲得?！薄诵莅雽w行業(yè)專業(yè)人士

07 市場上除了Nvidia，還有AMD，是什么原因令LLM公司不怎么使用AMD GPU?

16位推理快3.5倍，16位訓練快2.3倍。

大多數(shù)人會想購買H100并將其用于訓練和推理，而將他們的A100轉(zhuǎn)換為主要用于推理。但是，有些人可能會因為成本、容量、使用和設置新硬件的風險以及他們現(xiàn)有的軟件已經(jīng)針對A100進行了優(yōu)化而猶豫不決。

08 H100, GH200s, DGX GH200s, HGX H100和DGX H100之間的區(qū)別是什么?

? H100 = 1 × H100 GPU。

? HGX H100 = Nvidia服務器參考平臺，oem廠商使用該平臺構(gòu)建4-GPU或8-GPU服務器。由美超微等第三方oem廠商制造。

? DGX H100 = Nvidia官方H100服務器，有8個H100。英偉達是唯一的供應商。

? GH200 = 1x H100 GPU + 1x Grace CPU。

? DGX GH200 = 256x GH200，到2023年底可用?？赡苤挥杏ミ_提供。

09 這些GPU要花多少錢?

? 1x HGX H100（SXM）配備8x H100 GPU的售價在30萬至38萬美元之間，取決于規(guī)格（網(wǎng)絡、存儲、內(nèi)存、CPU）以及銷售商的利潤和支持水平。

? 高端價格范圍是36萬至38萬美元，包括支持，與DGX H100的相同規(guī)格相符。

? 1x HGX H100（PCIe）配備8x H100 GPU的售價約為30萬美元，根據(jù)規(guī)格可能有所變動，包含支持。

? PCIe卡的市場價格約為3萬至3.2萬美元。

? SXM卡通常作為4-GPU和8-GPU服務器銷售，難以給出單卡的定價。

? 大約70-80%的需求是針對SXM H100，其余部分是針對PCIe H100。

? SXM部分的需求趨勢上升，因為最初幾個月只有PCIe卡可用。

? 由于大多數(shù)公司購買8-GPU HGX H100s（SXM），每購買8個H100s的大致支出為36萬至38萬美元，包括其他服務器組件。

? DGX GH200（提醒一下，其中包含256個GH200，每個GH200包含1個H100 GPU和1個Grace CPU）的價格可能在1500萬至2500萬美元范圍內(nèi)，盡管這只是猜測，沒有基于定價表。

10 GPU的需求數(shù)量

? GPT-4可能是在1萬到2.5萬塊A100 GPU上進行訓練的。

? Meta擁有約2.1萬塊A100 GPU，特斯拉擁有約7,000塊A100 GPU，Stability AI擁有約5,000塊A100 GPU。

? Falcon-40B模型是在384塊A100 GPU上進行訓練的。

? Inflection公司在其等效的GPT-3.5模型訓練中使用了3,500塊H100 GPU。

在供應有限的情況下，Nvidia可以純粹地提高價格以找到一個市場均衡價格，他們在一定程度上正在這樣做。但重要的是要知道，最終H100 GPU的分配取決于Nvidia更傾向于將分配權(quán)給誰。

11 展望與預測

英偉達透露，他們在今年下半年有更多的供應，但除此之外，他們沒有透露更多，也沒有量化。

“我們正在著手處理本季度的供應問題，同時我們也已經(jīng)為下半年采購了大量的供應?！?/p>

“我們相信下半年我們將擁有的供應量將遠遠大于上半年?！?——英偉達首席財務官科萊特·克雷斯在2023年2月至4月的財報電話會議上說

什么時候會有H100的后繼機型?

可能要到2024年底（2024年中期到2025年初）才會公布，這是基于英偉達在不同架構(gòu)之間的歷史時間。

在此之前，H100將是英偉達GPU的頂級產(chǎn)品。(GH200和DGX GH200不算，它們不是純GPU，它們都使用H100作為GPU）

會有更高VRAM容量的H100 GPU嗎？

也許是液冷120GB H100。

短缺何時結(jié)束?

2023年底前的產(chǎn)品已經(jīng)售罄。

作者?| LJH

排版 |?居居手

更多精彩內(nèi)容請關(guān)注公眾號：BFT機器人

本文為原創(chuàng)文章，版權(quán)歸BFT機器人所有，如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問，請與我們聯(lián)系，將及時回應。

標簽：

GPU短缺：人工智能行業(yè)的可持續(xù)發(fā)展問題的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

GPU短缺：人工智能行業(yè)的可持續(xù)發(fā)展問題

01

GPU是造成人工智能發(fā)展的瓶頸嗎?

02

GPU的供需情況，誰需要/擁有Has1000 + H100或A100

03

人們需要哪種GPU？

04

訓練LLM最常見的需求是什么？

05

企業(yè)LLM訓練和推理的需求是什么？

06

市場上除了Nvidia，還有AMD，是什么原因令LLM公司不怎么使用AMD GPU?

07

市場上除了Nvidia，還有AMD，是什么原因令LLM公司不怎么使用AMD GPU?

08

H100, GH200s, DGX GH200s, HGX H100和DGX H100之間的區(qū)別是什么?

09

這些GPU要花多少錢?

10

GPU的需求數(shù)量

11

展望與預測

GPU短缺：人工智能行業(yè)的可持續(xù)發(fā)展問題的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

GPU短缺：人工智能行業(yè)的可持續(xù)發(fā)展問題

01

GPU是造成人工智能發(fā)展的瓶頸嗎?

02

GPU的供需情況，誰需要/擁有Has1000 + H100或A100

03

人們需要哪種GPU？

04

訓練LLM最常見的需求是什么？

05

企業(yè)LLM訓練和推理的需求是什么？

06

市場上除了Nvidia，還有AMD，是什么原因令LLM公司不怎么使用AMD GPU?

07

市場上除了Nvidia，還有AMD，是什么原因令LLM公司不怎么使用AMD GPU?

08

H100, GH200s, DGX GH200s, HGX H100和DGX H100之間的區(qū)別是什么?

09

這些GPU要花多少錢?

10

GPU的需求數(shù)量

11

展望與預測

本文作者的其他文章

GPU短缺：人工智能行業(yè)的可持續(xù)發(fā)展問題的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

GPU的供需情況，誰需要/擁有Has1000 + H100或A100

訓練LLM最常見的需求是什么？

企業(yè)LLM訓練和推理的需求是什么？

市場上除了Nvidia，還有AMD，是什么原因令LLM公司不怎么使用AMD GPU?

市場上除了Nvidia，還有AMD，是什么原因令LLM公司不怎么使用AMD GPU?

GPU短缺：人工智能行業(yè)的可持續(xù)發(fā)展問題的評論 (共條)