最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

GPU短缺:人工智能行業(yè)的可持續(xù)發(fā)展問題

2023-08-17 16:24 作者:BFT白芙堂機器人  | 我要投稿

原創(chuàng) |文 BFT機器人


2023年8月,人工智能似乎會受到GPU供應的瓶頸。


“人工智能熱潮被低估的一個原因是GPU/TPU短缺。這種短缺導致了產(chǎn)品推出和模型培訓的各種限制,但這些都不明顯。相反,我們看到的是英偉達的股價飆升。一旦供給滿足需求,事情就會加速發(fā)展?!薄狝dam D’angelo, Quora首席執(zhí)行官,Poe.com,前Facebook首席技術(shù)官


01


GPU是造成人工智能發(fā)展的瓶頸嗎?


埃隆·馬斯克表示:“在這一點上,GPU比藥物要難得多。”Sam Altman說OpenAI的GPU有限的,它推遲了他們的短期計劃。


小型和大型云提供商的大規(guī)模H100集群的容量正在耗盡。


“每個人都希望英偉達能生產(chǎn)更多的A/H100”——來自云提供商高管的消息


“我們的gpu太少了,使用我們產(chǎn)品的人越少越好”


“如果他們少使用我們的產(chǎn)品我們就會很高興,因為我們沒有足夠的GPU”——Sam Altman, OpenAI的首席執(zhí)行官


簡而言之:是的,H100 gpu存在供應短缺。有人告訴我,對于那些需要100個或1000個H100的公司來說,Azure和GCP實際上已經(jīng)沒有容量了,AWS也快不行了。

這種“容量不足”是基于Nvidia給他們的分配。


02


GPU的供需情況,誰需要/擁有Has1000 + H100或A100


??初創(chuàng)公司


OpenAI (Azure), Anthropic, Inflection (Azure與CoreWeave), Mistral AI


??CSP(云服務提供商)


三大巨頭:Azure、GCP、AWS

其它公共云:Oracle

大型私有云:如CoreWeave, Lambda


? 其他大公司


Tesla


對于使用私有云的公司(CoreWeave, Lambda),擁有數(shù)百或數(shù)千H100的公司,幾乎都是大型語言模型LLM,一些擴散模型可以工作。其中一些是對現(xiàn)有模型的微調(diào),但大多數(shù)是你可能還不知道的新初創(chuàng)公司,他們正在根據(jù)H100 GPU的需求構(gòu)建新模型。他們在3年內(nèi)將使用幾百到幾千個GPU。


對于使用按需H100和少量GPU的公司來說,它仍然可能有>50%的LLM相關(guān)使用。


03


人們需要哪種GPU?


主要是H100s。為什么?無論是為LLM的推理還是訓練,它都是最快的。(H100在推理方面的性價比也是最好的)


04


訓練LLM最常見的需求是什么?


3.2Tb/s 無限帶寬的H100。

05


企業(yè)LLM訓練和推理的需求是什么?


對于訓練,他們傾向于要H100,對于推理,更多的是關(guān)于每美元的表現(xiàn)。


H100和A100仍然是一個性價比問題,但H100通常更受青睞,因為它們可以使用更多的GPU進行更好的擴展,并提供更快的訓練時間,并且加快/壓縮啟動或訓練或改進模型的時間對初創(chuàng)公司來說至關(guān)重要。


“對于多節(jié)點培訓,他們都要求配備無限帶寬的A100或H100。我們只看到非A/H100請求是針對單GPU或單節(jié)點工作負載的推斷?!?——私有云執(zhí)行官


“H100是首選,因為它的效率高達3倍,但成本只有(1.5-2倍)。結(jié)合整體系統(tǒng)成本,H100每美元的性能要高得多(如果您查看系統(tǒng)性能,每美元的性能可能要高出4-5倍)”——深度學習研究員


06


市場上除了Nvidia,還有AMD,是什么原因令LLM公司不怎么使用AMD GPU?


“從理論上講,一家公司可以購買一堆AMD的GPU,但要讓所有的東西都工作起來需要時間。開發(fā)時間(即使只有2個月)可能意味著比競爭對手更晚進入市場。所以CUDA現(xiàn)在是英偉達的護城河。”——私有云執(zhí)行官


“誰會冒險部署1萬塊AMD GPU或1萬塊隨機初創(chuàng)公司的芯片呢?那幾乎是3億美元的投資?!?——私有云執(zhí)行官


“MosaicML/MI250 -有人問過AMD的可用性嗎?AMD似乎并沒有為Frontier開發(fā)出他們需要的產(chǎn)品,現(xiàn)在臺積電的CoWoS產(chǎn)能被英偉達吸走了。MI250可能是一個可行的選擇,但不可獲得?!薄诵莅雽w行業(yè)專業(yè)人士


07


市場上除了Nvidia,還有AMD,是什么原因令LLM公司不怎么使用AMD GPU?


16位推理快3.5倍,16位訓練快2.3倍。



大多數(shù)人會想購買H100并將其用于訓練和推理,而將他們的A100轉(zhuǎn)換為主要用于推理。但是,有些人可能會因為成本、容量、使用和設置新硬件的風險以及他們現(xiàn)有的軟件已經(jīng)針對A100進行了優(yōu)化而猶豫不決。


08


H100, GH200s, DGX GH200s, HGX H100和DGX H100之間的區(qū)別是什么?


? H100 = 1 × H100 GPU。


? HGX H100 = Nvidia服務器參考平臺,oem廠商使用該平臺構(gòu)建4-GPU或8-GPU服務器。由美超微等第三方oem廠商制造。


? DGX H100 = Nvidia官方H100服務器,有8個H100。英偉達是唯一的供應商。


? GH200 = 1x H100 GPU + 1x Grace CPU。


? DGX GH200 = 256x GH200,到2023年底可用??赡苤挥杏ミ_提供。


09


這些GPU要花多少錢?


? 1x HGX H100(SXM)配備8x H100 GPU的售價在30萬至38萬美元之間,取決于規(guī)格(網(wǎng)絡、存儲、內(nèi)存、CPU)以及銷售商的利潤和支持水平。


? 高端價格范圍是36萬至38萬美元,包括支持,與DGX H100的相同規(guī)格相符。


? 1x HGX H100(PCIe)配備8x H100 GPU的售價約為30萬美元,根據(jù)規(guī)格可能有所變動,包含支持。


? PCIe卡的市場價格約為3萬至3.2萬美元。


? SXM卡通常作為4-GPU和8-GPU服務器銷售,難以給出單卡的定價。


? 大約70-80%的需求是針對SXM H100,其余部分是針對PCIe H100。


? SXM部分的需求趨勢上升,因為最初幾個月只有PCIe卡可用。


? 由于大多數(shù)公司購買8-GPU HGX H100s(SXM),每購買8個H100s的大致支出為36萬至38萬美元,包括其他服務器組件。


? DGX GH200(提醒一下,其中包含256個GH200,每個GH200包含1個H100 GPU和1個Grace CPU)的價格可能在1500萬至2500萬美元范圍內(nèi),盡管這只是猜測,沒有基于定價表。


10


GPU的需求數(shù)量


? GPT-4可能是在1萬到2.5萬塊A100 GPU上進行訓練的。


? Meta擁有約2.1萬塊A100 GPU,特斯拉擁有約7,000塊A100 GPU,Stability AI擁有約5,000塊A100 GPU。


? Falcon-40B模型是在384塊A100 GPU上進行訓練的。


? Inflection公司在其等效的GPT-3.5模型訓練中使用了3,500塊H100 GPU。


在供應有限的情況下,Nvidia可以純粹地提高價格以找到一個市場均衡價格,他們在一定程度上正在這樣做。但重要的是要知道,最終H100 GPU的分配取決于Nvidia更傾向于將分配權(quán)給誰。


11


展望與預測


英偉達透露,他們在今年下半年有更多的供應,但除此之外,他們沒有透露更多,也沒有量化。


“我們正在著手處理本季度的供應問題,同時我們也已經(jīng)為下半年采購了大量的供應?!?/p>


“我們相信下半年我們將擁有的供應量將遠遠大于上半年?!?——英偉達首席財務官科萊特·克雷斯在2023年2月至4月的財報電話會議上說


什么時候會有H100的后繼機型?


可能要到2024年底(2024年中期到2025年初)才會公布,這是基于英偉達在不同架構(gòu)之間的歷史時間。


在此之前,H100將是英偉達GPU的頂級產(chǎn)品。(GH200和DGX GH200不算,它們不是純GPU,它們都使用H100作為GPU)


會有更高VRAM容量的H100 GPU嗎?


也許是液冷120GB H100。


短缺何時結(jié)束?


2023年底前的產(chǎn)品已經(jīng)售罄。


作者?| LJH

排版 |?居居手


更多精彩內(nèi)容請關(guān)注公眾號:BFT機器人

本文為原創(chuàng)文章,版權(quán)歸BFT機器人所有,如需轉(zhuǎn)載請與我們聯(lián)系。若您對該文章內(nèi)容有任何疑問,請與我們聯(lián)系,將及時回應。


GPU短缺:人工智能行業(yè)的可持續(xù)發(fā)展問題的評論 (共 條)

分享到微博請遵守國家法律
永济市| 阳谷县| 清水县| 沙湾县| 柏乡县| 高青县| 盐山县| 沭阳县| 新巴尔虎左旗| 于都县| 房产| 微博| 九寨沟县| 朝阳区| 东乡族自治县| 株洲县| 乐东| 安吉县| 德昌县| 南丹县| 旬邑县| 麻江县| 淮安市| 安义县| 莱西市| 虞城县| 新蔡县| 宁陕县| 鄂尔多斯市| 南木林县| 永泰县| 乐昌市| 双辽市| 晋中市| 彰化县| 安丘市| 郴州市| 南城县| 马鞍山市| 景德镇市| 阳谷县|