詳解-英偉達H100 GPU:供需
這篇文章是對GPU的供需的探索,特別是Nvidia H100s。我們還將在這篇文章的同一天發(fā)布歌曲和音樂視頻。
這篇文章風靡一時。它出現(xiàn)在HN,techmeme,許多電子郵件通訊的首頁上,收到了Andrej Karpathy和其他人的推文,來自Inflection的Mustafa(他很快就會在線擁有1億美元的GPU)的評論和來自Stability的Emad,這首歌被紐約時報提及,各種資產(chǎn)管理公司和AI創(chuàng)始人伸出援手。如果您還沒有閱讀它,希望您喜歡!
介紹#
截至 2023 年 <> 月,人工智能似乎可能會受到 GPU 供應(yīng)的瓶頸。
“人工智能熱潮被低估的一個原因是GPU/TPU的短缺。這種短缺導(dǎo)致產(chǎn)品推出和模型訓(xùn)練受到各種限制,但這些限制是不可見的。相反,我們看到的只是英偉達的價格飆升。一旦供應(yīng)滿足需求,事情就會加速。 — Adam D'Angelo,Quora首席執(zhí)行官,Poe.com,前Facebook首席技術(shù)官

這些是對GPU供需以及AI最重要的首席執(zhí)行官和公司。大版本
真的存在瓶頸嗎?#
埃隆·馬斯克(Elon Musk)說:“在這一點上,GPU比藥物更難獲得。1
Sam Altman表示,OpenAI是GPU有限的,它正在推遲他們的短期計劃(微調(diào),專用容量,32k上下文窗口,多模態(tài))。2
小型和大型云提供商的大規(guī)模 H100 集群容量即將耗盡。3
“每個人都希望英偉達能夠生產(chǎn)更多的A / H100”4 — 來自云提供商高管的消息 “我們非常缺乏 GPU,使用我們產(chǎn)品的人越少越好” “如果他們少用,我們會喜歡它,因為我們沒有足夠的 GPU” Sam Altman,OpenAI首席執(zhí)行官5
這是一個很好的聲音,可以提醒世界用戶有多喜歡你的產(chǎn)品,但OpenAI需要更多的GPU也是事實。
對于 Azure/Microsoft:
他們在內(nèi)部對 GPU 的員工進行速率限制。他們必須像 1970 年代的大學大型機一樣排隊。我認為OpenAI現(xiàn)在正在吸收所有這些。
Coreweave的交易就是粘貼到他們的GPU基礎(chǔ)設(shè)施上。
— 匿名
簡而言之:是的,H100 GPU供應(yīng)短缺。有人告訴我,對于尋求100或1000多個H100的公司來說,Azure和GCP實際上已經(jīng)耗盡了容量,而AWS即將被淘汰。6
這種“容量不足”是基于英偉達給他們的分配。
關(guān)于瓶頸,我們想知道什么?
是什么原因造成的(需求量,供應(yīng)量)
它會持續(xù)多久
什么將有助于解決它
目錄#
介紹
真的存在瓶頸嗎?
目錄
顯卡之歌
對H100 GPU的需求
誰需要H100?
誰需要/擁有 1,000+ H100 或 A100
誰需要/擁有 100+ H100 或 A100
大多數(shù)高端GPU的用途是什么?
大型AI實驗室在推理或訓(xùn)練方面是否受到更多限制?
人們需要哪些 GPU?
LLM初創(chuàng)公司最常見的需求是什么?
公司想要什么LLM培訓(xùn)和推理?
法學碩士培訓(xùn)的重要內(nèi)容是什么?
培訓(xùn)和運行LLM的其他成本是什么?
那么 GPU 呢?
是什么阻止了LLM公司使用AMD GPU?
H100 與 A100:H100 比 A100 快多少?
每個人都想從 A100 升級到 H100 嗎?
H100s、GH200s、DGX GH200s、HGX H100s和DGX H100s有什么區(qū)別?
其中哪一個會最受歡迎?
這些 GPU 的成本是多少?
需要多少個 GPU?
大多數(shù)初創(chuàng)公司訂購多少個 H100?
公司可能想要多少H100?
摘要:H100需求
供應(yīng) H100 顯卡
誰制造了 H100?
英偉達可以使用其他芯片廠進行H100生產(chǎn)嗎?
不同的臺積電節(jié)點如何關(guān)聯(lián)?
H100 是在哪個臺積電節(jié)點上制造的?
還有誰使用該節(jié)點?
A100使用哪個臺積電節(jié)點?
晶圓廠產(chǎn)能通常提前多久預(yù)留?
生產(chǎn)需要多長時間(生產(chǎn)、包裝、測試)?
瓶頸在哪里?
H100 內(nèi)存
什么會影響 GPU 上的內(nèi)存帶寬?
H100s 上使用什么內(nèi)存?
誰在 H100 上制造了記憶?
制作 GPU 時還用什么?
展望與預(yù)測
英偉達在說什么?
接下來會發(fā)生什么?
什么時候會有H100繼任者?
會有更高的顯存 H100 嗎?
短缺何時結(jié)束?
采購 H100
誰賣H100?
交貨時間如何?
如果一家初創(chuàng)公司今天下訂單,他們什么時候可以訪問SSH?
初創(chuàng)公司是否從 OEM 和經(jīng)銷商處購買?
初創(chuàng)公司何時構(gòu)建自己的數(shù)據(jù)中心與進行托管?
大云如何比較?
哪個大云擁有最好的網(wǎng)絡(luò)?
企業(yè)使用哪些大云?
DGX Cloud怎么樣,英偉達正在與誰合作?
大云什么時候推出他們的 H100 預(yù)覽?
公司或云服務(wù)提供商如何獲得更多 GPU?
英偉達分配如何運作?
結(jié)語
追蹤 GPU 供需之旅
取得聯(lián)系
自然的下一個問題 - 英偉達替代品呢?
確認
顯卡之歌#
呃。。。我們還在發(fā)布這篇文章的同一天發(fā)布了一首歌。是火。
如果您還沒有聽過 GPU 歌曲,請幫自己一個忙并播放它。
我剛剛看了視頻。很有趣。干得不錯。 ——穆斯塔法·蘇萊曼(Mustafa Suleyman),Inflection AI首席執(zhí)行官
它在Spotify,Apple Music和YouTube上。
在此處查看有關(guān)這首歌的更多信息。
對H100 GPU的需求#
導(dǎo)致瓶頸的原因 - 需求
具體來說,人們想買什么他們不能買?
他們需要多少個這樣的 GPU?
為什么他們不能使用不同的 GPU?
有哪些不同的產(chǎn)品名稱?
公司在哪里購買它們,它們的價格是多少?
誰需要H100?#
“似乎每個人和他們的狗在這一點上都在購買 GPU”7 –伊隆
誰需要/擁有 1,000+ H100 或 A100#
初創(chuàng)公司Startups training LLMs
OpenAI(通過Azure),Anthropic,Inflection(通過Azure)8和核心編織9)、米斯特拉爾·
云服務(wù)提供商
三大巨頭:Azure、GCP、AWS
另一個公共云:甲骨文
更大的私有云,如CoreWeave,Lambda
其他大公司
特斯拉7 10
誰需要/擁有 100+ H100 或 A100#
對大型開源模型進行重大微調(diào)的初創(chuàng)公司。
大多數(shù)高端GPU的用途是什么?#
對于使用私有云(CoreWeave,Lambda)的公司,擁有數(shù)百或數(shù)千個H100的公司來說,幾乎所有的LLM和一些擴散模型工作。其中一些是對現(xiàn)有模型的微調(diào),但大多數(shù)是您可能還不知道的新初創(chuàng)公司正在從頭開始構(gòu)建新模型。他們正在做10萬-50萬美元的合同,為期3年,有幾百到幾千個GPU。
對于使用帶有少量GPU的按需H100的公司來說,它仍然可能是>50%與LLM相關(guān)的使用。
私有云現(xiàn)在開始看到來自企業(yè)的入站需求,這些企業(yè)通常會使用其默認的大型云提供商,但每個人都出局了。
大型AI實驗室在推理或訓(xùn)練方面是否受到更多限制?#
取決于他們有多少產(chǎn)品牽引力!Sam Altman表示,如果被迫選擇,OpenAI寧愿擁有更多的推理能力,但OpenAI仍然受到兩者的限制。11
人們需要哪些 GPU?#
主要是H100。為什么?對于LLM來說,它是推理和訓(xùn)練最快的(H100通常也是推理的最佳性價比)
具體來說:8-GPU HGX H100 SXM 服務(wù)器。
我的分析是,為相同的工作運行也更便宜。V100 如果能找到它們,那就太好了,你不能 –匿名 老實說,不確定[這是最佳的性價比]?A100 的訓(xùn)練性價比看起來與 H100 大致相同。為了推斷,我們發(fā)現(xiàn) A10G 綽綽有余,而且便宜得多。 – 私有云執(zhí)行官 這個[A10G綽綽有余]在一段時間內(nèi)是正確的。但是在獵鷹40b和美洲駝2 70b的世界里,我們看到了很多使用,這不再是真的了。我們需要 A100 用于這些 確切地說是 2xA100。因此,互連速度對于推理很重要。 –(不同)私有云高管
LLM初創(chuàng)公司最常見的需求是什么?#
用于訓(xùn)練LLM:H100,3.2Tb / s InfiniBand。
公司想要什么LLM培訓(xùn)和推理?#
對于訓(xùn)練,他們傾向于想要H100,對于推斷,它更多的是關(guān)于每美元的性能。
對于 H100s 與 A100 來說,這仍然是一個每美元性能的問題,但 H100 通常受到青睞,因為它們可以使用更多數(shù)量的 GPU 更好地擴展并提供更快的訓(xùn)練時間,并且啟動、訓(xùn)練或改進模型的速度/壓縮時間對于初創(chuàng)公司至關(guān)重要。
“對于多節(jié)點訓(xùn)練,他們都要求A100或H100與InfiniBand網(wǎng)絡(luò)。我們看到的唯一非 A/H100 請求用于工作負載為單個 GPU 或單個節(jié)點的推理” – 私有云執(zhí)行官
法學碩士培訓(xùn)的重要內(nèi)容是什么?#
內(nèi)存帶寬
FLOPS(張量核或等效矩陣乘法單元)
緩存和緩存延遲
FP8 計算等附加功能
計算性能(與 cuda 核心數(shù)相關(guān))
互連速度(例如無限波段)
H100 優(yōu)于 A100,部分原因是緩存延遲較低和 FP8 計算等因素。
H100 是首選,因為它的效率提高了 3 倍,但成本僅為 (1.5 - 2 倍)。結(jié)合整體系統(tǒng)成本,H100 每美元產(chǎn)生更高的性能(如果您查看系統(tǒng)性能,則每美元的性能可能提高 4-5 倍)。 — 深度學習研究員
培訓(xùn)和運行LLM的其他成本是什么?#
GPU 是最昂貴的單個組件,但還有其他成本。
系統(tǒng)RAM和NVMe SSD價格昂貴。
InfiniBand網(wǎng)絡(luò)成本很高。
運行群集的總成本的 10-15% 可能用于電源和托管(電力、數(shù)據(jù)中心建筑成本、土地成本、員工) - 大致分為兩者,可以是 5-8% 的電力和 5-10% 的其他托管成本要素(土地、建筑物、員工)。
它主要是網(wǎng)絡(luò)和可靠的數(shù)據(jù)中心。由于網(wǎng)絡(luò)限制和不可靠的硬件,AWS 難以使用 — 深度學習研究員
那么 GPU 呢?#
GPU 不是關(guān)鍵要求,但可能會有所幫助。
我不會說它是超臨界的,但它對性能有影響。我想這取決于你的瓶頸在哪里。對于某些架構(gòu)/軟件實現(xiàn),瓶頸不一定是網(wǎng)絡(luò),但如果是 GPUDirect,可以產(chǎn)生 10-20% 的差異,這對于昂貴的訓(xùn)練運行來說是相當可觀的數(shù)字。 話雖如此,GPUDirect RDMA現(xiàn)在無處不在,幾乎不用說它得到了支持。我認為對非InfiniBand網(wǎng)絡(luò)的支持不太強,但大多數(shù)針對神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化的GPU集群都有Infiniband網(wǎng)絡(luò)/卡。影響性能的一個更大因素可能是NVLink,因為這比Infiniband更罕見,但只有在您具有特定的并行化策略時才至關(guān)重要。 因此,像強大的網(wǎng)絡(luò)和GPUirect這樣的功能可以讓你偷懶,你可以保證樸素的軟件開箱即用。但是,如果您關(guān)心成本或使用已有的基礎(chǔ)設(shè)施,這不是一個嚴格的要求。 – 深度學習研究員
是什么阻止了LLM公司使用AMD GPU?#
從理論上講,一家公司可以購買一堆AMD GPU,但讓一切正常運轉(zhuǎn)需要時間。開發(fā)時間(即使只有 2 個月)可能意味著比競爭對手更晚上市。所以CUDA現(xiàn)在是NVIDIA的護城河。 – 私有云執(zhí)行官 我懷疑 2 個月相差一個數(shù)量級,這可能不是一個有意義的差異,請參閱 https://www.mosaicml.com/blog/amd-mi250 – 機器學習工程師 誰會冒著廢棄 10,000 個 AMD GPU 或 10,000 個隨機啟動硅芯片的風險?這幾乎是300億美元的投資。 – 私有云執(zhí)行官 MosaicML/MI250 - 有沒有人問過AMD的可用性?AMD似乎并沒有為Frontier提供超出他們所需要的東西,現(xiàn)在臺積電CoWoS的容量被Nvidia吸收了。MI250 可能是一個可行的替代方案,但不可用。 – 退休的半導(dǎo)體行業(yè)專業(yè)人士
H100 與 A100:H100 比 A100 快多少?#
3 位推理速度提高約 5.16 倍12對于 2 位訓(xùn)練,速度提高了約 3.16 倍。13



以下是給您的更多閱讀:1 2 3。
每個人都想從 A100 升級到 H100 嗎?#
大多數(shù)人會想要購買 H100 并將其用于訓(xùn)練和推理,并將他們的 A100 切換為主要用于推理。但是,由于成本、容量、使用和設(shè)置新硬件的風險以及他們現(xiàn)有的軟件已經(jīng)針對 A100 進行了優(yōu)化,有些人可能會猶豫是否要切換。
是的,A100 將在幾年內(nèi)成為今天的 V100。由于性能限制,我不知道現(xiàn)在有人在 V100 上訓(xùn)練 LLM。但它們?nèi)匀挥糜谕评砗推渌ぷ髫撦d。同樣,隨著越來越多的人工智能公司將工作負載轉(zhuǎn)移到H100,A100的定價將會下降,但總會有需求,尤其是推理。 – 私有云執(zhí)行官 認為這也是合理的,一些籌集巨額資金的初創(chuàng)公司最終倒閉,然后有很多A100重返市場。 –(不同)私有云高管
隨著時間的推移,人們會移動,A100將更多地用于推理。
V100 呢?更高的VRAM卡更適合大型型號,因此尖端組更喜歡H100或A100。
不使用 V100 的主要原因是缺少 brainfloat16(bfloat16, BF16)數(shù)據(jù)類型。沒有它,很難輕松訓(xùn)練模型。OPT和BLOOM的糟糕表現(xiàn)主要歸因于沒有這種數(shù)據(jù)類型(OPT是在float16中訓(xùn)練的,BLOOM的原型設(shè)計主要是在fp16中完成的,這沒有產(chǎn)生數(shù)據(jù)被推廣到在bf16中完成的訓(xùn)練運行中) — 深度學習研究員
H100s、GH200s、DGX GH200s、HGX H100s和DGX H100s有什么區(qū)別?#
H100 = 1x H100 GPU
HGX H100 = OEM 用于構(gòu)建 4 GPU 或 8 GPU 服務(wù)器的 Nvidia 服務(wù)器參考平臺。由美超微等第三方 OEM 構(gòu)建。
DGX H100 = Nvidia 官方 H100 服務(wù)器,配備 8 個 H100。14英偉達是唯一的供應(yīng)商。
GH200 = 1x H100 GPU 加上 1x Grace CPU。15
DGX GH200 = 256x GH200,16將于 2023 年底上市。17可能僅由英偉達提供。
還有針對大型云公司的MGX。
其中哪一個會最受歡迎?#
大多數(shù)公司會購買 8-GPU HGX H100,18而不是 DGX H100 或 4-GPU HGX H100 服務(wù)器。
這些 GPU 的成本是多少?#
1x DGX H100 (SXM) 和 8x H100 GPU 的價格為 460 萬美元,包括所需的支持。$100k中的$460k是必需的支持。規(guī)格如下。初創(chuàng)公司可以獲得Inception折扣,折扣約為$ 50k,并且可用于多達8x DGX H100盒子,總共64個H100。

1x HGX H100 (SXM) 和 8x H100 GPU 的價格在 300k-380k 之間,具體取決于規(guī)格(網(wǎng)絡(luò)、存儲、RAM、CPU)以及銷售它的人的利潤率和支持級別。該范圍的高端,包括支持在內(nèi)的$ 360k-380k,是您可能期望與DGX H100相同規(guī)格的。
1x HGX H100 (PCIe) 和 8x H100 GPU 大約是 300k 美元,包括支持,具體取決于規(guī)格。
PCIe卡的市場價格約為30k-32k美元。
SXM卡并不是真正作為單張卡出售的,因此很難在那里給出定價。通常僅作為 4-GPU 和 8-GPU 服務(wù)器出售。
大約 70-80% 的需求是 SXM H100,其余的是 PCIe H100。SXM部分的需求呈上升趨勢,因為PCIe卡是前幾個月唯一可用的卡。鑒于大多數(shù)公司購買 8-GPU HGX H100 (SXM),每 360 個 H380 的大約支出為 8k-100k,包括其他服務(wù)器組件。
DGX GH200(提醒一下,包含256x GH200,每個GH200包含1x H100 GPU和1x Grace CPU)的成本可能在15mm-25mm之間 - 盡管這是一個猜測,而不是基于定價表。19
需要多少個 GPU?#
GPT-4 可能在 10,000 到 25,000 架 A100 之間接受過訓(xùn)練。20
Meta擁有大約21,000架A100,特斯拉擁有約7,000架A100,穩(wěn)定AI擁有約5,000架A100。21
獵鷹-40B在384架A100上進行了訓(xùn)練。22
Inflection使用3,500 H100作為其GPT-3.5等效模型。23
順便說一句,到 22 月,我們有 3k 在運行。并且今天運行超過 5.<>k。 ——穆斯塔法·蘇萊曼(Mustafa Suleyman),Inflection AI首席執(zhí)行官
根據(jù)埃隆的說法,GPT-5 可能需要 30k-50k H100。摩根士丹利在 2023 年 5 月表示,GPT-25 將使用 000,2023 個 GPU,但他們也表示,截至 2023 年 <> 月,它已經(jīng)在接受訓(xùn)練,山姆·奧特曼在 <> 年 <> 月表示它尚未接受訓(xùn)練,因此 MS 的信息可能已經(jīng)過時。
GCP 大約有 25k H100,Azure 可能有 10k-40k H100。 對于 Oracle 應(yīng)該類似。Azure的大部分容量都將用于OpenAI。
CoreWeave 在 35k-40k H100 的球場上 - 不是現(xiàn)場直播,而是基于預(yù)訂。
大多數(shù)初創(chuàng)公司訂購多少個 H100?#
對于LLM:用于微調(diào),數(shù)十或低數(shù)百。為了訓(xùn)練,數(shù)千人。
公司可能想要多少H100?#
OpenAI可能需要50k。拐點需要 22k。24Meta 可能是 25k(我被告知實際上 Meta 想要 100k 或更多)。大型云可能需要30k(Azure,Google Cloud,AWS和Oracle)。Lambda和CoreWeave以及其他私有云可能需要100萬。Anthropic,Helsing,Mistral,Character,可能每個需要10k??偟拇蟾藕筒聹y,其中一些是重復(fù)計算云和將從云租用的最終客戶。但這大約是 432k H100。每件大約 35,15 美元,價值約 800 億美元的 GPU。這也排除了字節(jié)跳動(TikTok)、百度和騰訊等中國公司,它們想要大量的H<>。
還有一些金融公司都在進行部署,從數(shù)百架A100或H100開始,到數(shù)千架A/H100:Jane Street,JP Morgan,Two Sigma,Citadel等名稱。
這與英偉達的數(shù)據(jù)中心收入相比如何?
2023 年 4 月至 28 月是 $<>.<>b 數(shù)據(jù)中心收入。252023 年 8 月至 <> 月的數(shù)據(jù)中心收入可能在 <> 億美元左右,假設(shè)該季度的大部分較高指導(dǎo)是由于數(shù)據(jù)中心收入的增長而不是其他細分市場。
因此,供應(yīng)短缺可能需要一段時間才能消失。但是我所有的球場也可能被夸大了,而且這些公司中的許多公司今天不會直接購買H100,他們會隨著時間的推移而升級。此外,英偉達正在積極提高產(chǎn)能。
似乎有可能。400k H100 聽起來并非遙不可及,尤其是考慮到現(xiàn)在每個人都在進行大規(guī)模的 4 或 5 位數(shù) H100 部署。 – 私有云執(zhí)行官
摘要:H100需求#
在進入下一節(jié)時要記住的主要事情是,大多數(shù)大型CSP(Azure,AWS,GCP和Oracle)和私有云(CoreWeave,Lambda和其他各種云)想要更多的H100,而不是他們可以訪問。大多數(shù)大型人工智能產(chǎn)品公司想要的H100也比他們所能獲得的要多。通常,他們想要帶有SXM卡的8-GPU HGX H100盒,每臺300-GPU服務(wù)器的成本約為400k-8k美元,具體取決于規(guī)格和支持??赡苡袔资f個H100 GPU的過剩需求(15b +的GPU)。在供應(yīng)有限的情況下,英偉達可以純粹提高價格以找到清算價格,并且在某種程度上正在這樣做。但重要的是要知道,最終H100的分配取決于Nvidia更喜歡將分配分配給誰。
供應(yīng) H100 顯卡#
造成瓶頸的原因 - 供應(yīng)
生產(chǎn)方面的瓶頸是什么?
哪些組件?
誰生產(chǎn)它們?
誰制造了 H100?#
臺積電。
英偉達可以使用其他芯片廠進行H100生產(chǎn)嗎?#
不是真的,至少現(xiàn)在還沒有。他們過去曾與三星合作過。但在H100和其他5nm GPU上,他們只使用臺積電。這意味著三星還不能滿足他們對尖端GPU的需求。他們將來可能會與英特爾合作,并再次與三星合作,但這些都不會在短期內(nèi)以有助于H100供應(yīng)緊縮的方式發(fā)生。
不同的臺積電節(jié)點如何關(guān)聯(lián)?#
臺積電5nm系列:
N526
4N 要么適合作為 N5 的增強版本,要么低于 N5P
N5P
4N要么適合作為N5P的增強版本,要么低于N5作為N5的增強版本
N4
N4P
H100 是在哪個臺積電節(jié)點上制造的?#
臺積電4N。這是Nvidia的一個特殊節(jié)點,它屬于5nm系列,并且是增強的5nm,而不是真正的4nm。
還有誰使用該節(jié)點?#
是蘋果,但他們主要轉(zhuǎn)向N3,并保留了大部分N3容量。高通和AMD是N5家族的其他大客戶。
A100使用哪個臺積電節(jié)點?#
N727
晶圓廠產(chǎn)能通常提前多久預(yù)留?#
不確定,雖然可能是12 +個月。
這適用于 TSM 及其大客戶 他們一起計劃好 這就是為什么TSM / NVDA可能低估了他們的需求 –匿名
生產(chǎn)需要多長時間(生產(chǎn)、包裝、測試)?#
從 H6 的生產(chǎn)開始到 H100 準備出售給客戶需要 100 個月(從對話中開始,希望得到確認)
瓶頸在哪里?#
晶圓開工不是臺積電的瓶頸。前面提到的CoWoS(3D堆疊)包裝是臺積電的大門。 – 退休的半導(dǎo)體行業(yè)專業(yè)人士
H100 內(nèi)存#
什么會影響 GPU 上的內(nèi)存帶寬?#
內(nèi)存類型、內(nèi)存總線寬度和內(nèi)存時鐘速度。
主要是HBM。制造它是一場噩夢。供應(yīng)也大多是有限的,因為HBM很難生產(chǎn)。一旦你有了 HBM,設(shè)計就直觀地遵循 — 深度學習研究員
H100s 上使用什么內(nèi)存?#
在H100 SXM上,它是HBM3。28在H100 PCIe上,它實際上是HBM2e。29
誰在 H100 上制造了記憶?#
總線寬度和時鐘速度由 Nvidia 設(shè)計,作為 GPU 架構(gòu)的一部分。
對于HBM3內(nèi)存本身,我認為Nvidia使用全部或大部分SK海力士。不確定 Nvidia 是否在 H100 中使用三星的任何產(chǎn)品,我相信它不是美光在 H100 中使用的任何東西。
就HBM3而言,SK海力士做得最多,然后三星也不甘落后,然后是美光遠遠落后??雌饋鞸K海力士正在增加產(chǎn)量,但英偉達仍然希望他們生產(chǎn)更多,三星和美光還沒有成功提高產(chǎn)量。
制作 GPU 時還用什么?#
請注意,其中一些部分比其他部分更受瓶頸。
金屬元素:這些元素在 GPU 的生產(chǎn)中是必不可少的。它們包括:
銅:由于其高導(dǎo)電性,用于創(chuàng)建電氣連接。
鉭:通常用于電容器,因為它能夠保持高電荷。
金:由于其耐腐蝕性,用于高質(zhì)量的電鍍和連接器。
鋁:經(jīng)常用于散熱器以幫助散熱。
鎳:因其耐腐蝕性而常用于連接器的涂層。
錫:用于將組件焊接在一起。
銦:因其良好的導(dǎo)熱性而用于熱界面材料。
鈀:用于某些類型的電容器和半導(dǎo)體器件。
硅(準金屬):這是用于制造半導(dǎo)體器件的主要材料。
稀土元素:這些元素因其獨特的屬性而用于 GPU 的各個部分。
其他金屬和化學品:這些用于生產(chǎn)的各個階段,從創(chuàng)建硅晶圓到 GPU 的最終組裝。
基板:這些是安裝 GPU 組件的材料。
封裝材料:這些用于容納和保護 GPU 芯片。
焊球和鍵合線:這些用于將 GPU 芯片連接到基板和其他組件。
無源元件:這些包括電容器和電阻器,它們對于 GPU 的運行至關(guān)重要。
印刷電路板 (PCB):這是安裝 GPU 所有組件的電路板。它提供組件之間的電氣連接。
導(dǎo)熱化合物:這些用于改善芯片和散熱器之間的熱傳導(dǎo)。
半導(dǎo)體制造設(shè)備:包括光刻機、蝕刻設(shè)備、離子注入設(shè)備等。
潔凈室設(shè)施:這些是生產(chǎn)GPU所必需的,以防止硅晶圓和其他組件的污染。
測試和質(zhì)量控制設(shè)備:這些用于確保 GPU 滿足所需的性能和可靠性標準。
軟件和固件:這些對于控制GPU的操作以及與計算機系統(tǒng)其余部分的接口至關(guān)重要。
包裝和運輸材料:這些是將最終產(chǎn)品完好無損地交付給客戶所必需的。
軟件工具:用于計算機輔助設(shè)計 (CAD) 和模擬的軟件工具對于設(shè)計 GPU 的結(jié)構(gòu)和測試功能至關(guān)重要。
能耗:由于使用了高精度機械,GPU芯片的制造過程中需要大量的電力。
廢物管理:GPU的生產(chǎn)會產(chǎn)生廢物,必須妥善管理和處理,因為使用的許多材料可能對環(huán)境有害。
測試容量:定制/專業(yè)測試設(shè)備,用于驗證功能和性能。
芯片封裝:將硅晶圓組裝成可在更大系統(tǒng)中使用的組件封裝。
展望與預(yù)測#
英偉達在說什么?#
英偉達透露,他們在今年下半年有更多的供應(yīng),但除此之外,他們沒有說更多,也沒有量化。
“我們今天正在研究本季度的供應(yīng),但我們也為下半年采購了大量供應(yīng)” “我們相信,我們下半年的供應(yīng)量將大大大于h1” – 英偉達首席財務(wù)官科萊特·克雷斯在 2023 年 <> 月至 <> 月的財報電話會議上
接下來會發(fā)生什么?#
我認為我們現(xiàn)在可能有一個自我強化的循環(huán),稀缺性導(dǎo)致GPU容量被視為護城河,這會導(dǎo)致更多的GPU囤積,從而加劇稀缺性。 – 私有云執(zhí)行官
什么時候會有H100繼任者?#
可能要到 2024 年底(2024 年中期到 2025 年初)才會公布,基于 Nvidia 架構(gòu)之間的歷史時間。
在此之前,H100將成為Nvidia GPU的頂級產(chǎn)品。(GH200 和 DGX GH200 不算在內(nèi),它們不是純 GPU,它們都使用 H100 作為他們的 GPU)
會有更高的顯存 H100 嗎?#
也許是液冷 120GB H100s。
短缺何時結(jié)束?#
與我交談過的一個團體提到,它們實際上在 2023 年底之前已售罄。
采購 H100#
誰賣H100?#
戴爾,HPE,聯(lián)想,Supermicro和Quanta等OEM銷售H100和HGX H100。30
當你需要InfiniBand時,你需要直接與Nvidia的Mellanox交談。31
因此,像CoreWeave和Lambda這樣的GPU云從OEM購買,然后租給初創(chuàng)公司。
超大規(guī)模企業(yè)(Azure,GCP,AWS,Oracle)更直接地與Nvidia合作,但他們通常也與OEM合作。
即使對于DGX,您仍然會通過OEM購買。您可以與英偉達交談,但您將通過OEM購買。您不會直接向 Nvidia 下訂單。
交貨時間如何?#
8-GPU HGX 服務(wù)器上的提前期很糟糕,而 4-GPU HGX 服務(wù)器上的提前期很好。每個人都想要 8-GPU 服務(wù)器!
如果一家初創(chuàng)公司今天下訂單,他們什么時候可以訪問SSH?#
這將是一個交錯的部署。假設(shè)這是一個 5,000 GPU 的訂單。他們可能會在 2-000 個月內(nèi)獲得 4,000 或 4,5 個,然后剩余的總共大約 6 個月。
初創(chuàng)公司是否從 OEM 和經(jīng)銷商處購買?#
沒有。初創(chuàng)公司通常會去像甲骨文這樣的大型云租用訪問權(quán)限,或者像Lambda和CoreWeave這樣的私有云,或者與OEM和數(shù)據(jù)中心合作的提供商,如FluidStack。
初創(chuàng)公司何時構(gòu)建自己的數(shù)據(jù)中心與進行托管?#
對于構(gòu)建數(shù)據(jù)中心,考慮因素是構(gòu)建數(shù)據(jù)中心的時間,您是否具有硬件方面的人員和經(jīng)驗,以及它的資本支出是否昂貴。
更容易租用和colo服務(wù)器。如果你想建立自己的DC,你必須在你所在的位置運行一條暗光纖線路來連接到互聯(lián)網(wǎng) - 每公里10萬美元。大部分基礎(chǔ)設(shè)施已經(jīng)在互聯(lián)網(wǎng)繁榮期間建成并支付?,F(xiàn)在你可以租它,相當便宜 – 私有云執(zhí)行官
從租賃到擁有的范圍是:按需云(使用云服務(wù)的純租賃),保留云,colo(購買服務(wù)器,與提供商合作托管和管理服務(wù)器),自托管(自己購買和托管服務(wù)器)。
大多數(shù)需要大量H100的初創(chuàng)公司將進行保留云或colo。
大云如何比較?#
人們認為,Oracle 基礎(chǔ)架構(gòu)不如三大云可靠。作為交換,甲骨文會提供更多的技術(shù)支持幫助和時間。
100%.一大堆不滿意的客戶,哈哈 – 私有云執(zhí)行官 我認為[甲骨文]有更好的網(wǎng)絡(luò) –(不同)私有云高管
一般來說,初創(chuàng)公司會選擇提供支持、價格和容量的最佳組合的人。
大云的主要區(qū)別是:
網(wǎng)絡(luò)(AWS和Google Cloud采用InfiniBand的速度較慢,因為它們有自己的方法,盡管大多數(shù)尋找大型A100 / H100集群的初創(chuàng)公司都在尋求InfiniBand)
可用性(Azure的H100主要面向OpenAI。GCP 正在努力獲得 H100。
英偉達似乎傾向于為那些沒有構(gòu)建競爭機器學習芯片的云提供更好的分配。(這都是猜測,不是確鑿的事實。所有三大云都在開發(fā)機器學習芯片,但AWS和谷歌的Nvidia替代產(chǎn)品已經(jīng)可用,并且可能已經(jīng)花費了Nvidia的美元。
也是猜測,但我同意英偉達出于這個原因喜歡甲骨文 – 私有云執(zhí)行官
一些大型云的定價比其他云更好。正如一位私有云高管所指出的那樣,“例如,a100在aws/Azure上比gcp貴得多。
甲骨文告訴我,他們有“數(shù)千個H10中的100個”在今年晚些時候上線。他們吹噓他們與英偉達的特殊關(guān)系。 但。。。在定價方面,他們比其他任何人都高得多。他們沒有給我 H100 定價,但對于 A100 80gb,他們給我的報價接近 4 美元/小時,這比 GCP 對相同硬件和相同提交的報價高出近 2 倍。 – Anonymous
較小的云更適合定價,除非在某些情況下,其中一個大云做了一筆奇怪的交易以換取股權(quán)。
它可能是這樣的:甲骨文和Azure>GCP和AWS的關(guān)系。但這只是猜測。
甲骨文是第一個推出A100的公司,他們與英偉達合作托管了一個基于NVIDIA的集群。Nvidia也是Azure的客戶。
哪個大云擁有最好的網(wǎng)絡(luò)?#
Azure,CoreWeave和Lambda都使用InfiniBand。Oracle具有良好的網(wǎng)絡(luò),它是3200 Gbps,但它是以太網(wǎng)而不是InfiniBand,對于高參數(shù)計數(shù)LLM訓(xùn)練等用例,InfiniBand可能比IB慢15-20%左右。AWS和GCP的網(wǎng)絡(luò)就沒有那么好了。
企業(yè)使用哪些大云?#
在一個大約15家企業(yè)的私有數(shù)據(jù)點中,所有15家都是AWS,GCP或Azure,零甲骨文。
大多數(shù)企業(yè)將堅持使用現(xiàn)有的云。絕望的初創(chuàng)公司會去哪里,哪里就有供應(yīng)。
DGX Cloud怎么樣,英偉達正在與誰合作?#
“NVIDIA 正在與領(lǐng)先的云服務(wù)提供商合作托管 DGX 云基礎(chǔ)設(shè)施,從 Oracle 云基礎(chǔ)設(shè)施 (OCI) 開始” - 您處理 Nvidia 的銷售,但您通過現(xiàn)有的云提供商租用它(首先使用 Oracle 啟動,然后是 Azure,然后是 Google Cloud,而不是使用 AWS 啟動)32 33
Jensen在上一次財報電話會議上表示:“理想的組合是10%的Nvidia DGX云和90%的CSP云。
大云什么時候推出他們的 H100 預(yù)覽?#
CoreWeave是第一個。34英偉達給了他們較早的分配,大概是為了幫助加強大型云之間的競爭(因為英偉達是投資者)。
Azure 于 13 月 100 日宣布 H<> 可供預(yù)覽。35
甲骨文于21月100日宣布H<>數(shù)量有限。36
Lambda Labs 于 21 月 100 日宣布將在 <> 月初添加 H<>。37
AWS 于 21 月 100 日宣布,H<> 將在幾周后開始提供預(yù)覽。38
谷歌云于10月100日宣布開始為H<>提供個人預(yù)覽版。39
哪些公司使用哪些云?#
OpenAI:Azure。
變形:Azure和CoreWeave。
人類:AWS和谷歌云。
Cohere:AWS和Google Cloud。
擁抱臉:AWS。
穩(wěn)定性AI:CoreWeave和AWS。
Character.ai:谷歌云。
X.ai:甲骨文。
英偉達:Azure。35
公司或云服務(wù)提供商如何獲得更多 GPU?#
最終的瓶頸是從英偉達獲得分配。
英偉達分配如何運作?#
他們?yōu)槊總€客戶分配了配額。但例如,Azure說“嘿,我們希望Inflection使用10,000個H100”與Azure說“嘿,我們希望Azure的云使用10,000個H100”是不同的 - Nvidia關(guān)心誰是最終客戶,因此如果Nvidia對最終客戶感到興奮,云可能能夠為特定的最終客戶獲得額外的分配。英偉達還想知道最終客戶是誰,盡可能多。他們更喜歡擁有漂亮品牌的客戶或具有強大血統(tǒng)的初創(chuàng)公司。
是的,情況似乎是這樣。NVIDIA喜歡保證新興AI公司(其中許多公司與他們有著密切的關(guān)系)訪問GPU。查看他們投資的人工智能公司Inflection,在CoreWeave上測試一個巨大的H100集群,他們也投資了這個集群。 – 私有云執(zhí)行官
如果云給英偉達帶來了一個最終客戶,并說他們準備購買xxxx H100,如果英偉達對最終客戶感到興奮,他們通常會給予分配,這有效地提高了英偉達分配給該云的總?cè)萘?- 因為它不會計入英偉達給該云的原始分配。
這是一個獨特的情況,因為Nvidia正在為私有云提供大量分配:CoreWeave擁有比GCP更多的H100。
英偉達不愿向試圖直接與之競爭的公司(AWS Inferentia and Tranium、Google TPU、Azure Project Athena)提供大量撥款。
但最終,如果你把采購訂單和錢放在英偉達面前,承諾更大的交易和更多的錢,并表明你有一個低風險的形象,那么你將獲得比其他人更多的分配。
結(jié)語#
目前,我們受GPU限制。即使我們正處于山姆·奧特曼(Sam Altman)所說的“將成為這些巨型模型的時代末期”。
它既像泡沫,又不像泡沫,這取決于你在哪里看。像OpenAI這樣的一些公司擁有像ChatGPT這樣的產(chǎn)品,這些產(chǎn)品與市場非常契合,并且無法獲得足夠的GPU。其他公司正在購買或預(yù)留GPU容量,以便將來可以訪問,或者培訓(xùn)不太可能具有產(chǎn)品市場契合度的LLM。
英偉達現(xiàn)在是城堡的綠色之王。
追蹤 GPU 供需之旅#
產(chǎn)品市場契合度最強的LLM產(chǎn)品是ChatGPT。以下是GPU需求與ChatGPT相關(guān)的故事:
用戶喜歡ChatGPT。它可能每年產(chǎn)生$ 500mm ++的經(jīng)常性收入。
ChatGPT 運行在 GPT-4 和 GPT-3.5 API 上。
GPT-4 和 GPT-3.5 API 需要 GPU 才能運行。很多。OpenAI希望為ChatGPT及其API發(fā)布更多功能,但他們不能,因為他們無法訪問足夠的GPU。
他們通過Microsoft/Azure購買了很多Nvidia GPU。具體來說,他們最想要的GPU是Nvidia H100 GPU。
為了制造H100 SXM GPU,Nvidia使用臺積電進行制造,并使用臺積電的CoWoS封裝技術(shù),并使用主要來自SK海力士的HBM3。
OpenAI并不是唯一一家想要GPU的公司(但他們是產(chǎn)品市場契合度最強的公司)。其他公司也希望訓(xùn)練大型AI模型。其中一些用例是有意義的,但有些用例更多的是炒作驅(qū)動的,不太可能使產(chǎn)品與市場契合。這推高了需求。此外,一些公司擔心將來無法訪問GPU,因此即使他們還不需要它們,他們現(xiàn)在也會下訂單。因此,“對供應(yīng)短缺的預(yù)期會造成更多的供應(yīng)短缺”正在發(fā)生。
GPU需求的另一個主要貢獻者來自想要創(chuàng)建新的LLM的公司。以下是關(guān)于想要構(gòu)建新LLM的公司對GPU需求的故事:
公司高管或創(chuàng)始人知道人工智能領(lǐng)域有很大的機會。也許他們是一家想要在自己的數(shù)據(jù)上訓(xùn)練LLM并在外部使用它或出售訪問權(quán)限的企業(yè),或者他們是一家想要構(gòu)建LLM并出售訪問權(quán)限的初創(chuàng)公司。
他們知道他們需要 GPU 來訓(xùn)練大型模型。
他們與來自大云(Azure,Google Cloud,AWS)的一些人交談,試圖獲得許多H100。
他們發(fā)現(xiàn)他們無法從大云中獲得大量分配,并且一些大云沒有良好的網(wǎng)絡(luò)設(shè)置。因此,他們與其他提供商(如CoreWeave,Oracle,Lambda,F(xiàn)luidStack)進行了交談。如果他們想自己購買GPU并擁有它們,也許他們也會與OEM和Nvidia交談。
最終,他們獲得了大量的GPU。
現(xiàn)在,他們試圖獲得產(chǎn)品市場契合度。
如果不是很明顯,這條途徑就沒有那么好了 - 請記住,OpenAI在更小的模型上獲得了產(chǎn)品市場契合度,然后將它們擴大了規(guī)模。但是,現(xiàn)在要獲得產(chǎn)品市場契合度,您必須比OpenAI的模型更適合用戶的用例,因此首先,您將需要比OpenAI開始時更多的GPU。
預(yù)計至少到 100 年底,H2023 將短缺數(shù)百或數(shù)千次部署。到2023年底,情況將更加清晰,但就目前而言,短缺似乎也可能持續(xù)到2024年的某些時間。

GPU 供需之旅。大版本
取得聯(lián)系#
作者:克萊·帕斯卡。問題和筆記可以通過電子郵件發(fā)送。
新帖子:通過電子郵件接收有關(guān)新帖子的通知。
幫助:看這里。
自然的下一個問題 - 英偉達替代品呢?#
自然的下一個問題是“好吧,競爭和替代方案呢?我正在探索硬件替代方案以及軟件方法。提交我應(yīng)該探索的東西作為此表格的替代方案。例如,硬件方面的TPU,Inferentia,LLM ASIC和其他產(chǎn)品,以及軟件方面的Mojo,Triton和其他產(chǎn)品,以及使用AMD硬件和軟件的樣子。我正在探索一切,盡管專注于今天可用的東西。如果您是自由職業(yè)者,并希望幫助Llama 2在不同的硬件上運行,請給我發(fā)電子郵件。到目前為止,我們已經(jīng)在AMD,Gaudi上運行了TPU和Inferentia,并且來自AWS Silicon,Rain,Groq,Cerebras和其他公司的人員提供了幫助。
確認#
本文包含大量專有和以前未發(fā)布的信息。當您看到人們對GPU生產(chǎn)能力感到疑惑時,請向他們指出這篇文章的方向。
感謝私有GPU云公司的少數(shù)高管和創(chuàng)始人,一些AI創(chuàng)始人,ML工程師,深度學習研究員,其他一些行業(yè)專家和一些非行業(yè)讀者,他們提供了有用的評論。感謝哈米德的插圖。

A100\H100在中國大陸基本上越來越少,A800目前也在位H800讓路,如果確實需要A100\A800\H100\H800GPU,建議就不用挑剔了,HGX 和 PCIE 版對大部分使用者來說區(qū)別不是很大,有貨就可以下手了。
無論如何,選擇正規(guī)品牌廠商合作,在目前供需失衡不正常的市場情況下,市面大部分商家是無法供應(yīng)的,甚至提供不屬實的信息,如果是科研服務(wù)器的話首選風虎云龍科研服務(wù)器,入圍政采,品質(zhì)和售后服務(wù)都有保障。
歡迎交流 陳經(jīng)理【173-1639-1579】
機器學習、深度學習和強化學習的關(guān)系和區(qū)別是什么? - 知乎 (zhihu.com) 人工智能 (Artificial Intelligence, AI)主要應(yīng)用領(lǐng)域和三種形態(tài):弱人工智能、強人工智能和超級人工智能。 買硬件服務(wù)器劃算還是租云服務(wù)器劃算? - 知乎 (zhihu.com) 深度學習機器學習知識點全面總結(jié) - 知乎 (zhihu.com) 自學機器學習、深度學習、人工智能的網(wǎng)站看這里 - 知乎 (zhihu.com) 2023年深度學習GPU服務(wù)器配置推薦參考(3) - 知乎 (zhihu.com)

多年來一直專注于科學計算服務(wù)器,入圍政采平臺,H100、A100、H800、A800、RTX6000 Ada,單臺雙路192核心服務(wù)器有售,

多年來一直專注于科學計算服務(wù)器,入圍政采平臺,H100、A100、H800、A800、RTX6000 Ada,單臺雙路192核心服務(wù)器有售。