最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

詳解-英偉達H100 GPU:供需

2023-08-30 10:18 作者:小元宇宙  | 我要投稿

這篇文章是對GPU的供需的探索,特別是Nvidia H100s。我們還將在這篇文章的同一天發(fā)布歌曲和音樂視頻。

這篇文章風靡一時。它出現(xiàn)在HN,techmeme,許多電子郵件通訊的首頁上,收到了Andrej Karpathy和其他人的推文,來自Inflection的Mustafa(他很快就會在線擁有1億美元的GPU)的評論和來自Stability的Emad,這首歌被紐約時報提及,各種資產(chǎn)管理公司和AI創(chuàng)始人伸出援手。如果您還沒有閱讀它,希望您喜歡!

介紹#

截至 2023 年 <> 月,人工智能似乎可能會受到 GPU 供應(yīng)的瓶頸。

“人工智能熱潮被低估的一個原因是GPU/TPU的短缺。這種短缺導(dǎo)致產(chǎn)品推出和模型訓(xùn)練受到各種限制,但這些限制是不可見的。相反,我們看到的只是英偉達的價格飆升。一旦供應(yīng)滿足需求,事情就會加速。 — Adam D'Angelo,Quora首席執(zhí)行官,Poe.com,前Facebook首席技術(shù)官


這些是對GPU供需以及AI最重要的首席執(zhí)行官和公司。大版本


真的存在瓶頸嗎?#

埃隆·馬斯克(Elon Musk)說:“在這一點上,GPU比藥物更難獲得。1

Sam Altman表示,OpenAI是GPU有限的,它正在推遲他們的短期計劃(微調(diào),專用容量,32k上下文窗口,多模態(tài))。2

小型和大型云提供商的大規(guī)模 H100 集群容量即將耗盡。3

“每個人都希望英偉達能夠生產(chǎn)更多的A / H100”4 — 來自云提供商高管的消息 “我們非常缺乏 GPU,使用我們產(chǎn)品的人越少越好” “如果他們少用,我們會喜歡它,因為我們沒有足夠的 GPU” Sam Altman,OpenAI首席執(zhí)行官5

這是一個很好的聲音,可以提醒世界用戶有多喜歡你的產(chǎn)品,但OpenAI需要更多的GPU也是事實。

對于 Azure/Microsoft:

  1. 他們在內(nèi)部對 GPU 的員工進行速率限制。他們必須像 1970 年代的大學大型機一樣排隊。我認為OpenAI現(xiàn)在正在吸收所有這些。

  2. Coreweave的交易就是粘貼到他們的GPU基礎(chǔ)設(shè)施上。

— 匿名

簡而言之:是的,H100 GPU供應(yīng)短缺。有人告訴我,對于尋求100或1000多個H100的公司來說,Azure和GCP實際上已經(jīng)耗盡了容量,而AWS即將被淘汰。6

這種“容量不足”是基于英偉達給他們的分配。

關(guān)于瓶頸,我們想知道什么?

  1. 是什么原因造成的(需求量,供應(yīng)量)

  2. 它會持續(xù)多久

  3. 什么將有助于解決它

目錄#

  • 介紹

  • 真的存在瓶頸嗎?


  • 目錄

  • 顯卡之歌

  • 對H100 GPU的需求

  • 誰需要H100?

  • 誰需要/擁有 1,000+ H100 或 A100

  • 誰需要/擁有 100+ H100 或 A100

  • 大多數(shù)高端GPU的用途是什么?

  • 大型AI實驗室在推理或訓(xùn)練方面是否受到更多限制?


  • 人們需要哪些 GPU?

  • LLM初創(chuàng)公司最常見的需求是什么?

  • 公司想要什么LLM培訓(xùn)和推理?

  • 法學碩士培訓(xùn)的重要內(nèi)容是什么?

  • 培訓(xùn)和運行LLM的其他成本是什么?

  • 那么 GPU 呢?

  • 是什么阻止了LLM公司使用AMD GPU?

  • H100 與 A100:H100 比 A100 快多少?

  • 每個人都想從 A100 升級到 H100 嗎?

  • H100s、GH200s、DGX GH200s、HGX H100s和DGX H100s有什么區(qū)別?

  • 其中哪一個會最受歡迎?



  • 這些 GPU 的成本是多少?

  • 需要多少個 GPU?

  • 大多數(shù)初創(chuàng)公司訂購多少個 H100?

  • 公司可能想要多少H100?


  • 摘要:H100需求


  • 供應(yīng) H100 顯卡

  • 誰制造了 H100?

  • 英偉達可以使用其他芯片廠進行H100生產(chǎn)嗎?

  • 不同的臺積電節(jié)點如何關(guān)聯(lián)?

  • H100 是在哪個臺積電節(jié)點上制造的?

  • 還有誰使用該節(jié)點?


  • A100使用哪個臺積電節(jié)點?

  • 晶圓廠產(chǎn)能通常提前多久預(yù)留?

  • 生產(chǎn)需要多長時間(生產(chǎn)、包裝、測試)?

  • 瓶頸在哪里?


  • H100 內(nèi)存

  • 什么會影響 GPU 上的內(nèi)存帶寬?

  • H100s 上使用什么內(nèi)存?

  • 誰在 H100 上制造了記憶?


  • 制作 GPU 時還用什么?


  • 展望與預(yù)測

  • 英偉達在說什么?

  • 接下來會發(fā)生什么?

  • 什么時候會有H100繼任者?

  • 會有更高的顯存 H100 嗎?

  • 短缺何時結(jié)束?



  • 采購 H100

  • 誰賣H100?

  • 交貨時間如何?

  • 如果一家初創(chuàng)公司今天下訂單,他們什么時候可以訪問SSH?

  • 初創(chuàng)公司是否從 OEM 和經(jīng)銷商處購買?

  • 初創(chuàng)公司何時構(gòu)建自己的數(shù)據(jù)中心與進行托管?


  • 大云如何比較?

  • 哪個大云擁有最好的網(wǎng)絡(luò)?

  • 企業(yè)使用哪些大云?

  • DGX Cloud怎么樣,英偉達正在與誰合作?

  • 大云什么時候推出他們的 H100 預(yù)覽?


  • 公司或云服務(wù)提供商如何獲得更多 GPU?

  • 英偉達分配如何運作?



  • 結(jié)語

  • 追蹤 GPU 供需之旅

  • 取得聯(lián)系

  • 自然的下一個問題 - 英偉達替代品呢?


  • 確認

顯卡之歌#

呃。。。我們還在發(fā)布這篇文章的同一天發(fā)布了一首歌。是火。

如果您還沒有聽過 GPU 歌曲,請幫自己一個忙并播放它。


我剛剛看了視頻。很有趣。干得不錯。 ——穆斯塔法·蘇萊曼(Mustafa Suleyman),Inflection AI首席執(zhí)行官

它在Spotify,Apple Music和YouTube上。

在此處查看有關(guān)這首歌的更多信息。

對H100 GPU的需求#

導(dǎo)致瓶頸的原因 - 需求

  1. 具體來說,人們想買什么他們不能買?

  2. 他們需要多少個這樣的 GPU?

  3. 為什么他們不能使用不同的 GPU?

  4. 有哪些不同的產(chǎn)品名稱?

  5. 公司在哪里購買它們,它們的價格是多少?

誰需要H100?#

“似乎每個人和他們的狗在這一點上都在購買 GPU”7 –伊隆

誰需要/擁有 1,000+ H100 或 A100#

  • 初創(chuàng)公司Startups training LLMs

  • OpenAI(通過Azure),Anthropic,Inflection(通過Azure)8和核心編織9)、米斯特拉爾·


  • 云服務(wù)提供商

  • 三大巨頭:Azure、GCP、AWS

  • 另一個公共云:甲骨文

  • 更大的私有云,如CoreWeave,Lambda


  • 其他大公司

  • 特斯拉7 10


誰需要/擁有 100+ H100 或 A100#

對大型開源模型進行重大微調(diào)的初創(chuàng)公司。

大多數(shù)高端GPU的用途是什么?#

對于使用私有云(CoreWeave,Lambda)的公司,擁有數(shù)百或數(shù)千個H100的公司來說,幾乎所有的LLM和一些擴散模型工作。其中一些是對現(xiàn)有模型的微調(diào),但大多數(shù)是您可能還不知道的新初創(chuàng)公司正在從頭開始構(gòu)建新模型。他們正在做10萬-50萬美元的合同,為期3年,有幾百到幾千個GPU。

對于使用帶有少量GPU的按需H100的公司來說,它仍然可能是>50%與LLM相關(guān)的使用。

私有云現(xiàn)在開始看到來自企業(yè)的入站需求,這些企業(yè)通常會使用其默認的大型云提供商,但每個人都出局了。

大型AI實驗室在推理或訓(xùn)練方面是否受到更多限制?#

取決于他們有多少產(chǎn)品牽引力!Sam Altman表示,如果被迫選擇,OpenAI寧愿擁有更多的推理能力,但OpenAI仍然受到兩者的限制。11

人們需要哪些 GPU?#

主要是H100。為什么?對于LLM來說,它是推理和訓(xùn)練最快的(H100通常也是推理的最佳性價比)

具體來說:8-GPU HGX H100 SXM 服務(wù)器。

我的分析是,為相同的工作運行也更便宜。V100 如果能找到它們,那就太好了,你不能 –匿名 老實說,不確定[這是最佳的性價比]?A100 的訓(xùn)練性價比看起來與 H100 大致相同。為了推斷,我們發(fā)現(xiàn) A10G 綽綽有余,而且便宜得多。 – 私有云執(zhí)行官 這個[A10G綽綽有余]在一段時間內(nèi)是正確的。但是在獵鷹40b和美洲駝2 70b的世界里,我們看到了很多使用,這不再是真的了。我們需要 A100 用于這些 確切地說是 2xA100。因此,互連速度對于推理很重要。 –(不同)私有云高管

LLM初創(chuàng)公司最常見的需求是什么?#

用于訓(xùn)練LLM:H100,3.2Tb / s InfiniBand。

公司想要什么LLM培訓(xùn)和推理?#

對于訓(xùn)練,他們傾向于想要H100,對于推斷,它更多的是關(guān)于每美元的性能。

對于 H100s 與 A100 來說,這仍然是一個每美元性能的問題,但 H100 通常受到青睞,因為它們可以使用更多數(shù)量的 GPU 更好地擴展并提供更快的訓(xùn)練時間,并且啟動、訓(xùn)練或改進模型的速度/壓縮時間對于初創(chuàng)公司至關(guān)重要。

“對于多節(jié)點訓(xùn)練,他們都要求A100或H100與InfiniBand網(wǎng)絡(luò)。我們看到的唯一非 A/H100 請求用于工作負載為單個 GPU 或單個節(jié)點的推理” – 私有云執(zhí)行官

法學碩士培訓(xùn)的重要內(nèi)容是什么?#

  • 內(nèi)存帶寬

  • FLOPS(張量核或等效矩陣乘法單元)

  • 緩存和緩存延遲

  • FP8 計算等附加功能

  • 計算性能(與 cuda 核心數(shù)相關(guān))

  • 互連速度(例如無限波段)

H100 優(yōu)于 A100,部分原因是緩存延遲較低和 FP8 計算等因素。

H100 是首選,因為它的效率提高了 3 倍,但成本僅為 (1.5 - 2 倍)。結(jié)合整體系統(tǒng)成本,H100 每美元產(chǎn)生更高的性能(如果您查看系統(tǒng)性能,則每美元的性能可能提高 4-5 倍)。 — 深度學習研究員

培訓(xùn)和運行LLM的其他成本是什么?#

GPU 是最昂貴的單個組件,但還有其他成本。

系統(tǒng)RAM和NVMe SSD價格昂貴。

InfiniBand網(wǎng)絡(luò)成本很高。

運行群集的總成本的 10-15% 可能用于電源和托管(電力、數(shù)據(jù)中心建筑成本、土地成本、員工) - 大致分為兩者,可以是 5-8% 的電力和 5-10% 的其他托管成本要素(土地、建筑物、員工)。

它主要是網(wǎng)絡(luò)和可靠的數(shù)據(jù)中心。由于網(wǎng)絡(luò)限制和不可靠的硬件,AWS 難以使用 — 深度學習研究員

那么 GPU 呢?#

GPU 不是關(guān)鍵要求,但可能會有所幫助。

我不會說它是超臨界的,但它對性能有影響。我想這取決于你的瓶頸在哪里。對于某些架構(gòu)/軟件實現(xiàn),瓶頸不一定是網(wǎng)絡(luò),但如果是 GPUDirect,可以產(chǎn)生 10-20% 的差異,這對于昂貴的訓(xùn)練運行來說是相當可觀的數(shù)字。 話雖如此,GPUDirect RDMA現(xiàn)在無處不在,幾乎不用說它得到了支持。我認為對非InfiniBand網(wǎng)絡(luò)的支持不太強,但大多數(shù)針對神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化的GPU集群都有Infiniband網(wǎng)絡(luò)/卡。影響性能的一個更大因素可能是NVLink,因為這比Infiniband更罕見,但只有在您具有特定的并行化策略時才至關(guān)重要。 因此,像強大的網(wǎng)絡(luò)和GPUirect這樣的功能可以讓你偷懶,你可以保證樸素的軟件開箱即用。但是,如果您關(guān)心成本或使用已有的基礎(chǔ)設(shè)施,這不是一個嚴格的要求。 – 深度學習研究員

是什么阻止了LLM公司使用AMD GPU?#

從理論上講,一家公司可以購買一堆AMD GPU,但讓一切正常運轉(zhuǎn)需要時間。開發(fā)時間(即使只有 2 個月)可能意味著比競爭對手更晚上市。所以CUDA現(xiàn)在是NVIDIA的護城河。 – 私有云執(zhí)行官 我懷疑 2 個月相差一個數(shù)量級,這可能不是一個有意義的差異,請參閱 https://www.mosaicml.com/blog/amd-mi250 – 機器學習工程師 誰會冒著廢棄 10,000 個 AMD GPU 或 10,000 個隨機啟動硅芯片的風險?這幾乎是300億美元的投資。 – 私有云執(zhí)行官 MosaicML/MI250 - 有沒有人問過AMD的可用性?AMD似乎并沒有為Frontier提供超出他們所需要的東西,現(xiàn)在臺積電CoWoS的容量被Nvidia吸收了。MI250 可能是一個可行的替代方案,但不可用。 – 退休的半導(dǎo)體行業(yè)專業(yè)人士

H100 與 A100:H100 比 A100 快多少?#

3 位推理速度提高約 5.16 倍12對于 2 位訓(xùn)練,速度提高了約 3.16 倍。13







以下是給您的更多閱讀:1 2 3。

每個人都想從 A100 升級到 H100 嗎?#

大多數(shù)人會想要購買 H100 并將其用于訓(xùn)練和推理,并將他們的 A100 切換為主要用于推理。但是,由于成本、容量、使用和設(shè)置新硬件的風險以及他們現(xiàn)有的軟件已經(jīng)針對 A100 進行了優(yōu)化,有些人可能會猶豫是否要切換。

是的,A100 將在幾年內(nèi)成為今天的 V100。由于性能限制,我不知道現(xiàn)在有人在 V100 上訓(xùn)練 LLM。但它們?nèi)匀挥糜谕评砗推渌ぷ髫撦d。同樣,隨著越來越多的人工智能公司將工作負載轉(zhuǎn)移到H100,A100的定價將會下降,但總會有需求,尤其是推理。 – 私有云執(zhí)行官 認為這也是合理的,一些籌集巨額資金的初創(chuàng)公司最終倒閉,然后有很多A100重返市場。 –(不同)私有云高管

隨著時間的推移,人們會移動,A100將更多地用于推理。

V100 呢?更高的VRAM卡更適合大型型號,因此尖端組更喜歡H100或A100。

不使用 V100 的主要原因是缺少 brainfloat16(bfloat16, BF16)數(shù)據(jù)類型。沒有它,很難輕松訓(xùn)練模型。OPT和BLOOM的糟糕表現(xiàn)主要歸因于沒有這種數(shù)據(jù)類型(OPT是在float16中訓(xùn)練的,BLOOM的原型設(shè)計主要是在fp16中完成的,這沒有產(chǎn)生數(shù)據(jù)被推廣到在bf16中完成的訓(xùn)練運行中) — 深度學習研究員

H100s、GH200s、DGX GH200s、HGX H100s和DGX H100s有什么區(qū)別?#

  • H100 = 1x H100 GPU

  • HGX H100 = OEM 用于構(gòu)建 4 GPU 或 8 GPU 服務(wù)器的 Nvidia 服務(wù)器參考平臺。由美超微等第三方 OEM 構(gòu)建。

  • DGX H100 = Nvidia 官方 H100 服務(wù)器,配備 8 個 H100。14英偉達是唯一的供應(yīng)商。

  • GH200 = 1x H100 GPU 加上 1x Grace CPU。15

  • DGX GH200 = 256x GH200,16將于 2023 年底上市。17可能僅由英偉達提供。

還有針對大型云公司的MGX。

其中哪一個會最受歡迎?#

大多數(shù)公司會購買 8-GPU HGX H100,18而不是 DGX H100 或 4-GPU HGX H100 服務(wù)器。

這些 GPU 的成本是多少?#

1x DGX H100 (SXM) 和 8x H100 GPU 的價格為 460 萬美元,包括所需的支持。$100k中的$460k是必需的支持。規(guī)格如下。初創(chuàng)公司可以獲得Inception折扣,折扣約為$ 50k,并且可用于多達8x DGX H100盒子,總共64個H100。



1x HGX H100 (SXM) 和 8x H100 GPU 的價格在 300k-380k 之間,具體取決于規(guī)格(網(wǎng)絡(luò)、存儲、RAM、CPU)以及銷售它的人的利潤率和支持級別。該范圍的高端,包括支持在內(nèi)的$ 360k-380k,是您可能期望與DGX H100相同規(guī)格的。

1x HGX H100 (PCIe) 和 8x H100 GPU 大約是 300k 美元,包括支持,具體取決于規(guī)格。

PCIe卡的市場價格約為30k-32k美元。

SXM卡并不是真正作為單張卡出售的,因此很難在那里給出定價。通常僅作為 4-GPU 和 8-GPU 服務(wù)器出售。

大約 70-80% 的需求是 SXM H100,其余的是 PCIe H100。SXM部分的需求呈上升趨勢,因為PCIe卡是前幾個月唯一可用的卡。鑒于大多數(shù)公司購買 8-GPU HGX H100 (SXM),每 360 個 H380 的大約支出為 8k-100k,包括其他服務(wù)器組件。

DGX GH200(提醒一下,包含256x GH200,每個GH200包含1x H100 GPU和1x Grace CPU)的成本可能在15mm-25mm之間 - 盡管這是一個猜測,而不是基于定價表。19

需要多少個 GPU?#

  • GPT-4 可能在 10,000 到 25,000 架 A100 之間接受過訓(xùn)練。20

  • Meta擁有大約21,000架A100,特斯拉擁有約7,000架A100,穩(wěn)定AI擁有約5,000架A100。21

  • 獵鷹-40B在384架A100上進行了訓(xùn)練。22

  • Inflection使用3,500 H100作為其GPT-3.5等效模型。23

順便說一句,到 22 月,我們有 3k 在運行。并且今天運行超過 5.<>k。 ——穆斯塔法·蘇萊曼(Mustafa Suleyman),Inflection AI首席執(zhí)行官

根據(jù)埃隆的說法,GPT-5 可能需要 30k-50k H100。摩根士丹利在 2023 年 5 月表示,GPT-25 將使用 000,2023 個 GPU,但他們也表示,截至 2023 年 <> 月,它已經(jīng)在接受訓(xùn)練,山姆·奧特曼在 <> 年 <> 月表示它尚未接受訓(xùn)練,因此 MS 的信息可能已經(jīng)過時。

GCP 大約有 25k H100,Azure 可能有 10k-40k H100。 對于 Oracle 應(yīng)該類似。Azure的大部分容量都將用于OpenAI。

CoreWeave 在 35k-40k H100 的球場上 - 不是現(xiàn)場直播,而是基于預(yù)訂。

大多數(shù)初創(chuàng)公司訂購多少個 H100?#

對于LLM:用于微調(diào),數(shù)十或低數(shù)百。為了訓(xùn)練,數(shù)千人。

公司可能想要多少H100?#

OpenAI可能需要50k。拐點需要 22k。24Meta 可能是 25k(我被告知實際上 Meta 想要 100k 或更多)。大型云可能需要30k(Azure,Google Cloud,AWS和Oracle)。Lambda和CoreWeave以及其他私有云可能需要100萬。Anthropic,Helsing,Mistral,Character,可能每個需要10k??偟拇蟾藕筒聹y,其中一些是重復(fù)計算云和將從云租用的最終客戶。但這大約是 432k H100。每件大約 35,15 美元,價值約 800 億美元的 GPU。這也排除了字節(jié)跳動(TikTok)、百度和騰訊等中國公司,它們想要大量的H<>。

還有一些金融公司都在進行部署,從數(shù)百架A100或H100開始,到數(shù)千架A/H100:Jane Street,JP Morgan,Two Sigma,Citadel等名稱。

這與英偉達的數(shù)據(jù)中心收入相比如何?

2023 年 4 月至 28 月是 $<>.<>b 數(shù)據(jù)中心收入。252023 年 8 月至 <> 月的數(shù)據(jù)中心收入可能在 <> 億美元左右,假設(shè)該季度的大部分較高指導(dǎo)是由于數(shù)據(jù)中心收入的增長而不是其他細分市場。

因此,供應(yīng)短缺可能需要一段時間才能消失。但是我所有的球場也可能被夸大了,而且這些公司中的許多公司今天不會直接購買H100,他們會隨著時間的推移而升級。此外,英偉達正在積極提高產(chǎn)能。

似乎有可能。400k H100 聽起來并非遙不可及,尤其是考慮到現(xiàn)在每個人都在進行大規(guī)模的 4 或 5 位數(shù) H100 部署。 – 私有云執(zhí)行官

摘要:H100需求#

在進入下一節(jié)時要記住的主要事情是,大多數(shù)大型CSP(Azure,AWS,GCP和Oracle)和私有云(CoreWeave,Lambda和其他各種云)想要更多的H100,而不是他們可以訪問。大多數(shù)大型人工智能產(chǎn)品公司想要的H100也比他們所能獲得的要多。通常,他們想要帶有SXM卡的8-GPU HGX H100盒,每臺300-GPU服務(wù)器的成本約為400k-8k美元,具體取決于規(guī)格和支持??赡苡袔资f個H100 GPU的過剩需求(15b +的GPU)。在供應(yīng)有限的情況下,英偉達可以純粹提高價格以找到清算價格,并且在某種程度上正在這樣做。但重要的是要知道,最終H100的分配取決于Nvidia更喜歡將分配分配給誰。

供應(yīng) H100 顯卡#

造成瓶頸的原因 - 供應(yīng)

  1. 生產(chǎn)方面的瓶頸是什么?

  2. 哪些組件?

  3. 誰生產(chǎn)它們?

誰制造了 H100?#

臺積電。

英偉達可以使用其他芯片廠進行H100生產(chǎn)嗎?#

不是真的,至少現(xiàn)在還沒有。他們過去曾與三星合作過。但在H100和其他5nm GPU上,他們只使用臺積電。這意味著三星還不能滿足他們對尖端GPU的需求。他們將來可能會與英特爾合作,并再次與三星合作,但這些都不會在短期內(nèi)以有助于H100供應(yīng)緊縮的方式發(fā)生。

不同的臺積電節(jié)點如何關(guān)聯(lián)?#

臺積電5nm系列:

  • N526

  • 4N 要么適合作為 N5 的增強版本,要么低于 N5P

  • N5P

  • 4N要么適合作為N5P的增強版本,要么低于N5作為N5的增強版本


  • N4

  • N4P


H100 是在哪個臺積電節(jié)點上制造的?#

臺積電4N。這是Nvidia的一個特殊節(jié)點,它屬于5nm系列,并且是增強的5nm,而不是真正的4nm。

還有誰使用該節(jié)點?#

是蘋果,但他們主要轉(zhuǎn)向N3,并保留了大部分N3容量。高通和AMD是N5家族的其他大客戶。

A100使用哪個臺積電節(jié)點?#

N727

晶圓廠產(chǎn)能通常提前多久預(yù)留?#

不確定,雖然可能是12 +個月。

這適用于 TSM 及其大客戶 他們一起計劃好 這就是為什么TSM / NVDA可能低估了他們的需求 –匿名

生產(chǎn)需要多長時間(生產(chǎn)、包裝、測試)?#

從 H6 的生產(chǎn)開始到 H100 準備出售給客戶需要 100 個月(從對話中開始,希望得到確認)

瓶頸在哪里?#

晶圓開工不是臺積電的瓶頸。前面提到的CoWoS(3D堆疊)包裝是臺積電的大門。 – 退休的半導(dǎo)體行業(yè)專業(yè)人士

H100 內(nèi)存#

什么會影響 GPU 上的內(nèi)存帶寬?#

內(nèi)存類型、內(nèi)存總線寬度和內(nèi)存時鐘速度。

主要是HBM。制造它是一場噩夢。供應(yīng)也大多是有限的,因為HBM很難生產(chǎn)。一旦你有了 HBM,設(shè)計就直觀地遵循 — 深度學習研究員

H100s 上使用什么內(nèi)存?#

在H100 SXM上,它是HBM3。28在H100 PCIe上,它實際上是HBM2e。29

誰在 H100 上制造了記憶?#

總線寬度和時鐘速度由 Nvidia 設(shè)計,作為 GPU 架構(gòu)的一部分。

對于HBM3內(nèi)存本身,我認為Nvidia使用全部或大部分SK海力士。不確定 Nvidia 是否在 H100 中使用三星的任何產(chǎn)品,我相信它不是美光在 H100 中使用的任何東西。

就HBM3而言,SK海力士做得最多,然后三星也不甘落后,然后是美光遠遠落后??雌饋鞸K海力士正在增加產(chǎn)量,但英偉達仍然希望他們生產(chǎn)更多,三星和美光還沒有成功提高產(chǎn)量。

制作 GPU 時還用什么?#

請注意,其中一些部分比其他部分更受瓶頸。

  • 金屬元素:這些元素在 GPU 的生產(chǎn)中是必不可少的。它們包括:

  • 銅:由于其高導(dǎo)電性,用于創(chuàng)建電氣連接。

  • 鉭:通常用于電容器,因為它能夠保持高電荷。

  • 金:由于其耐腐蝕性,用于高質(zhì)量的電鍍和連接器。

  • 鋁:經(jīng)常用于散熱器以幫助散熱。

  • 鎳:因其耐腐蝕性而常用于連接器的涂層。

  • 錫:用于將組件焊接在一起。

  • 銦:因其良好的導(dǎo)熱性而用于熱界面材料。

  • 鈀:用于某些類型的電容器和半導(dǎo)體器件。


  • 硅(準金屬):這是用于制造半導(dǎo)體器件的主要材料。

  • 稀土元素:這些元素因其獨特的屬性而用于 GPU 的各個部分。

  • 其他金屬和化學品:這些用于生產(chǎn)的各個階段,從創(chuàng)建硅晶圓到 GPU 的最終組裝。

  • 基板:這些是安裝 GPU 組件的材料。

  • 封裝材料:這些用于容納和保護 GPU 芯片。

  • 焊球和鍵合線:這些用于將 GPU 芯片連接到基板和其他組件。

  • 無源元件:這些包括電容器和電阻器,它們對于 GPU 的運行至關(guān)重要。

  • 印刷電路板 (PCB):這是安裝 GPU 所有組件的電路板。它提供組件之間的電氣連接。

  • 導(dǎo)熱化合物:這些用于改善芯片和散熱器之間的熱傳導(dǎo)。

  • 半導(dǎo)體制造設(shè)備:包括光刻機、蝕刻設(shè)備、離子注入設(shè)備等。

  • 潔凈室設(shè)施:這些是生產(chǎn)GPU所必需的,以防止硅晶圓和其他組件的污染。

  • 測試和質(zhì)量控制設(shè)備:這些用于確保 GPU 滿足所需的性能和可靠性標準。

  • 軟件和固件:這些對于控制GPU的操作以及與計算機系統(tǒng)其余部分的接口至關(guān)重要。

  • 包裝和運輸材料:這些是將最終產(chǎn)品完好無損地交付給客戶所必需的。

  • 軟件工具:用于計算機輔助設(shè)計 (CAD) 和模擬的軟件工具對于設(shè)計 GPU 的結(jié)構(gòu)和測試功能至關(guān)重要。

  • 能耗:由于使用了高精度機械,GPU芯片的制造過程中需要大量的電力。

  • 廢物管理:GPU的生產(chǎn)會產(chǎn)生廢物,必須妥善管理和處理,因為使用的許多材料可能對環(huán)境有害。

  • 測試容量:定制/專業(yè)測試設(shè)備,用于驗證功能和性能。

  • 芯片封裝:將硅晶圓組裝成可在更大系統(tǒng)中使用的組件封裝。

展望與預(yù)測#

英偉達在說什么?#

英偉達透露,他們在今年下半年有更多的供應(yīng),但除此之外,他們沒有說更多,也沒有量化。

“我們今天正在研究本季度的供應(yīng),但我們也為下半年采購了大量供應(yīng)” “我們相信,我們下半年的供應(yīng)量將大大大于h1” – 英偉達首席財務(wù)官科萊特·克雷斯在 2023 年 <> 月至 <> 月的財報電話會議上

接下來會發(fā)生什么?#

我認為我們現(xiàn)在可能有一個自我強化的循環(huán),稀缺性導(dǎo)致GPU容量被視為護城河,這會導(dǎo)致更多的GPU囤積,從而加劇稀缺性。 – 私有云執(zhí)行官

什么時候會有H100繼任者?#

可能要到 2024 年底(2024 年中期到 2025 年初)才會公布,基于 Nvidia 架構(gòu)之間的歷史時間。

在此之前,H100將成為Nvidia GPU的頂級產(chǎn)品。(GH200 和 DGX GH200 不算在內(nèi),它們不是純 GPU,它們都使用 H100 作為他們的 GPU)

會有更高的顯存 H100 嗎?#

也許是液冷 120GB H100s。

短缺何時結(jié)束?#

與我交談過的一個團體提到,它們實際上在 2023 年底之前已售罄。

采購 H100#

誰賣H100?#

戴爾,HPE,聯(lián)想,Supermicro和Quanta等OEM銷售H100和HGX H100。30

當你需要InfiniBand時,你需要直接與Nvidia的Mellanox交談。31

因此,像CoreWeave和Lambda這樣的GPU云從OEM購買,然后租給初創(chuàng)公司。

超大規(guī)模企業(yè)(Azure,GCP,AWS,Oracle)更直接地與Nvidia合作,但他們通常也與OEM合作。

即使對于DGX,您仍然會通過OEM購買。您可以與英偉達交談,但您將通過OEM購買。您不會直接向 Nvidia 下訂單。

交貨時間如何?#

8-GPU HGX 服務(wù)器上的提前期很糟糕,而 4-GPU HGX 服務(wù)器上的提前期很好。每個人都想要 8-GPU 服務(wù)器!

如果一家初創(chuàng)公司今天下訂單,他們什么時候可以訪問SSH?#

這將是一個交錯的部署。假設(shè)這是一個 5,000 GPU 的訂單。他們可能會在 2-000 個月內(nèi)獲得 4,000 或 4,5 個,然后剩余的總共大約 6 個月。

初創(chuàng)公司是否從 OEM 和經(jīng)銷商處購買?#

沒有。初創(chuàng)公司通常會去像甲骨文這樣的大型云租用訪問權(quán)限,或者像Lambda和CoreWeave這樣的私有云,或者與OEM和數(shù)據(jù)中心合作的提供商,如FluidStack。

初創(chuàng)公司何時構(gòu)建自己的數(shù)據(jù)中心與進行托管?#

對于構(gòu)建數(shù)據(jù)中心,考慮因素是構(gòu)建數(shù)據(jù)中心的時間,您是否具有硬件方面的人員和經(jīng)驗,以及它的資本支出是否昂貴。

更容易租用和colo服務(wù)器。如果你想建立自己的DC,你必須在你所在的位置運行一條暗光纖線路來連接到互聯(lián)網(wǎng) - 每公里10萬美元。大部分基礎(chǔ)設(shè)施已經(jīng)在互聯(lián)網(wǎng)繁榮期間建成并支付?,F(xiàn)在你可以租它,相當便宜 – 私有云執(zhí)行官

從租賃到擁有的范圍是:按需云(使用云服務(wù)的純租賃),保留云,colo(購買服務(wù)器,與提供商合作托管和管理服務(wù)器),自托管(自己購買和托管服務(wù)器)。

大多數(shù)需要大量H100的初創(chuàng)公司將進行保留云或colo。

大云如何比較?#

人們認為,Oracle 基礎(chǔ)架構(gòu)不如三大云可靠。作為交換,甲骨文會提供更多的技術(shù)支持幫助和時間。

100%.一大堆不滿意的客戶,哈哈 – 私有云執(zhí)行官 我認為[甲骨文]有更好的網(wǎng)絡(luò) –(不同)私有云高管

一般來說,初創(chuàng)公司會選擇提供支持、價格和容量的最佳組合的人。

大云的主要區(qū)別是:

  • 網(wǎng)絡(luò)(AWS和Google Cloud采用InfiniBand的速度較慢,因為它們有自己的方法,盡管大多數(shù)尋找大型A100 / H100集群的初創(chuàng)公司都在尋求InfiniBand)

  • 可用性(Azure的H100主要面向OpenAI。GCP 正在努力獲得 H100。

英偉達似乎傾向于為那些沒有構(gòu)建競爭機器學習芯片的云提供更好的分配。(這都是猜測,不是確鑿的事實。所有三大云都在開發(fā)機器學習芯片,但AWS和谷歌的Nvidia替代產(chǎn)品已經(jīng)可用,并且可能已經(jīng)花費了Nvidia的美元。

也是猜測,但我同意英偉達出于這個原因喜歡甲骨文 – 私有云執(zhí)行官

一些大型云的定價比其他云更好。正如一位私有云高管所指出的那樣,“例如,a100在aws/Azure上比gcp貴得多。

甲骨文告訴我,他們有“數(shù)千個H10中的100個”在今年晚些時候上線。他們吹噓他們與英偉達的特殊關(guān)系。 但。。。在定價方面,他們比其他任何人都高得多。他們沒有給我 H100 定價,但對于 A100 80gb,他們給我的報價接近 4 美元/小時,這比 GCP 對相同硬件和相同提交的報價高出近 2 倍。 – Anonymous

較小的云更適合定價,除非在某些情況下,其中一個大云做了一筆奇怪的交易以換取股權(quán)。

它可能是這樣的:甲骨文和Azure>GCP和AWS的關(guān)系。但這只是猜測。

甲骨文是第一個推出A100的公司,他們與英偉達合作托管了一個基于NVIDIA的集群。Nvidia也是Azure的客戶。

哪個大云擁有最好的網(wǎng)絡(luò)?#

Azure,CoreWeave和Lambda都使用InfiniBand。Oracle具有良好的網(wǎng)絡(luò),它是3200 Gbps,但它是以太網(wǎng)而不是InfiniBand,對于高參數(shù)計數(shù)LLM訓(xùn)練等用例,InfiniBand可能比IB慢15-20%左右。AWS和GCP的網(wǎng)絡(luò)就沒有那么好了。

企業(yè)使用哪些大云?#

在一個大約15家企業(yè)的私有數(shù)據(jù)點中,所有15家都是AWS,GCP或Azure,零甲骨文。

大多數(shù)企業(yè)將堅持使用現(xiàn)有的云。絕望的初創(chuàng)公司會去哪里,哪里就有供應(yīng)。

DGX Cloud怎么樣,英偉達正在與誰合作?#

“NVIDIA 正在與領(lǐng)先的云服務(wù)提供商合作托管 DGX 云基礎(chǔ)設(shè)施,從 Oracle 云基礎(chǔ)設(shè)施 (OCI) 開始” - 您處理 Nvidia 的銷售,但您通過現(xiàn)有的云提供商租用它(首先使用 Oracle 啟動,然后是 Azure,然后是 Google Cloud,而不是使用 AWS 啟動)32 33

Jensen在上一次財報電話會議上表示:“理想的組合是10%的Nvidia DGX云和90%的CSP云。

大云什么時候推出他們的 H100 預(yù)覽?#

CoreWeave是第一個。34英偉達給了他們較早的分配,大概是為了幫助加強大型云之間的競爭(因為英偉達是投資者)。

Azure 于 13 月 100 日宣布 H<> 可供預(yù)覽。35

甲骨文于21月100日宣布H<>數(shù)量有限。36

Lambda Labs 于 21 月 100 日宣布將在 <> 月初添加 H<>。37

AWS 于 21 月 100 日宣布,H<> 將在幾周后開始提供預(yù)覽。38

谷歌云于10月100日宣布開始為H<>提供個人預(yù)覽版。39

哪些公司使用哪些云?#

  • OpenAI:Azure。

  • 變形:Azure和CoreWeave。

  • 人類:AWS和谷歌云。

  • Cohere:AWS和Google Cloud。

  • 擁抱臉:AWS。

  • 穩(wěn)定性AI:CoreWeave和AWS。

  • Character.ai:谷歌云。

  • X.ai:甲骨文。

  • 英偉達:Azure。35

公司或云服務(wù)提供商如何獲得更多 GPU?#

最終的瓶頸是從英偉達獲得分配。

英偉達分配如何運作?#

他們?yōu)槊總€客戶分配了配額。但例如,Azure說“嘿,我們希望Inflection使用10,000個H100”與Azure說“嘿,我們希望Azure的云使用10,000個H100”是不同的 - Nvidia關(guān)心誰是最終客戶,因此如果Nvidia對最終客戶感到興奮,云可能能夠為特定的最終客戶獲得額外的分配。英偉達還想知道最終客戶是誰,盡可能多。他們更喜歡擁有漂亮品牌的客戶或具有強大血統(tǒng)的初創(chuàng)公司。

是的,情況似乎是這樣。NVIDIA喜歡保證新興AI公司(其中許多公司與他們有著密切的關(guān)系)訪問GPU。查看他們投資的人工智能公司Inflection,在CoreWeave上測試一個巨大的H100集群,他們也投資了這個集群。 – 私有云執(zhí)行官

如果云給英偉達帶來了一個最終客戶,并說他們準備購買xxxx H100,如果英偉達對最終客戶感到興奮,他們通常會給予分配,這有效地提高了英偉達分配給該云的總?cè)萘?- 因為它不會計入英偉達給該云的原始分配。

這是一個獨特的情況,因為Nvidia正在為私有云提供大量分配:CoreWeave擁有比GCP更多的H100。

英偉達不愿向試圖直接與之競爭的公司(AWS Inferentia and Tranium、Google TPU、Azure Project Athena)提供大量撥款。

但最終,如果你把采購訂單和錢放在英偉達面前,承諾更大的交易和更多的錢,并表明你有一個低風險的形象,那么你將獲得比其他人更多的分配。

結(jié)語#

目前,我們受GPU限制。即使我們正處于山姆·奧特曼(Sam Altman)所說的“將成為這些巨型模型的時代末期”。

它既像泡沫,又不像泡沫,這取決于你在哪里看。像OpenAI這樣的一些公司擁有像ChatGPT這樣的產(chǎn)品,這些產(chǎn)品與市場非常契合,并且無法獲得足夠的GPU。其他公司正在購買或預(yù)留GPU容量,以便將來可以訪問,或者培訓(xùn)不太可能具有產(chǎn)品市場契合度的LLM。

英偉達現(xiàn)在是城堡的綠色之王。

追蹤 GPU 供需之旅#

產(chǎn)品市場契合度最強的LLM產(chǎn)品是ChatGPT。以下是GPU需求與ChatGPT相關(guān)的故事:

  1. 用戶喜歡ChatGPT。它可能每年產(chǎn)生$ 500mm ++的經(jīng)常性收入。

  2. ChatGPT 運行在 GPT-4 和 GPT-3.5 API 上。

  3. GPT-4 和 GPT-3.5 API 需要 GPU 才能運行。很多。OpenAI希望為ChatGPT及其API發(fā)布更多功能,但他們不能,因為他們無法訪問足夠的GPU。

  4. 他們通過Microsoft/Azure購買了很多Nvidia GPU。具體來說,他們最想要的GPU是Nvidia H100 GPU。

  5. 為了制造H100 SXM GPU,Nvidia使用臺積電進行制造,并使用臺積電的CoWoS封裝技術(shù),并使用主要來自SK海力士的HBM3。

OpenAI并不是唯一一家想要GPU的公司(但他們是產(chǎn)品市場契合度最強的公司)。其他公司也希望訓(xùn)練大型AI模型。其中一些用例是有意義的,但有些用例更多的是炒作驅(qū)動的,不太可能使產(chǎn)品與市場契合。這推高了需求。此外,一些公司擔心將來無法訪問GPU,因此即使他們還不需要它們,他們現(xiàn)在也會下訂單。因此,“對供應(yīng)短缺的預(yù)期會造成更多的供應(yīng)短缺”正在發(fā)生。

GPU需求的另一個主要貢獻者來自想要創(chuàng)建新的LLM的公司。以下是關(guān)于想要構(gòu)建新LLM的公司對GPU需求的故事:

  1. 公司高管或創(chuàng)始人知道人工智能領(lǐng)域有很大的機會。也許他們是一家想要在自己的數(shù)據(jù)上訓(xùn)練LLM并在外部使用它或出售訪問權(quán)限的企業(yè),或者他們是一家想要構(gòu)建LLM并出售訪問權(quán)限的初創(chuàng)公司。

  2. 他們知道他們需要 GPU 來訓(xùn)練大型模型。

  3. 他們與來自大云(Azure,Google Cloud,AWS)的一些人交談,試圖獲得許多H100。

  4. 他們發(fā)現(xiàn)他們無法從大云中獲得大量分配,并且一些大云沒有良好的網(wǎng)絡(luò)設(shè)置。因此,他們與其他提供商(如CoreWeave,Oracle,Lambda,F(xiàn)luidStack)進行了交談。如果他們想自己購買GPU并擁有它們,也許他們也會與OEM和Nvidia交談。

  5. 最終,他們獲得了大量的GPU。

  6. 現(xiàn)在,他們試圖獲得產(chǎn)品市場契合度。

  7. 如果不是很明顯,這條途徑就沒有那么好了 - 請記住,OpenAI在更小的模型上獲得了產(chǎn)品市場契合度,然后將它們擴大了規(guī)模。但是,現(xiàn)在要獲得產(chǎn)品市場契合度,您必須比OpenAI的模型更適合用戶的用例,因此首先,您將需要比OpenAI開始時更多的GPU。

預(yù)計至少到 100 年底,H2023 將短缺數(shù)百或數(shù)千次部署。到2023年底,情況將更加清晰,但就目前而言,短缺似乎也可能持續(xù)到2024年的某些時間。


GPU 供需之旅。大版本


取得聯(lián)系#

作者:克萊·帕斯卡。問題和筆記可以通過電子郵件發(fā)送。

新帖子:通過電子郵件接收有關(guān)新帖子的通知。

幫助:看這里。

自然的下一個問題 - 英偉達替代品呢?#

自然的下一個問題是“好吧,競爭和替代方案呢?我正在探索硬件替代方案以及軟件方法。提交我應(yīng)該探索的東西作為此表格的替代方案。例如,硬件方面的TPU,Inferentia,LLM ASIC和其他產(chǎn)品,以及軟件方面的Mojo,Triton和其他產(chǎn)品,以及使用AMD硬件和軟件的樣子。我正在探索一切,盡管專注于今天可用的東西。如果您是自由職業(yè)者,并希望幫助Llama 2在不同的硬件上運行,請給我發(fā)電子郵件。到目前為止,我們已經(jīng)在AMD,Gaudi上運行了TPU和Inferentia,并且來自AWS Silicon,Rain,Groq,Cerebras和其他公司的人員提供了幫助。

確認#

本文包含大量專有和以前未發(fā)布的信息。當您看到人們對GPU生產(chǎn)能力感到疑惑時,請向他們指出這篇文章的方向。

感謝私有GPU云公司的少數(shù)高管和創(chuàng)始人,一些AI創(chuàng)始人,ML工程師,深度學習研究員,其他一些行業(yè)專家和一些非行業(yè)讀者,他們提供了有用的評論。感謝哈米德的插圖。


A100\H100在中國大陸基本上越來越少,A800目前也在位H800讓路,如果確實需要A100\A800\H100\H800GPU,建議就不用挑剔了,HGX 和 PCIE 版對大部分使用者來說區(qū)別不是很大,有貨就可以下手了。

無論如何,選擇正規(guī)品牌廠商合作,在目前供需失衡不正常的市場情況下,市面大部分商家是無法供應(yīng)的,甚至提供不屬實的信息,如果是科研服務(wù)器的話首選風虎云龍科研服務(wù)器,入圍政采,品質(zhì)和售后服務(wù)都有保障。

歡迎交流 陳經(jīng)理【173-1639-1579】

機器學習、深度學習和強化學習的關(guān)系和區(qū)別是什么? - 知乎 (zhihu.com) 人工智能 (Artificial Intelligence, AI)主要應(yīng)用領(lǐng)域和三種形態(tài):弱人工智能、強人工智能和超級人工智能。 買硬件服務(wù)器劃算還是租云服務(wù)器劃算? - 知乎 (zhihu.com) 深度學習機器學習知識點全面總結(jié) - 知乎 (zhihu.com) 自學機器學習、深度學習、人工智能的網(wǎng)站看這里 - 知乎 (zhihu.com) 2023年深度學習GPU服務(wù)器配置推薦參考(3) - 知乎 (zhihu.com)

多年來一直專注于科學計算服務(wù)器,入圍政采平臺,H100、A100、H800、A800、RTX6000 Ada,單臺雙路192核心服務(wù)器有售,


多年來一直專注于科學計算服務(wù)器,入圍政采平臺,H100、A100、H800、A800、RTX6000 Ada,單臺雙路192核心服務(wù)器有售。



詳解-英偉達H100 GPU:供需的評論 (共 條)

分享到微博請遵守國家法律
侯马市| 德清县| 通州市| 屯门区| 乌鲁木齐县| 弥渡县| 昌邑市| 新丰县| 杭锦旗| 津南区| 望都县| 额尔古纳市| 确山县| 英吉沙县| 福安市| 伊吾县| 玉田县| 同心县| 麻江县| 阿拉尔市| 新民市| 镇巴县| 特克斯县| 涟源市| 保定市| 平原县| 榆中县| 琼中| 乌兰浩特市| 台中市| 甘孜| 黄陵县| 临武县| 新建县| 长丰县| 白银市| 晋州市| 格尔木市| 桦南县| 革吉县| 连平县|