科技深喉:老黃帶大家在自家ai花園里挖呀挖

前天,老黃給我們展示了一套NVIDIA DGX GH200的超級計算機,我給大家聊聊它的特點:
1. 它的核心基于GH200 Grace Hopper超級芯片,這塊芯片將72 核的Grace CPU、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一個封裝中。

2. 這么復雜的SoC,集成這么強大的硬件性能,Tile間通信首先就是大問題。這塊超級芯片使用NVIDIA NVLink-C2C芯片互連,CPU 和 GPU 間的數(shù)據帶寬達到 900GB/s,這跟蘋果m1 ultra的2.5TB/s的Die間帶寬還不是一回事,異構通信明顯限制要多得多。

3. 算力上,這塊超級SoC的晶體管數(shù)量高達 2000 億個,而NVIDIA DGX GH200最多可將256個GH200芯片集成為一個單元,系統(tǒng)用的也是專門打造的NVLink Switch System(包含 36 個 NVLink 開關)。
4. 超級計算機兩個維度,一個是算力,一個就是數(shù)據流轉和存儲能力,256個GH200芯片集成的單元共用的是144TB的共享內存,這個單元內存規(guī)模也是絕無僅有的。另外它的網絡通信能力也是業(yè)內頂級的存在,我就不展開說了。
5. 我之前看同行報道這事兒時多了一句嘴,NVIDIA是有整機能力的,其中就包含這個設計上非常成功,市場上非常失敗的Grace CPU,因為第三方開發(fā)者重新為arm構架開發(fā)應用代價非常大,所以老黃自己上手,在ai新賽道上帶上了它,自家兒子,在外闖蕩失敗回到家族企業(yè),不總要扶持一把嘛。
老黃為什么要做NVIDIA DGX GH200,說白了因為之前大家都直接采購n100、a100,放在自己構架的系統(tǒng)上,老黃心里急啊,大把的鈔票,不能就這么放過啊,自己又不是沒有系統(tǒng)級的整合能力。

應該說,NVIDIA DGX GH200采用的NVLink Switch 拓撲結構還是很先進的,雖然是首次拿出這類構架,但從Tile間通信能力來看,還是非常成功的——他的GPU到GPU帶寬,和CPU到GPU的帶寬分別達到之前系統(tǒng)的10倍和7倍,還拿出了比競爭對手(我就不提名字了)高出 5 倍的互連功耗效率和高達 128TB/s 的對分帶寬。最難能可貴的是系統(tǒng)級的通信能力,讓他如同一塊GPU一樣快速高效。
NVIDIA DGX GH200前景怎么樣,說實話,這部分能割韭菜的就只有中小規(guī)模沒有系統(tǒng)開發(fā)能力的廠商,像#阿里云# 這樣的大廠商都需要將ai硬件能力放入到具體的業(yè)務場景中去,只講TFLOPS(最大運算能力)的NVIDIA DGX GH200就不那么適合了。當然,現(xiàn)有的情況下,阿里云應該是采購不到NVIDIA DGX GH200的。
據老黃說,谷歌云、Meta和微軟會首批采購NVIDIA DGX GH200,也不排除一種情況,NVIDIA會根據客戶的業(yè)務模型對產品做深度訂制,整合硬件能力的是NVIDIA DGX系統(tǒng),說是能加速設計和部署的效率,這個系統(tǒng)最后會呈現(xiàn)出怎樣的運行狀態(tài),甚至比硬件構架更為重要。
另外還有一個提升云端服務能力的Spectrum-X網絡平臺,說白了就是一個以太網堆棧,核心技術其實還是多方授權的,并不是NV的核心能力。
講到這里,我覺得差不多了,NVIDIA本來就在AI浪潮里挖到第一桶金,利用系統(tǒng)整合能力繼續(xù)挖,無可厚非。
那句歌詞怎么說的,在ai的世界里挖呀挖呀挖,最后都種成了老黃家花園里的花........