NVIDIA DGX GH200 超級(jí)服務(wù)器 AI人工智能趨勢(shì)
在COMPUTEX 2023, NVIDIA 宣布NVIDIA DGX GH200,這標(biāo)志著 GPU 的又一突破——加速計(jì)算,為最苛刻的巨型人工智能工作負(fù)載提供動(dòng)力。除了描述 NVIDIA DGX GH200 體系結(jié)構(gòu)的關(guān)鍵方面外,本文還討論了如何使用NVIDIA Base Command實(shí)現(xiàn)快速部署,加快用戶入職,并簡(jiǎn)化系統(tǒng)管理。GPU 的統(tǒng)一內(nèi)存編程模型是過(guò)去 7 年來(lái)復(fù)雜加速計(jì)算應(yīng)用取得各種突破的基石。?

2016 年, NVIDIA 推出NVLink技術(shù)和帶有 CUDA-6 的統(tǒng)一內(nèi)存編程模型,旨在增加 GPU 加速工作負(fù)載的可用內(nèi)存。從那時(shí)起,每個(gè) DGX 系統(tǒng)的核心都是與 NVLink 互連的基板上的 GPU 復(fù)合體,其中每個(gè) GPU 可以以 NVLink 的速度訪問(wèn)另一個(gè)的存儲(chǔ)器。許多具有 GPU 復(fù)合體的 DGX 通過(guò)高速網(wǎng)絡(luò)互連,形成更大的超級(jí)計(jì)算機(jī),如NVIDIA Selene 超級(jí)計(jì)算機(jī)。然而,一類新興的萬(wàn)億參數(shù)的巨型人工智能模型要么需要幾個(gè)月的訓(xùn)練,要么即使在當(dāng)今最好的超級(jí)計(jì)算機(jī)上也無(wú)法求解。為了讓需要一個(gè)能夠解決這些非凡挑戰(zhàn)的先進(jìn)平臺(tái)的科學(xué)家們獲得力量, NVIDIANVIDIA Grace Hopper Superchip與 NVLink 交換系統(tǒng),在 NVIDIA DGX GH200 系統(tǒng)中集成多達(dá) 256 GPU 。在 DGX GH200 系統(tǒng)中, GPU 共享內(nèi)存編程模型可以通過(guò) NVLink 高速訪問(wèn) 144 TB 的內(nèi)存。與單個(gè)相比NVIDIA DGX A100 320 GB 系統(tǒng), NVIDIA DGX GH200 通過(guò) NVLink 為 GPU 共享內(nèi)存編程模型提供了近 500 倍的內(nèi)存,形成了一個(gè)巨大的數(shù)據(jù)中心大小的 GPU 。 NVIDIA DGX GH200 是第一臺(tái)突破 NVLink 上 GPU 可訪問(wèn)內(nèi)存 100 TB 障礙的超級(jí)計(jì)算機(jī).??