H800超微NV服務(wù)器 GPU硬件架構(gòu)
H800 GPU硬件架構(gòu)
NVIDIA H800 GPU 由多個(gè) GPU 處理集群 (GPC)、紋理處理集群 (TPC)、流式多處理器 (SM) 和 HBM2 內(nèi)存控制器組成。
H800 GPU 的完整實(shí)現(xiàn)包括以下單元:
8 個(gè) GPC、8 個(gè) TPC/GPC、2 個(gè) SM/TPC、16 個(gè) SM/GPC、每個(gè)完整 GPU 128 個(gè) SM
64 個(gè) FP32 CUDA 核心/SM,每個(gè)完整 GPU 8192 個(gè) FP32 CUDA 核心
4 個(gè)第三代 Tensor Cores/SM,每個(gè)完整 GPU 512 個(gè)第三代 Tensor Cores?
6 個(gè) HBM2 堆棧、12 512 位內(nèi)存控制器?
GA100 GPU 的A100?Tensor Core GPU 實(shí)現(xiàn)包括以下單元:
7 個(gè) GPC、7 或 8 個(gè) TPC/GPC、2 個(gè) SM/TPC、最多 16 個(gè) SM/GPC、108 個(gè) SM
64 個(gè) FP32 CUDA 核心/SM,每個(gè) GPU 6912 個(gè) FP32 CUDA 核心
4 個(gè)第三代 Tensor Cores/SM,每個(gè) GPU 432 個(gè)第三代 Tensor Cores?
5 個(gè) HBM2 堆棧、10 個(gè) 512 位內(nèi)存控制器
這里簡要強(qiáng)調(diào)了 SM 的關(guān)鍵功能,并在本文后面詳細(xì)描述:
第三代張量核心:
所有數(shù)據(jù)類型的加速,包括 FP16、BF16、TF32、FP64、INT8、INT4 和二進(jìn)制。
新的 Tensor Core 稀疏性功能利用了深度學(xué)習(xí)網(wǎng)絡(luò)中的細(xì)粒度結(jié)構(gòu)化稀疏性,使標(biāo)準(zhǔn) Tensor Core 操作的性能提高了一倍。
A100 中的 TF32 Tensor Core 運(yùn)算提供了一種簡單的方法來加速 DL 框架和 HPC 中的 FP32 輸入/輸出數(shù)據(jù),其運(yùn)行速度比 V100 FP32 FMA 運(yùn)算快 10 倍,或者在稀疏性情況下快 20 倍。
FP16/FP32 混合精度 Tensor Core 運(yùn)算為深度學(xué)習(xí)提供了前所未有的處理能力,運(yùn)行速度比 V100 Tensor Core 運(yùn)算快 2.5 倍,稀疏性增加到 5 倍。
BF16/FP32 混合精度 Tensor Core 運(yùn)算的運(yùn)行速度與 FP16/FP32 混合精度相同。
FP64 Tensor Core 運(yùn)算為 HPC 提供了前所未有的雙精度處理能力,運(yùn)行速度比 V100 FP64 DFMA 運(yùn)算快 2.5 倍。
具有稀疏性的 INT8 Tensor Core 運(yùn)算為深度學(xué)習(xí)推理提供了前所未有的處理能力,運(yùn)行速度比 V100 INT8 運(yùn)算快 20 倍。
192 KB 組合共享內(nèi)存和 L1 數(shù)據(jù)緩存,比 V100 SM 大 1.5 倍。
新的異步復(fù)制指令將數(shù)據(jù)直接從全局內(nèi)存加載到共享內(nèi)存中,可選擇繞過 L1 緩存,并消除中間寄存器文件 (RF) 使用的需要。
新的基于共享內(nèi)存的屏障單元(異步?屏障)與新的異步復(fù)制指令一起使用。
L2 緩存管理和駐留控制的新指令。
CUDA 合作組支持的新扭曲級別縮減指令。
許多可編程性改進(jìn)可降低軟件復(fù)雜性。?