2023年ChatGPT/AI多模態(tài)計(jì)算集群方案及GPU計(jì)算卡選型
https://xasun.com/article/110/2508.html
ChatGPT出色的表現(xiàn),帶動(dòng)了人工智能的應(yīng)用加速,人工智能大模型、多模態(tài)機(jī)器學(xué)習(xí),多模態(tài)大模型+物聯(lián)網(wǎng)等各個(gè)行業(yè)的專業(yè)應(yīng)用,算力不夠是最大的不足,市場(chǎng)上A100/A800/H100/H800的GPU卡的缺貨、漲價(jià)等,成本上升,不得不考慮GPU替代型號(hào)的、性能接近A100/H100的方案
(一)GPU計(jì)算卡選型
下面是目前市場(chǎng)上可選GPU卡之間,基于深度學(xué)習(xí)訓(xùn)練與推理的關(guān)鍵技術(shù)指標(biāo)對(duì)比

從上述表里看,RTX6000 Ada 48GB與A100 80GB對(duì)比

RTX6000Ada(48GB)與RTX4090(24GB)對(duì)比,前者顯存是48GB,作為自然語(yǔ)言處理,顯存越大越合適,
因此 綜上說(shuō)述,基于自然語(yǔ)言處理應(yīng)用,無(wú)論是做訓(xùn)練還是推理,RTX6000Ada是一款非常合適的A100備用型號(hào)
(二)GPU AI集群系統(tǒng)相關(guān)產(chǎn)品介紹
下面是西安坤隆計(jì)算機(jī)科技有限公司提供的基于ChatGPT科研型AI集群配置方案

(1)GPU計(jì)算服務(wù)器(計(jì)算節(jié)點(diǎn))?

相關(guān)機(jī)型:UltraLAB GX658?
技術(shù)特點(diǎn):
GPU 配備最高8塊nvidia RTX/Tesla系列GPU計(jì)算卡,
CPU 采用intel第3代Xeon可擴(kuò)展處理器,支持PCIe 4.0 x16接口
網(wǎng)口配備100G IB網(wǎng)口,
硬盤采用SSD,
保證硬件配置計(jì)算更強(qiáng)、io帶寬更高、整機(jī)性能全方位優(yōu)化,保證多用戶多任務(wù)神經(jīng)元完美計(jì)算能力。?
(2)存儲(chǔ)服務(wù)器(存儲(chǔ)節(jié)點(diǎn))

相關(guān)機(jī)型:UltraLAB N650C(24盤位)?
技術(shù)特點(diǎn):?
CPU 采用intel Xeon第3代可擴(kuò)展處理器,最大80核,可滿足60臺(tái)計(jì)算節(jié)點(diǎn)同步訪問(wèn)?
高速緩存盤:配備M2.SSD確保數(shù)據(jù)處理的高速讀寫(讀寫3G/s以上)及超低io延遲、?
配備并行存儲(chǔ):數(shù)據(jù)備份安全可靠、最大容量到378TB(24盤位,3通道)
網(wǎng)口:配備雙100G光口,?
整機(jī)性能全方位優(yōu)化 支持遠(yuǎn)程操作、遠(yuǎn)程管理,系統(tǒng)管理員和使用者直接在辦公室甚至異地進(jìn)行操作
(3)SLURM作業(yè)調(diào)度軟件

SLURM 是優(yōu)秀的開源作業(yè)調(diào)度系 統(tǒng),和 Torque PBS 相比,SLURM 集成度更高,對(duì) GPU 和 MIC 等加速設(shè)備支持更好
Slurm是適應(yīng)不同計(jì)算規(guī)模Linux集群的資源管理和調(diào)度軟件。它提供高效的資源與作業(yè)管理。包括狀態(tài)監(jiān)控、資源管理、作業(yè)調(diào)度和用量記賬
支持更多的仿真模擬軟件,
支持定制不同的應(yīng)用軟件的集群系統(tǒng)擴(kuò)展
(三)UltraLAB GPU超算集群硬件配置推薦2023v2
方案1 CX650 GPU超算集群配置推薦?
計(jì)算節(jié)點(diǎn)5個(gè)?
GPU卡:40塊RTX6000Ada,總顯存1.92TB,
集群FP32單精度浮點(diǎn)算力:3640Tflops?(3.6PTflops)
配置方案

方案2 CX650 GPU超算集群配置推薦?
計(jì)算節(jié)點(diǎn)10個(gè)?
GPU卡:80塊RTX6000Ada,總顯存3.84TB,
集群FP32單精度浮點(diǎn)算力:7280Tflops?(7.2PTflops)
配置方案

方案3 CX650 GPU超算集群配置推薦?
計(jì)算節(jié)點(diǎn)30個(gè)?
GPU卡:240塊RTX6000Ada,總顯存11.5TB,
集群FP32單精度浮點(diǎn)算力:21840Tflops?(21.8PTflops)
配置方案

GPU超算集群應(yīng)用領(lǐng)域
? 人工智能訓(xùn)練、推理集群計(jì)算
? 分子動(dòng)力學(xué)、蛋白質(zhì)折疊、
? 電磁仿真時(shí)域求解
? 數(shù)字孿生超高分可視化
技術(shù)服務(wù)
本文所提供配置也可根據(jù)實(shí)際情況,進(jìn)行調(diào)整 ,我們技術(shù)保證?
-整個(gè)集群開機(jī)即用?
-三年質(zhì)保?
-365*7*24小時(shí)在線技術(shù)支持