H800一卡難求看過來:揭秘A100、A800、H800、V100在HPC與大模型訓(xùn)練中的霸權(quán)
關(guān)鍵詞:AIGC;NLP;ChatGLM;AGI;LLAMA;BERT;GLM;LLVM;LSAT;ChatGPT;深度學(xué)習(xí);高性能計(jì)算;大語言模型;大型語言模型;CPU;GPU;HPC;液冷服務(wù)器;GPU服務(wù)器;GPU工作站;風(fēng)虎云龍科研服務(wù)器;人工智能;液冷散熱;A100;V100;A800;H100;H800;AI;水冷工作站
日前,隨著深度學(xué)習(xí)、高性能計(jì)算、大模型訓(xùn)練等技術(shù)的保駕護(hù)航,通用人工智能時(shí)代即將到來。各個(gè)廠商也都在緊鑼密鼓的布局,如AMD MI300X 其內(nèi)存遠(yuǎn)超120GB的英偉達(dá)GPU芯片H100,高達(dá)192GB。
最新10卡H100服務(wù)器

6月22日,英特爾(Intel)宣布,美國能源部阿貢國家實(shí)驗(yàn)室已完成新一代超級(jí)計(jì)算機(jī)"Aurora"的安裝工作。這臺(tái)超級(jí)計(jì)算機(jī)基于英特爾的CPU和GPU,預(yù)計(jì)在今年晚些時(shí)候上線,將提供超過2 exaflops的FP64浮點(diǎn)性能,超越美國能源部橡樹嶺國家實(shí)驗(yàn)室的"Frontier",有望成為全球第一臺(tái)理論峰值性能超過2 exaflops的超級(jí)計(jì)算機(jī)。
Aurora超級(jí)計(jì)算機(jī)是英特爾、惠普(HPE)和美國能源部(DOE)的合作項(xiàng)目,旨在充分發(fā)揮高性能計(jì)算(HPC)在模擬、數(shù)據(jù)分析和人工智能(AI)領(lǐng)域的潛力。該系統(tǒng)由10624個(gè)刀片服務(wù)器組成,每個(gè)刀片由兩個(gè)英特爾Xeon Max系列CPU(至強(qiáng)Max 9480)和六個(gè)英特爾Max系列GPU組成。
英偉達(dá)前段時(shí)間發(fā)布GH 200包含 36 個(gè) NVLink 開關(guān),將 256 個(gè) GH200 Grace Hopper 芯片和 144TB 的共享內(nèi)存連接成一個(gè)單元。除此之外,英偉達(dá)A100、A800、H100、V100、H800也在大模型訓(xùn)練中更是廣受歡迎。
那么英偉達(dá)A100、A800、H100、V100、H800等卡為何廣受歡迎,國內(nèi)廠商又是如何布局的呢?下面讓我們一起來看下。

一、英偉達(dá)大模型訓(xùn)練GPU全系列介紹
自O(shè)penAI發(fā)布ChatGPT以來,生成式人工智能技術(shù)一直是備受關(guān)注的熱門趨勢(shì)。這項(xiàng)技術(shù)需要強(qiáng)大的算力來生成文本、圖像、視頻等內(nèi)容。在這個(gè)背景下,算力成為人工智能領(lǐng)域的必備條件,而英偉達(dá)作為芯片巨頭所生產(chǎn)的人工智能芯片在其中扮演著至關(guān)重要的角色。英偉達(dá)先后推出V100、A100和H100等多款用于AI訓(xùn)練的芯片,并為了符合美國標(biāo)準(zhǔn),推出了A800和H800這兩款帶寬縮減版產(chǎn)品,在中國大陸市場(chǎng)銷售。
V100是英偉達(dá)公司推出的高性能計(jì)算和人工智能加速器,屬于Volta架構(gòu)系列。它采用16nm FinFET工藝,擁有5120個(gè)CUDA核心和16GB到32GB的HBM2顯存。V100還配備Tensor Cores加速器,可提供高達(dá)120倍的深度學(xué)習(xí)性能提升。此外,V100支持NVLink技術(shù),實(shí)現(xiàn)高速的GPU到GPU通信,加速大規(guī)模模型的訓(xùn)練速度。V100被廣泛應(yīng)用于各種大規(guī)模AI訓(xùn)練和推理場(chǎng)景,包括自然語言處理、計(jì)算機(jī)視覺和語音識(shí)別等領(lǐng)域。
A100是英偉達(dá)推出的一款強(qiáng)大的數(shù)據(jù)中心GPU,采用全新的Ampere架構(gòu)。它擁有高達(dá)6,912個(gè)CUDA核心和40GB的高速HBM2顯存。A100還包括第二代NVLink技術(shù),實(shí)現(xiàn)快速的GPU到GPU通信,提升大型模型的訓(xùn)練速度。此外,A100還支持英偉達(dá)自主研發(fā)的Tensor Cores加速器,可提供高達(dá)20倍的深度學(xué)習(xí)性能提升。A100廣泛應(yīng)用于各種大規(guī)模AI訓(xùn)練和推理場(chǎng)景,包括自然語言處理、計(jì)算機(jī)視覺和語音識(shí)別等領(lǐng)域。
在大模型訓(xùn)練中,V100和A100都是非常強(qiáng)大的GPU。以下是它們的主要區(qū)別和優(yōu)勢(shì):
1、架構(gòu)
V100和A100在架構(gòu)上有所不同。V100采用Volta架構(gòu),而A100則采用全新的Ampere架構(gòu)。Ampere架構(gòu)相對(duì)于Volta架構(gòu)進(jìn)行一些改進(jìn),包括更好的能源效率和全新的Tensor Core加速器設(shè)計(jì)等,這使得A100在某些場(chǎng)景下可能表現(xiàn)出更出色的性能。
2、計(jì)算能力
A100配備高達(dá)6,912個(gè)CUDA核心,比V100的5120個(gè)CUDA核心更多。這意味著A100可以提供更高的每秒浮點(diǎn)運(yùn)算數(shù)(FLOPS)和更大的吞吐量,從而在處理大型模型和數(shù)據(jù)集時(shí)提供更快的訓(xùn)練速度。
3、存儲(chǔ)帶寬
V100的內(nèi)存帶寬約為900 GB/s,而A100的內(nèi)存帶寬達(dá)到了更高的1555 GB/s。高速內(nèi)存帶寬可以降低數(shù)據(jù)傳輸瓶頸,提高訓(xùn)練效率,因此A100在處理大型數(shù)據(jù)集時(shí)可能表現(xiàn)更出色。
4、存儲(chǔ)容量
V100最高可擁有32GB的HBM2顯存,而A100最高可擁有80GB的HBM2顯存。由于大模型通常需要更多內(nèi)存來存儲(chǔ)參數(shù)和梯度,A100的更大內(nèi)存容量可以提供更好的性能。
5、通信性能
A100支持第三代NVLink技術(shù),實(shí)現(xiàn)高速的GPU到GPU通信,加快大模型訓(xùn)練的速度。此外,A100還引入Multi-Instance GPU (MIG)功能,可以將單個(gè)GPU劃分為多個(gè)相互獨(dú)立的實(shí)例,進(jìn)一步提高資源利用率和性能。
總的來說,A100在處理大型模型和數(shù)據(jù)集時(shí)可能比V100表現(xiàn)更優(yōu)秀,但是在實(shí)際應(yīng)用中,需要結(jié)合具體場(chǎng)景和需求來選擇合適的GPU。

二、中國各大廠商如何實(shí)現(xiàn)戰(zhàn)略式布局
全球范圍內(nèi),英偉達(dá)GPU的競(jìng)爭(zhēng)非常激烈。然而,海外巨頭在GPU采購方面比較早,并且采購量更大,近年來的投資也相對(duì)連續(xù)。中國的大型公司對(duì)于GPU的需求和投資動(dòng)作比海外巨頭更為急迫。以百度為例,今年向英偉達(dá)下單的GPU訂單數(shù)量高達(dá)上萬塊。盡管百度的規(guī)模要小得多,去年的營收僅為1236億元人民幣,相當(dāng)于Google的6%。然而,這顯示出中國大公司在GPU領(lǐng)域的迅速發(fā)展和巨大需求。
據(jù)了解,字節(jié)、騰訊、阿里和百度是中國投入最多的AI和云計(jì)算科技公司。在過去,它們累計(jì)擁有上萬塊A100 GPU。其中,字節(jié)擁有的A100數(shù)量最多。不計(jì)算今年的新增訂單,字節(jié)擁有接近10萬塊A100和前代產(chǎn)品V100。成長(zhǎng)期的公司商湯也宣稱,其“AI大裝置”計(jì)算集群中已經(jīng)部署了2.7萬塊GPU,其中包括1萬塊A100。即使是看似與AI無關(guān)的量化投資公司幻方,也購買1萬塊A100。
從總數(shù)來看,這些GPU似乎足夠供各公司訓(xùn)練大型模型使用。根據(jù)英偉達(dá)官方網(wǎng)站的案例,OpenAI在訓(xùn)練具有1750億參數(shù)的GPT-3時(shí)使用了1萬塊V100,但訓(xùn)練時(shí)間未公開。根據(jù)英偉達(dá)的估算,如果使用A100來訓(xùn)練GPT-3,需要1024塊A100進(jìn)行一個(gè)月的訓(xùn)練,而A100相比V100性能提升4.3倍。
中國的大型公司過去采購的大量GPU主要用于支撐現(xiàn)有業(yè)務(wù)或在云計(jì)算平臺(tái)上銷售,不能自由地用于開發(fā)大模型或滿足客戶對(duì)大模型的需求。這也解釋了中國AI從業(yè)者對(duì)計(jì)算資源估算存在巨大差異。清華智能產(chǎn)業(yè)研究院院長(zhǎng)張亞勤在4月底參加清華論壇時(shí)表示:“如果將中國的算力加起來,相當(dāng)于50萬塊A100,可以輕松訓(xùn)練五個(gè)模型?!?/p>
AI公司曠視科技的CEO印奇在接受《財(cái)新》采訪時(shí)表示,中國目前可用于大型模型訓(xùn)練的A100總數(shù)只有約4萬塊。這反映了中國和外國大型公司在計(jì)算資源方面的數(shù)量級(jí)差距,包括芯片、服務(wù)器和數(shù)據(jù)中心等固定資產(chǎn)投資。最早開始測(cè)試ChatGPT類產(chǎn)品的百度,在過去幾年的年度資本開支在8億到20億美元之間,阿里在60億到80億美元之間,騰訊在70億到110億美元之間。
與此同時(shí),亞馬遜、Meta、Google和微軟這四家美國科技公司的自建數(shù)據(jù)中心的年度資本開支最低也超過150億美元。在過去三年的疫情期間,海外公司的資本開支持續(xù)增長(zhǎng)。亞馬遜去年的資本開支已達(dá)到580億美元,Meta和Google分別為314億美元,微軟接近240億美元。而中國公司的投資在2021年后開始收縮。騰訊和百度去年的資本開支同比下降超過25%。
中國公司若想長(zhǎng)期投入大模型并賺取更多利潤,需要持續(xù)增加GPU資源。就像OpenAI一樣,他們面臨著GPU不足的挑戰(zhàn)。OpenAI的CEO Sam Altman在與開發(fā)者交流時(shí)表示,由于GPU不夠,他們的API服務(wù)不夠穩(wěn)定,速度也不夠快。
在獲得更多GPU之前,GPT-4的多模態(tài)能力無法滿足每個(gè)用戶的需求。同樣,微軟也面臨類似的問題。微軟與OpenAI合作密切,他們的新版Bing回答速度變慢,原因是GPU供應(yīng)跟不上用戶增長(zhǎng)的速度。
微軟Office 365 Copilot嵌入了大型模型的能力,目前還沒有大規(guī)模開放,只有600多家企業(yè)在試用??紤]到全球近3億的Office 365用戶數(shù)量,中國大公司如果想利用大型模型創(chuàng)造更多服務(wù),并支持其他客戶在云上進(jìn)行更多大型模型的訓(xùn)練,就需要提前儲(chǔ)備更多的GPU資源。
三、大模型訓(xùn)練解決方案
高性能大模型訓(xùn)練平臺(tái)支持多種硬件加速器,包括CPU、GPU、FPGA和AI等,能夠滿足大規(guī)模數(shù)據(jù)處理和復(fù)雜計(jì)算任務(wù)的需求。采用分布式計(jì)算架構(gòu),高效地處理大規(guī)模數(shù)據(jù)和復(fù)雜計(jì)算任務(wù),為深度學(xué)習(xí)、高性能計(jì)算、大模型訓(xùn)練、大型語言模型(LLM)算法的研究和開發(fā)提供強(qiáng)大的算力支持。具有高度的靈活性和可擴(kuò)展性,能夠根據(jù)不同的應(yīng)用場(chǎng)景和需求進(jìn)行定制化配置??梢钥焖俨渴鸷凸芾砀鞣N計(jì)算任務(wù),提高了計(jì)算資源的利用率和效率。

1、為什么需要大模型?
1)模型效果更優(yōu)
大模型在各場(chǎng)景上的效果均優(yōu)于普通模型
2)創(chuàng)造能力更強(qiáng)
大模型能夠進(jìn)行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)?;a(chǎn)
3)靈活定制場(chǎng)景
通過舉例子的方式,定制大模型海量的應(yīng)用場(chǎng)景
4)標(biāo)注數(shù)據(jù)更少
通過學(xué)習(xí)少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對(duì)特定業(yè)務(wù)場(chǎng)景的需求
2、產(chǎn)品特點(diǎn)
1)異構(gòu)計(jì)算資源調(diào)度
一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計(jì)算資源,包括CPU、GPU等。通過強(qiáng)大的虛擬化管理功能,能夠輕松部署底層計(jì)算資源,并高效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運(yùn)行速度和生成速度。
2)穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)
支持多存儲(chǔ)類型協(xié)議,包括塊、文件和對(duì)象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級(jí)故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制,確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。
3)高性能分布式網(wǎng)絡(luò)
提供算力資源的網(wǎng)絡(luò)和存儲(chǔ),并通過分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā),透?jìng)魑锢砭W(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。
4)全方位安全保障
在模型托管方面,采用嚴(yán)格的權(quán)限管理機(jī)制,確保模型倉庫的安全性。在數(shù)據(jù)存儲(chǔ)方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時(shí),在模型分發(fā)和運(yùn)行過程中,提供全面的賬號(hào)認(rèn)證和日志審計(jì)功能,全方位保障模型和數(shù)據(jù)的安全性。

3、常用產(chǎn)品配置
1)A800工作站常用配置
CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2
內(nèi)存:DDR4 3200 64G *32
數(shù)據(jù)盤:960G 2.5 SATA 6Gb R SSD *2
硬盤:3.84T 2.5-E4x4R SSD *2
網(wǎng)絡(luò):雙口10G光纖網(wǎng)卡(含模塊)*1
雙口25G SFP28無模塊光纖網(wǎng)卡(MCX512A-ADAT )*1
GPU:HV HGX A800 8-GPU 8OGB *1
電源:3500W電源模塊*4
其他:25G SFP28多模光模塊 *2
單端口200G HDR HCA卡(型號(hào):MCX653105A-HDAT) *4
2GB SAS 12Gb 8口 RAID卡 *1
16A電源線纜國標(biāo)1.8m *4
托軌 *1
主板預(yù)留PCIE4.0x16接口 *4
支持2個(gè)M.2 *1
原廠質(zhì)保3年 *1
2)A100工作站常用配置
CPU:Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2
RAM:64GB DDR4 RDIMM服務(wù)器內(nèi)存 *16
SSD1:480GB 2.5英寸SATA固態(tài)硬盤 *1
SSD2:3.84TB 2.5英寸NVMe固態(tài)硬盤 *2
GPU:NVIDIA TESLA A100 80G SXM *8
網(wǎng)卡1:100G 雙口網(wǎng)卡IB 邁絡(luò)思 *2
網(wǎng)卡2:25G CX5雙口網(wǎng)卡 *1
3)H100工作站常用配置
CPU:英特爾至強(qiáng)Platinum 8468 48C 96T 3.80GHz 105MB 350W *2
內(nèi)存:動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器64GB DDR5 4800兆赫 *24
存儲(chǔ):固態(tài)硬盤3.2TB U.2 PCIe第4代 *4
GPU :Nvidia Vulcan PCIe H100 80GB *8
平臺(tái) :HD210 *1
散熱 :CPU+GPU液冷一體散熱系統(tǒng) *1
網(wǎng)絡(luò) :英偉達(dá)IB 400Gb/s單端口適配器 *8
電源:2000W(2+2)冗余高效電源 *1
4)H800工作站常用配置
CPU:Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2
內(nèi)存 :64GB 3200MHz RECC DDR4 DIMM *32
系統(tǒng)硬盤: intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4
GPU: NVIDIA Tesla H800 -80GB HBM2 *8
GPU網(wǎng)絡(luò): NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8
存儲(chǔ)網(wǎng)絡(luò) :雙端口 200GbE IB *1
網(wǎng)卡 :25G網(wǎng)絡(luò)接口卡 雙端口 *1

