散文網(wǎng) » 生活 »日常 » H800一卡難求看過來：揭秘A100、A800、H800、V100在HPC與大模型訓(xùn)練中的霸權(quán)

H800一卡難求看過來：揭秘A100、A800、H800、V100在HPC與大模型訓(xùn)練中的霸權(quán)

2023-07-13 11:31 作者:小元宇宙 0人讀過 | 我要投稿

關(guān)鍵詞：AIGC；NLP；ChatGLM；AGI；LLAMA；BERT；GLM；LLVM；LSAT；ChatGPT；深度學(xué)習(xí)；高性能計(jì)算；大語言模型；大型語言模型；CPU；GPU；HPC；液冷服務(wù)器；GPU服務(wù)器；GPU工作站；風(fēng)虎云龍科研服務(wù)器；人工智能；液冷散熱；A100；V100；A800；H100；H800；AI；水冷工作站

日前，隨著深度學(xué)習(xí)、高性能計(jì)算、大模型訓(xùn)練等技術(shù)的保駕護(hù)航，通用人工智能時(shí)代即將到來。各個(gè)廠商也都在緊鑼密鼓的布局，如AMD MI300X 其內(nèi)存遠(yuǎn)超120GB的英偉達(dá)GPU芯片H100，高達(dá)192GB。

最新10卡H100服務(wù)器

6月22日，英特爾（Intel）宣布，美國能源部阿貢國家實(shí)驗(yàn)室已完成新一代超級(jí)計(jì)算機(jī)"Aurora"的安裝工作。這臺(tái)超級(jí)計(jì)算機(jī)基于英特爾的CPU和GPU，預(yù)計(jì)在今年晚些時(shí)候上線，將提供超過2 exaflops的FP64浮點(diǎn)性能，超越美國能源部橡樹嶺國家實(shí)驗(yàn)室的"Frontier"，有望成為全球第一臺(tái)理論峰值性能超過2 exaflops的超級(jí)計(jì)算機(jī)。

Aurora超級(jí)計(jì)算機(jī)是英特爾、惠普（HPE）和美國能源部（DOE）的合作項(xiàng)目，旨在充分發(fā)揮高性能計(jì)算（HPC）在模擬、數(shù)據(jù)分析和人工智能（AI）領(lǐng)域的潛力。該系統(tǒng)由10624個(gè)刀片服務(wù)器組成，每個(gè)刀片由兩個(gè)英特爾Xeon Max系列CPU（至強(qiáng)Max 9480）和六個(gè)英特爾Max系列GPU組成。

英偉達(dá)前段時(shí)間發(fā)布GH 200包含 36 個(gè) NVLink 開關(guān)，將 256 個(gè) GH200 Grace Hopper 芯片和 144TB 的共享內(nèi)存連接成一個(gè)單元。除此之外，英偉達(dá)A100、A800、H100、V100、H800也在大模型訓(xùn)練中更是廣受歡迎。

那么英偉達(dá)A100、A800、H100、V100、H800等卡為何廣受歡迎，國內(nèi)廠商又是如何布局的呢？下面讓我們一起來看下。

一、英偉達(dá)大模型訓(xùn)練GPU全系列介紹

自O(shè)penAI發(fā)布ChatGPT以來，生成式人工智能技術(shù)一直是備受關(guān)注的熱門趨勢(shì)。這項(xiàng)技術(shù)需要強(qiáng)大的算力來生成文本、圖像、視頻等內(nèi)容。在這個(gè)背景下，算力成為人工智能領(lǐng)域的必備條件，而英偉達(dá)作為芯片巨頭所生產(chǎn)的人工智能芯片在其中扮演著至關(guān)重要的角色。英偉達(dá)先后推出V100、A100和H100等多款用于AI訓(xùn)練的芯片，并為了符合美國標(biāo)準(zhǔn)，推出了A800和H800這兩款帶寬縮減版產(chǎn)品，在中國大陸市場(chǎng)銷售。

V100是英偉達(dá)公司推出的高性能計(jì)算和人工智能加速器，屬于Volta架構(gòu)系列。它采用16nm FinFET工藝，擁有5120個(gè)CUDA核心和16GB到32GB的HBM2顯存。V100還配備Tensor Cores加速器，可提供高達(dá)120倍的深度學(xué)習(xí)性能提升。此外，V100支持NVLink技術(shù)，實(shí)現(xiàn)高速的GPU到GPU通信，加速大規(guī)模模型的訓(xùn)練速度。V100被廣泛應(yīng)用于各種大規(guī)模AI訓(xùn)練和推理場(chǎng)景，包括自然語言處理、計(jì)算機(jī)視覺和語音識(shí)別等領(lǐng)域。

A100是英偉達(dá)推出的一款強(qiáng)大的數(shù)據(jù)中心GPU，采用全新的Ampere架構(gòu)。它擁有高達(dá)6,912個(gè)CUDA核心和40GB的高速HBM2顯存。A100還包括第二代NVLink技術(shù)，實(shí)現(xiàn)快速的GPU到GPU通信，提升大型模型的訓(xùn)練速度。此外，A100還支持英偉達(dá)自主研發(fā)的Tensor Cores加速器，可提供高達(dá)20倍的深度學(xué)習(xí)性能提升。A100廣泛應(yīng)用于各種大規(guī)模AI訓(xùn)練和推理場(chǎng)景，包括自然語言處理、計(jì)算機(jī)視覺和語音識(shí)別等領(lǐng)域。

在大模型訓(xùn)練中，V100和A100都是非常強(qiáng)大的GPU。以下是它們的主要區(qū)別和優(yōu)勢(shì)：

1、架構(gòu)

V100和A100在架構(gòu)上有所不同。V100采用Volta架構(gòu)，而A100則采用全新的Ampere架構(gòu)。Ampere架構(gòu)相對(duì)于Volta架構(gòu)進(jìn)行一些改進(jìn)，包括更好的能源效率和全新的Tensor Core加速器設(shè)計(jì)等，這使得A100在某些場(chǎng)景下可能表現(xiàn)出更出色的性能。

2、計(jì)算能力

A100配備高達(dá)6,912個(gè)CUDA核心，比V100的5120個(gè)CUDA核心更多。這意味著A100可以提供更高的每秒浮點(diǎn)運(yùn)算數(shù)(FLOPS)和更大的吞吐量，從而在處理大型模型和數(shù)據(jù)集時(shí)提供更快的訓(xùn)練速度。

3、存儲(chǔ)帶寬

V100的內(nèi)存帶寬約為900 GB/s，而A100的內(nèi)存帶寬達(dá)到了更高的1555 GB/s。高速內(nèi)存帶寬可以降低數(shù)據(jù)傳輸瓶頸，提高訓(xùn)練效率，因此A100在處理大型數(shù)據(jù)集時(shí)可能表現(xiàn)更出色。

4、存儲(chǔ)容量

V100最高可擁有32GB的HBM2顯存，而A100最高可擁有80GB的HBM2顯存。由于大模型通常需要更多內(nèi)存來存儲(chǔ)參數(shù)和梯度，A100的更大內(nèi)存容量可以提供更好的性能。

5、通信性能

A100支持第三代NVLink技術(shù)，實(shí)現(xiàn)高速的GPU到GPU通信，加快大模型訓(xùn)練的速度。此外，A100還引入Multi-Instance GPU (MIG)功能，可以將單個(gè)GPU劃分為多個(gè)相互獨(dú)立的實(shí)例，進(jìn)一步提高資源利用率和性能。

總的來說，A100在處理大型模型和數(shù)據(jù)集時(shí)可能比V100表現(xiàn)更優(yōu)秀，但是在實(shí)際應(yīng)用中，需要結(jié)合具體場(chǎng)景和需求來選擇合適的GPU。

二、中國各大廠商如何實(shí)現(xiàn)戰(zhàn)略式布局

全球范圍內(nèi)，英偉達(dá)GPU的競(jìng)爭(zhēng)非常激烈。然而，海外巨頭在GPU采購方面比較早，并且采購量更大，近年來的投資也相對(duì)連續(xù)。中國的大型公司對(duì)于GPU的需求和投資動(dòng)作比海外巨頭更為急迫。以百度為例，今年向英偉達(dá)下單的GPU訂單數(shù)量高達(dá)上萬塊。盡管百度的規(guī)模要小得多，去年的營收僅為1236億元人民幣，相當(dāng)于Google的6%。然而，這顯示出中國大公司在GPU領(lǐng)域的迅速發(fā)展和巨大需求。

據(jù)了解，字節(jié)、騰訊、阿里和百度是中國投入最多的AI和云計(jì)算科技公司。在過去，它們累計(jì)擁有上萬塊A100 GPU。其中，字節(jié)擁有的A100數(shù)量最多。不計(jì)算今年的新增訂單，字節(jié)擁有接近10萬塊A100和前代產(chǎn)品V100。成長(zhǎng)期的公司商湯也宣稱，其“AI大裝置”計(jì)算集群中已經(jīng)部署了2.7萬塊GPU，其中包括1萬塊A100。即使是看似與AI無關(guān)的量化投資公司幻方，也購買1萬塊A100。

從總數(shù)來看，這些GPU似乎足夠供各公司訓(xùn)練大型模型使用。根據(jù)英偉達(dá)官方網(wǎng)站的案例，OpenAI在訓(xùn)練具有1750億參數(shù)的GPT-3時(shí)使用了1萬塊V100，但訓(xùn)練時(shí)間未公開。根據(jù)英偉達(dá)的估算，如果使用A100來訓(xùn)練GPT-3，需要1024塊A100進(jìn)行一個(gè)月的訓(xùn)練，而A100相比V100性能提升4.3倍。

中國的大型公司過去采購的大量GPU主要用于支撐現(xiàn)有業(yè)務(wù)或在云計(jì)算平臺(tái)上銷售，不能自由地用于開發(fā)大模型或滿足客戶對(duì)大模型的需求。這也解釋了中國AI從業(yè)者對(duì)計(jì)算資源估算存在巨大差異。清華智能產(chǎn)業(yè)研究院院長(zhǎng)張亞勤在4月底參加清華論壇時(shí)表示：“如果將中國的算力加起來，相當(dāng)于50萬塊A100，可以輕松訓(xùn)練五個(gè)模型?！?/p>

AI公司曠視科技的CEO印奇在接受《財(cái)新》采訪時(shí)表示，中國目前可用于大型模型訓(xùn)練的A100總數(shù)只有約4萬塊。這反映了中國和外國大型公司在計(jì)算資源方面的數(shù)量級(jí)差距，包括芯片、服務(wù)器和數(shù)據(jù)中心等固定資產(chǎn)投資。最早開始測(cè)試ChatGPT類產(chǎn)品的百度，在過去幾年的年度資本開支在8億到20億美元之間，阿里在60億到80億美元之間，騰訊在70億到110億美元之間。

與此同時(shí)，亞馬遜、Meta、Google和微軟這四家美國科技公司的自建數(shù)據(jù)中心的年度資本開支最低也超過150億美元。在過去三年的疫情期間，海外公司的資本開支持續(xù)增長(zhǎng)。亞馬遜去年的資本開支已達(dá)到580億美元，Meta和Google分別為314億美元，微軟接近240億美元。而中國公司的投資在2021年后開始收縮。騰訊和百度去年的資本開支同比下降超過25%。

中國公司若想長(zhǎng)期投入大模型并賺取更多利潤，需要持續(xù)增加GPU資源。就像OpenAI一樣，他們面臨著GPU不足的挑戰(zhàn)。OpenAI的CEO Sam Altman在與開發(fā)者交流時(shí)表示，由于GPU不夠，他們的API服務(wù)不夠穩(wěn)定，速度也不夠快。

在獲得更多GPU之前，GPT-4的多模態(tài)能力無法滿足每個(gè)用戶的需求。同樣，微軟也面臨類似的問題。微軟與OpenAI合作密切，他們的新版Bing回答速度變慢，原因是GPU供應(yīng)跟不上用戶增長(zhǎng)的速度。

微軟Office 365 Copilot嵌入了大型模型的能力，目前還沒有大規(guī)模開放，只有600多家企業(yè)在試用?？紤]到全球近3億的Office 365用戶數(shù)量，中國大公司如果想利用大型模型創(chuàng)造更多服務(wù)，并支持其他客戶在云上進(jìn)行更多大型模型的訓(xùn)練，就需要提前儲(chǔ)備更多的GPU資源。

三、大模型訓(xùn)練解決方案

高性能大模型訓(xùn)練平臺(tái)支持多種硬件加速器，包括CPU、GPU、FPGA和AI等,能夠滿足大規(guī)模數(shù)據(jù)處理和復(fù)雜計(jì)算任務(wù)的需求。采用分布式計(jì)算架構(gòu)，高效地處理大規(guī)模數(shù)據(jù)和復(fù)雜計(jì)算任務(wù)，為深度學(xué)習(xí)、高性能計(jì)算、大模型訓(xùn)練、大型語言模型（LLM）算法的研究和開發(fā)提供強(qiáng)大的算力支持。具有高度的靈活性和可擴(kuò)展性,能夠根據(jù)不同的應(yīng)用場(chǎng)景和需求進(jìn)行定制化配置?？梢钥焖俨渴鸷凸芾砀鞣N計(jì)算任務(wù)，提高了計(jì)算資源的利用率和效率。

1、為什么需要大模型？

1）模型效果更優(yōu)

大模型在各場(chǎng)景上的效果均優(yōu)于普通模型

2）創(chuàng)造能力更強(qiáng)

大模型能夠進(jìn)行內(nèi)容生成（AIGC），助力內(nèi)容規(guī)?；a(chǎn)

3）靈活定制場(chǎng)景

通過舉例子的方式，定制大模型海量的應(yīng)用場(chǎng)景

4）標(biāo)注數(shù)據(jù)更少

通過學(xué)習(xí)少量行業(yè)數(shù)據(jù)，大模型就能夠應(yīng)對(duì)特定業(yè)務(wù)場(chǎng)景的需求

2、產(chǎn)品特點(diǎn)

1）異構(gòu)計(jì)算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案，用于調(diào)度和管理多種異構(gòu)計(jì)算資源，包括CPU、GPU等。通過強(qiáng)大的虛擬化管理功能，能夠輕松部署底層計(jì)算資源，并高效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力，以加快模型的運(yùn)行速度和生成速度。

2）穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)

支持多存儲(chǔ)類型協(xié)議，包括塊、文件和對(duì)象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通，提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級(jí)故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制，確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。

3）高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲(chǔ)，并通過分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā)，透?jìng)魑锢砭W(wǎng)絡(luò)性能，顯著提高模型算力的效率和性能。

4）全方位安全保障

在模型托管方面，采用嚴(yán)格的權(quán)限管理機(jī)制，確保模型倉庫的安全性。在數(shù)據(jù)存儲(chǔ)方面，提供私有化部署和數(shù)據(jù)磁盤加密等措施，保證數(shù)據(jù)的安全可控性。同時(shí)，在模型分發(fā)和運(yùn)行過程中，提供全面的賬號(hào)認(rèn)證和日志審計(jì)功能，全方位保障模型和數(shù)據(jù)的安全性。

3、常用產(chǎn)品配置

1）A800工作站常用配置

CPU：Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

內(nèi)存：DDR4 3200 64G *32

數(shù)據(jù)盤：960G 2.5 SATA 6Gb R SSD *2

硬盤：3.84T 2.5-E4x4R SSD *2

網(wǎng)絡(luò)：雙口10G光纖網(wǎng)卡（含模塊）*1

雙口25G SFP28無模塊光纖網(wǎng)卡（MCX512A-ADAT ）*1

GPU：HV HGX A800 8-GPU 8OGB *1

電源：3500W電源模塊*4

其他：25G SFP28多模光模塊 *2

單端口200G HDR HCA卡(型號(hào):MCX653105A-HDAT) *4

2GB SAS 12Gb 8口 RAID卡 *1

16A電源線纜國標(biāo)1.8m *4

托軌 *1

主板預(yù)留PCIE4.0x16接口 *4

支持2個(gè)M.2 *1

原廠質(zhì)保3年 *1

2）A100工作站常用配置

CPU：Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

RAM：64GB DDR4 RDIMM服務(wù)器內(nèi)存 *16

SSD1：480GB 2.5英寸SATA固態(tài)硬盤 *1

SSD2：3.84TB 2.5英寸NVMe固態(tài)硬盤 *2

GPU：NVIDIA TESLA A100 80G SXM *8

網(wǎng)卡1：100G 雙口網(wǎng)卡IB 邁絡(luò)思 *2

網(wǎng)卡2：25G CX5雙口網(wǎng)卡 *1

3）H100工作站常用配置

CPU：英特爾至強(qiáng)Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

內(nèi)存：動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器64GB DDR5 4800兆赫 *24

存儲(chǔ)：固態(tài)硬盤3.2TB U.2 PCIe第4代 *4

GPU ：Nvidia Vulcan PCIe H100 80GB *8

平臺(tái) ：HD210 *1

散熱：CPU+GPU液冷一體散熱系統(tǒng) *1

網(wǎng)絡(luò) ：英偉達(dá)IB 400Gb/s單端口適配器 *8

電源：2000W(2+2)冗余高效電源 *1

4）H800工作站常用配置

CPU：Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2

內(nèi)存：64GB 3200MHz RECC DDR4 DIMM *32

系統(tǒng)硬盤： intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU： NVIDIA Tesla H800 -80GB HBM2 *8

GPU網(wǎng)絡(luò)： NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

存儲(chǔ)網(wǎng)絡(luò) ：雙端口 200GbE IB *1

網(wǎng)卡：25G網(wǎng)絡(luò)接口卡雙端口 *1

標(biāo)簽：

H800一卡難求看過來：揭秘A100、A800、H800、V100在HPC與大模型訓(xùn)練中的霸權(quán)的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

H800一卡難求看過來：揭秘A100、A800、H800、V100在HPC與大模型訓(xùn)練中的霸權(quán)

H800一卡難求看過來：揭秘A100、A800、H800、V100在HPC與大模型訓(xùn)練中的霸權(quán)的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

H800一卡難求看過來：揭秘A100、A800、H800、V100在HPC與大模型訓(xùn)練中的霸權(quán)

本文作者的其他文章

H800一卡難求看過來：揭秘A100、A800、H800、V100在HPC與大模型訓(xùn)練中的霸權(quán)的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

H800一卡難求看過來：揭秘A100、A800、H800、V100在HPC與大模型訓(xùn)練中的霸權(quán)

H800一卡難求看過來：揭秘A100、A800、H800、V100在HPC與大模型訓(xùn)練中的霸權(quán)的評(píng)論 (共條)