英特爾全新 Gaudi2 處理器面世中國市場,加速大規(guī)模深度學(xué)習(xí)訓(xùn)練與推理
7月11日,英特爾 AI 產(chǎn)品戰(zhàn)略暨 Gaudi2 新品發(fā)布會在京舉行。會上,英特爾正式于中國市場推出第二代 Gaudi 深度學(xué)習(xí)加速器——Habana??Gaudi?2。作為英特爾從云到端產(chǎn)品組合的重要組成,Gaudi2 致力于以領(lǐng)先的性價比優(yōu)勢,加速 AI 訓(xùn)練及推理,為中國用戶提供更高的深度學(xué)習(xí)性能和效率,從而成為大規(guī)模部署AI的更優(yōu)解。
?

?
?
英特爾致力于通過為客戶提供廣泛的硬件選擇,并支持開放的軟件環(huán)境,加速人工智能技術(shù)的發(fā)展。憑借包括至強可擴展處理器和 Gaudi2 深度學(xué)習(xí)加速器在內(nèi)的產(chǎn)品組合,英特爾正在降低人工智能的準(zhǔn)入門檻,并強化客戶在云端通過網(wǎng)絡(luò)和智能邊緣部署這一關(guān)鍵業(yè)務(wù)技術(shù)的能力,從而幫助構(gòu)建中國人工智能的未來。
?
-- Sandra Rivera
英特爾執(zhí)行副總裁
兼數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理
?
?
?
為深度學(xué)習(xí)而生的
全新Gaudi2訓(xùn)練加速器
?
該 Gaudi2 深度學(xué)習(xí)加速器暨 Gaudi2 夾層卡 HL-225B,以第一代 Gaudi 高性能架構(gòu)為基礎(chǔ),以多方位性能與能效比提升,加速高性能大語言模型運行。該加速器具備:
?
●?24個可編程Tensor處理器核心(TPCs)
● 21個100Gbps(RoCEv2)以太網(wǎng)接口
●?96GB HBM2E內(nèi)存容量
●?2.4TB/秒的總內(nèi)存帶寬
●?48MB片上SRAM
●?集成多媒體處理引擎

?
?
Gaudi2 加速器的出色性能在6月公布的 MLCommons??MLPerf??基準(zhǔn)測試1中得到了充分認(rèn)證,其在 GPT-3 模型、計算機視覺模型 ResNet-50(使用8個加速器)、Unet3D(使用8個加速器),以及自然語言處理模型 BERT(使用8個和64個加速器)上均取得了優(yōu)異的訓(xùn)練結(jié)果。與市場上其他面向大規(guī)模生成式AI和大語言模型的產(chǎn)品相比,Gaudi2 擁有卓越的性能與領(lǐng)先的性價比優(yōu)勢,能夠幫助用戶提升運營效率的同時,降低運營成本。
?
此外,Gaudi2 可為大規(guī)模的多模態(tài)和語言模型提供出色的推理性能。在最近的 Hugging Face 評估中,其在大規(guī)模推理方面的表現(xiàn),包括在運行 Stable Diffusion2(另一個用于從文本生成圖像的最先進(jìn)生成式AI模型之一)、70億以及1760億參數(shù) BLOOMz3?模型時,在行業(yè)內(nèi)保持領(lǐng)先。
?
滿足大語言和多模態(tài)模型的需求
?
Gaudi2 深度學(xué)習(xí)加速器的架構(gòu)旨在高效擴展,以滿足大規(guī)模語言模型及生成式AI模型的需求。其每張芯片集成了21個專用于內(nèi)部互聯(lián)的100Gbps(RoCEv2 RDMA)以太網(wǎng)接口,從而實現(xiàn)低延遲服務(wù)器內(nèi)擴展。
?
在 Stable Diffusion 訓(xùn)練上,Gaudi2 展示了從1張卡至64張卡近線性99%的擴展性。此外,MLCommons 剛剛公布的 MLPerf 訓(xùn)練3.0結(jié)果4,亦驗證了Gaudi2 處理器在1750億參數(shù)的 GPT-3 模型上,從256個加速器到384個加速器可實現(xiàn)令人印象深刻的接近線性的95%擴展效果。
?
具備成熟的軟件支持,
Gaudi2 產(chǎn)品在中國市場正式上市
?
伴隨日益增長的生成式 AI 及大語言模型需求,英特爾亦致力于打造領(lǐng)先、成熟的軟件支持,充分釋放 Gaudi2 深度學(xué)習(xí)加速器性能。
?
為支持客戶輕松構(gòu)建模型,或?qū)?dāng)前基于GPU的模型業(yè)務(wù)和系統(tǒng)遷移到基于全新 Gaudi2 服務(wù)器,并幫助保護(hù)軟件開發(fā)投入,SynapseAI? 軟件套件針對Gaudi 平臺深度學(xué)習(xí)業(yè)務(wù)進(jìn)行了優(yōu)化,旨在與廣泛的軟件生態(tài)系統(tǒng)一起,幫助簡化模型的開發(fā)和遷移。SynapseAI 集成了對 TensorFlow 和 PyTorch 框架的支持,并提供眾多流行的計算機視覺和自然語言參考模型,能夠滿足深度學(xué)習(xí)開發(fā)者的多樣化需求。
?
目前,英特爾正與浪潮信息合作,打造并發(fā)售基于 Gaudi2 深度學(xué)習(xí)加速器的浪潮信息 AI 服務(wù)器 NF5698G7。該服務(wù)器集成了8顆 Gaudi2加速卡 HL-225B,還包含雙路第四代英特爾至強可擴展處理器。
?

?
?
?
攜手中國產(chǎn)業(yè)生態(tài)
共啟人工智能新篇
?
多年來,借助強大的 AI 軟硬件基礎(chǔ),英特爾一直致力于為 AI 領(lǐng)域的各類工作負(fù)載提供業(yè)界領(lǐng)先的卓越性能,并通過開放的生態(tài)、豐富多樣的產(chǎn)品選擇不斷降低 AI 部署的門檻,并為中國的 AI 發(fā)展提供堅定支持。
?
本次發(fā)布會上,美團、百度與浪潮信息等生態(tài)伙伴分別分享了其基于英特爾軟硬件產(chǎn)品組合的多樣化智能業(yè)務(wù)進(jìn)展。百度智能云服務(wù)器高級經(jīng)理何永占表示,集成英特爾?AMX 加速引擎的第四代英特爾?至強?可擴展處理器為 ERNIE-Tiny 模型帶來了多倍的性能優(yōu)化,百度將持續(xù)構(gòu)建領(lǐng)先的AI全棧能力和全面的開放生態(tài),并期待與英特爾在未來的 AI 領(lǐng)域展開更為廣泛、深入的合作。
?
浪潮信息高級產(chǎn)品經(jīng)理王磊強調(diào),NF5698G7 是專為面向生成式AI市場創(chuàng)新開發(fā)的新一代AI服務(wù)器,支持8顆 OAM 高速互聯(lián)的 Gaudi2 加速器,具備高性能、高擴展、高能效和開放生態(tài)等優(yōu)點,將為 AI 客戶提供強大的大模型訓(xùn)練和推理能力。未來,浪潮信息將繼續(xù)攜手英特爾,為行業(yè)打造創(chuàng)新、領(lǐng)先的產(chǎn)品方案。
?
此外,多家本土生態(tài)伙伴亦表明了與英特爾在當(dāng)下及未來產(chǎn)品合作上的堅定立場與長遠(yuǎn)展望。新華三集團計算存儲產(chǎn)品線副總裁劉宏程指出,新華三智慧計算秉持內(nèi)生智能的技術(shù)理念,基于硬件使能、前瞻技術(shù)、綠色低碳等全方位能力,助力 AI 產(chǎn)業(yè)的高速發(fā)展?;谟⑻貭?Gaudi2 AI 加速器,新華三正與英特爾緊密合作,開發(fā)適合大模型訓(xùn)練和推理的高性能 AI 服務(wù)器,推動智能算力的普惠創(chuàng)新。
?
與此同時,超聚變數(shù)字技術(shù)有限公司算力基礎(chǔ)設(shè)施領(lǐng)域總裁唐啟明表示,非常榮幸見證英特爾 Gaudi2 的發(fā)布。作為英特爾的長期戰(zhàn)略合作伙伴,超聚變將一如既往地攜手英特爾,共同推出基于 Gaudi2 的全新產(chǎn)品與解決方案,助力企業(yè)的 AI 場景成熟商用和規(guī)模落地。
?
未來,英特爾將持續(xù)引領(lǐng)產(chǎn)品技術(shù)發(fā)展,進(jìn)一步加速大規(guī)模深度學(xué)習(xí)部署,助力中國本地 AI 市場發(fā)展。
?
?
注釋:
1. https://mlcommons.org/en/training-normal-30/
2. https://huggingface.co/blog/habana-gaudi-2-benchmark
3.?https://huggingface.co/blog/habana-gaudi-2-bloom
4. https://mlcommons.org/en/training-normal-30/
聲明:
產(chǎn)品性能或因使用方式、配置和其他因素而異。?了解更多信息,請訪問 www.Intel.com/PerformanceIndex。
性能結(jié)果基于截至所示日期的測試,可能不反映所有公開可用的更新。沒有任何產(chǎn)品或組件是絕對安全的。
您的成本和性能結(jié)果可能會有所不同。
英特爾技術(shù)可能需要通過啟用硬件、軟件或服務(wù)激活。
?
?英特爾公司,英特爾、英特爾logo及其它英特爾標(biāo)識,是英特爾公司或其分支機構(gòu)的商標(biāo)。文中涉及的其它名稱及品牌屬于各自所有者資產(chǎn)。