大模型AI算力劇增,誰(shuí)來扛國(guó)產(chǎn)GPU大旗?
在AI算力、算法和數(shù)據(jù)人工智能行業(yè)三要素中,AI算力更是重中之重,業(yè)界廠商通過對(duì)各類AI硬件不斷迭代為算力狂飆的需求提供強(qiáng)有力保障。自ChatGPTAI、GPT-4模型發(fā)布火爆出圈后,在引發(fā)了普羅大眾對(duì)AI大模型熱情的同時(shí),也引燃了AI算力的戰(zhàn)火。全球科技巨頭紛紛發(fā)布AI大模型、AI訓(xùn)練卡產(chǎn)品都是入場(chǎng)者爭(zhēng)奪AI制高點(diǎn)的戰(zhàn)爭(zhēng)縮影。
1、AI異構(gòu)計(jì)算三分天下,GPU表現(xiàn)異常亮眼
眾所周知,人工智能(尤其是大模型新興應(yīng)用領(lǐng)域)對(duì)AI算力需求超過了通用CPU的摩爾定律的發(fā)展速度,而異構(gòu)計(jì)算的性能增長(zhǎng)恰恰能夠滿足這些新興領(lǐng)域的算力需求發(fā)展方向和趨勢(shì)。異構(gòu)計(jì)算領(lǐng)域,目前呈現(xiàn)出GPU、FPGA、ASIC芯片三分天下的局面,GPU、FPGA、ASIC芯片都會(huì)有自己獨(dú)特的技術(shù)特長(zhǎng)和應(yīng)用領(lǐng)域,有自己獨(dú)特的客戶群體。
ASIC芯片可以獲得最優(yōu)性能,即面積利用率高、速度快、功耗低;但AISC開發(fā)風(fēng)險(xiǎn)極大,算法是固定,而且從研發(fā)到市場(chǎng)的時(shí)間周期很長(zhǎng),不適合例如深度學(xué)習(xí)快速迭代的領(lǐng)域。大多是具備AI算法又擅長(zhǎng)芯片研發(fā)的巨頭參與,如 Google 的TPU。FPGA稱為現(xiàn)場(chǎng)可編程門陣列,用戶可以根據(jù)自身的需求進(jìn)行重復(fù)編程,相比之下,具有可硬件編程的特點(diǎn),靈活性好;但基本單元的計(jì)算能力有限,速度和功耗存在不足。FPGA 在工業(yè)互聯(lián)網(wǎng)領(lǐng)域、工業(yè)機(jī)器人設(shè)備領(lǐng)域應(yīng)用前景十分巨大。
GPU具備高效的并行性、高密集的運(yùn)算、超長(zhǎng)流水線,以及成熟生態(tài),最先被引入深度學(xué)習(xí);GPU針對(duì)不同應(yīng)用領(lǐng)域的需求,增加了專用向量、張量、矩陣運(yùn)算指令,提升浮點(diǎn)運(yùn)算精度和性能,以滿足天氣預(yù)報(bào)、工業(yè)設(shè)計(jì)、基因工程、藥物發(fā)現(xiàn)、金融工程、自動(dòng)駕駛等不同計(jì)算場(chǎng)景的需求。綜合考慮性能、能效比和編程靈活性等因素,GPU明顯優(yōu)于ASIC、FPGA等芯片,并成為目前AI加速服務(wù)器的最主流選擇。
目前,英偉達(dá)和AMD是目前全球GPU的領(lǐng)軍企業(yè),兩家合計(jì)獲取了全球GPU絕大部分市場(chǎng)份額。國(guó)內(nèi)海光信息、寒武紀(jì)等公司的GPU產(chǎn)品已經(jīng)實(shí)現(xiàn)規(guī)?;N售。全球來看,英偉達(dá)的H100及A100、AMD的MI100及MI200等均為主流的GPGPU產(chǎn)品型號(hào)。據(jù)IDC數(shù)據(jù)顯示,2021年GPU服務(wù)器份額占國(guó)內(nèi)AI加速服務(wù)器市場(chǎng)的88.4%,2021-2025年間年復(fù)合增速為19.1%。據(jù)Jon Peddie Research數(shù)據(jù)顯示2022Q1英偉達(dá)占據(jù)79%市場(chǎng)份額,AMD占據(jù)21%。英偉達(dá)在獨(dú)立GPU領(lǐng)域一枝獨(dú)秀。
在中國(guó)市場(chǎng)上,根據(jù)IDC數(shù)據(jù),2021年英偉達(dá)占國(guó)內(nèi)AI加速卡80%以上市場(chǎng)份額,2015-2021年間年復(fù)合增速高達(dá)77.4%,處于市場(chǎng)領(lǐng)先地位。
2、英偉達(dá)中國(guó)版GPU限制及可供應(yīng)性風(fēng)險(xiǎn)
無論在HPC高性能計(jì)算,科學(xué)研發(fā)領(lǐng)域,還是人工智能大模型場(chǎng)景,尤其是對(duì)算力要求的比較高Training(訓(xùn)練)環(huán)節(jié),AMD的MI 100、MI 200以及Nvidia的A100,H100都是GPU領(lǐng)域的超強(qiáng)算力芯片,極其普遍的應(yīng)用在AI服務(wù)器中實(shí)現(xiàn)加速計(jì)算,提供計(jì)算精度,減少訓(xùn)練周期。NVIDIA A100、H100等加速計(jì)算卡的需求過于火爆,即便在臺(tái)積電增加了大量的訂單,緊急提升產(chǎn)能,依然無法滿足。但在中國(guó)市場(chǎng)上,由于美國(guó)的禁令,NVIDIA基于中市場(chǎng)策略定制了特供版A800、H800。
那么,中國(guó)特供版A800和H800與A100和H100的具體差距? 主要差距是互聯(lián)后整體集群帶寬的下降。A800的互聯(lián)帶寬從A100的600GB/s下降到400GB/s,H800的互聯(lián)帶寬從H100的900GB/s下降到450GB/s。本身單卡的算力不變,但是集群卡間互聯(lián)的帶寬限制整個(gè)集群的算力規(guī)模,從而限制了集群性能,相當(dāng)于限制了AI模型訓(xùn)練精度以及中國(guó)AI技術(shù)發(fā)展。
即便如此,NVIDIA特供版A800、H800發(fā)布也是異常搶手,在國(guó)內(nèi)大型互聯(lián)網(wǎng)企業(yè)在采購(gòu)潮的推動(dòng)下,漲價(jià)幅度已經(jīng)超過40%。在如此大模型高算力市場(chǎng)需求下,依靠國(guó)外GPU技術(shù)發(fā)展AI技術(shù)本身就是偽命題,如同沙灘筑高樓;同時(shí),在可供應(yīng)性和技術(shù)演進(jìn)上成了極大風(fēng)險(xiǎn)。
3、國(guó)內(nèi)GPU廠商概述及國(guó)產(chǎn)化應(yīng)對(duì)策略
美國(guó)對(duì)中國(guó)GPU等芯片的“卡脖子”制裁也給國(guó)內(nèi)產(chǎn)品替代英偉達(dá)帶來非常大的機(jī)會(huì)。國(guó)產(chǎn)AI芯片廠商持續(xù)發(fā)力,對(duì)標(biāo)行業(yè)龍頭已縮小差距。在AI加速和高性能計(jì)算領(lǐng)域,國(guó)內(nèi)主要有GPGPU和NPU兩條技術(shù)路徑;GPGPU技術(shù)沉淀深、生態(tài)兼容廣,NPU發(fā)展迅速,但算力供給單一性和生態(tài)壁壘比較難打破,兩條路徑都得到相應(yīng)廠商的支持和發(fā)展,在特定領(lǐng)域性能都達(dá)到業(yè)界一流水平。
相較而言,GPGPU路線更加符合AI算力發(fā)展需求,更具潛力。GPGPU也叫做通用GPU,優(yōu)勢(shì)在于具備大規(guī)模并行計(jì)算的能力,可快速開發(fā)高能效的應(yīng)用程序,在產(chǎn)品性能、通用性、易用性等方面優(yōu)勢(shì)明顯,全球9成以上商用AI系統(tǒng)的選擇GPGPU架構(gòu)芯片,在訓(xùn)練負(fù)載方面更是如此。而且,當(dāng)前AI應(yīng)用基本全都建立在GPGPU架構(gòu)的軟件開發(fā)平臺(tái)上,生態(tài)體系更加完善,好用,易用。AI技術(shù)發(fā)展日新月異,AI軟件開發(fā)者通過在GPGPU平臺(tái)開發(fā),能夠更好的提高生產(chǎn)力。
ASIC架構(gòu),優(yōu)勢(shì)在于根據(jù)產(chǎn)品的需求,進(jìn)行特定設(shè)計(jì)和制造的集成電路,因此計(jì)算速度快,能耗更低。它的出現(xiàn)存在一個(gè)理論前提,即算法發(fā)展相對(duì)成熟,已發(fā)現(xiàn)最優(yōu)算法,通過將軟件固化到硬件執(zhí)行,以實(shí)現(xiàn)最優(yōu)效率。由于當(dāng)前AI算法、模型快速迭代發(fā)展,ASIC架構(gòu)需要投入大量的資金,以及經(jīng)歷較長(zhǎng)的研發(fā)和工程周期,容易出現(xiàn)量產(chǎn)即落后的局面。另外,國(guó)際上還有基于FPGA架構(gòu)開發(fā)AI芯片,雖然可根據(jù)自身需求進(jìn)行重復(fù)編程,但缺點(diǎn)在于頻率較低,單元計(jì)算能力有限,價(jià)格昂貴。而且,基于FPGA的AI應(yīng)用開發(fā),需要軟件工程師同時(shí)具備軟件、硬件能力,開發(fā)難度較大;并且目前FPGA被國(guó)外巨頭壟斷,因此很少有FPGA架構(gòu)的國(guó)產(chǎn)AI芯片。
相對(duì)于ASIC與FPGA而言,國(guó)內(nèi)對(duì)GPGPU芯片其實(shí)需求更為迫切。大模型預(yù)訓(xùn)練面臨著計(jì)算資源需求、數(shù)據(jù)集規(guī)模、訓(xùn)練時(shí)間和效率、參數(shù)調(diào)優(yōu)和模型調(diào)整、以及泛化能力和適應(yīng)性等多個(gè)難題。應(yīng)對(duì)這些難題需要綜合考慮硬件資源、數(shù)據(jù)管理、算法設(shè)計(jì)等多方面因素。因此,算力領(lǐng)先、軟件完善的 GPGPU成為先進(jìn)大模型的首選算力來源。而且,隨著AI應(yīng)用向多模態(tài)進(jìn)一步發(fā)展,通用性更優(yōu)的GPGPU可以更好的支持這類應(yīng)用發(fā)展
另外,國(guó)內(nèi)對(duì)GPGPU芯片的需求不止于芯片可提供多少算力,是否能滿足應(yīng)用場(chǎng)景所需的計(jì)算精度也同樣重要。原因在于,AI應(yīng)用視場(chǎng)景不同,需要算力精度不同。例如AICG領(lǐng)域?qū)D像和語(yǔ)音的處理,用32位、16位計(jì)算精度即可;而部分科學(xué)計(jì)算,則需要用到FP64雙精度浮點(diǎn)運(yùn)算,才可保證模型訓(xùn)練和預(yù)測(cè)結(jié)果的準(zhǔn)確性??偠灾?,AI算力的全面發(fā)展,需要全精度、通用性強(qiáng)的GPGPU芯片支撐。
當(dāng)前,國(guó)內(nèi)AI芯片廠商數(shù)量約在6000+家,其中主流廠商數(shù)量約60余家,主要分為三個(gè)梯隊(duì),第一梯隊(duì)包括海光、華為、寒武紀(jì)等。劃分原因在于,第一梯隊(duì)廠商有成熟產(chǎn)品,且已有商業(yè)化量產(chǎn)規(guī)模的應(yīng)用。
海光:DCU產(chǎn)品深算系列,兼容通用的“類 CUDA”環(huán)境以及國(guó)際主流商業(yè)計(jì)算軟件和人工智能軟件,對(duì)標(biāo)主流 NVIDIA A100 產(chǎn)品,海光 DCU 單芯片產(chǎn)品基本能達(dá)到與其相近的性能水平。并且,海光DCU深算一號(hào),國(guó)內(nèi)唯一能支持全部算力精度,可以滿足需要更高精度的數(shù)學(xué)計(jì)算的需要。GPGPU架構(gòu),讓其通用性更強(qiáng),海光DCU產(chǎn)品在AI計(jì)算、大數(shù)據(jù)處理、商業(yè)計(jì)算等領(lǐng)域發(fā)揮著重要作用。
華為昇騰:產(chǎn)品包括昇騰310、910,自研達(dá)芬奇架構(gòu)實(shí)現(xiàn)較低功耗和較好散熱,可在華為龐大的AI軟件工程師支持下,通過運(yùn)行華為的全棧軟硬件平臺(tái),并且深度適配、遷移和優(yōu)化,可以應(yīng)用于云邊端全場(chǎng)景覆蓋,目前已形成較為完善的生態(tài)。
寒武紀(jì):產(chǎn)品主要由云端芯片與邊緣芯片等組成,產(chǎn)品體系豐富,適配AI應(yīng)用及各類算法,產(chǎn)品的能效較好,并掌握了智能芯片架構(gòu)、編譯器、工具鏈等核心技術(shù)。但因?yàn)锳ISC架構(gòu)芯片的天然劣勢(shì),使得寒武紀(jì)產(chǎn)品在實(shí)際應(yīng)用中需要大量資金、人才投入,落地部署困難重重,實(shí)際應(yīng)用限制多多。
第二梯隊(duì)包括,燧原、昆侖芯、天數(shù)、壁仞、沐曦等近幾年成立的初創(chuàng)企業(yè)。這幾家廠商雖然發(fā)布了產(chǎn)品,但由于AI芯片產(chǎn)品化、復(fù)雜度等原因,在實(shí)際應(yīng)用中進(jìn)展有限,或開始在某些領(lǐng)域局部試水,或者還在努力建設(shè)軟件生態(tài),集群部署方案等。
第三梯隊(duì)包括龍芯、景嘉微等,這兩家廠商有意向進(jìn)軍AI計(jì)算領(lǐng)域,但尚無AI芯片量產(chǎn)。龍芯作為國(guó)產(chǎn)CPU領(lǐng)域的主流廠商,5月份宣布集成龍芯自研GPGPU的第一款A(yù)I計(jì)算芯片,預(yù)計(jì)將于 2024 年一季度流片。而景嘉微作為國(guó)內(nèi)最早投入GPU研發(fā)的廠商之一,近期也宣布募資42億元投入高性能GPGPU芯片研發(fā)及產(chǎn)業(yè)化項(xiàng)目。這兩家廠商作為國(guó)內(nèi)計(jì)算芯片代表廠商,如今在布局AI計(jì)算芯片研發(fā),終于邁出了第一步。
4、總結(jié)
AI大模型催生GPU市場(chǎng)需求劇增,在嚴(yán)峻的國(guó)際形勢(shì)下,GPU的國(guó)產(chǎn)替代進(jìn)程刻不容緩,海光信息深算一號(hào)已基本具備英偉達(dá)高端 GPU的技術(shù)能力,在緊張的局勢(shì)背景下,未來有望推動(dòng)高端GPU國(guó)產(chǎn)替代進(jìn)程。
在特定AI應(yīng)用領(lǐng)域(尤其是GPU圖形計(jì)算和AI推理領(lǐng)域),國(guó)內(nèi)GPU廠商從技術(shù)到生態(tài)都具備一定積累,隨著產(chǎn)品不斷迭代更新,以及在AI訓(xùn)練領(lǐng)域持續(xù)發(fā)力,未來在爭(zhēng)奪AI制高點(diǎn)的戰(zhàn)爭(zhēng)中發(fā)光發(fā)熱,從而緩解“卡脖子”問題和供應(yīng)風(fēng)險(xiǎn)。
來源:智能計(jì)算芯世界
人工智能 (Artificial Intelligence, AI)主要應(yīng)用領(lǐng)域和三種形態(tài):弱人工智能、強(qiáng)人工智能和超級(jí)人工智能。
買硬件服務(wù)器劃算還是租云服務(wù)器劃算? - 知乎 (zhihu.com)
深度學(xué)習(xí)機(jī)器學(xué)習(xí)知識(shí)點(diǎn)全面總結(jié) - 知乎 (zhihu.com)
自學(xué)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人工智能的網(wǎng)站看這里 - 知乎 (zhihu.com)
2023年深度學(xué)習(xí)GPU服務(wù)器配置推薦參考(3) - 知乎 (zhihu.com)
多年來一直專注于科學(xué)計(jì)算服務(wù)器,入圍政采平臺(tái),H100、A100、H800、A800、RTX6000 Ada,單臺(tái)雙路192核心服務(wù)器有售,
機(jī)器學(xué)習(xí):一切通過優(yōu)化方法挖掘數(shù)據(jù)中規(guī)律的學(xué)科。
深度學(xué)習(xí):一切運(yùn)用了神經(jīng)網(wǎng)絡(luò)作為參數(shù)結(jié)構(gòu)進(jìn)行優(yōu)化的機(jī)器學(xué)習(xí)算法。
監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)分別是機(jī)器學(xué)習(xí)中三個(gè)重要的課題。
強(qiáng)化學(xué)習(xí):不僅能利用現(xiàn)有數(shù)據(jù),還可以通過對(duì)環(huán)境的探索獲得新數(shù)據(jù),并利用新數(shù)據(jù)循環(huán)往復(fù)地更新迭代現(xiàn)有模型的機(jī)器學(xué)習(xí)算法。學(xué)習(xí)是為了更好地對(duì)環(huán)境進(jìn)行探索,而探索是為了獲取數(shù)據(jù)進(jìn)行更好的學(xué)習(xí)。
可以學(xué)習(xí)和模擬人類的人工智能通常是由深度學(xué)習(xí)+強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的。
在算法方面,人工智能最重要的算法仍是神經(jīng)網(wǎng)絡(luò)。
多年來一直專注于科學(xué)計(jì)算服務(wù)器,入圍政采平臺(tái),H100、A100、H800、A800、RTX6000 Ada,單臺(tái)雙路192核心服務(wù)器有售.