AI芯片行業(yè)分析報(bào)告:發(fā)展現(xiàn)狀、競(jìng)爭(zhēng)格局、市場(chǎng)空間及相關(guān)公司深度梳理
從廣義上講只要能夠運(yùn)行人工智能算法的芯片都叫作AI芯片,但通常意義上的AI芯片指的是針對(duì)人工智能算法做了特殊加速設(shè)計(jì)的芯片。AI芯片也被稱為AI加速器或計(jì)算卡,即專門用于處理人工智能應(yīng)用中的大量計(jì)算任務(wù)的模塊(其他非計(jì)算任務(wù)仍由CPU負(fù)責(zé))。
下面我們從AIGC產(chǎn)業(yè)鏈出發(fā)了解AI芯片在產(chǎn)業(yè)鏈中的地位及作用,分析不同類別的AI芯片的作用及特性都有哪些,我國(guó)AI芯片行業(yè)現(xiàn)狀及競(jìng)爭(zhēng)格局是怎樣的,目前全球AI芯片的四大技術(shù)路線都有哪些?chatGPT及“文心一言”的出現(xiàn)對(duì)于AI芯片市場(chǎng)又怎樣的影響,市場(chǎng)空間有多大,相關(guān)公司都有哪些,未來有怎樣的發(fā)展趨勢(shì)?對(duì)于這些問題我們下面一一解答。
01
AI芯片概述
1.AIGC產(chǎn)業(yè)鏈
AIGC產(chǎn)業(yè)鏈主要分為上游算力硬件層、中游數(shù)據(jù)/算法軟件層和下游行業(yè)應(yīng)用層。硬件層依靠高性能AI芯片、服務(wù)器和數(shù)據(jù)中心為AIGC模型的訓(xùn)練提供算力支持,是承載行業(yè)發(fā)展的基礎(chǔ)設(shè)施;數(shù)據(jù)/算法層軟件層主要負(fù)責(zé)AI數(shù)據(jù)的采集、清洗、標(biāo)注及模型的開發(fā)與訓(xùn)練,多方廠商入局自然語言處理、計(jì)算機(jī)視覺、多模態(tài)模型等領(lǐng)域;行業(yè)應(yīng)用層目前主要涉及搜索、對(duì)話、推薦等場(chǎng)景,未來有望在多個(gè)行業(yè)呈現(xiàn)井噴式革新。位于算力硬件層的AI芯片是人工智能的底層基石。
2.AI芯片是人工智能的底層基石
2014年李天石博士“DianNao”系列論文讓科學(xué)界看到,在馮諾依曼架構(gòu)下也可以實(shí)現(xiàn)AI專用芯片。此后Google推出的TPU運(yùn)算架構(gòu)的AlphaGo,接連打敗李世石和柯潔,看到了專用芯片的商業(yè)價(jià)值。人工智能經(jīng)歷過三階段,迎來爆發(fā)式增長(zhǎng)。
AI人工智能的發(fā)展主要依賴兩個(gè)領(lǐng)域的創(chuàng)新和演進(jìn):一是模仿人腦建立起來的數(shù)學(xué)模型和算法,其次是半導(dǎo)體集成電路AI芯片。AI的發(fā)展一直伴隨著半導(dǎo)體芯片的演進(jìn)過程,20世紀(jì)90年代,貝爾實(shí)驗(yàn)室的楊立昆(YannLeCun)等人一起開發(fā)了可以通過訓(xùn)練來識(shí)別手寫郵政編碼的神經(jīng)網(wǎng)絡(luò),但在那個(gè)時(shí)期,訓(xùn)練一個(gè)深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)需要3天的時(shí)間,因此無法實(shí)際使用,而硬件計(jì)算能力的不足,也導(dǎo)致了當(dāng)時(shí)AI科技泡沫的破滅。
AI芯片是AI發(fā)展的底層基石。英偉達(dá)早在1999年就發(fā)明出GPU,但直到2009年才由斯坦福大學(xué)發(fā)表論文介紹了如何利用現(xiàn)代GPU遠(yuǎn)超過多核CPU的計(jì)算能力(超過70倍),把AI訓(xùn)練時(shí)間從幾周縮短到了幾小時(shí)。算力、模型、數(shù)據(jù)一直是AI發(fā)展的三大要素,而AI芯片所代表的算力則是人工智能的底層基石。
3.訓(xùn)練芯片及推理芯片
根據(jù)機(jī)器學(xué)習(xí)算法步驟,AI芯片分為“訓(xùn)練(Training)”芯片和“推理(Inference)”芯片。“訓(xùn)練芯片”主要用于人工智能算法訓(xùn)練,即在云端將一系列經(jīng)過標(biāo)記的數(shù)據(jù)輸入算法模型進(jìn)行計(jì)算,不斷調(diào)整優(yōu)化算法參數(shù),直至算法識(shí)別準(zhǔn)確率達(dá)到較高水平?!巴评硇酒敝饕糜谌斯ぶ悄芩惴ㄍ评?,即將在云端訓(xùn)練好的算法模型進(jìn)行裁剪優(yōu)化變“輕”之后,進(jìn)入“實(shí)戰(zhàn)”階段,輸入數(shù)據(jù)直接得出準(zhǔn)確的識(shí)別結(jié)果。
不同用途(訓(xùn)練or推理)、不同應(yīng)用場(chǎng)景(端-邊-云)對(duì)AI芯片有著不同的要求。首先,訓(xùn)練芯片追求的是高計(jì)算性能(高吞吐率)、低功耗,但是推理芯片主要追求的是低延時(shí)(完成推理過程所需要的時(shí)間盡可能短)、低功耗。其次,“端-邊-云”三個(gè)環(huán)節(jié)對(duì)AI芯片的有不同的要求——其中端和邊上進(jìn)行的大部分是AI“推理”,因此用于端和邊的AI芯片性能要求和上述推理芯片一致;大部分的訓(xùn)練過程是在云和數(shù)據(jù)中心進(jìn)行,訓(xùn)練過程對(duì)時(shí)延沒有什么要求,因此需要保證AI芯片在盡可能保證較高算力的情況下,功耗盡可能低,另外許多推理過程也是在云端進(jìn)行。
4.終端芯片及云端芯片
根據(jù)部署場(chǎng)景,AI 芯片可用于端、邊、云三種場(chǎng)景,具體而言:1)終端 AI 芯片追求以低功耗完成推理任務(wù),以實(shí)際落地場(chǎng)景需求為導(dǎo)向,在能耗/算力/時(shí)延/成本等方面存在差異;2)邊緣 AI 芯片介于終端與云端之間,承接低時(shí)延/高隱私要求/高網(wǎng)絡(luò)帶寬占用的 推理或訓(xùn)練任務(wù);3)云端 AI 芯片以高算力/完成訓(xùn)練任務(wù)為目標(biāo),包括 CPU/GPU/FPGA/ASIC 等多種類型。
5.GPU、FPGA、ASIC及CPU
從技術(shù)架構(gòu)來看,AI芯片主要分為圖形處理器(GPU)、現(xiàn)場(chǎng)可編程門陣列(FPGA)、專用集成電路(ASIC)、中央處理器(CPU)四大類。其中,GPU是較為成熟的通用型人工智能芯片,F(xiàn)PGA和ASIC則是針對(duì)人工智能需求特征的半定制和全定制芯片,GPU、FPGA、ASIC作為加速芯片協(xié)助CPU進(jìn)行大規(guī)模計(jì)算。
三類芯片用于深度學(xué)習(xí)時(shí)各有優(yōu)缺點(diǎn):1)通用性:GPU>FPGA>ASIC,通用性越低,代表其適合支持的算法類型越少。2)性能功耗比:GPU<FPGA<ASIC,性能功耗比越高越好,意味著相同功耗下運(yùn)算次數(shù)越多,訓(xùn)練相同算法所需要的時(shí)間越短。
目前AI芯片主要被國(guó)際廠商壟斷,根據(jù)Co unterpoint、IDC數(shù)據(jù),Intel和AMD共計(jì)占2022年全球數(shù)據(jù)中心CPU市場(chǎng)收入的92.45%,Nvidia占2021年中國(guó)加速卡市場(chǎng)份額的80%以上。
02
AI芯片分類解讀
1.CPU:底層核心算力芯片
CPU(Central Processing Unit)中央處理器:是計(jì)算機(jī)的運(yùn)算和控制核心(Control Unit),是信息處理、程序運(yùn)行的最終執(zhí)行單元,主要功能是完成計(jì)算機(jī)的數(shù)據(jù)運(yùn)算以及系統(tǒng)控制功能。
CPU擅長(zhǎng)邏輯控制,在深度學(xué)習(xí)中可用于推理/預(yù)測(cè)。在深度學(xué)習(xí)中,模型的訓(xùn)練和推理是兩個(gè)不同的過程:在訓(xùn)練過程中,模型需要進(jìn)行大量的矩陣運(yùn)算,因此通常使用GPU等擅長(zhǎng)并行計(jì)算的芯片進(jìn)行處理;在推理過程中,需要對(duì)大量的已經(jīng)訓(xùn)練好的模型進(jìn)行實(shí)時(shí)的推理/預(yù)測(cè)操作,而這種操作通常需要高效的邏輯控制能力和低延遲的響應(yīng)速度,這正是CPU所擅長(zhǎng)的。
2.GPU:AI高性能計(jì)算王者
GPU(Graphics Processing Unit)圖形處理器:GPU最初是為了滿足計(jì)算機(jī)游戲等圖形處理需求而被開發(fā)出來的,但憑借高并行計(jì)算和大規(guī)模數(shù)據(jù)處理能力,逐漸開始用于通用計(jì)算。根據(jù)應(yīng)用場(chǎng)景和處理任務(wù)的不同,GPU形成兩條分支:傳統(tǒng)GPU:用于圖形圖像處理,因此內(nèi)置了一系列專用運(yùn)算模塊,如視頻編解碼加速引擎、2D加速引擎、圖像渲染等;GPGPU:通用計(jì)算圖形處理器(general-purpose GPU)。為了更好地支持通用計(jì)算,GPGPU減弱了GPU圖形顯示部分的能力,將其余部分全部投入到通用計(jì)算中,同時(shí)增加了專用向量、張量、矩陣運(yùn)算指令,提升了浮點(diǎn)運(yùn)算的精度和性能,以實(shí)現(xiàn)人工智能、專業(yè)計(jì)算等加速應(yīng)用。
GPU在AI模型構(gòu)建中具有較高的適配性。GPU的高并行性可以更好地支持AI模型訓(xùn)練和推理過程中大量的矩陣或向量計(jì)算,以NVIDIAGPU系列旗艦產(chǎn)品A100為例:根據(jù)NVIDIA公布的規(guī)格參數(shù),A100的深度學(xué)習(xí)運(yùn)算性能可達(dá)312Tflops。在AI訓(xùn)練過程中,2048個(gè)A100GPU可在一分鐘內(nèi)成規(guī)模地處理BERT的訓(xùn)練工作負(fù)載;在AI推理過程中,A100可將推理吞吐量提升到高達(dá)CPU的249倍。
AI模型與應(yīng)用的加速發(fā)展推動(dòng)GPU芯片放量增長(zhǎng)。根據(jù)Verified Market Research數(shù)據(jù),2021年全球GPU市場(chǎng)規(guī)模為334.7億美元,預(yù)計(jì)2030年將達(dá)到4773.7億美元,CAGR(2021-2030)為34.35%。從國(guó)內(nèi)市場(chǎng)來看,2020年中國(guó)大陸的獨(dú)立GPU市場(chǎng)規(guī)模為47.39億元,預(yù)計(jì)2027年市場(chǎng)規(guī)模將達(dá)345.57億美元,CAGR(2021-2027)為32.8%。
3.FPGA:可編程芯片加速替代
FPGA(Field Programmable Gate Array)現(xiàn)場(chǎng)可編程門陣列:FPGA最大的特點(diǎn)在于其現(xiàn)場(chǎng)可編程的特性,無論是CPU、GPU還是ASIC,在芯片制造完成后功能會(huì)被固定,用戶無法對(duì)硬件功能做出更改,而FPGA在制造完成后仍可使用配套軟件對(duì)芯片進(jìn)行功能配置,將芯片上空白的模塊轉(zhuǎn)化為自身所需的具備特定功能的模塊。
(1)可編程性、高并行性、低延遲、低功耗等特點(diǎn),使得FPGA在AI推斷領(lǐng)域潛力巨大
FPGA可以在運(yùn)行時(shí)根據(jù)需要進(jìn)行動(dòng)態(tài)配置和優(yōu)化功耗,同時(shí)擁有流水線并行和數(shù)據(jù)并行能力,既可以使用數(shù)據(jù)并行來處理大量數(shù)據(jù),也能夠憑借流水線并行來提高計(jì)算的吞吐量和降低延遲。根據(jù)與非網(wǎng)數(shù)據(jù),F(xiàn)PGA(Stratix10)在計(jì)算密集型任務(wù)的吞吐量約為CPU的10倍,延遲與功耗均為GPU的1/10。
云端推斷:在面對(duì)推斷環(huán)節(jié)的小批量數(shù)據(jù)處理時(shí),GPU的并行計(jì)算優(yōu)勢(shì)不明顯,F(xiàn)PGA可以憑借流水線并行,達(dá)到高并行+低延遲的效果。根據(jù)IDC數(shù)據(jù),2020年中國(guó)云端推理芯片占比已超過50%,預(yù)計(jì)2025年將達(dá)到60.8%,云端推斷市場(chǎng)廣闊。邊緣推斷:受延遲、隱私和帶寬限制的驅(qū)動(dòng),F(xiàn)PGA逐漸被布署于IoT設(shè)備當(dāng)中,以滿足低功耗+靈活推理+快速響應(yīng)的需求。
(2)FPGA是AI時(shí)代下解決暗硅效應(yīng)的有效途徑
暗硅效應(yīng)(Dark Silicon)指由于芯片工藝和尺寸的限制,芯片上只有一小部分區(qū)域可以同時(shí)運(yùn)行,其余的區(qū)域被閑置或關(guān)閉,這些閑置或關(guān)閉的區(qū)域被稱為“暗硅”。在AI計(jì)算領(lǐng)域,由于摩爾定律的限制和散熱問題,先進(jìn)高效的硬件設(shè)計(jì)會(huì)更容易導(dǎo)致暗硅效應(yīng),限制了芯片的計(jì)算能力和應(yīng)用范圍。據(jù)相關(guān)論文,在22nm制程下,暗硅面積將達(dá)21%。在8nm制程下,暗硅面積將提升至50%以上。由于暗硅效應(yīng),預(yù)計(jì)到2024年平均只能實(shí)現(xiàn)7.9倍的加速比,與每代性能翻倍的目標(biāo)相比差距將近24倍。
FPGA的可編程性和可重構(gòu)性使其能夠靈活地部署和優(yōu)化計(jì)算任務(wù),從而在一定程度上緩解了暗硅效應(yīng)的影響。簡(jiǎn)單來說,F(xiàn)PGA減少暗硅效應(yīng)的方法有兩個(gè)方向,一是通過優(yōu)化電路結(jié)構(gòu),盡可能減少不活躍區(qū)域的數(shù)量;二是通過動(dòng)態(tài)重構(gòu)電路,使得不活躍區(qū)域可以被重用。
4.ASIC:云計(jì)算專用高端芯片
ASIC(Application Specific Integrated Circuit)專用集成電路:是一種為專門應(yīng)特定用戶要求和特定電子系統(tǒng)的需要而設(shè)計(jì)、制造的集成電路。ASIC具有較高的能效比和算力水平,但通用性和靈活性較差。
能效方面:由于ASIC是為特定應(yīng)用程序設(shè)計(jì)的,其電路可以被高度優(yōu)化,以最大程度地減少功耗。根據(jù)Bob Broderson數(shù)據(jù),F(xiàn)PGA的能效比集中在1-10MOPS/mW之間。ASIC的能效比處于專用硬件水平,超過100MOPS/mW,是FPGA的10倍以上。算力方面:由于ASIC芯片的設(shè)計(jì)目標(biāo)非常明確,專門為特定的應(yīng)用場(chǎng)景進(jìn)行優(yōu)化,因此其性能通常比通用芯片更高。根據(jù)頭豹研究院數(shù)據(jù),按照CPU、GPU、FPGA、ASIC順序,芯片算力水平逐漸增加,其中ASIC算力水平最高,在1萬-1000萬Mhash/s之間。
隨著技術(shù)、算法的普及,ASIC將更具備競(jìng)爭(zhēng)優(yōu)勢(shì)。ASIC在研發(fā)制作方面一次性成本較高,但量產(chǎn)后平均成本低,具有批量生產(chǎn)的成本優(yōu)勢(shì)。目前人工智能屬于大爆發(fā)時(shí)期,大量的算法不斷涌出,遠(yuǎn)沒有到算法平穩(wěn)期,ASIC專用芯片如何做到適應(yīng)各種算法是當(dāng)前最大的問題。但隨著技術(shù)、算法的普及,ASIC將更加具備競(jìng)爭(zhēng)優(yōu)勢(shì)。
ASIC主要應(yīng)用在推斷場(chǎng)景,在終端推斷市場(chǎng)份額最大,在云端推斷市場(chǎng)增速較快。
5.國(guó)產(chǎn)CPU多點(diǎn)開花加速追趕
全球服務(wù)器CPU市場(chǎng)目前被Intel和AMD所壟斷,國(guó)產(chǎn)CPU在性能方面與國(guó)際領(lǐng)先水平仍有差距。根據(jù)Counterpoint數(shù)據(jù),在2022年全球數(shù)據(jù)中心CPU市場(chǎng)中,Intel以70.77%的市場(chǎng)份額排名第一,AMD以19.84%的份額緊隨其后,剩余廠商僅占據(jù)9.39%的市場(chǎng)份額,整體上處于壟斷局面;目前國(guó)內(nèi)CPU廠商主有海光、海思、飛騰、龍芯、申威等。通過產(chǎn)品對(duì)比發(fā)現(xiàn),目前國(guó)產(chǎn)服務(wù)器CPU性能已接近Intel中端產(chǎn)品水平,但整體上國(guó)內(nèi)CPU廠商仍在工藝制程、運(yùn)算速度(主頻)、多任務(wù)處理(核心與線程數(shù))方面落后于國(guó)際先進(jìn)水平。
6.生態(tài)體系逐步完善,國(guó)產(chǎn)GPU多領(lǐng)域追趕
全球GPU芯片市場(chǎng)主要由海外廠商占據(jù)壟斷地位,國(guó)產(chǎn)廠商加速布局。全球GPU市場(chǎng)被英偉達(dá)、英特爾和AMD三強(qiáng)壟斷,英偉達(dá)憑借其自身CUDA生態(tài)在AI及高性能計(jì)算占據(jù)絕對(duì)主導(dǎo)地位;國(guó)內(nèi)市場(chǎng)中,景嘉微在圖形渲染GPU領(lǐng)域持續(xù)深耕,另外天數(shù)智芯、壁仞科技、登臨科技等一批主打AI及高性能計(jì)算的GPGPU初創(chuàng)企業(yè)正加速涌入。
圖形渲染GPU:目前國(guó)內(nèi)廠商在圖形渲染GPU方面與國(guó)外龍頭廠商差距不斷縮小。芯動(dòng)科技的“風(fēng)華2號(hào)”GPU采用5nm工藝制程,與Nvidia最新一代產(chǎn)品RTX40系列持平,實(shí)現(xiàn)國(guó)產(chǎn)圖形渲染GPU破局。景嘉微在工藝制程、核心頻率、浮點(diǎn)性能等方面雖落后于Nvidia同代產(chǎn)品,但差距正逐漸縮小。
在GPGPU方面,目前國(guó)內(nèi)廠商與Nvidia在GPGPU上仍存在較大差距。制程方面,目前Nvidia已率先到達(dá)4nm,國(guó)內(nèi)廠商多集中在7nm;算力方面,國(guó)內(nèi)廠商大多不支持雙精度(FP64)計(jì)算,在單精度(FP32)及定點(diǎn)計(jì)算(INT8)方面與國(guó)外中端產(chǎn)品持平,天數(shù)智芯、壁仞科技的AI芯片產(chǎn)品在單精度性能上超過NVIDIAA100;接口方面,壁仞科技與Nvidia率先使用PCle5.0,其余廠商多集中在PCle4.0;生態(tài)方面,國(guó)內(nèi)企業(yè)多采用OpenCL進(jìn)行自主生態(tài)建設(shè),與NvidiaCUDA的成熟生態(tài)相比,差距較為明顯。
7.FPGA/ASIC國(guó)產(chǎn)替代正當(dāng)時(shí)
FPGA全球市場(chǎng)呈現(xiàn)“兩大兩小”格局,Altera與Xilinx市占率共計(jì)超80%,Lattice和Microsemi市占率共計(jì)超10%;整體來看,安路科技、紫光同創(chuàng)等廠商處于國(guó)際中端水平,仍需進(jìn)一步突破。工藝制程方面,當(dāng)前國(guó)產(chǎn)廠商先進(jìn)制程集中在28nm,落后于國(guó)際16nm水平;在等效LUT數(shù)量上,國(guó)產(chǎn)廠商旗艦產(chǎn)品處于200K水平,僅為XILINX高端產(chǎn)品的25%左右。
ASIC不同于CPU、GPU、FPGA,目前全球ASIC市場(chǎng)并未形成明顯的頭部廠商,國(guó)產(chǎn)廠商快速發(fā)展;通過產(chǎn)品對(duì)比發(fā)現(xiàn),目前國(guó)產(chǎn)廠商集中采用7nm工藝制程,與國(guó)外ASIC廠商相同;算力方面,海思的昇騰910在BF16浮點(diǎn)算力和INT8定點(diǎn)算力方面超越Googel最新一代產(chǎn)品TPUv4,遂原科技和寒武紀(jì)的產(chǎn)品在整體性能上也與Googel比肩。未來國(guó)產(chǎn)廠商有望在ASIC領(lǐng)域繼續(xù)保持技術(shù)優(yōu)勢(shì),突破國(guó)外廠商在AI芯片的壟斷格局。
03
我國(guó)AI芯片現(xiàn)狀
1.算力精度門檻下,ASIC和GPGPU是最適合大模型的架構(gòu)
大模型云端訓(xùn)練多數(shù)情況下都在FP32計(jì)算精度上,推理端則以FP16和混合精度為主。算力越強(qiáng),模型效率越高。FPGA和GPU對(duì)比,雖然FPGA吞吐率、性能功耗比優(yōu)于GPU,但是FPGA存在兩個(gè)天然缺陷,F(xiàn)PGA只適合做定點(diǎn)運(yùn)算,不適合做浮點(diǎn)運(yùn)算,如果用來做浮點(diǎn)運(yùn)算耗費(fèi)邏輯很大,而且有些FPGA不能直接對(duì)浮點(diǎn)數(shù)進(jìn)行操作的,只能采用定點(diǎn)數(shù)進(jìn)行數(shù)值運(yùn)算。其二,F(xiàn)PGA可以理解成某種“芯片半成品”,需要開發(fā)人員做大量二次開發(fā)設(shè)計(jì)芯片,因此開發(fā)使用門檻較高。ASIC和GPU則能夠滿足大模型的入門門檻。
國(guó)內(nèi)視角下,華為、百度昆侖芯、阿里、寒武紀(jì)、海光信息及一眾初創(chuàng)企業(yè)(燧原、天數(shù)、壁仞、沐曦)均推出云端訓(xùn)練和推理芯片。架構(gòu)選擇上,華為、百度、阿里、寒武紀(jì)選擇ASIC路線。華為、百度、阿里自家業(yè)務(wù)場(chǎng)景對(duì)AI芯片存在天然需求,選擇ASIC在量產(chǎn)制造供應(yīng)鏈上的難度顯著低于GPU。初創(chuàng)企業(yè)則押注通用型GPGPU架構(gòu),壁仞、沐曦等初創(chuàng)企業(yè)多創(chuàng)立于2018年前后,團(tuán)隊(duì)一般來自出走英偉達(dá)、AMD的技術(shù)專家,因此技術(shù)路線多選擇他們所熟悉的通用型GPU。
2.AI大模型讓ASIC和GPU之間的邊界愈發(fā)模糊,國(guó)內(nèi)GPU初創(chuàng)企業(yè)或在競(jìng)爭(zhēng)中落后
英偉達(dá)在過去很長(zhǎng)的一段時(shí)間內(nèi)堅(jiān)持用統(tǒng)一的硬件,即通用型GPU同時(shí)支持Deep Learning和圖像需求。但高性能計(jì)算迭代到H100產(chǎn)品后,其計(jì)算卡和圖像卡分開,在技術(shù)路線上也愈發(fā)靠近ASIC。初創(chuàng)企業(yè)為了實(shí)現(xiàn)通用性,選擇了在芯片設(shè)計(jì)和制造供應(yīng)鏈存在較多困難的GPU路線,暫未推出真正具備量產(chǎn)成熟度的產(chǎn)品。
3.國(guó)產(chǎn)ASIC廠商中,寒武紀(jì)是為數(shù)不多能夠較為開放支持中游AI算法和模型商
1)華為選擇部署端到端的完整生態(tài),例如使用昇騰910必須搭配華為的大模型支持框架Mind Spore、盤古大模型。第三方開源模型無法在華為上運(yùn)行,若要運(yùn)營(yíng)必須依賴華為提供的工具做深度定制和優(yōu)化,開放程度低。2)阿里在該方面的定位是系統(tǒng)集成商和服務(wù)商,運(yùn)用自身芯片產(chǎn)品搭建加速平臺(tái)中,對(duì)外輸出服務(wù)。3)百度昆侖芯主要在自身智算集群和服務(wù)器上用,以及國(guó)內(nèi)企業(yè)、研究所、政府中使用。且由于百度自身AI算法商的商業(yè)定位,與其他AI廠商之間存在競(jìng)爭(zhēng)關(guān)系,昆侖芯未必能夠在其他AI算法商中鋪開。
英偉達(dá)A800、H800對(duì)國(guó)產(chǎn)廠商存在一定的威脅,但在大模型趨勢(shì)下,英偉達(dá)的優(yōu)勢(shì)有所弱化。過去,機(jī)器學(xué)習(xí)訓(xùn)練時(shí)間的主導(dǎo)因素是計(jì)算時(shí)間,等待矩陣乘法,通過張量核心和降低浮點(diǎn)精度,這個(gè)問題很快被解決。現(xiàn)在大型模型訓(xùn)練/推理中的大部分時(shí)間都是在等待數(shù)據(jù)到達(dá)計(jì)算資源。內(nèi)存帶寬和容量的限制不斷出現(xiàn)在NvidiaA100GPU,如果不進(jìn)行大量?jī)?yōu)化,A100往往具有非常低的FLOPS利用率。而800系列降低了數(shù)據(jù)傳輸速率,弱化了英偉達(dá)高算力的優(yōu)勢(shì)。此外,大模型AI芯片更需要片間互聯(lián)、HBM,英偉達(dá)CUDA這種標(biāo)準(zhǔn)化平臺(tái)的優(yōu)勢(shì)同樣有所弱化。
寒武紀(jì)的優(yōu)勢(shì)在于各種深度學(xué)習(xí)框架,合作經(jīng)驗(yàn)豐富。寒武紀(jì)思元系列產(chǎn)品適配TensorFlow、Pytorch、Caffe深度學(xué)習(xí)框架。2019年開始適配???,峰值時(shí)刻合作開發(fā)團(tuán)隊(duì)有70-80人(公司派出20-30人),思元290與商湯在CV層面深度合作,NLP領(lǐng)域在訊飛、百度語音都有出貨。
寒武紀(jì)思元590將是最早實(shí)現(xiàn)商業(yè)應(yīng)用的接近英偉達(dá)A100性能的國(guó)產(chǎn)AI訓(xùn)練芯片。目前華為昇騰910性能超越英偉達(dá)V100,但未達(dá)到A100水平,壁仞科技7nm通用GPU芯片BR100稱其可與被禁售的英偉達(dá)H100一較高下,但尚未量產(chǎn)上市。寒武紀(jì)思源590芯片面積800mm^2,和A100一樣。內(nèi)存帶寬2.7T,是A1001.8T的1.5倍。HBM2使用海力士,功耗達(dá)350W-550W,F(xiàn)P32算力到80TFLops,目前已經(jīng)客戶送樣測(cè)試階段,在高性能國(guó)產(chǎn)AI芯片中進(jìn)程最快,最有機(jī)會(huì)承接國(guó)內(nèi)AI算法商對(duì)英偉達(dá)A100、H100的需求。
04
AI芯片競(jìng)爭(zhēng)格局
在不同的應(yīng)用場(chǎng)景之下,已經(jīng)形成了不同的AI芯片競(jìng)爭(zhēng)格局。
1.云和數(shù)據(jù)中心AI芯片市場(chǎng)
在云和數(shù)據(jù)中心AI芯片市場(chǎng),“訓(xùn)練”和“推理”兩個(gè)環(huán)節(jié)都是英偉達(dá)GPU一家獨(dú)大,幾乎占據(jù)90%以上份額,包括AWS、微軟Azure、谷歌云、阿里云、華為云、騰訊云在內(nèi)的大部分公有云廠商上線的AI加速計(jì)算公有云服務(wù)絕大部分都是基于英偉達(dá)Tesla系列GPU。
(1)云端訓(xùn)練
云端訓(xùn)練用的幾乎全部是英偉達(dá)GPU,公有云廠商中僅谷歌云一家除了提供以英偉達(dá)GPU為主的云計(jì)算加速服務(wù)之外,還推出了基于自研AI芯片TPU的深度學(xué)習(xí)訓(xùn)練服務(wù);
(2)云端推理
云端推理目前出現(xiàn)了基于GPU、FPGA、ASIC三種不同芯片云計(jì)算服務(wù),但是市場(chǎng)份額仍然以英偉達(dá)GPU為主,其中AWS、阿里云、騰訊云、華為云等公有云廠商均推出了FPGA加速計(jì)算云服務(wù),另外AWS推出了基于自研AI芯片Inferentia的ASIC加速計(jì)算服務(wù),華為云推出了基于自研AI芯片昇騰310的ASIC加速計(jì)算服務(wù)。
2.設(shè)備端和邊緣計(jì)算“推理”市場(chǎng)
在設(shè)備端和邊緣計(jì)算“推理”市場(chǎng),各類型芯片各自為陣,尚無絕對(duì)優(yōu)勢(shì)地位的芯片廠商出現(xiàn)——手機(jī)市場(chǎng)以高通、華為、蘋果原主控芯片廠商為主,自動(dòng)駕駛、安防IPC領(lǐng)域英偉達(dá)暫時(shí)領(lǐng)先。
(1)手機(jī)
高通從驍龍820開始,就已經(jīng)具備第一代人工智能引擎AIEngine;高通從第三代AIEngine開始引入異構(gòu)計(jì)算CPU、GPU和DSP的異構(gòu)并行計(jì)算;目前高通已經(jīng)迭代至第四代,驍龍855是第一個(gè)搭載第四代AIEngine的SoC。華為麒麟970、980分別引入寒武紀(jì)IP(1A/1H),使得手機(jī)SoC開始具備AI能力,在2019年6月華為發(fā)布麒麟810,華為與寒武紀(jì)合作終止,華為采用了自研AI芯片達(dá)芬奇架構(gòu)(華為在2018年推出了達(dá)芬奇架構(gòu),對(duì)標(biāo)寒武紀(jì)智能處理器IP——Cambricon-1A/1H/1M)。蘋果2017年發(fā)布的A11芯片也具備了AI能力,附帶NeuralEngine和開發(fā)平臺(tái)CoreML用于機(jī)器學(xué)習(xí)。
(2)安防IPC
仍然以采用英偉達(dá)Jetson系列GPU為主。例如??挡捎昧擞ミ_(dá)JetsonTX1,大華睿智系列人臉網(wǎng)絡(luò)攝像機(jī)采用的是英偉達(dá)TeslaP4GPU。另外國(guó)內(nèi)三大安防廠商也在陸續(xù)采用ASIC芯片,例如???、大華、宇視在前端智能化攝像機(jī)中采用Movidious的Myriad系列芯片,大華自研AI芯片用于新款睿智人臉攝像機(jī)。
(3)智能駕駛
L3級(jí)別以上自動(dòng)駕駛芯片以英偉達(dá)Drive平臺(tái)為主(包括Xavier和Orin兩款SoC);華為將昇騰310用于自動(dòng)駕駛域控制器MDC上,2020年已經(jīng)通過車規(guī)級(jí)認(rèn)證;英特爾Mobileye的EyeQ4-5被用在L3-5智能駕駛。但是目前整車廠和Tier1實(shí)際采用得最多仍然是以英偉達(dá)GPU為主。(在低級(jí)別的L1-L2輔助駕駛上,采用的是NXP、瑞薩等廠商的MCU芯片,不涉及深度學(xué)習(xí)。)
(4)智能音箱
目前智能音箱的語音語義識(shí)別均在云端完成推理計(jì)算,終端上沒有AI專用處理單元。
05
AI芯片四大技術(shù)路線
由于AIGC、類GPT應(yīng)用有鯰魚效應(yīng),帶來約百倍算力需求。而英偉達(dá)等供給解決需求有瓶頸,因此國(guó)產(chǎn)AI芯片有邏輯上需求彈性,AI服務(wù)器也有空間。根據(jù)IDC數(shù)據(jù),2021年全球AI服務(wù)器市場(chǎng)規(guī)模為156億美元,預(yù)計(jì)到2025年全球AI服務(wù)器市場(chǎng)將達(dá)到318億美元,預(yù)計(jì)21-25年CAGR僅僅19.5%。AI服務(wù)器的增長(zhǎng)和規(guī)模總額恐怕無法滿足類GPT類應(yīng)用的百倍需求(例如生產(chǎn)地域、供應(yīng)商產(chǎn)能、工人等限制),因此AI芯片可能會(huì)大量爆發(fā),其次是AI服務(wù)器。
近期的行業(yè)領(lǐng)袖創(chuàng)業(yè)潮,會(huì)加速這種趨勢(shì)。2012-2014年AI創(chuàng)業(yè)潮,造就2015-2017年AI機(jī)會(huì)。2022H2-2023新一輪AI大模型創(chuàng)業(yè)潮。
目前AI芯片主要玩家應(yīng)對(duì)英偉達(dá)塑造的AI生態(tài)壁壘,選取了不同的商業(yè)策略:1)英偉達(dá)AI芯片依然是AI訓(xùn)練和推理最佳選擇;2)寒武紀(jì)在走英偉達(dá)的路線;3)AMD在走部分兼容CUDA的路線;4)谷歌、華為、百度走的是“深度學(xué)習(xí)框架+AI芯片”自研路線。
1.英偉達(dá):通用芯片GPU
英偉達(dá)目前在深度學(xué)習(xí)訓(xùn)練芯片市場(chǎng)占據(jù)絕對(duì)壟斷地位,憑借的是:
(1)CUDA及cuDNN、TensorRT等一系列專為深度學(xué)習(xí)打造的軟件工具鏈
CUDA是實(shí)現(xiàn)CPU和GPU分工的編程工具;cuDNN針對(duì)深度學(xué)習(xí)訓(xùn)練,將深度學(xué)習(xí)模型中對(duì)各層(Layer)的常見的操作(例如卷積convolution、池化pooling)以方便理解和使用的接口暴露給開發(fā)人員,從而使得開發(fā)人員可以快速搭建training的庫;TensorRT針對(duì)推理環(huán)節(jié),幫助模型自動(dòng)減值和優(yōu)化;由于開發(fā)者對(duì)于這些工具已經(jīng)非常熟悉,由于學(xué)習(xí)成本的存在不會(huì)輕易遷移;
(2)深度學(xué)習(xí)框架和英偉達(dá)AI芯片的高度耦合
由于各家AI芯片廠商編程語言無法兼容,而深度學(xué)習(xí)框架廠商僅支持一家AI芯片就要投入巨大工程量,因此導(dǎo)致其最終只選擇市占率最大的1-2家進(jìn)行深度支持,英偉達(dá)在AI訓(xùn)練和推理上實(shí)現(xiàn)了軟硬件高度耦合而構(gòu)筑了極高的生態(tài)壁壘。
英偉達(dá)高性能訓(xùn)練和推理芯片產(chǎn)品主要包括V100、A100、H100以及3月21日GTC2023發(fā)布的H100NVL(2張H100通過外部接口以600GB/s的速度連接,每張卡顯存為94GB合計(jì)為188GB),預(yù)計(jì)2024年將推出基于下代Blackwell架構(gòu)的B100產(chǎn)品。
除上文提到的軟件及生態(tài)壁壘外,英偉達(dá)芯片的主要優(yōu)勢(shì)在于大片上內(nèi)存、高顯存帶寬以及片間互聯(lián)方案。
2022年9月起,美國(guó)禁止峰值性能等于或大于A100閾值的英偉達(dá)芯片向中國(guó)出口,合法版本A800、H800已在國(guó)內(nèi)應(yīng)用。由于中國(guó)高性能計(jì)算市場(chǎng)對(duì)英偉達(dá)來說是一個(gè)不可放棄的巨大市場(chǎng),英偉達(dá)分別于22年11月、23年3月發(fā)布A100、H100的“閹割”版本A800、H800,通過降低數(shù)據(jù)傳輸速率(顯存帶寬)至400GB/s、450GB/s避開美國(guó)限制,從而合法出口到中國(guó),根據(jù)CEO黃仁勛在GTC2023演講,H800已在國(guó)內(nèi)BAT的云計(jì)算業(yè)務(wù)中應(yīng)用。
2.寒武紀(jì):復(fù)制英偉達(dá)成長(zhǎng)之路
寒武紀(jì)芯片硬件性能相比于英偉達(dá)還有追趕空間,上層軟件堆棧與英偉達(dá)相似,全自研不是兼容路線;不同之處在于寒武紀(jì)需要自己對(duì)原生深度學(xué)習(xí)框架進(jìn)行修改以支持思元芯片,而英偉達(dá)有谷歌原廠支持。硬件方面,從一些表觀的性能參數(shù)對(duì)比來看,寒武紀(jì)訓(xùn)練芯片思元290和英偉達(dá)A100、昇騰910相比性能還有追趕的空間。軟件方面,寒武紀(jì)是自己對(duì)原生的Tensorflow和Pytorch深度學(xué)習(xí)框架去針對(duì)自己的思元芯片去做修改而非像華為一樣自研深度學(xué)習(xí)框架去進(jìn)行優(yōu)化,也不像英偉達(dá)一樣因?yàn)樾酒姓悸矢?,有Pytorch/Tensorflow原廠去做GPU算子的優(yōu)化和設(shè)備的支持。另外寒武紀(jì)相比英偉達(dá)的算子庫豐富程度以及軟件工具鏈的完善程度還有一定差距,需要時(shí)間去追趕。
3.AMD:部分兼容英偉達(dá)CUDA
AMD選擇了部分兼容英偉達(dá)CUDA,借力英偉達(dá)生態(tài)的路線。AMD在2016年全球超算大會(huì)上推出了ROCm,也就是對(duì)標(biāo)英偉達(dá)CUDA一樣的智能編程語言,ROCm軟件堆棧的結(jié)構(gòu)設(shè)計(jì)與CUDA相似度很高;對(duì)標(biāo)英偉達(dá)深度學(xué)習(xí)庫cuDNN,AMD推出了MIOpen;對(duì)標(biāo)英偉達(dá)深度學(xué)習(xí)推理框架TensorRT,AMD推出了Tensile;對(duì)標(biāo)英偉達(dá)編譯器NVCC,AMD推出了HCC。ROCm中包含的HIPify工具,可以把CUDA代碼一鍵轉(zhuǎn)換成ROCm棧的API,減少用戶移植成本。
走兼容英偉達(dá)CUDA的路線其難點(diǎn)在于其更新迭代速度永遠(yuǎn)跟不上CUDA并且很難做到完全兼容。1)迭代永遠(yuǎn)慢一步:英偉達(dá)GPU在微架構(gòu)和指令集上迭代很快,在上層軟件堆棧上很多地方也要做相應(yīng)的功能更新;但是AMD不可能知道英偉達(dá)的產(chǎn)品路線圖,軟件更新永遠(yuǎn)會(huì)慢英偉達(dá)一步(例如AMD有可能剛宣布支持了CUDA11,但是英偉達(dá)已經(jīng)推出CUDA12了)。2)難以完全兼容反而會(huì)增加開發(fā)者的工作量:像CUDA這樣的大型軟件本身架構(gòu)很復(fù)雜,AMD需要投入大量人力物力用幾年甚至十幾年才能追趕上;因?yàn)殡y免存在功能差異,如果兼容做不好反而會(huì)影響性能(雖然99%相似了,但是解決剩下來的1%不同之處可能會(huì)消耗開發(fā)者99%的時(shí)間)。
4.谷歌、華為:“深度學(xué)習(xí)框架+AI芯片”自研
谷歌憑借Tensorflow去做TPU相對(duì)而言不存在太多生態(tài)壁壘問題,但是仍然無法撼動(dòng)英偉達(dá),其原因在于TPU本身性能還有進(jìn)一步提升空間以及過于專用的問題。理論上谷歌憑借Tensorflow在深度學(xué)習(xí)框架領(lǐng)域?qū)崿F(xiàn)了壟斷地位,是具備絕對(duì)的生態(tài)掌控力的,會(huì)投入大量的Tensorflow工程師針對(duì)自家TPU去做支持和優(yōu)化,因此TPU去挑戰(zhàn)英偉達(dá)GPU其實(shí)不存在所謂生態(tài)壁壘的問題。但是自谷歌自2016年推出第一代TPUv1至今已經(jīng)到第四代TPUv4(2021年5月發(fā)布),仍然無法從英偉達(dá)手中搶走明顯份額,其原因主要在于TPU本身性能相比于英偉達(dá)同時(shí)期GPU而言還有一定差距,另外其芯片設(shè)計(jì)過于專用所以在卷積之外的算法表現(xiàn)上并不算好:
(1)谷歌在芯片設(shè)計(jì)上的實(shí)力和英偉達(dá)相比還有一定差距
谷歌在TPU論文中也明確提到由于項(xiàng)目時(shí)間比較緊,所以很多優(yōu)化只能放棄。從性能參數(shù)來看谷歌TPUv2和英偉達(dá)同年推出的V100相比,性能功耗比、顯存帶寬等指標(biāo)有著明著差距,即使是谷歌在2018年推出了第三代TPU,其性能(FP32)、功耗等指標(biāo)仍然和英偉達(dá)V100相比存在一定差距。
(2)谷歌采用的是傳統(tǒng)脈動(dòng)陣列機(jī)架構(gòu),芯片設(shè)計(jì)上過于專用
TPU的主要?jiǎng)?chuàng)新在于三點(diǎn):大規(guī)模片上內(nèi)存、脈動(dòng)式內(nèi)存訪問、8位低精度運(yùn)算。脈動(dòng)陣列機(jī)做卷積時(shí)效果不錯(cuò),但是做其他類型神經(jīng)網(wǎng)絡(luò)運(yùn)算效果不是很好,在一定程度上犧牲了通用性來換取特定場(chǎng)景的高性能。TPU在芯片設(shè)計(jì)上只能完成“乘+加+乘+加......”規(guī)則的運(yùn)算,無法高效實(shí)現(xiàn)“復(fù)數(shù)乘法、求倒、求平方根倒數(shù)”等常見算法。
現(xiàn)在AI芯片的行業(yè)趨勢(shì)是:GPU在通用性的基礎(chǔ)上逐漸增加專用計(jì)算單元;而類似TPU的ASIC芯片在專用性的基礎(chǔ)上逐漸增加通用計(jì)算單元——兩類芯片有逐漸收斂的趨勢(shì)。英偉達(dá)在用于深度學(xué)習(xí)領(lǐng)域的GPU上的設(shè)計(jì)思路是“在通用的基礎(chǔ)上增加專用運(yùn)算單元”,例如在Volta架構(gòu)上開始增加TensorCore(專門用于深度學(xué)習(xí)加速)、在Turing架構(gòu)上開始增加RTCore(專門用于光線追蹤加速),犧牲通用性為特殊的計(jì)算或者算法實(shí)現(xiàn)特殊架構(gòu)的硬件以達(dá)到更快的速度。而AI芯片一開始走專用路線,但是現(xiàn)在在專用性之外也在架構(gòu)設(shè)計(jì)上也增加了通用計(jì)算單元(例如谷歌TPUv1主要是矩陣乘法運(yùn)算單元占了24%芯片面積,但是TPUv2也開始增加浮點(diǎn)ALU做SIMD)。?
華為在2019年8月發(fā)布的昇騰910與英偉達(dá)在2020年5月發(fā)布的A100性能相當(dāng),但是我們認(rèn)為華為的主要問題在于不具備深度學(xué)習(xí)框架生態(tài)掌控力。即使其芯片性能與英偉達(dá)水平差不多,但是由于Tensorflow/Pytorch兩大主流深度學(xué)習(xí)訓(xùn)練框架沒有基于華為昇騰910做特定的優(yōu)化,所以算法結(jié)合上述兩大訓(xùn)練框架在昇騰910上實(shí)際跑出來的性能其實(shí)不如英偉達(dá)A100;目前僅華為自研的深度學(xué)習(xí)框架MindSpore對(duì)昇騰910和昇騰310做了特別優(yōu)化,由于華為MindSpore大部分精力都是放在對(duì)昇騰芯片的算子支持和優(yōu)化上,對(duì)英偉達(dá)GPU的支持還不夠,所以只有同時(shí)使用華為的深度學(xué)習(xí)框架和昇騰芯片才能同時(shí)發(fā)揮出兩者的最佳性能。
上述我們提到要想在深度學(xué)習(xí)訓(xùn)練框架要想打破Tensorflow和Pytorch的壟斷必須要靠原始創(chuàng)新,而目前包括華為MindSpore在內(nèi)的國(guó)產(chǎn)深度學(xué)習(xí)框架尚未很好解決上述兩大訓(xùn)練框架的痛點(diǎn)。Caffe之所以能夠在早期獲得開發(fā)者歡迎是因?yàn)榻鉀Q了深度學(xué)習(xí)框架從0到1的過程,Tensorflow之所以可以取代Caffe是因?yàn)榻鉀Q了其不夠靈活、不能自動(dòng)求導(dǎo)、對(duì)非計(jì)算機(jī)視覺任務(wù)支持不好等問題,Pytorch之所以明顯搶奪Tensorflow的份額是因?yàn)镻ytorch引入了動(dòng)態(tài)圖解決了Tensorflow是靜態(tài)圖設(shè)計(jì)調(diào)試?yán)щy的問題。但是目前國(guó)產(chǎn)的三個(gè)深度學(xué)習(xí)框架百度PaddlePaddle、曠視Megengine、華為MindSpore還沒有完美解決開發(fā)者在用Tensorflow和Pytorch所遇到的痛點(diǎn)。
我們認(rèn)為Tensorflow和Pytorch目前共同的痛點(diǎn)在于對(duì)海量算子和各種AI芯片支持的難度,華為正在探索靠AI編譯器的技術(shù)來解決上述問題,但是目前編譯技術(shù)仍然還達(dá)不到人工優(yōu)化的效果。華為全面布局了三個(gè)層次的AI編譯器,包括圖靈完備的圖層IR設(shè)計(jì)、使用poly技術(shù)的圖算融合/算子自動(dòng)生成技術(shù)(以TVM編譯器的設(shè)計(jì)思想推出算子開發(fā)工具TBE來解決算子開發(fā)自動(dòng)優(yōu)化的問題)。
06
AI芯片市場(chǎng)預(yù)期
1.ChatGPT快速滲透,AI產(chǎn)業(yè)迎發(fā)展新機(jī)
ChatGPT是由OpenAI公司開發(fā)的人工智能聊天機(jī)器人程序,于2022年11月發(fā)布,推出不久便在全球范圍內(nèi)爆火。從用戶體驗(yàn)來看,ChatGPT不僅能實(shí)現(xiàn)流暢的文字聊天,還可以勝任翻譯、作詩、寫新聞、做報(bào)表、編代碼等相對(duì)復(fù)雜的語言工作。ChatGPT爆火的背后是人工智能算法的迭代升級(jí)。
ChatGPT是生成式人工智能技術(shù)(AIGC)的一種,與傳統(tǒng)的決策/分析式AI相比,生成式AI并非通過簡(jiǎn)單分析已有數(shù)據(jù)來進(jìn)行分析與決策,而是在學(xué)習(xí)歸納已有數(shù)據(jù)后進(jìn)行演技創(chuàng)造,基于歷史進(jìn)行模仿式、縫合式創(chuàng)作,生成全新的內(nèi)容。
ChatGPT單次訓(xùn)練所需算力約27.5PFlop/s-day,單顆NVIDIAV100需計(jì)算220天。隨著模型參數(shù)的不斷增加,模型訓(xùn)練所需算力將進(jìn)一步提升,將進(jìn)一步拉動(dòng)對(duì)算力芯片的需求。預(yù)測(cè)隨著ChatGPT等新興AI應(yīng)用的落地,將會(huì)不斷打開下游市場(chǎng)需求,而伴隨算力的增長(zhǎng),也將帶來對(duì)上游半導(dǎo)體芯片的需求量快速提升。
2.全球AI芯片有望達(dá)到726億美元規(guī)模
隨著AI應(yīng)用的普及和算力需求的不斷擴(kuò)大,AI芯片需求有望率先擴(kuò)張。根據(jù)IDC預(yù)測(cè),中國(guó)AI算力規(guī)模將保持高速增長(zhǎng),預(yù)計(jì)到2026年將達(dá)1271.4EFLOPS,CAGRA(2022-2026年)達(dá)52.3%。在此背景下,IDC預(yù)測(cè)異構(gòu)計(jì)算將成為主流趨勢(shì),未來18個(gè)月全球人工智能服務(wù)器GPU、ASIC和FPGA的搭載率均會(huì)上升,2025年人工智能芯片市場(chǎng)規(guī)模將達(dá)726億美元。
3.預(yù)測(cè)“文心一言”等LLM模型的推出將給國(guó)內(nèi)GPU市場(chǎng)帶來28.51億美元的增量
據(jù)百度官方數(shù)據(jù),“文心一言”基于文心大模型,參數(shù)規(guī)模為100億,目前已經(jīng)向公眾開放,并將與搜索引擎業(yè)務(wù)整合。假設(shè)短期國(guó)內(nèi)將出現(xiàn)5家與百度“文心一言”相似的企業(yè),模型參數(shù)量與訓(xùn)練算力需求成比例。根據(jù)OpenAI公布的GPT3系列參數(shù)量及訓(xùn)練算力需求數(shù)據(jù),可推算出文心大模型的單次訓(xùn)練算力需求為208.48PFlop/s-day。據(jù)Similarweb數(shù)據(jù),2023年1月百度搜索引擎的訪問量為4.9億次,假設(shè)“文心一言”將整合到百度搜索引擎中,單日運(yùn)營(yíng)算力需求為125.08PFlop/sday。
根據(jù)NVIDIA數(shù)據(jù),A100的FP64TensorCore算力為19.5TFlops,單價(jià)為1萬美元。根據(jù)經(jīng)驗(yàn)假設(shè)日常算力利用率為30%,則短期LLM模型將給國(guó)內(nèi)GPU市場(chǎng)帶來28.51億美元的增量。長(zhǎng)期LLM模型有望與搜索引擎結(jié)合,為GPU帶來447.51億美元的增量空間。假設(shè)未來ChatGPT將與搜索引擎結(jié)合,日活躍用戶數(shù)量參考Google。根據(jù)Similarweb數(shù)據(jù),2023年1月Google訪問量為883億。假設(shè)其他數(shù)據(jù)與測(cè)算方式不變,則ChatGPT與搜索引擎結(jié)合能夠給GPU市場(chǎng)帶來447.51億美元的增量空間。
07
相關(guān)公司
1.龍芯中科
公司主要從事處理器(CPU)及配套芯片的研制、銷售及服務(wù)。主要產(chǎn)品包括龍芯1號(hào)、龍芯2號(hào)、龍芯3號(hào)三大系列處理器芯片及橋片等配套芯片,系列產(chǎn)品在電子政務(wù)、能源、交通、金融、電信、教育等行業(yè)領(lǐng)域已獲得廣泛運(yùn)用。
堅(jiān)持自主研發(fā)指令系統(tǒng)、IP核等核心技術(shù)。龍芯中科掌握指令系統(tǒng)、處理器核微結(jié)構(gòu)、GPU以及各種接口IP等芯片核心技術(shù),在關(guān)鍵技術(shù)上進(jìn)行自主研發(fā),擁有大量的自主知識(shí)產(chǎn)權(quán),已取得專利400余項(xiàng)。
GPU產(chǎn)品進(jìn)展順利,正研制新一代圖形及計(jì)算加速GPGPU核。公司在2022年上半年完成了第一代龍芯圖形處理器架構(gòu)LG100系列,目前正在啟動(dòng)第二代龍芯圖形處理器架構(gòu)LG200系列圖形處理器核的研制。根據(jù)公司在2022年半年度業(yè)績(jī)交流會(huì)信息,第一代GPU核(LG100)已經(jīng)集成在7A2000中,新一代GPGPU核(LG200)的研制也取得了積極進(jìn)展。
2.海光信息
公司主營(yíng)產(chǎn)品包括海光通用處理器(CPU)和海光協(xié)處理器(DCU)。海光CPU主要面向復(fù)雜邏輯計(jì)算、多任務(wù)調(diào)度等通用處理器應(yīng)用場(chǎng)景需求,兼容國(guó)際主流x86處理器架構(gòu)和技術(shù)路線。從應(yīng)用場(chǎng)景看,海光CPU分為7000、5000、3000三個(gè)系列,分別定位于高端服務(wù)器、中低端服務(wù)器和邊緣計(jì)算服務(wù)器。海光DCU是公司基于GPGPU架構(gòu)設(shè)計(jì)的一款協(xié)處理器,目前以8000系列為主,面向服務(wù)器集群或數(shù)據(jù)中心。海光DCU全面兼容ROCmGPU計(jì)算生態(tài),能夠較好地適配國(guó)際主流商業(yè)計(jì)算軟件,解決了產(chǎn)品推廣過程中的軟件生態(tài)兼容性問題。
CPU與DPU持續(xù)迭代,性能比肩國(guó)際主流廠商。CPU方面,目前海光一號(hào)和海光二號(hào)已經(jīng)實(shí)現(xiàn)量產(chǎn),海光三號(hào)已經(jīng)正式發(fā)布,海光四號(hào)目前進(jìn)入研發(fā)階段。海光CPU的性能在國(guó)內(nèi)處于領(lǐng)先地位,但與國(guó)際廠商在高端產(chǎn)品性能上有所差距,接近Intel中端產(chǎn)品水平;DCU方面,深算一號(hào)已實(shí)現(xiàn)商業(yè)化應(yīng)用,深算二號(hào)已于2020年1月啟動(dòng)研發(fā)。在典型應(yīng)用場(chǎng)景下,公司深算一號(hào)指標(biāo)達(dá)到國(guó)際上同類型高端產(chǎn)品的水平。
3.景嘉微
公司主要從事高可靠電子產(chǎn)品的研發(fā)、生產(chǎn)和銷售,產(chǎn)品主要涉及圖形顯控領(lǐng)域、小型專用化雷達(dá)領(lǐng)域、芯片領(lǐng)域等。圖形顯控是公司現(xiàn)有核心業(yè)務(wù),也是傳統(tǒng)優(yōu)勢(shì)業(yè)務(wù),小型專用化雷達(dá)和芯片是公司未來大力發(fā)展的業(yè)務(wù)方向。
GPU研發(fā)進(jìn)程平穩(wěn)推進(jìn),新產(chǎn)品可滿足AI計(jì)算需求。公司以JM5400研發(fā)成功為起點(diǎn),不斷研發(fā)更為先進(jìn)且適用更為廣泛的GPU芯片。2014年公司推出JM5400,核心頻率550MHz;2018年推出JM7200系列,核心頻率1300MHz;2021年推出JM9系列,核心頻率1.5GHz。根據(jù)公司2022年中期報(bào)告,公司JM9系列第二款圖形處理芯片于2022年5月成功研發(fā),可以滿足地理信息系統(tǒng)、媒體處理、CAD輔助設(shè)計(jì)、游戲、虛擬化等高性能顯示需求和人工智能計(jì)算需求,可廣泛應(yīng)用于用于臺(tái)式機(jī)、筆記本、一體機(jī)、服務(wù)器、工控機(jī)、自助終端等設(shè)備。
4.寒武紀(jì)
寒武紀(jì)是AI芯片領(lǐng)域的獨(dú)角獸。公司成立于2016年3月15日,專注于人工智能芯片產(chǎn)品的研發(fā)與技術(shù)創(chuàng)新,產(chǎn)品廣泛應(yīng)用于消費(fèi)電子、數(shù)據(jù)中心、云計(jì)算等諸多場(chǎng)景。公司是AI芯片領(lǐng)域的獨(dú)角獸:采用公司終端智能處理器IP的終端設(shè)備已出貨過億臺(tái);云端智能芯片及加速卡也已應(yīng)用到國(guó)內(nèi)主流服務(wù)器廠商的產(chǎn)品中,并已實(shí)現(xiàn)量產(chǎn)出貨;邊緣智能芯片及加速卡的發(fā)布標(biāo)志著公司已形成全面覆蓋云端、邊緣端和終端場(chǎng)景的系列化智能芯片產(chǎn)品布局。
人工智能的各類應(yīng)用場(chǎng)景,從云端溢出到邊緣端,或下沉到終端,都離不開智能芯片的高效支撐。公司面向云端、邊緣端、終端推出了三個(gè)系列不同品類的通用型智能芯片與處理器產(chǎn)品,分別為終端智能處理器IP、云端智能芯片及加速卡、邊緣智能芯片及加速卡。
08
AI芯片發(fā)展趨勢(shì)
當(dāng)前AI芯片呈現(xiàn)幾大趨勢(shì):
1.制程越來越先進(jìn)
從2017年英偉達(dá)發(fā)布TeslAV100AI芯片的12nm制程開始,業(yè)界一直在推進(jìn)先進(jìn)制程在AI芯片上的應(yīng)用。英偉達(dá)、英特爾、AMD一路將AI芯片制程從16nm推進(jìn)至4/5nm。
2.Chiplet封裝初露頭角
2022年英偉達(dá)發(fā)布H100AI芯片,其芯片主體為單芯片架構(gòu),但其GPU與HBM3存儲(chǔ)芯片的連接,采用Chiplet封裝。在此之前,英偉達(dá)憑借NVlink-C2C實(shí)現(xiàn)內(nèi)部芯片之間的高速連接,且Nvlink芯片的連接標(biāo)準(zhǔn)可與Chiplet業(yè)界的統(tǒng)一標(biāo)準(zhǔn)Ucle共通。而AMD2023年發(fā)布的InstinctMI300是業(yè)界首次在AI芯片上采用更底層的Chiplet架構(gòu),實(shí)現(xiàn)CPU和GPU這類核心之間的連接。
3.頭部廠商加速在AI芯片的布局
AI芯片先行者是英偉達(dá),其在2017年即發(fā)布TeslAV100芯片,此后2020以來英特爾、AMD紛紛跟進(jìn)發(fā)布AI芯片,并在2022、2023年接連發(fā)布新款A(yù)I芯片,發(fā)布節(jié)奏明顯加快。
芯片成本變化有以下規(guī)律:封裝形式越復(fù)雜,封裝成本、封裝缺陷成本占芯片成本比重越大:具體來說,SoC<MCM<InFO小于2.5D。芯片面積越大,芯片缺陷成本、封裝缺陷成本占比越大;制程越先進(jìn),芯片缺陷成本占比越高,而Chiplet封裝能有效降低芯片缺陷率,最終達(dá)到總成本低于SoC成本的效果。
制程越先進(jìn)、芯片組面積越大、小芯片(Chips)數(shù)量越多,Chiplet封裝較SoC單芯片封裝,成本上越有優(yōu)勢(shì)。鑒于當(dāng)前AI芯片朝高算力、高集成方向演進(jìn),制程越來越先進(jìn),Chiplet在更先進(jìn)制程、更復(fù)雜集成中降本優(yōu)勢(shì)愈發(fā)明顯,未來有望成為AI芯片封裝的主要形式。
國(guó)產(chǎn)封測(cè)龍頭,在Chiplet領(lǐng)域已實(shí)現(xiàn)技術(shù)布局:
通富微電已為AMD大規(guī)模量產(chǎn)Chiplet產(chǎn)品;長(zhǎng)電科技早在2018年即布局Chiplet相關(guān)技術(shù),如今已實(shí)現(xiàn)量產(chǎn),2022年公司加入Chiplet國(guó)際標(biāo)準(zhǔn)聯(lián)盟Ucle,為公司未來承接海外Chiplet奠定了資質(zhì)基礎(chǔ);華天科技Chiplet技術(shù)已實(shí)現(xiàn)量產(chǎn),其他中小封測(cè)廠商已有在TSV等Chiplet前期技術(shù)上的積累。