GPU行業(yè)報告:市場分析、競爭格局、產(chǎn)業(yè)鏈及相關公司梳理
GPU作為顯示卡的“大腦”,是芯片領域的核心產(chǎn)品之一,并且GPU作為支撐眾多科技領域發(fā)展的底層核心,是數(shù)據(jù)計算的核心底座,在商業(yè)計算、人工智能等諸多板塊均有著較為廣泛的使用,是科技行業(yè)的重要支撐。當前國內(nèi)GPU市場仍由外商主導,近年來,受政策、資本和需求的三重共振,國產(chǎn)GPU賽道景氣,國內(nèi)企業(yè)加速追趕海外大廠。2022年美國通過涉臺法案、對中國禁售高端計算芯片等,使中美摩擦尤其是科技領域限制進一步加大,GPU國產(chǎn)替代緊迫性和重要性進一步提升。
以下我們將對GPU行業(yè)進行分析,從概念入手,對GPU具備的優(yōu)勢、核心功能、行業(yè)發(fā)展歷程、市場情況等方面展開具體論述,同時,將針對GPU產(chǎn)業(yè)鏈、重點布局企業(yè)及競爭格局進行分析,希望對大家了解GPU行業(yè)有所啟發(fā)。
01
行業(yè)概述
1、GPU定義
GPU一般指圖形處理器(graphics processing unit,縮寫GPU),又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上做圖像和圖形相關運算工作的微處理器。
GPU是顯卡的處理器。顯卡全稱顯示適配卡,又稱顯示適配器,用于協(xié)助CPU進行圖像處理,作用是將CPU送來的圖像信號經(jīng)過處理再輸送到顯示器上,由主板連接設備、監(jiān)視器連接設備、處理器和內(nèi)存組成,GPU即是顯卡處理器。

2、GPU在并行運算層面具備一定優(yōu)勢
當前主要興起的計算芯片分別為GPU、ASIC、FPGA等,其中GPU最初專用于圖形處理制作,后逐漸應用于計算。GPU的工作通俗地來說就是完成3D圖形的生成,將圖形映射到相應的像素點上,對每個像素進行計算確定最終顏色并完成輸出,一般分為頂點處理、光柵化計算、紋理貼圖、像素處理、輸出五個步驟。GPU采用流式并行計算模式,可對每個數(shù)據(jù)行獨立的并行計算。
CPU基于低延時設計,由運算器(ALU)和控制器(CU),以及若干個寄存器和高速緩沖存儲器組成,功能模塊較多,擅長邏輯控制,串行運算。GPU基于大吞吐量設計,擁有更多的ALU用于數(shù)據(jù)處理,適合對密集數(shù)據(jù)進行并行處理,擅長大規(guī)模并發(fā)計算,因此GPU也被應用于AI訓練等需要大規(guī)模并發(fā)計算場景。

GPU內(nèi)部大量的運算單元核心,盡管單個核心緩存較小,邏輯功能簡單,僅能執(zhí)行有限類型的邏輯運算操作,但其多核心架構(gòu)天然適合執(zhí)行復雜的數(shù)學和幾何計算,且科學計算領域通用性較高,相比CPU,綜合性能更好。當前缺點在于功耗過高,效率不足。

3、GPU按應用端細分
GPU按應用端劃分為PC GPU、服務器GPU、智能駕駛GPU、移動端GPU。
PC GPU可以進一步劃分為獨立顯卡和集成顯卡。獨立顯卡是一種與處理器(CPU)分離的GPU,具備的專用內(nèi)存,不與CPU共享,擁有自己的內(nèi)存源和電源,因此性能更高,功率更大,產(chǎn)生熱量更多。獨立顯卡常見于臺式機、筆記本電腦,小型PC也可以包含獨立顯卡,主要的廠商包括英偉達和AMD。集成顯卡是一種內(nèi)置于處理器的GPU。集成GPU使用與CPU共享系統(tǒng)內(nèi)存,由于集成顯卡內(nèi)置于處理器中,性能較低,因此通常功耗更低,產(chǎn)生的熱量更少。集成顯卡的處理器通常位于外形較小的系統(tǒng)中,例如筆記本電腦,主要產(chǎn)商包括Intel和AMD。

服務器GPU通常應用在深度學習、科學計算、視頻編解碼等多種場景,主要的廠商包括英偉達和AMD,英偉達占主導地位。
自動駕駛領域,GPU通常用于自動駕駛算法的車端AI推理,英偉達占據(jù)主導地位。
4、GPU的核心功能
(1)圖形渲染
GPU憑借其較強的并行計算能力,已經(jīng)成為個人電腦中圖像渲染的專用處理器。圖形渲染具體實現(xiàn)要通過五階段:頂點著色、形狀裝配、光柵化、紋理填充著色、測試與混合。
GPU渲染流程為三維圖像信息輸入GPU后,讀取3D圖形外觀的頂點數(shù)據(jù)后,1)在流處理器中構(gòu)建3D圖形的的整體骨架,即頂點處理;2)由光柵化處理單元把矢量圖形轉(zhuǎn)化為一系列像素點,即光柵化操作;3)在紋理映射單元實現(xiàn)紋理填充;4)在流處理器中完成對像素的計算和處理,即著色處理;5)在光柵化處理單元中實現(xiàn)測試與混合任務。至此,實現(xiàn)一個完整的GPU渲染流程。

(2)通用計算
2003年,GPGPU(General Purpose computing on GPU,基于GPU的通用計算)的概念首次被提出,意指利用GPU的計算能力在非圖形處理領域進行更通用、更廣泛的科學計算。GPGPU概念的提出,為GPU更為廣泛的應用開拓了思路,GPGPU在傳統(tǒng)GPU的基礎上進行了優(yōu)化設計,部分GPGPU會去除GPU中負責圖形處理加速的硬件組成,使之更適合高性能并行計算。
GPGPU在數(shù)據(jù)中心被廣泛地應用在人工智能和高性能計算、數(shù)據(jù)分析等領域。GPGPU的并行處理結(jié)構(gòu)非常適合人工智能計算,人工智能計算精度需求往往不高,INT8、FP16、FP32往往可以滿足大部分人工智能計算。GPGPU同時可以提供FP64的高精度計算,使得GPGPU適合信號處理、三維醫(yī)學成像、雷達成像等高性能計算場景。

5、GPU中常見的數(shù)據(jù)格式和應用場景
計算機中常用的數(shù)據(jù)格式包括定點表示和浮點表示。定點表示中小數(shù)點位置固定不變,數(shù)值范圍相對有限,GPU中常用的定點表示有INT8和INT16,多用于深度學習的推理過程。浮點表示中包括符號位、階碼部分、尾數(shù)部分。符號位決定數(shù)值正負,階碼部分決定數(shù)值表示范圍,尾數(shù)部分決定數(shù)值表示精度。FP64(雙精度)、FP32(單精度)、FP16(半精度)的數(shù)值表示范圍和表示精度依次下降,運算效率依次提升。
除此以外還有TF32、BF16等其他浮點表示,保留了階碼部分但是截斷了尾數(shù)部分,犧牲數(shù)值精度換取較大的數(shù)值表示范圍,同時獲得運算效率的提升,在深度學習中得到廣泛應用。

6、應用程序接口是GPU和應用軟件的連接橋梁
GPU應用程序接口(API):API是連接GPU硬件與應用程序的編程接口,有利于高效執(zhí)行圖形的頂點處理、像素著色等渲染功能。早期由于缺乏通用接口標準,只能針對特定平臺的特定硬件編程,工作量極大。隨著API的誕生以及系統(tǒng)優(yōu)化的深入,GPU的API可以直接統(tǒng)籌管理高級語言、顯卡驅(qū)動及底層的匯編語言,提高開發(fā)過程的效率和靈活性。
GPU應用程序接口主要涵蓋兩大陣營,分別是Microsoft DirectX和Khronos Group技術標準。DirectX提供一整套多媒體解決方案,3D渲染表現(xiàn)突出,但是只能用于windows系統(tǒng)。OpenGL的硬件匹配范圍更廣,同時在CAD、游戲開發(fā)、虛擬現(xiàn)實等高端繪圖領域得到廣泛應用。此外還包括蘋果的MetalAPI等。

7、CUDA架構(gòu)實現(xiàn)了GPU并行計算的通用化
GPGPU相比于CPU,其并行計算能力更強,但是通用靈活性相對較差,編程難度相對較高。在CUDA出現(xiàn)之前,需要將并行計算映射到圖形API中從而在GPU中完成計算。
CUDA大幅降低GPGPU并行計算的編程難度,實現(xiàn)GPU的通用化。CUDA是英偉達2007年推出的適用于并行計算的統(tǒng)一計算設備架構(gòu),該架構(gòu)可以利用GPU來解決商業(yè)、工業(yè)以及科學方面的復雜計算問題。CUDA架構(gòu)的里程碑意義在于,GPU的功能不止局限于圖形渲染,實現(xiàn)了GPU并行計算的通用化,把“個人計算機”變成可以并行運算的“超級計算機”。英偉達在推出了CUDA以后,相當于把復雜的顯卡編程包裝成了一個簡單的接口,可以利用CUDA直觀地編寫GPU核心程序,使得編程效率大幅提升?,F(xiàn)在主流的深度學習框架基本都是基于CUDA加速GPU并行計算。

CUDA采用了一種全新的計算體系結(jié)構(gòu)來調(diào)動GPU提供的硬件資源,本質(zhì)上是應用程序和GPU硬件資源之間的接口。CUDA程序組成包括CUDA庫、應用程序編程接口(API)及運行庫(Runtime)、高級別的通用數(shù)學庫。
CUDA經(jīng)過多年優(yōu)化,形成了獨特軟硬件配合的生態(tài)系統(tǒng)。其中包括諸多編程語言的開發(fā)環(huán)境,各種API的第三方工具鏈,自帶的應用于代數(shù)運算和圖形處理的CUDA庫、龐大的應用程序庫,從而實現(xiàn)輕松高效的編寫、調(diào)試優(yōu)化過程。
CUDA提供了對其它編程語言的支持,如C/C++,Python,F(xiàn)ortran等語言。CUDA支持Windows、Linux、Mac各類操作系統(tǒng)。

02
行業(yè)發(fā)展階段回顧
GPU的發(fā)展大致經(jīng)歷了五個階段:
1、前GPU時代,圖形處理器初具雛形
1981年世界上第一臺個人電腦IBM5150由IBM公司發(fā)布,其搭配黑白顯示適配器與彩色圖形適配器,是最早的圖形顯示控制器。20世紀80年代初期,出現(xiàn)了以GE芯片為標志的圖形處理器,GE芯片具備四位向量的浮點運算功能,可以實現(xiàn)圖形渲染過程中的矩陣,裁剪,投影等運算,其出現(xiàn)標志著計算機圖形學進入以圖形處理器為主導的階段。后續(xù)隨著GE等圖形處理器功能不斷完善,圖形處理功能逐漸由CPU向GPU(前身)轉(zhuǎn)移。
2、GeForce256橫空出世,GPU正式誕生
20世紀90年代,NVIDIA進入個人電腦3D市場,并于1999年推出具有標志意義的圖形處理器GeForce256,真正意義上的GPU第一次出現(xiàn)。相較過往圖形處理器,第二代GPU GeForce 256將T&L硬件(用于處理圖形的整體角度旋轉(zhuǎn)與光暈陰影等三維效果)從CPU中分離出來并整合進GPU中,使得GPU可以獨立進行三維頂點的空間坐標變換,將CPU從繁重的光照計算中解脫出來。即便是低端CPU,搭配了支持硬件T&L的顯卡也可以流暢地玩游戲,這使得英偉達在市場競爭中能以產(chǎn)品價格獲得較大優(yōu)勢,市占率持續(xù)提升。
頂點編程確立GPU編程思路:經(jīng)過了2000年的顯卡廠商洗牌。2002年第三代GPU芯片陸續(xù)推出(如英偉達的GeForce 4Ti與ATI的8500),其均具備頂點編程能力,可以通過賦予特定算法在工作中改變?nèi)S模型的外形。頂點編程能力的出現(xiàn)確立了GPU芯片的編程思路,使后續(xù)GPU芯片用于其他計算領域成為可能。但本時期GPU尚不支持像素級編程能力(片段編程能力),其編程自由度尚不完備。
3、GPU用于通用計算,GPGPU概念出現(xiàn)
2003年SIGGRAPH大會上首次提出將GPU運用于通用運算,為GPGPU的出現(xiàn)打下基礎。其后3年,通過用統(tǒng)一的流處理器取代GPU中原有的不同著色單元的設計釋放了GPU的計算能力,第四代GPU均具有頂點編程和片段編程能力,完全可編程的GPU正式誕生。由于GPU的并行處理能力強于CPU,因此GPU可以在同一時間處理大量頂點數(shù)據(jù),使其在人體CT、地質(zhì)勘探、氣象數(shù)據(jù)、流體力學等科學可視化計算處理上具備較大優(yōu)勢,足以滿足各項實時性任務。后續(xù)伴隨線性代數(shù)、物理仿真和光線跟蹤等各類算法向GPU芯片移植,GPU由專用圖形顯示向通用計算逐漸轉(zhuǎn)型。
4、架構(gòu)持續(xù)迭代,AI計算關注度漸起
2010年英偉達發(fā)布了全新GPU架構(gòu)Fermi,其是支持CUDA的第三代GPU架構(gòu)(第一代與第二代分別是G80架構(gòu)與GT200架構(gòu))。彼時英偉達在Fermi架構(gòu)的設計上并未對AI計算場景做特定設置,但GPU芯片在AI計算領域相較CPU芯片已擁有了較大優(yōu)勢。隨后在2012、2014年陸續(xù)發(fā)布的Kepler架構(gòu)、Maxwell架構(gòu)中,盡管英偉達并未在硬件層面對AI計算做特定優(yōu)化,但在軟件層面卻引入了深度神經(jīng)網(wǎng)絡加速庫cuDNN v1.0,使英偉達GPU的AI計算性能與易用性得到提升。
Pascal架構(gòu)發(fā)布,AI計算專精版本到來:Pascal架構(gòu)在2016年3月被推出,是英偉達面向AI計算場景發(fā)布的第一版架構(gòu)。其硬件結(jié)構(gòu)中加入了諸如FP16(半精度浮點數(shù)計算)、NVLink(總線通信協(xié)議,用于可用于單CPU配置多GPU)、HBM(提升訪存帶寬)、INT8格式支持(支持推理場景)等技術,而軟件層面也發(fā)布了面向推理加速場景的TensorRT與開源通信函數(shù)庫NCCL,Pascal架構(gòu)在AI計算領域的前瞻性布局使得英偉達后續(xù)架構(gòu)在競爭中具有著較大優(yōu)勢。
5、細分場景不斷追趕,GPU迎來高速發(fā)展期
繼Pascal架構(gòu)后,面對Google TPU在AI計算層面帶來的壓力,英偉達先后更新了Volta(2017)、Turing(2018)、Ampere(2020)架構(gòu)。AI計算領域的技術代差在Volta架構(gòu)通過引入第一代Tensor Core在訓練場景進行了拉平,隨后Turing架構(gòu)的第二代Tensor Core在推理場景上進行了拉平,直到Ampere時代,NV才算再次鞏固了自己在AI計算領域的龍頭地位。雙方激烈競爭下,GPU迎來高速發(fā)展期。

03
影響GPU性能的關鍵因素
1、微架構(gòu)設計是GPU性能提升的關鍵所在
評估GPU物理性能的參數(shù)主要包括:微架構(gòu)、制程、圖形處理器數(shù)量、流處理器數(shù)量、顯存容量/位寬/帶寬/頻率、核心頻率。其中微架構(gòu)設計是GPU性能提升的關鍵所在。
GPU微架構(gòu)(Micro Architecture)是兼容特定指令集的物理電路構(gòu)成,由流處理器、紋理映射單元、光柵化處理單元、光線追蹤核心、張量核心、緩存等部件共同組成。圖形渲染過程中的圖形函數(shù)主要用于繪制各種圖形及像素、實現(xiàn)光影處理、3D坐標變換等過程,期間涉及大量同類型數(shù)據(jù)(如圖像矩陣)的密集、獨立的數(shù)值計算,而GPU結(jié)構(gòu)中眾多重復的計算單元就是為適應于此類特點的數(shù)據(jù)運算而設計的。
微架構(gòu)的設計對GPU性能的提升發(fā)揮著至關重要的作用,也是GPU研發(fā)過程中最關鍵的技術壁壘。微架構(gòu)設計影響到芯片的最高頻率、一定頻率下的運算能力、一定工藝下的能耗水平,是芯片設計的靈魂所在。英偉達H100相比于A100,1.2倍的性能提升來自于核心數(shù)目的提升,5.2倍的性能提升來自于微架構(gòu)的設計。

2、GPU微架構(gòu)的硬件構(gòu)成
流處理器:是GPU內(nèi)基本運算單元,通常由整點運算部分和浮點運算部分共同組成,稱為SP單元,從編程角度出發(fā),也將其稱為CUDA核心。流處理器是DirectX10后引入的一種統(tǒng)一渲染架構(gòu),綜合了頂點處理和像素處理的渲染任務,流處理器的數(shù)量和顯卡性能密切相關。
紋理映射單元:作為GPU中的獨立部件,能夠旋轉(zhuǎn)、調(diào)整和扭曲位圖圖像(執(zhí)行紋理采樣),將紋理信息填充在給定3D模型上。
光柵化處理單元:依照透視關系,將整個可視空間從三維立體形態(tài)壓到二維平面內(nèi)。流處理器和紋理映射單元分別把渲染好的像素信息和剪裁好的紋理材質(zhì)遞交給處于GPU后端的光柵化處理單元,將二者混合填充為最終畫面輸出,此外游戲中霧化、景深、動態(tài)模糊和抗鋸齒等后處理特效也是由光柵化處理單元完成的。

光線追蹤核心:是一種補充性的渲染技術,主要通過計算光和渲染物體之間的反應得到正確的反射、折射、陰影即全局照明等結(jié)果,渲染出逼真的模擬場景和場景內(nèi)對象的光照情況。通過采樣BVH算法,用來計算射線(光線、聲波)與物體三角形求交,與傳統(tǒng)硬件相比,RTCore可以實現(xiàn)幾何數(shù)量級的BVH計算效率提升,讓實時光線追蹤成為可能。
張量核心:張量核心可以提升GPU的渲染效果同時增強AI計算能力。張量核心通過深度學習超級采樣(DLSS)提高渲染的清晰度、分辨率和游戲幀速率,同時對渲染畫面進行降噪處理以實時清理和校正光線追蹤核心渲染的畫面,提升整體渲染效果。同時張量核心通過低精度混合運算,極大加速了AI運算速度,讓計算機視覺、自然語言處理、語言識別和文字轉(zhuǎn)化、個性化推薦等過去CPU難以實現(xiàn)的功能也得以高速完成。?

04
市場分析
1、GPU市場規(guī)模及預測
根據(jù)Verified Market Research的預測,2020年GPU全球市場規(guī)模為254億美金,預計到2028年將達到2465億美金,行業(yè)保持高速增長,CAGR為32.9%,2023年GPU全球市場規(guī)模預計為595億美元。

2、PC顯卡市場
獨立顯卡市場開始逐漸回暖。根據(jù)Jon Peddie Research的數(shù)據(jù),2022年獨立GPU出貨量下降至3808萬臺,同比下降22.5%,22Q3單季度出貨690萬臺,同比下降45.7%,是十年以來最大的一次下滑,獨立顯卡出貨情況22Q4開始逐漸轉(zhuǎn)暖。
集成顯卡出貨情況仍然不容樂觀。2022年集成GPU出貨量為2.83億臺,同比下滑29.8%。疫情期間的居家辦公需求帶動了筆記本電腦的消費增長,集成顯卡的購買激增一定程度上過早消耗了市場需求,后疫情時代,筆記本電腦端需求減弱疊加供應商的過剩庫存導致集成顯卡出貨不斷走低。
2022年獨立顯卡出貨遭遇巨大下滑的原因有三點:(1)受宏觀經(jīng)濟影響,個人電腦市場處于下行周期;(2)部分獨立GPU參與虛擬貨幣挖礦,以太坊合并對獨立GPU出貨造成巨大沖擊;(3)下游板卡廠商開啟降庫存周期。

(1)原因一:個人電腦市場依舊處于下行周期
個人電腦市場保持疲軟狀態(tài)。根據(jù)IDC數(shù)據(jù),2022年全年PC出貨量為2.92億臺,同比下降15.5%,2022Q4全球PC出貨量僅為6720萬臺,同比下降28.1%。IDC預測2023年個人電腦市場全年出貨2.608億臺,全年同比下降10.7%。按照2023年的整體出貨量情況,對四個季度的出貨情況做了進一步預測,預計2023Q2-2023Q3后個人電腦出貨將迎來逐季度好轉(zhuǎn)。
下游PC廠商庫存情況得到改善。當前個人電腦市場正處在PC廠商去庫存周期,根據(jù)PC廠商的財報披露,華碩和聯(lián)想的庫存天數(shù)已經(jīng)開始減少,其余三家(惠普、戴爾、宏碁)的庫存天數(shù)并未顯著降低,由于所有廠商都在積極采取行動減少產(chǎn)量,預計下游PC廠商庫存情況會進一步改善,2023Q3可能恢復到正常庫存情況。

(2)原因二:顯卡挖礦市場出現(xiàn)轉(zhuǎn)折,以太坊轉(zhuǎn)向權(quán)益證明
以太坊ETH占據(jù)顯卡挖礦主要市場。根據(jù)MESSARI數(shù)據(jù),在采用GPU挖礦的前7名虛擬貨幣中,以太坊ETH挖礦收入占GPU礦工總收入的97%。比特幣、萊特幣等虛擬貨幣多采用功耗更低的ASIC礦機。
2022年9月15日,以太坊運行機制全面升級,從以太坊1.0的工作量證明機制(PoW)轉(zhuǎn)向以太坊2.0的權(quán)益證明機制(PoS),在工作量證明機制中,需要通過累積顯卡提升計算能力,計算能力越強獲得記賬收益的概率越大;在權(quán)益證明機制中,只需通過質(zhì)押虛擬貨幣獲得收益,質(zhì)押的虛擬貨幣數(shù)量越大獲得記賬收益的概率越高。以太坊全面合并后不再需要購入大量顯卡、投入計算資源用于挖礦,是顯卡挖礦市場的重要轉(zhuǎn)折點。

挖礦用顯卡平均哈希率為46Mh/s。根據(jù)HiveOS礦池數(shù)據(jù),通過不同型號顯卡的哈希率和占比情況統(tǒng)計,估算得到衡量顯卡挖礦能力的平均哈希率為46Mh/s。
以太坊合并后顯卡需求降至零。根據(jù)以太坊全網(wǎng)算力,測算得到用于以太坊挖礦的GPU數(shù)量在2022年5月達到巔峰,大概為2573萬張,2022年9月降至2008萬張,在以太坊合并之后,顯卡需求降至零。
如果按照20%回收比例測算,約500萬張存量顯卡將流入二手市場,預計帶來的不利影響在2022Q4-2023Q1之間結(jié)束。

(3)原因三:GPU廠商庫存迎來好轉(zhuǎn),高端顯卡價格企穩(wěn)回升
GPU廠商庫存情況即將迎來好轉(zhuǎn)。根據(jù)Bloomberg數(shù)據(jù),GPU下游四家臺灣板卡廠商(華碩、技嘉、微星、華擎)自2022年一季度原材料庫存達到歷史高位以后,連續(xù)兩個季度庫存環(huán)比降低,當前原材料庫存相比最高峰下降28%。復盤歷史可見,GPU廠商成本庫存高峰多于臺灣板卡廠商原材料庫存2-3季度后到來,預計GPU廠商的成品庫存將于2022Q4到達頂峰。
高端顯卡價格開始企穩(wěn)回升。根據(jù)Amazon上的顯卡價格跟蹤,英偉達和AMD的高端顯卡在2022年10月以后均實現(xiàn)了不同程度的價格回升,例如RTX3080價格上漲30%,RTX3090價格上漲28%,顯卡價格的回升意味著渠道商庫存正逐步回歸到正常水平,高端顯卡受挖礦市場沖擊更為劇烈,高端顯卡價格上漲從側(cè)面也能觀察到挖礦市場帶來的不利影響正在逐漸消失。
3、GPU在數(shù)據(jù)中心的應用蘊藏巨大潛力
在數(shù)據(jù)中心,GPU被廣泛應用于人工智能的訓練、推理、高性能計算(HPC)等領域。
預訓練大模型帶來的算力需求驅(qū)動人工智能服務器市場快速增長。巨量化是人工智能近年來發(fā)展的重要趨勢,巨量化的核心特點是模型參數(shù)多,訓練數(shù)據(jù)量大。Transformer模型的提出開啟了預訓練大模型的時代,大模型的算力需求提升速度顯著高于其他AI模型,為人工智能服務器的市場增長注入了強勁的驅(qū)動力。根據(jù)Omdia數(shù)據(jù),人工智能服務器是服務器行業(yè)中增速最快的細分市場,CAGR為49%。
戰(zhàn)略需求推動GPU在高性能計算領域穩(wěn)定增長。高性能計算(HPC)提供了強大的超高浮點計算能力,可滿足計算密集型、海量數(shù)據(jù)處理等業(yè)務的計算需求,如科學研究、氣象預報、計算模擬、軍事研究、生物制藥、基因測序等,極大縮短了海量計算所用的時間,高性能計算已成為促進科技創(chuàng)新和經(jīng)濟發(fā)展的重要手段。
(1)大模型帶來人工智能算力的旺盛需求
自然語言大模型參數(shù)巨量化是行業(yè)發(fā)展趨勢所向。以ChatGPT為代表的人工智能模型表現(xiàn)出高度的智能化和擬人化,背后的因素在于自然語言大模型表現(xiàn)出來的涌現(xiàn)能力和泛化能力,模型參數(shù)到達千億量級后,可能呈現(xiàn)性能的跨越式提升,稱之為涌現(xiàn)能力;在零樣本或者少樣品學習情景下,模型仍表現(xiàn)較強的遷移學習能力,稱之為泛化能力。兩種能力都與模型參數(shù)量密切相關,人工智能模型參數(shù)巨量化是重要的行業(yè)發(fā)展趨勢。
預訓練大模型進入千億參數(shù)時代,模型訓練算力需求邁上新臺階。自GPT-3模型之后,大規(guī)模的自然語言模型進入了千億參數(shù)時代,2021年之后涌現(xiàn)出諸多千億規(guī)模的自然語言模型,模型的訓練算力顯著增加。ChatGPT模型參數(shù)量為1750億,訓練算力需求為3.14*1023flops,當前各種預訓練語言模型還在快速的更新迭代,不斷刷新自然語言處理任務的表現(xiàn)記錄,單一模型的訓練算力需求也不斷突破新高。
(2)大模型帶來AI芯片需求的顯著拉動
大模型的算力需求主要來自于三個環(huán)節(jié):
預訓練得到大模型的訓練環(huán)節(jié)。該環(huán)節(jié)中,算力呈現(xiàn)海量需求且集中訓練的特點,大模型通常在數(shù)天到數(shù)周內(nèi)在云端完成訓練。模型的訓練算力與模型參數(shù)量、訓練數(shù)據(jù)量有關,以ChatGPT的訓練為例,單次模型訓練需要2000張英偉達A100顯卡不間斷訓練27天。
適應下游領域時進一步fine-tune環(huán)節(jié)。算力需求取決于模型的泛化能力以及下游任務的難度情況。
大模型日常運行時的推理環(huán)節(jié)。大模型的日常運行中每一次用戶調(diào)用都需要一定的算力和帶寬作為支撐,單次推理的計算量為2N(N為模型參數(shù)量),例如1750億參數(shù)的ChatGPT模型1ktokens的推理運算量為2*1750*108*103=3.5*1014 flops=350 Tflops。近期ChatGPT官網(wǎng)吸引的每日訪客數(shù)量接近5000萬,每小時平均訪問人數(shù)約210萬人,若高峰時期同時在線人數(shù)450萬人,一小時內(nèi)每人問8個問題,每個問題回答200字,測算需要14000塊英偉達A100芯片做日常的算力支撐。大模型在融入搜索引擎或以app形式提供其他商業(yè)化服務過程中,其AI芯片需求將得到進一步的顯著拉動。
4、AI服務器是GPU市場規(guī)模增長的重要支撐
根據(jù)Omdia數(shù)據(jù),2019年全球人工智能服務器市場規(guī)模為23億美金,2026年將達到376億美金,CAGR為49%。根據(jù)IDC數(shù)據(jù),2020年中國數(shù)據(jù)中心用于AI推理的芯片的市場份額已經(jīng)超過50%,預計到2025年,用于AI推理的工作負載的芯片將達到60.8%。
人工智能服務器通常選用CPU與加速芯片組合來滿足高算力要求,常用的加速芯片有GPU、現(xiàn)場可編程門陣列(FPGA)、專用集成電路(ASIC)、神經(jīng)擬態(tài)芯片(NPU)等。GPU憑借其強大的并行運算能力、深度學習能力、極強的通用性和成熟的軟件生態(tài),成為數(shù)據(jù)中心加速的首選,90%左右的AI服務器采用GPU作為加速芯片。
受云廠商資本開支影響AI服務器市場或?qū)⒍唐谠鏊俜啪彙?/strong>
北美云廠商資本開支有所放緩。人工智能服務器多采取公有云、私有云加本地部署的混合架構(gòu),以北美四家云廠商資本開支情況來跟蹤人工智能服務器市場需求變動,2022年四家云廠商資本開支合計1511億美元,同比增長18.5%。Meta預計2023年資本開支的指引為300-330億美元之前,與2022年基本持平,低于此前22Q3預計的340億到390億美元;谷歌預計2023年資本開支將于2022年基本持平,但是會加大AI及云服務的建設投資。
信驊科技短期營收下滑有所緩解。作為全球最大的BMC芯片企業(yè),信驊科技(Aspeed)的營收變化情況一般領先云廠商資本開支一個季度,其月度營收數(shù)據(jù)可以作為云廠商資本開支的前瞻指標,信驊科技近期營收下滑有所緩解。
5、GPU在超算服務器中的市場規(guī)模保持穩(wěn)定增長
GPGPU在高性能計算領域滲透率不斷提升。在高性能計算領域,CPU+GPU異構(gòu)協(xié)同計算架構(gòu)得到越來越多的應用,全球算力前500的超級計算機中,有170套系統(tǒng)采用了異構(gòu)協(xié)同計算架構(gòu),其中超過90%以上的加速芯片選擇了英偉達的GPGPU芯片。
GPU在超算服務器中的市場規(guī)模保持穩(wěn)定增長。根據(jù)Hyperion Research數(shù)據(jù),全球超算服務器的市場規(guī)模將從2020年的135億美金上升到2025年的199億美金,按照GPU在超算服務器中成本占比為27.3%核算,GPU在超算服務器中的市場規(guī)模將從2020年的37億上升至2025年的54億美金,CAGR為8%。
6、自動駕駛領域GPU市場保持高成長性
在自動駕駛領域,各類自動駕駛芯片得到廣泛的應用。根據(jù)Yole數(shù)據(jù),全球自動駕駛市場2025年將達到780億美金,其中用于自動駕駛的AI芯片超過100億美元。
自動駕駛GPU市場保持較高高成長性。根據(jù)ICVTank的自動駕駛滲透數(shù)據(jù),假設GPU在L2中滲透率15%,在L3-L5中滲透率50%,估算得到GPU在自動駕駛領域的市場規(guī)模,整體規(guī)模將從2020年的7.1億美元上升至2025年的44億美金,CAGR為44%。
05
產(chǎn)業(yè)鏈及競爭格局分析
1、GPU產(chǎn)業(yè)鏈
GPU行業(yè)的產(chǎn)業(yè)鏈主要涉及三個環(huán)節(jié):設計、制造、封裝。供給模式有IDM、Fab+Fabless和Foundry三種。IDM模式:指將GPU產(chǎn)業(yè)鏈的三個環(huán)節(jié)整體化,充分結(jié)合自主研發(fā)和外部代工,集設計、制造、封裝為一體,公司垂直整合GPU整體產(chǎn)業(yè)鏈。Fab+Fabless:充分發(fā)揮各企業(yè)比較優(yōu)勢,僅負責芯片電路設計,將產(chǎn)業(yè)鏈其他環(huán)節(jié)外包,分散了GPU研發(fā)和生產(chǎn)的風險。Foundry:公司僅負責芯片制造環(huán)節(jié),不負責上游設計和下游封裝,可以同時為多家上游企業(yè)服務。
2、競爭格局
全球GPU市場中,基本被Nvidia、Intel和AMD三家壟斷。據(jù)JPR統(tǒng)計,全球PC GPU在2022年Q2出貨量達到8400萬臺,同比下降34%,預計2022-2026年GPU復合增長率為3.8%。從市場格局來看,Nvidia、Intel和AMD三家在2022年Q2市場占有率分別為18%、62%和20%,Intel憑借其集成顯卡在桌面端的優(yōu)勢占據(jù)最大的市場份額。
獨顯市場中,Nvidia占據(jù)領先地位。不同于整體市場,在獨顯市場中,Nvidia與AMD雙雄壟斷市場,其2022年Q2市占率分別約為80%和20%,可以看到近年來Nvidia不斷鞏固自己的優(yōu)勢,其獨立顯卡市占率整體呈現(xiàn)上升趨勢。
國內(nèi)市場來看,國產(chǎn)GPU賽道持續(xù)景氣。近年來,國產(chǎn)GPU公司如雨后春筍般涌現(xiàn),璧韌科技、摩爾線程、芯動科技、天數(shù)智能等公司紛紛發(fā)布新品。但是IP授權(quán)來看,國內(nèi)主要的GPU創(chuàng)業(yè)公司,如芯動、摩爾線程、壁仞等采用的是Imagination IP或芯原授權(quán)的IP。但是IP授權(quán)來看,國內(nèi)主要的GPU創(chuàng)業(yè)公司,如芯動、摩爾線程、壁仞等采用的是Imagination IP或芯原授權(quán)的IP。芯動科技發(fā)布的首款高性能4K級顯卡GPU芯片“風華1號”,使用了Imagination的IMG B系列GPU IP,是Imagination IP在中國市場的首個高端GPU應用。據(jù)報道,摩爾線程芯片設計的關鍵部分也來自Imagination Technologies。
Imagination是一家總部位于英國,致力于打造半導體和軟件知識產(chǎn)權(quán)(IP)的公司。公司的圖形、計算、視覺和人工智能以及連接技術可以實現(xiàn)出眾的PPA(功耗、性能和面積)指標、強大的安全性、快速的上市時間和更低的總體擁有成本(TCO)。2017年9月,私募投資公司Canyon Bridge以5.5億英鎊收購Imagination,Canyon Bridge其背后投資方為中國國新。
3、美國對華禁令如何應對
根據(jù)路透社報道,2022年8月31日,美國政府要求英偉達的A100、H100系列和AMD的MI250系列及未來的高端GPU產(chǎn)品,是否可以售賣給中國客戶,需要獲得美國政府的許可。這幾款芯片均為用于通用計算的高端GPGPU,通常應用在人工智能計算的云端訓練和推理場景和超級計算機中,在中國的客戶多為云計算廠商及高校和科研院所。
為應對封鎖,短期來看可以選擇英偉達和AMD的還沒有被禁止的中低性能GPU芯片。對于云端計算,算力既可以通過產(chǎn)品升級得以提升,也可以通過增加計算卡的數(shù)量進行提升,因此短期內(nèi)可以通過使用多個算力較低的CPU、GPU和ASIC芯片來復制高端GPU芯片的處理能力,基本可以滿足云端訓練和高性能計算的要求。長期來看,選擇國產(chǎn)GPU進行替代。雖然芯片是算力的主要來源和最根本的物質(zhì)基礎,但是算力的生產(chǎn)、聚合、調(diào)度和釋放是一個完整過程,需要復雜系統(tǒng)的軟硬件生態(tài)共同配合,才能實現(xiàn)“有效算力”。因此短期內(nèi)可能會因為無法兼容在人工智能領域廣泛使用的CUDA架構(gòu)而遭遇替換困難,但是長期來看,國產(chǎn)CPU、通用GPU、AI芯片將獲得前所未有的發(fā)展機會,通過軟硬件技術提升,逐步實現(xiàn)高端GPU領域的國產(chǎn)化替代。
06
相關公司
1、國外公司
(1)英偉達
英偉達是一家專注于GPU半導體設計的企業(yè)。公司成立于1993年,1999年英偉達推出GeForce256芯片,并首次定義了GPU的概念;隨后創(chuàng)新性的提出CUDA架構(gòu),讓此前只做3D渲染的GPU實現(xiàn)通用計算功能;進入2010年代后,英偉達在AI行業(yè)發(fā)展初期市場皆不看好的情況下,前瞻性預見了GPU在AI市場的應用并全力以赴開展相關布局;當前,公司以數(shù)據(jù)中心、游戲、汽車、專業(yè)視覺四大類芯片為收入基礎,完成了硬件、系統(tǒng)軟件、軟件平臺、應用框架全棧生態(tài)的建設。
追溯公司歷史,英偉達以技術創(chuàng)新為基,持續(xù)推動GPU行業(yè)的發(fā)展,可以稱得上是GPU時代奠基人。英偉達公司發(fā)展史可簡單劃分為四個階段:
(1)蓄力階段:1993年黃仁勛聯(lián)合Sun Microsystem公司兩位年輕工程師共同創(chuàng)立英偉達,早期致力于圖形芯片的研發(fā)。1997年公司推出RIVA128,這是公司第一款真正意義上取得成功的產(chǎn)品。
(2)崛起階段:1999年公司推出GeForce256并定義GPU芯片,此英偉達走上了重塑顯卡行業(yè)的道路。
(3)制霸階段:2006年英偉達創(chuàng)新性推出CUDA架構(gòu)。CUDA是英偉達基于自有GPU的一個并行計算平臺和編程模型。CUDA帶來兩方面巨大影響,于GPU行業(yè)而言,CUDA使得只做3D渲染的GPU得以實現(xiàn)通用計算功能,而對于英偉達公司本身來說,其在早期大力推廣CUDA,并對CUDA進行了編程語言擴展,使得開發(fā)人員能夠輕易地對GPU進行編程,目前CUDA是最主流的兩個GPU編程庫之一,奠定了英偉達GPU生態(tài)得以成型的基礎。
(4)騰飛階段:押注AI,數(shù)據(jù)中心業(yè)務開啟第二成長曲線。2012年Alex Krizhevsky利用GPU進行深度學習,通過幾天訓練在ImageNet競賽中獲得冠軍,其將深度卷積神經(jīng)網(wǎng)絡AlexNet的準確率提高了10.8%,震撼了學術界,從此開啟GPU應用于深度學習的大門,其使用的正是NVIDIA GTX 580GPU芯片和CUDA計算模型。此后,英偉達GPU和CUDA模型成為深度學習(尤其是訓練環(huán)節(jié))的首選芯片,而英偉達也順勢推出海量專用于AI的芯片及配套產(chǎn)品,從顯卡硬件公司華麗轉(zhuǎn)型成為人工智能公司。

英偉達平均每兩年推出一代芯片架構(gòu)、每半年推出一款新的產(chǎn)品,多年以來堅持不輟。從2009年的Fermi架構(gòu)到當前的Hopper架構(gòu),公司產(chǎn)品性能穩(wěn)步提升,并始終引領GPU芯片技術發(fā)展。

目前,英偉達GPU芯片已形成覆蓋數(shù)據(jù)中心、游戲、專業(yè)視覺和汽車業(yè)務幾大場景的芯片產(chǎn)品陣列,其中消費級GPU和數(shù)據(jù)中心GPU是最核心場景。NVIDIA數(shù)據(jù)中心業(yè)務自2017年開始快速擴張,先后發(fā)布V100、A100等高性能通用計算顯卡,為全球提供頂尖的AI算力。最新產(chǎn)品代際下NVIDIA已經(jīng)在2022年9月20日推出GeForce 40系列首款產(chǎn)品。

(2)AMD
美國超威半導體公司(AMD)創(chuàng)立于1969年,專門為計算機、通信和消費電子行業(yè)提供各類微處理器以及提供閃存和低功率處理器方案,公司是全球領先的CPU、GPU、APU和FPGA設計廠商,掌握中央處理器、圖形處理器、閃存、芯片組以及其他半導體技術,具體業(yè)務包括數(shù)據(jù)中心、客戶端、游戲、嵌入式四大部分。公司采用Fabless研發(fā)模式,聚焦于芯片設計環(huán)節(jié),制造和封測環(huán)節(jié)則委托給全球?qū)I(yè)的代工廠處理。目前全球CPU市場呈Intel和AMD寡頭壟斷格局,Intel占主導地位。在獨立GPU市場中,主要是英偉達(NVIDIA)、AMD進行角逐,Intel目前憑借其銳炬Xe MAX產(chǎn)品也逐步進入獨立GPU市場。

公司營收主要包括四部分。數(shù)據(jù)中心業(yè)務主要包括用于數(shù)據(jù)中心服務器的各類芯片產(chǎn)品;客戶端業(yè)務主要包括用于PC的各類處理器芯片;游戲業(yè)務主要包括獨立GPU及其他游戲產(chǎn)品開發(fā)服務;嵌入式業(yè)務主要包括適用于邊緣計算的各類嵌入式計算芯片。

AMD可以提供集成GPU和獨立GPU兩類PC GPU。集成GPU主要被運用在臺式機和筆記本的APU產(chǎn)品、嵌入式等產(chǎn)品中,主要用于游戲、移動設備、服務器等應用。APU帶有集成的板載GPU,CPU和GPU的高度融合在一起協(xié)同計算、彼此加速,相比于獨立GPU更具性價比優(yōu)勢。
獨立GPU為Radeon系列。AMD的Radeon系列獨立GPU按推出時間先后順序可以分為RX500系列、Radeon7、RX5000系列、RX6000系列、RX7000系列。Radeon系列顯卡具備一定的性價比優(yōu)勢,市場份額有進一步上升的空間。
RDNA3架構(gòu)采用5nm工藝和chiplet設計,比RDNA2架構(gòu)有54%每瓦性能提升,包括2.7倍AI吞吐量、1.8倍第二代光線追蹤技術,5.3TB/s的峰值帶寬、4K480Hz和8K165HZ的刷新率等。AMD預計2024年推出RDNA4架構(gòu),將采用更為先進的工藝制造。

2018年,AMD推出用于數(shù)據(jù)中心的Radeon Instinct GPU加速芯片,Instinct系列基于CDNA架構(gòu)。在通用計算領域,最新的CDNA2架構(gòu)相比CDNA1架構(gòu),實現(xiàn)計算能力和互聯(lián)能力的顯著提升,MI250X采用CDNA2架構(gòu)。在向量計算方面,CDNA2對向量流水線進行了優(yōu)化,F(xiàn)P64的工作頻率與FP32相同,具備同樣的向量計算能力。在矩陣計算方面,CDNA2引入了新的矩陣乘指令級,特別適用于FP64精度,此外MattrixCore還支持FP32、FP16(BF16)和INT8的計算精度。在互聯(lián)方面,通過AMD infinityfabric接口實現(xiàn)加速器之間的P2P或者I/O通信,提供800GB/s的總理論帶寬,相比上一代提升了235%。

AMD ROCm是2015年AMD公司為了對標CUDA生態(tài)而開發(fā)的一套用于HPC和超大規(guī)模GPU計算提供的開源軟件開發(fā)平臺。ROCm之于AMD GPU相當于CUDA之于英偉達GPU。
AMD ROCm是一個開放式軟件平臺,為追求高靈活性和高性能而構(gòu)建,針對加速式計算且不限定編程語言,讓機器學習和高性能計算社區(qū)的參與者能夠借助各種開源計算語言、編譯器、庫和重新設計的工具來加快代碼開發(fā),適合大規(guī)模計算和支持多GPU計算,其創(chuàng)立目標是建立可替代CUDA的生態(tài)。

2、國內(nèi)公司
(1)海光信息
海光信息成立于2014年,主營業(yè)務是研發(fā)、設計和銷售應用于服務器、工作站等計算、存儲設備中的高端處理器。產(chǎn)品包括海光通用處理器(CPU)和海光協(xié)處理器(DCU),目前已經(jīng)研發(fā)出多款新能達到國際同類主流產(chǎn)品的高端CPU和DCU產(chǎn)品。2018年10月,公司啟動深算一號DCU產(chǎn)品設計,目前海光DCU系列深算一號已經(jīng)實現(xiàn)商業(yè)化應用,2020年1月,公司啟動了第二代DCU深算二號的產(chǎn)品研發(fā)工作。
海光DCU屬于GPGPU的一種,海光DCU的構(gòu)成與CPU類似,其結(jié)構(gòu)邏輯相CPU簡單,但計算單元數(shù)量較多。海光DCU的主要功能模塊包括計算單元(CU)、片上網(wǎng)絡、高速緩存、各類接口控制器等。深度計算處理器(Deep-learning Computing Unit,DCU)是公司基于通用的GPGPU架構(gòu),設計、發(fā)布的適合計算密集型和運算加速領域的一類協(xié)處理器,定義為深度計算處理器DCU。兼容通用的“類CUDA”環(huán)境以及國際主流商業(yè)計算軟件和人工智能軟件,軟硬件生態(tài)豐富,可廣泛應用于大數(shù)據(jù)處理、人工智能、商業(yè)計算等應用領域。海光8100采用先進的FinFET工藝,典型應用場景下性能指標可以達到國際同類型高端產(chǎn)品的同期水平,在國內(nèi)處于領先地位。2021年下半年DCU正式實現(xiàn)商業(yè)化應用。

海光信息DCU協(xié)處理器全面兼容ROCm GPU計算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價快速遷移至ROCm平臺,因此ROCm也被稱為“類CUDA”。因此,海光DCU協(xié)處理器能夠較好地適配、適應國際主流商業(yè)計算軟件和人工智能軟件,軟硬件生態(tài)豐富,可廣泛應用于大數(shù)據(jù)處理、人工智能、商業(yè)計算等計算密集類應用領域,主要部署在服務器集群或數(shù)據(jù)中心,為應用程序提供高性能、高能效比的算力,支撐高復雜度和高吞吐量的數(shù)據(jù)處理任務。
(2)景嘉微
長沙景嘉微電子股份有限公司成立于2006年,2015年推出首款國產(chǎn)GPU,是國內(nèi)首家成功研制具有完全自主知識產(chǎn)權(quán)的GPU芯片并實現(xiàn)工程應用的企業(yè),2016年在深交創(chuàng)業(yè)板成功上市。公司業(yè)務布局圖形顯示、圖形處理芯片和小型專用化雷達領域,產(chǎn)品涵蓋集成電路設計、圖形圖像處理、計算與存儲產(chǎn)品、小型雷達系統(tǒng)等方向。
公司GPU研發(fā)歷史悠久,技術積淀深厚。公司成立之初承接神舟八號圖形加速任務,為圖形處理器設計打下堅實基礎;公司2007年自主研發(fā)成功VxWorks嵌入式操作系統(tǒng)下M9芯片驅(qū)動程序,并解決了該系統(tǒng)下的3D圖形處理難題和漢字顯示瓶頸,具備了從底層上駕馭圖形顯控產(chǎn)品的能力。2015年具有完全自主知識產(chǎn)權(quán)的GPU芯片JM5400問世,具備高性能、低功耗的特點;此后公司不斷縮短研發(fā)周期,JM7200在設計和性能上有較大進步,由專用市場走向通用市場;JM9系列定位中高端市場,是一款能滿足高端顯示和計算需求的的通用型芯片。

JM7200采用28nm CMOS工藝,內(nèi)核時鐘頻率最大1300MHz,存儲器內(nèi)存為4GB,支持OpenGL1.5/2.0,能夠高效完成2D、3D圖形加速功能,支持PCIe2.0主機接口,適配國產(chǎn)CPU和國產(chǎn)操作系統(tǒng)平臺,可應用于個人辦公電腦顯示系統(tǒng)以及高可靠性嵌入式顯示系統(tǒng)。JM9系列面向中高端通用市場,可以滿足地理信息系統(tǒng)、媒體處理、CAD輔助設計、游戲、虛擬化等高性能顯示需求和人工智能計算需求。2022年5月,JM9系列第二款芯片已完成初步測試工作。
(3)壁仞科技
公司主營業(yè)務為高端通用智能計算芯片。壁仞科技創(chuàng)立于2019年,公司致力于開發(fā)原創(chuàng)性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領域提供一體化的解決方案。從發(fā)展路徑上,公司將首先聚焦云端通用智能計算,逐步在人工智能訓練和推理、圖形渲染等多個領域趕超現(xiàn)有解決方案,實現(xiàn)國產(chǎn)高端通用智能計算芯片的突破。2022年3月,公司首款通用GPU芯片BR100成功點亮,后于2022年8月正式發(fā)布,創(chuàng)下全球算力的新紀錄。
公司的產(chǎn)品體系主要涵蓋BR100系列通用GPU芯片、BIRENSUPA軟件開發(fā)平臺以及開發(fā)者云三大板塊。其中,BR100系列通用GPU芯片是公司的核心產(chǎn)品,目前主要包括BR100、BR104兩款芯片。BR100系列針對人工智能(AI)訓練、推理,及科學計算等更廣泛的通用計算場景開發(fā),主要部署在大型數(shù)據(jù)中心,依托“壁立仞”原創(chuàng)架構(gòu),可提供高能效、高通用性的加速計算算力。

BR100系列在性能、安全等方面具備多項核心優(yōu)勢。公司致力于打造性能先進、競爭力強的GPU芯片,并為此采取了大量技術措施,具體包括:支持7nm制程,并創(chuàng)新性應用Chiplet與2.5D CoWoS封裝技術,兼顧高良率與高性能;支持PCIe 5.0接口技術與CXL通信協(xié)議,雙向帶寬最高達128GB/s等。2022年公司正式推出壁礪?100,其峰值算力達到國際廠商在售旗艦的3倍以上,超越了國際廠商同類的在售旗艦產(chǎn)品,競爭優(yōu)勢十分顯著。同時,在安全方面,BR100系列最高支持8個獨立實例,每個實例物理隔離并配備獨立的硬件資源,可獨立運行。
(4)摩爾線程
摩爾線程是一家以GPU芯片設計為主的集成電路高科技公司。公司誕生于2020年10月,專注于研發(fā)設計全功能GPU芯片及相關產(chǎn)品,支持3D高速圖形渲染、AI訓練推理加速、超高清視頻編解碼和高性能科學計算等多種組合工作負載,兼顧算力與算效,為中國科技生態(tài)合作伙伴提供強大的計算加速能力。在“元計算”賦能下一代互聯(lián)網(wǎng)的愿景下,公司將持續(xù)創(chuàng)新面向元計算應用的新一代GPU,構(gòu)建融合視覺計算、3D圖形計算、科學計算及AI計算的綜合計算平臺,建立基于云原生GPU計算的生態(tài)系統(tǒng),助力驅(qū)動數(shù)字經(jīng)濟發(fā)展。
公司的產(chǎn)品體系主要包括:MTTS60、MTTS2000、MTTS100等硬件產(chǎn)品;MTSmart Media Engine、MT GPU Management Center、MT DirectStream、MT OCR等軟件產(chǎn)品;以及MUSA統(tǒng)一系統(tǒng)架構(gòu)、DIGITALME數(shù)字人解決方案、元計算應用解決方案等其他產(chǎn)品。

MTTS60顯卡由基于MUSA架構(gòu)的GPU蘇堤核心晶片制成,采用12nm制程,包含2048個MUSA核心,單精度算力最高可達6TFlops,配置8GB顯存,基于MUSA軟件運行庫和驅(qū)動程序等軟件工具。在先進硬件規(guī)格的支撐下,MTTS60顯卡能夠在不同應用場景中展現(xiàn)多重優(yōu)勢:豐富圖形API、4K/8K超高清顯示、領先的硬件視頻編解碼能力、通用AI功能支持等。
MTTS2000采用12nm制程,使用4096個MUSA核心,最大配置32GB顯存,單精度算力最高可達到12TFlops,支持H.264、H.265、AV1多路高清視頻編解碼,以及廣泛的AI模型算法加速。同時,MTTS2000還采用了被動散熱、單槽設計,以滿足數(shù)據(jù)中心高密度GPU配置方式。目前,MTTS2000已經(jīng)能夠兼容X86、ARM等CPU架構(gòu)以及主流Linux操作系統(tǒng)發(fā)行版,并與浪潮、新華三、聯(lián)想、清華同方等多家服務器合作伙伴建立了合作關系,產(chǎn)品生態(tài)持續(xù)完善。作為公司面向數(shù)據(jù)中心領域的GPU芯片,除了生態(tài)外,MTTS2000還具備全功能GPU、豐富的圖形API支持、綠色計算等優(yōu)勢?;诙嗑S算力、生態(tài)完善等優(yōu)勢,MTTS2000有望助力公司賦能PC云桌面、安卓云游戲、音視頻云處理、云端Unreal/Unity應用渲染和AI推理計算等多類應用場景。
07
未來展望
1、未來部分廠商有望迎來爆發(fā)式增長
GPU作為數(shù)據(jù)計算核心底座,戰(zhàn)略地位高,國家高度重視,中美科技摩擦背景下,自主可控勢在必行。從成長性維度看,全球市場空間廣闊,國內(nèi)市場規(guī)模也達到百億量級,同時伴隨下游需求提升而加速提升。在數(shù)字化驅(qū)動總需求提升背景下,疊加國產(chǎn)化趨勢,國產(chǎn)GPU產(chǎn)業(yè)迎來總量和份額雙提升機遇,國產(chǎn)GPU廠商發(fā)展提速。大市場需求下,GPU國產(chǎn)化空間廣闊,優(yōu)秀廠商稀缺性凸顯,加速成長,部分廠商有望爆發(fā)式增長。
2、中國GPU市場將快速增長,有望為相應細分領域帶來更快的成長
龐大的需求+逐漸成熟的產(chǎn)業(yè)預示著廣闊的發(fā)展空間。在人工智能、云游戲、自動駕駛等新場景和需求爆發(fā)式增長的背景下,能夠判斷中國GPU市場將快速增長,相比于PC市場,新增市場空間或更大。相比于PC等傳統(tǒng)IT應用場景,中國在人工智能、自動駕駛領域與強國處于同一競爭水平,且中國龐大市場有望為相應細分領域帶來更快的成長。
08
參考研報
1.中信建投-GPU行業(yè)深度研究:AI大模型浪潮風起,GPU芯片再立潮頭
2.長江證券-軟件與服務行業(yè)信創(chuàng)系列深度之GPU:破曉而生,踏浪前行
3.安信證券-半導體行業(yè)AI算力產(chǎn)業(yè)鏈梳理~技術迭代推動瓶頸突破,AIGC場景增多驅(qū)動算力需求提升
4.華創(chuàng)證券-景嘉微-300474-深度研究報告:國產(chǎn)GPU龍頭,民用開啟第二成長曲線
5.中信證券-計算機行業(yè)“構(gòu)筑中國科技基石”系列報告25:GPU,研究框架(100頁)