軟件與服務(wù)行業(yè)報(bào)告:深度解析訓(xùn)練及推理AI芯片需求及壁壘
報(bào)告出品方:長(zhǎng)江證券
以下為報(bào)告原文節(jié)選
------
天下有變,AI 芯片應(yīng)運(yùn)而生
ChatGPT 驚艷問(wèn)世,引發(fā)全球關(guān)注,AI 大模式時(shí)代來(lái)臨。2022 年 11 月 30 日,OpenAI發(fā)布聊天機(jī)器人程序 ChatGPT(Chat Generative Pre-trained Transformer)。該程序一經(jīng)上線,用戶(hù)數(shù)量 5 天突破 100 萬(wàn)人,月活數(shù)量 2 個(gè)月內(nèi)突破 1 億,成為史上用戶(hù)增長(zhǎng)速度最快的消費(fèi)級(jí)應(yīng)用程序,引發(fā)市場(chǎng)對(duì)人工智能的強(qiáng)烈關(guān)注。人工智能的發(fā)展有三大要素:算法、算力和數(shù)據(jù)。在由 ChatGPT 引發(fā)的本輪人工智能浪潮中,AI 對(duì)于算力的要求不斷快速提升。
中央處理器(Central Processing Unit,簡(jiǎn)稱(chēng) CPU)作為傳統(tǒng)的計(jì)算機(jī)信息處理、程序運(yùn)行的最終執(zhí)行單元,可以處理 AI 相關(guān)任務(wù),但由于其內(nèi)部存在大量與 AI 無(wú)關(guān)的運(yùn)行邏輯,處理 AI 任務(wù)的效率無(wú)法最大化。因而,具有海量并行計(jì)算能力的 AI 芯片,或者叫 AI 加速器,便應(yīng)運(yùn)而生,專(zhuān)門(mén)用于加速 AI 應(yīng)用中的需要大量計(jì)算的任務(wù)。
場(chǎng)景有別,需求不同
大模型的算力需求主要來(lái)自于兩個(gè)環(huán)節(jié):訓(xùn)練(training)和推理(inference)。推理是指通過(guò)大數(shù)據(jù)訓(xùn)練出一個(gè)復(fù)雜的大模型,通過(guò)大量數(shù)據(jù)的訓(xùn)練確定網(wǎng)絡(luò)中權(quán)重和偏置的值,使其能夠適應(yīng)特定的功能。推理是指利用訓(xùn)練好的大模型,使用新數(shù)據(jù)推理出各種結(jié)論。兩者對(duì) AI 芯片需求不同,因而可以根據(jù)用途,將 AI 芯片分為訓(xùn)練芯片和推理芯片。
? 訓(xùn)練芯片:用于通過(guò)大數(shù)據(jù)訓(xùn)練構(gòu)建模型,需要極高的計(jì)算性能、較高的計(jì)算精度,并可以同時(shí)處理海量的數(shù)據(jù),且具有一定的通用性,可處理不同的任務(wù)。
? 推理芯片:用于借助現(xiàn)有模型進(jìn)行推算得到正確結(jié)論,對(duì)計(jì)算性能要求相對(duì)較低,更注重綜合性能,如單位能耗算力、時(shí)延、成本等。
同時(shí),AI 芯片又可以部署在云端、邊緣端或者終端,根據(jù)部署的位置,又可以分為:云AI 芯片、邊緣 AI 芯片和端 AI 芯片:
? 云端:在計(jì)算機(jī)領(lǐng)域中一般指集中在大規(guī)模數(shù)據(jù)中心進(jìn)行遠(yuǎn)程處理。該處理方案稱(chēng)為云端處理,處理場(chǎng)所為云端。
? 邊緣端:在靠近數(shù)據(jù)源頭的一側(cè),通過(guò)網(wǎng)關(guān)進(jìn)行數(shù)據(jù)匯集,并通過(guò)計(jì)算機(jī)系統(tǒng)就近提供服務(wù),由于不需要傳輸?shù)皆贫?,其可以滿足行業(yè)在實(shí)時(shí)業(yè)務(wù)、智能應(yīng)用、隱私保護(hù)等方面的基本需求;其位置往往介于終端和云端之間。
? 終端:相對(duì)于云端,一般指?jìng)€(gè)人可直接接觸或使用、不需要遠(yuǎn)程訪問(wèn)的設(shè)備,或者直接和數(shù)據(jù)或傳感器一體的設(shè)備,如手機(jī)、智能音箱、智能手表等。
由于大模型預(yù)訓(xùn)練階段需處理龐大的數(shù)據(jù)量和巨大的算力,單一芯片無(wú)法滿足訓(xùn)練需求,需在云端采用大規(guī)模集群進(jìn)行訓(xùn)練,所以訓(xùn)練需求由云端訓(xùn)練 AI 芯片完成。與此同時(shí),大模型的推理也需要大量的算力,而隨著大模型提供越來(lái)越多的服務(wù)(如圖像識(shí)別、在線問(wèn)答、語(yǔ)音識(shí)別等)以及越來(lái)越多的用戶(hù)接入,云端推理服務(wù)對(duì) AI 芯片的需求也再不斷提升。此外,相較于科研、重型產(chǎn)業(yè)能夠通過(guò)大模型、高密度人工智能計(jì)算滿足需求的場(chǎng)景,便捷、低時(shí)延的人工智能應(yīng)用場(chǎng)景愈發(fā)普遍,如自動(dòng)駕駛、智慧安防、移動(dòng)互聯(lián)網(wǎng)等,而邊緣側(cè)及終端推理芯片可以獨(dú)立完成數(shù)據(jù)收集、環(huán)節(jié)感知、人機(jī)交互及部分推理決策控制任務(wù),進(jìn)而滿足了該類(lèi)場(chǎng)景需求。
核心指標(biāo),追蹤需求
作為本輪技術(shù)革新的iPhone時(shí)刻,ChatGPT的發(fā)布標(biāo)志著新一輪AI技術(shù)革新的開(kāi)始,伴隨而來(lái)的是新一輪下游需求的爆發(fā),尤其是算力需求。中國(guó)新一代人工智能發(fā)展戰(zhàn)略研究院執(zhí)行院長(zhǎng)龔克認(rèn)為,人工智能有 4 個(gè)要素:算法、算力、數(shù)據(jù)、應(yīng)用場(chǎng)景,其中算法、算力、數(shù)據(jù)是支撐人工智能產(chǎn)業(yè)發(fā)展的核心要素。人工智能的發(fā)展不僅需要算法層面的創(chuàng)新,推動(dòng)機(jī)器的學(xué)習(xí)理解能力,同時(shí)也需要加強(qiáng)以算力為核心的基礎(chǔ)能力建設(shè),并輔以大數(shù)據(jù)支撐學(xué)習(xí)大量的知識(shí)和經(jīng)驗(yàn)。在大模型浪潮中,我們可以從算法、數(shù)據(jù)、應(yīng)用場(chǎng)景這幾個(gè)維度追蹤算力需求的變化。
在本輪技術(shù)突破中,邊際變化最大的是模型參數(shù)。OpenAI 團(tuán)隊(duì)發(fā)布的論文《Scaling Laws for Neural Language Models》(自然語(yǔ)言模型的伸縮法則)中提出了大模型遵循“伸縮法則”(scaling laws),并證明當(dāng)參數(shù)規(guī)模增加、數(shù)據(jù)集規(guī)模增加并延長(zhǎng)模型訓(xùn)練時(shí)間,大模型的性能就會(huì)提升,并且如不受其他兩個(gè)因素制約時(shí),大模型性能與每個(gè)單獨(dú)的因素都呈現(xiàn)冪律關(guān)系。因而為了提升模型性能,需要在增加參數(shù)規(guī)模的同時(shí),延長(zhǎng)模型訓(xùn)練時(shí)間,因此,參數(shù)規(guī)模是一個(gè)重要的追蹤指標(biāo)。
《Scaling Laws for Neural Language Models》中同樣指出,每個(gè) token 的訓(xùn)練成本通常約為 6N,其中 N 是大模型的參數(shù)數(shù)量,而每個(gè) token 的推理成本通常約為 2N。訓(xùn)練成本即算力需求和 token 數(shù)呈正相關(guān)關(guān)系,因而數(shù)據(jù)量,包括訓(xùn)練數(shù)據(jù)量和推理數(shù)據(jù)量都是算力需求的重要指標(biāo)。
2023 年 2 月 1 日,OpenAI 針對(duì)美國(guó)用戶(hù)發(fā)布 ChatGPT Plus 訂閱計(jì)劃,每月收費(fèi) 20美元,訂閱者可實(shí)現(xiàn):(1)高峰時(shí)刻使用;(2)更快的服務(wù)響應(yīng);(3)優(yōu)先獲得新功能和改進(jìn)。2023 年 2 月 8 日微軟推出了由 ChatGPT 提供技術(shù)支持的高級(jí) Teams 產(chǎn)品,可以自動(dòng)幫用戶(hù)生成會(huì)議記錄,推薦任務(wù),或者創(chuàng)建會(huì)議模板。微軟表示,這項(xiàng)高級(jí)服務(wù)將在 6 月份每月收費(fèi) 7 美元,然后在 7 月份增加到 10 美元。未來(lái)微軟還準(zhǔn)備將 OpenAI的技術(shù)引入 Word、PowerPoint 和 Outlook,以及將聊天機(jī)器人 ChatGPT 加入必應(yīng)。
而隨著 ChatGPT 應(yīng)用的逐步增多,所需的算力同樣會(huì)不斷提升。同理,隨著應(yīng)用場(chǎng)景不斷拓展,大模型應(yīng)用的不端增多,算力需求也將不斷提升。所以,模型數(shù)量或者說(shuō)應(yīng)用規(guī)模,同樣是一個(gè)核心指標(biāo),用以觀察應(yīng)用場(chǎng)景對(duì)算力的影響。
因而我們可以總結(jié),參數(shù)規(guī)模(算法)、數(shù)據(jù)量(數(shù)據(jù))、模型數(shù)量(應(yīng)用場(chǎng)景)將是三個(gè)我們可以用于觀察算力變化的核心指標(biāo)。
階段不同,訓(xùn)練推理需求不一
在計(jì)算機(jī)行業(yè)中,新技術(shù)往往需要經(jīng)歷技術(shù)突破、工程落地、商業(yè)化應(yīng)用三個(gè)階段。在不同階段,催生的需求也不同。
技術(shù)突破,訓(xùn)練優(yōu)先
在技術(shù)革命的初期,仍處于技術(shù)探索階段。各家巨頭公司紛紛開(kāi)始布局,并投入算力資源訓(xùn)練大模型,因此在這階段,算力需求主要來(lái)自于模型訓(xùn)練。
面臨問(wèn)題,訓(xùn)練芯片要求繁多
由于各家大模型的結(jié)構(gòu)、算法、規(guī)模都有所差異,這對(duì)訓(xùn)練芯片的通用性提出了要求。
現(xiàn)有的 AI 芯片技術(shù)路線中,只有 GPU 滿足了開(kāi)發(fā)者們的需求。這其中,CUDA 是相當(dāng)重要的一環(huán)。CUDA(Compute Unified Device Architecture),是 2006 年英偉達(dá)為了解決 GPU 編程的復(fù)雜度問(wèn)題推出的通用并行計(jì)算平臺(tái)。一方面,CUDA 是硬件平臺(tái),用于通用并行計(jì)算。另一方面,CUDA 提供了包括設(shè)備驅(qū)動(dòng)、SDK、第三方工具和軟件庫(kù)等在內(nèi)的一系列軟件棧,這極大程度的降低了開(kāi)發(fā)者的開(kāi)發(fā)門(mén)檻以及開(kāi)發(fā)成本。使得開(kāi)發(fā)者們能快速的開(kāi)始大模型的定制化開(kāi)發(fā),并利用 GPU 訓(xùn)練。這是其他 AI 芯片目前難以做到的。豐富的產(chǎn)業(yè)生態(tài)是 GPU 的核心競(jìng)爭(zhēng)力之一。
同時(shí),由于大模型的技術(shù)特點(diǎn),模型參數(shù)量與訓(xùn)練數(shù)據(jù)量非常龐大,已經(jīng)不是單 AI 芯片可以完成的,需要通過(guò) AI 芯片集群進(jìn)行訓(xùn)練,這對(duì) AI 芯片集群的存儲(chǔ)及互聯(lián)帶寬等性能提出了要求。訓(xùn)練大模型的內(nèi)存需求,通常是參數(shù)數(shù)量的幾倍。因?yàn)橛?xùn)練需要存儲(chǔ)中間激活,通常需要參數(shù)數(shù)量 3-4 倍的內(nèi)存。大模型的參數(shù)數(shù)量(紅色)呈現(xiàn)出 2 年 240倍的超指數(shù)增長(zhǎng),而單個(gè) GPU 內(nèi)存(綠色)僅以每 2 年 2 倍的速度擴(kuò)大。因而,往往需要部署大規(guī)模顯存集群支持大模型的訓(xùn)練,這對(duì)顯存帶寬便提出了需求,需要使用High Bandwidth Memory(高帶寬內(nèi)存)。HBM 顯存是一種適用于高性能和 AI 訓(xùn)練計(jì)算的新型內(nèi)存芯片,通過(guò)硅通孔技術(shù)進(jìn)行芯片堆疊,并與 GPU 位于同一物理封裝內(nèi),可節(jié)省能耗和占用空間。英偉達(dá)的 SXM H100 GPU 中分別應(yīng)用了高性能 HBM3,內(nèi)存帶寬超過(guò) 3 TB/s,這在 AI 芯片中處于領(lǐng)先地位。
同時(shí),算力集群對(duì) AI 芯片的可擴(kuò)展性提出了需求,這需要 AI 芯片滿足芯片間高速傳輸。
總線在計(jì)算機(jī)系統(tǒng)中是 CPU、內(nèi)存、輸入、輸出設(shè)備傳遞信息的公用通道,傳統(tǒng)的總線為 PCIe(PCI-Express,peripheral component interconnect express),這是一種高速串行計(jì)算機(jī)擴(kuò)展總線和串行接口標(biāo)準(zhǔn),適用于大多數(shù) AI 芯片,不同的接口性能代表了其芯片互聯(lián)能力,也代表了其可擴(kuò)展性。而英偉達(dá)提出了 NVLink 技術(shù),該技術(shù)可為多GPU 系統(tǒng)配置提供高于以往 1.5 倍的帶寬,以及增強(qiáng)的可擴(kuò)展性。單個(gè) NVIDIA H100Tensor Core GPU 支持多達(dá) 18 個(gè) NVLink 連接,總帶寬為 900 GB/s,是 PCIe 5.0 帶寬的 7 倍。
現(xiàn)階段,由于技術(shù)不成熟以及內(nèi)存、互聯(lián)帶寬等性能問(wèn)題,集群算力利用率仍偏低,這拉高了算力成本,而隨著技術(shù)的進(jìn)一步成熟,集群算力提升可以降低算力成本,進(jìn)而促進(jìn)大模型的進(jìn)一步發(fā)展。
此外,大模型訓(xùn)練是一個(gè)龐大的工程,涉及眾多的環(huán)節(jié),這需要訓(xùn)練芯片是一個(gè)成熟穩(wěn)定的產(chǎn)品,可以在不同環(huán)境中穩(wěn)定的運(yùn)行。這些問(wèn)題都可能制約大模型的模型效果,這便提高了對(duì)訓(xùn)練芯片的要求。
海量參數(shù),訓(xùn)練算力需求旺盛
參照之前總結(jié)的算力需求公式,訓(xùn)練算力需求=模型參數(shù)量*訓(xùn)練數(shù)據(jù)量*模型數(shù)量。在現(xiàn)階段,模型訓(xùn)練語(yǔ)料相對(duì)穩(wěn)定,主要變化的因子來(lái)自于模型參數(shù)量和模型數(shù)量。以 GPT3 175B 為例計(jì)算,其訓(xùn)練數(shù)據(jù)集 tokens 數(shù)為 300billion,參數(shù)量為 174,600million,其訓(xùn)練所需算力高達(dá) 6*1.746e11*3e11=3.1428e23FLOPS。其他大模型隨著參數(shù)的增大,所需算力也將不斷提升??傆?xùn)練算力也將隨著大模型數(shù)量的提升而迎來(lái)爆發(fā)。
產(chǎn)業(yè)落地,推理漸多
而伴隨著企業(yè) AI 應(yīng)用逐步成熟,企業(yè)將把更多算力從模型訓(xùn)練轉(zhuǎn)移到 AI 推理工作中。
這意味著人工智能模型將逐步進(jìn)入廣泛投產(chǎn)模式,這將對(duì)企業(yè)的 AI 基礎(chǔ)設(shè)施規(guī)劃帶來(lái)影響,企業(yè)需要更好地制定運(yùn)營(yíng)支出規(guī)劃,提升算力利用率。據(jù) IDC 數(shù)據(jù),2021 年中國(guó)數(shù)據(jù)中心用于推理的服務(wù)器的市場(chǎng)份額占比已經(jīng)過(guò)半,達(dá)到 57.6%,預(yù)計(jì)到 2026 年,用于推理的工作負(fù)載將達(dá)到 62.2%。
場(chǎng)景細(xì)分,芯片定制
不同于訓(xùn)練芯片需要通用性,推理芯片往往和已訓(xùn)練完的大模型高度綁定。ASIC 正是基于 AI 算法進(jìn)行定制化開(kāi)發(fā),隨著大模型技術(shù)的進(jìn)一步成熟,商業(yè)化應(yīng)用落地后,其性能高、低消耗的特點(diǎn)將在推理端進(jìn)一步放大,有望在未來(lái)的 AI 芯片市場(chǎng)更具競(jìng)爭(zhēng)力,進(jìn)而與 GPU 進(jìn)行競(jìng)爭(zhēng),產(chǎn)業(yè)格局可能將產(chǎn)生分化。
--- 報(bào)告摘錄結(jié)束 更多內(nèi)容請(qǐng)閱讀報(bào)告原文 ---
報(bào)告合集專(zhuān)題一覽 X 由【報(bào)告派】定期整理更新
(特別說(shuō)明:本文來(lái)源于公開(kāi)資料,摘錄內(nèi)容僅供參考,不構(gòu)成任何投資建議,如需使用請(qǐng)參閱報(bào)告原文。)
精選報(bào)告來(lái)源:報(bào)告派
科技 / 電子 / 半導(dǎo)體 /
人工智能 | Ai產(chǎn)業(yè) | Ai芯片 | 智能家居 | 智能音箱 | 智能語(yǔ)音 | 智能家電 | 智能照明 | 智能馬桶 | 智能終端 | 智能門(mén)鎖 | 智能手機(jī) | 可穿戴設(shè)備 |半導(dǎo)體 | 芯片產(chǎn)業(yè) | 第三代半導(dǎo)體 | 藍(lán)牙 | 晶圓 | 功率半導(dǎo)體 | 5G | GA射頻 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圓 | 封裝封測(cè) | 顯示器 | LED | OLED | LED封裝 | LED芯片 | LED照明 | 柔性折疊屏 | 電子元器件 | 光電子 | 消費(fèi)電子 | 電子FPC | 電路板 | 集成電路 | 元宇宙 | 區(qū)塊鏈 | NFT數(shù)字藏品 | 虛擬貨幣 | 比特幣 | 數(shù)字貨幣 | 資產(chǎn)管理 | 保險(xiǎn)行業(yè) | 保險(xiǎn)科技 | 財(cái)產(chǎn)保險(xiǎn) |