最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

ChatGPT對GPU算力的需求測算與相關(guān)分析(中信證券)

2023-02-21 14:07 作者:郭太俠  | 我要投稿

1. ChatGPT是什么——OpenAI開發(fā)的聊天機(jī)器人,擁有創(chuàng)造能力

生成式AI:實現(xiàn)創(chuàng)造,部分領(lǐng)域的能力超越人類的基準(zhǔn)水平

不同于分析式AI只能做些分析型或機(jī)械式的認(rèn)知計算,生成式AI可以創(chuàng)造有意義并具備美感的東西,而且在某些情況下,其生成的結(jié)果可能 比人類手工創(chuàng)造的還要好。 機(jī)器可以分析數(shù)據(jù),并針對不同用例需求找到相應(yīng)的規(guī)律,且在不斷迭代,變得越來越聰明,這種機(jī)器被稱為“分析式人工智能” (Analytical AI),或者傳統(tǒng)AI。機(jī)器并非如之前那樣僅分析已有的數(shù)據(jù),而是創(chuàng)造了全新的東西,這一新型的AI被稱為“生成式人工智 能”(Generative AI)。 2017年谷歌推出一種用于自然語言理解的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)——Transformers模型,不但能生成質(zhì)量上乘的語言模型,同時具有更高的可 并行性,大大降低了所需的訓(xùn)練時間。這些小樣本學(xué)習(xí)模型,可以更容易地針對特定領(lǐng)域做定制修改。 2015-2020年,用于訓(xùn)練這些模型的計算量增加了6個數(shù)量級,其表現(xiàn)在手寫、語音和圖像識別、閱讀理解和語言理解方面超過了人類的 基準(zhǔn)水平。

預(yù)訓(xùn)練模型:大模型提高準(zhǔn)確率,2018年開始步入快車道

預(yù)訓(xùn)練模型使得模型的訓(xùn)練可以被復(fù)用,大幅降低訓(xùn)練成本,但是前期需要大量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。 預(yù)訓(xùn)練模型是一種遷移學(xué)習(xí)的應(yīng)用,對句子每一個成員的上下文進(jìn)行相關(guān)的表示,通過隱式的方式完成了語法語義知識的學(xué)習(xí)。預(yù)訓(xùn)練模型通過微調(diào)的方式具備很 強(qiáng)的擴(kuò)展性,每次擴(kuò)展到新場景時,只需要針對這個場景的特定標(biāo)注數(shù)據(jù)進(jìn)行定向的學(xué)習(xí),便可以快速應(yīng)用。

ChatGPT:基于OpenAI推出的深度學(xué)習(xí)模型GPT打造,成為迄今 增長最快的消費(fèi)應(yīng)用程序

ChatGPT(Chat Generative Pre-trained Transformer,聊天生成式預(yù)訓(xùn)練器)是OpenAI開發(fā)的聊天機(jī)器人,于2022年11月推出。它建立在 OpenAI開發(fā)的GPT-3大型語言模型之上,并使用監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)(人類監(jiān)督)技術(shù)進(jìn)行了微調(diào)。 雖然聊天機(jī)器人的核心功能是模仿人類談話者,但ChatGPT是多功能的。例如,它可以編寫和調(diào)試計算機(jī)程序,創(chuàng)作音樂、電視劇、童話故 事和學(xué)生論文;回答測試問題(有時根據(jù)測試的不同,答題水平要高于平均水平);寫詩和歌詞;模擬Linux系統(tǒng);模擬整個聊天室等。

ChatGPT背后的公司為OpenAI,成立于2015年,由特斯拉CEO埃隆·馬斯克、PayPal聯(lián)合創(chuàng)始人彼得·蒂爾、Linkedin創(chuàng)始人里德·霍夫曼、創(chuàng) 業(yè)孵化器Y Combinator總裁阿爾特曼(Sam Altman)等人出資10億美元創(chuàng)立。OpenAI的誕生旨在開發(fā)通用人工智能(AGI)并造福人類。 ChatGPT中的GPT(Generative Pre-trained Transformer),是OpenAI推出的深度學(xué)習(xí)模型。ChatGPT就是基于GPT-3.5版本的聊天機(jī)器人。 截至2022年12月4日,OpenAI估計ChatGPT用戶已經(jīng)超過100萬;2023年1月,ChatGPT用戶超過1億,成為迄今增長最快的消費(fèi)應(yīng)用程序。 2023年2月,OpenAI開始接受美國客戶注冊一項名為ChatGPT Plus的高級服務(wù),每月收費(fèi)20美元;此外,OpenAI正計劃推出一個每月42美 元的ChatGPT專業(yè)計劃,當(dāng)需求較低時可以免費(fèi)使用。

算力需求:計算資源每3~4個月翻一倍,投入資金指數(shù)級增長

OpenAI預(yù)計人工智能科學(xué)研究要想取得突破,所需要消耗的計算資源每3~4個月就要翻一倍,資金也需要通過指數(shù)級增長獲得匹配。在算力方面,GPT-3.5在微軟Azure AI超算基礎(chǔ)設(shè)施(由V100GPU組成的高帶寬集群)上進(jìn)行訓(xùn)練,總算力消耗約 3640PF-days(即每 秒一千萬億次計算,運(yùn)行3640天)。 在大數(shù)據(jù)方面,GPT-2用于訓(xùn)練的數(shù)據(jù)取自于Reddit上高贊的文章,數(shù)據(jù)集共有約800萬篇文章,累計體積約40G;GPT-3模型的神經(jīng)網(wǎng) 絡(luò)是在超過45TB的文本上進(jìn)行訓(xùn)練的,數(shù)據(jù)相當(dāng)于整個維基百科英文版的160倍。

2. GPGPU是什么——通用計算GPU,算力強(qiáng)大,應(yīng)用于加速計算場景

GPU是什么?

GPU(Graphics Processing Unit,圖形處理器):是一種專門在個人電腦、工作站、游戲機(jī)和一些移動設(shè)備(如平板電腦、智能手機(jī)等)上做圖 像加速和通用計算工作的微處理器。GPU是英偉達(dá)公司在1999年8月發(fā)表NVIDIA GeForce 256(GeForce 256)繪圖處理芯片時首先提出的概念。 GPU應(yīng)用場景 。 圖形加速:此時GPU 內(nèi)部的頂點渲染、像素渲染以及幾何渲染操作都可以通過流處理器完成。 通用計算:計算通常采用CPU+GPU異構(gòu)模式,由CPU負(fù)責(zé)執(zhí)行復(fù)雜邏輯處理和事務(wù)處理等不適合數(shù)據(jù)并行的計算,由GPU負(fù)責(zé)計算密集型的 大規(guī)模數(shù)據(jù)并行計算。

從GPU到GPGPU的跨越,英偉達(dá)CUDA降低開發(fā)門檻

GPGPU(general-purpose GPU,通用計算圖形處理器),利用圖形處理器進(jìn)行非圖形渲染的高性能計算。為了進(jìn)一步專注通用計算, GPGPU去掉或減弱GPU的圖形顯示部分能力,將其余部分全部投入通用計算,實現(xiàn)處理人工智能、專業(yè)計算等加速應(yīng)用。 2007年6月,NVIDIA推出了CUDA(Computer Unified Device Architecture計算統(tǒng)一設(shè)備結(jié)構(gòu))。 CUDA是一種將GPU作為數(shù)據(jù)并行計算設(shè)備的軟硬件體系。在CUDA 的架構(gòu)中,不再像過去GPU架構(gòu)那樣將通用計算映射到圖形API中, 對于開發(fā)者來說,CUDA 的開發(fā)門檻大大降低了。 CUDA 的編程語言基于標(biāo)準(zhǔn)C,因此任何有C 語言基礎(chǔ)的用戶都很容易地開發(fā)CUDA 的應(yīng)用程序。由于這些特性,CUDA在推出后迅速發(fā) 展,被廣泛應(yīng)用于石油勘測、天文計算、流體力學(xué)模擬、分子動力學(xué)仿真、生物計算、圖像處理、音視頻編解碼等領(lǐng)域。

2020年GPU全球市場254億美元,獨(dú)顯市場英偉達(dá)份額約80%

根據(jù)Verified Market Research數(shù)據(jù),2020年,全球GPU市場規(guī)模為254.1億美元(約1717.2億人民幣)。隨著需求的不 斷增長,預(yù)計到2028年,這一數(shù)據(jù)將達(dá)到2465.1億美元(約1.67萬億人民幣),年復(fù)合增長率為32.82%。

市場研究機(jī)構(gòu)Jon Peddie Research的最新數(shù)據(jù)顯示,2022年二季度,全球獨(dú)立GPU市場出貨量同比增長 2.4% 至 1040 萬臺,但是較一季度環(huán)比則下滑了22.6%。 從市場份額來看,英偉達(dá)的獨(dú)立GPU的市場份額從22Q1的75%增加到22Q2的79.6%,保持了與去年同期相當(dāng)?shù)姆蓊~。 AMD和Intel則分別占比20%/1%。

中國市場,GPU服務(wù)器在AI服務(wù)器中占比92%,占主導(dǎo)地位

據(jù)IDC數(shù)據(jù),2021年,全球AI服務(wù)器市場規(guī)模達(dá)156億美元,同比增長39.1%;IDC預(yù)測,2025年全球AI服務(wù)器市場規(guī)模將 達(dá)317.9億美元,年復(fù)合增長率為19%。 IDC報告顯示,2021年中國加速服務(wù)器市場規(guī)模達(dá)到53.9億美元(約350.3億人民幣),同比+68.6%;預(yù)計到2026年將達(dá) 到103.4億美元。年復(fù)合增長率為19%,占全球整體服務(wù)器市場近三成。根據(jù)IDC數(shù)據(jù),2021年,GPU服務(wù)器以91.9%的份額占國內(nèi)加速服務(wù)器市場的主導(dǎo)地位;NPU、ASIC和FPGA等非GPU 加速服務(wù)器占比8.1%。IDC預(yù)計2024年中國GPU服務(wù)器市場規(guī)模將達(dá)到64億美元。 從行業(yè)的角度看,互聯(lián)網(wǎng)依然是最大的采購行業(yè),占整體加速服務(wù)器市場近60%的份額;2021年,用于推理工作負(fù)載的 加速服務(wù)器占比已經(jīng)達(dá)到57.6%,預(yù)計到2026年將超過60%。

3. GPGPU的壁壘是什么——高精度浮點計算+CUDA生態(tài)

壁壘一——高精度浮點計算

CPU是串行處理器,而GPU是并行處理器。 在機(jī)器學(xué)習(xí)中,絕大多數(shù)任務(wù)會涉及到耗費(fèi)時間的大量運(yùn)算,而且隨著數(shù)據(jù)集的增加,運(yùn)算量會越來越大。解決這個問題的一個方法就是使 用多線程并行計算。 CUDA 核能夠以相對稍慢的速度運(yùn)行,但是能夠通過使用大量運(yùn)算邏輯單元(ALU)來提供很大的并行度。 每個 GPU 核都能運(yùn)行一個獨(dú)立的線程,對于矩陣相乘運(yùn)算來說大大縮短了計算時間。 對于每個小片的結(jié)果可以由一組線程負(fù)責(zé),其中每個線程對應(yīng)小片中的一個元素。這個線程組將 A 的行小片和 B 的列小片一一載入共享內(nèi) 存,在共享內(nèi)存上對其做矩陣相乘,然后疊加在原有結(jié)果上。所以對于 2000×2000 的矩陣乘法,只需要 2000 次并行運(yùn)行。 但是對于CPU來說,因為是串行計算的,所以需要4000000次運(yùn)行。

人工智能的實現(xiàn)包括兩個環(huán)節(jié):推理(Inference)和訓(xùn)練(Training)

訓(xùn)練需要密集的計算得到模型,沒有訓(xùn)練,就不可能會有推理。 訓(xùn)練是指通過大數(shù)據(jù)訓(xùn)練出一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,通過大量標(biāo)記過的數(shù)據(jù)來訓(xùn)練相應(yīng)的系統(tǒng)得到模型,使其能夠適應(yīng)特定的功能。 訓(xùn)練需要較高的計算性能、能夠處理海量的數(shù)據(jù)、具有一定的通用性,以便完成各種各樣的學(xué)習(xí)任務(wù)(大數(shù)據(jù)分析淘寶推薦“你可能感 興趣的產(chǎn)品”模型)。 推理是指利用訓(xùn)練好的模型,使用新數(shù)據(jù)推理出各種結(jié)論。借助神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算,利用輸入的新數(shù)據(jù)來一次性獲得正確結(jié)論的過 程。這也有叫做預(yù)測或推斷(用戶打開手機(jī)被推送“可能感興趣的產(chǎn)品”)。

AI推理端:浮點型量化為整形數(shù)據(jù),降低算力、加速推理、降低功耗

量化是通過一組離散符號或整數(shù)值去逼近一個連續(xù)信號的過程,利用低比特量化(權(quán)重或激活)可以在不影響精度的前提下加快推理階段。隨 著模型越來越大,需求越來越高,模型的量化自然是少不了的一項技術(shù)。 在低比特表達(dá)中(如FP16、INT16、FP8、INT8、INT4等),INT8因兼顧效率和精度,而被廣泛采用。一方面,INT8的運(yùn)行速度是 FP16/INT16的兩倍,并且相比FP8,能被更多的硬件設(shè)備支持。另一方面,INT8的量化范圍(-128~127)比INT4(-8~7)或其它更低 的比特(小于4比特)大,表達(dá)能力更強(qiáng)。 經(jīng)過INT8量化后的模型:模型容量變小了,F(xiàn)P32的權(quán)重變成INT8,大小直接縮了4倍模型,運(yùn)行速度可以提升,使用INT8的模型耗電量更 少,對于嵌入式側(cè)端設(shè)備來說提升巨大。

4. GPGPU主要應(yīng)用場景——AI計算和高性能計算

GPGPU在計算領(lǐng)域應(yīng)用:AI計算和高性能計算

GPU在通用計算領(lǐng)域分為兩種應(yīng)用場景,人工智能 (AI) 計算和高性能計算(HPC) 。AI所需的計算力不需要太高精度。一些AI應(yīng)用需要處理的對象是語音、圖片或視頻,運(yùn)行低精度計算甚至整型計算即可完成推理或訓(xùn)練。 智能計算機(jī)是一種專用算力,它們在推理或訓(xùn)練等智能計算方面的確表現(xiàn)出色,但由于AI推理或訓(xùn)練一般僅用到單精度甚至半精度計算、 整型計算,多數(shù)智能計算機(jī)并不具備高精度數(shù)值計算能力,這也限制其在AI計算之外的應(yīng)用場景使用。 英偉達(dá)新推出的H100芯片搭載Transformer 引擎,使用每層統(tǒng)計分析來確定模型每一層的最佳精度(FP16 或 FP8),在保持模型精度的同 時實現(xiàn)最佳性能,相較于上一代產(chǎn)品提供 9 倍的訓(xùn)練吞吐量,性能提升6倍。

高性能計算是一種通用算力,設(shè)計目標(biāo)是提供完備、復(fù)雜的計算能力,在高精度計算上能力更強(qiáng)。應(yīng)用場景包括行星模擬、分子藥物設(shè)計等。 超級計算機(jī)主要測試的是雙精度浮點運(yùn)算能力(FP64)。對比單精度(32位,F(xiàn)P32)、半精度(16位,F(xiàn)P16)以及整數(shù)類型(如INT8、INT4)等, 數(shù)字位數(shù)越高,意味著人們可以在更大范圍內(nèi)的數(shù)值內(nèi)體現(xiàn)0/1兩個數(shù)值的變化,從而實現(xiàn)更精確計算。

AI芯片的三種較為主流的技術(shù)路線——GPU、FPGA和ASIC

AI芯片被稱為AI加速器或計算卡,即專門用于加速AI應(yīng)用中的大量計算任務(wù)的模塊(其他非計算任務(wù)仍由CPU負(fù)責(zé)),面向AI計算應(yīng)用的 芯片都可以稱為AI芯片,包括GPU、FPGA、ASIC等。

FPGA更適合處理多指令流單數(shù)據(jù)流,從而適應(yīng)于推理階段

FPGA沒有極致的性能特點與量產(chǎn)單價高是其未來發(fā)展的瓶頸,更適合用于細(xì)分、快速變化的垂直行業(yè),應(yīng)用面上較為狹窄。 優(yōu)點:1. 突破馮諾依曼結(jié)構(gòu),可直接實現(xiàn)算法,沒有指令譯碼和解讀的過程,功效能耗比是CPU的10倍以上、GPU的3倍,處理速度和效 率要高于GPU。2. 可編譯,靈活性很高,開發(fā)周期短。FPGA具有可編輯性,用戶可以根據(jù)自身需求實現(xiàn)芯片功能的轉(zhuǎn)換?;贔PGA靈 活編譯的特點,其開發(fā)周期較短,上市速度快。FPGA更適合處理多指令流單數(shù)據(jù)流,從而適應(yīng)于推理階段。 缺點:1. 價格較高,規(guī)模量產(chǎn)后的單價更是遠(yuǎn)高于ASIC。目前FPGA的造價相比GPU更為高昂,如果規(guī)模量產(chǎn)后,其不像ASIC可以分?jǐn)?固定成本,存在單個芯片的編譯成本,所以單價遠(yuǎn)高于ASIC。2. 計算能力和峰值性能不如GPU。 3. 靈活性占優(yōu)的同時犧牲了速度與能耗。 效率和功耗上劣于專用芯片ASIC。4. FPGA的語言技術(shù)門檻較高。目前FPGA的設(shè)置要求用戶用硬件描述語言對其進(jìn)行編程,需要專業(yè)的 硬件知識,具有較高的技術(shù)門檻。

5. 國內(nèi)GPGPU發(fā)展水平——落后海外5~10年,多點開花尋求突破

制造:目前國內(nèi)AI芯片先進(jìn)工藝多集中在7nm,國際大廠已經(jīng)來到4nm

大陸的先進(jìn)工藝設(shè)計(16nm及以下)集中于AI芯片(包含云端及智能駕駛芯片)、交換機(jī)芯片、CPU/GPU/DPU、礦機(jī)ASIC領(lǐng)域,這些領(lǐng)域各有一些 頭部企業(yè)走在前列,但鮮有企業(yè)能夠進(jìn)入個位數(shù)先進(jìn)制程。GPGPU和AI芯片因為去掉了圖形渲染功能,功能相對單一,設(shè)計起來復(fù)雜度及難度較低。 先進(jìn)制程芯片的設(shè)計成本大幅增加。設(shè)計一顆28nm芯片成本約5000萬美元,而7nm芯片需要3億美元,5nm則需要5.42億美元。 若以麒麟的5nm工藝來對標(biāo),除了礦機(jī)ASIC中的比特大陸推出了基于最先進(jìn)的5nm的礦機(jī)芯片,平頭哥發(fā)布了自研5nm服務(wù)器芯片倚天710,中興通 訊的7nm芯片已實現(xiàn)商用正在研發(fā)5nm芯片之外, 其他領(lǐng)域快的如有些國內(nèi)自動駕駛芯片公司要量產(chǎn)7nm智能座艙芯片,互聯(lián)網(wǎng)巨頭的一些AI芯片在向5nm邁進(jìn),CPU/GPU/DPU領(lǐng)域大多企業(yè)還只是 規(guī)劃向5nm邁進(jìn),大多數(shù)節(jié)點還在16nm或10nm之上,真正實現(xiàn)5nm芯片量產(chǎn)的較少。

IP:國內(nèi)核心IP廠商,追趕國際廠商

自研IP越多,芯片設(shè)計上越有把握,產(chǎn)品的差異化更明顯。但相對而言,資金、人員、時間上的成本投入也更高。 GPU IP自研需要36-48個月以及200個工程師,而采用外購IP的方式,可以減少12-18個月開發(fā)周期。 據(jù)集微網(wǎng)報道,GPU 的IP主要涉及三大類,一是模擬IP,包括PCIe、Displayport和HDMI等等,這方面國內(nèi)廠商占有率較低;二是 Memory;三是數(shù)字IP,包括基于Arm或RISC-V的微控制器IP、編解碼芯片IP以及最核心的GPU IP等。

來源:中信證券

報告內(nèi)容節(jié)選如下:

資料下載方式:公眾號《俠說》

ChatGPT對GPU算力的需求測算與相關(guān)分析(中信證券)的評論 (共 條)

分享到微博請遵守國家法律
湘西| 孙吴县| 宜阳县| 康定县| 广德县| 盐池县| 平武县| 疏附县| 新田县| 通州市| 菏泽市| 麻阳| 息烽县| 阿克陶县| 理塘县| 班戈县| 泽普县| 云阳县| 牟定县| 华亭县| 葫芦岛市| 芜湖县| 阜新市| 孟连| 唐海县| 苗栗市| 曲阳县| 聊城市| 瑞丽市| 海淀区| 青神县| 曲阜市| 应城市| 邹平县| 毕节市| 河北区| 铁岭县| 克什克腾旗| 丽江市| 慈溪市| 饶平县|