最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【轉(zhuǎn)】格蘭菲GPU架構(gòu)的發(fā)展 最新的DX12架構(gòu),中國的RDNA?

2023-07-27 02:05 作者:失傳技術研究所工作室  | 我要投稿


格蘭菲GPU架構(gòu)的發(fā)展 最新的DX12架構(gòu),中國的RDNA?

星邊疆

希望親眼見到人類步入星際文明的硬核科幻迷、RPG游戲開發(fā)者

關注他

57 人贊同了該文章

目錄

收起

1 現(xiàn)代GPU的介紹

1.1 引言

1.2 現(xiàn)代GPU架構(gòu)機制

1.3 現(xiàn)代GPU架構(gòu)實現(xiàn)

2 兆芯/格蘭菲的GPU設計

S3 Graphcs/VIA 時期的GPU架構(gòu)

2013-2018年 兆芯/格蘭菲 的早期GPU架構(gòu)

2018-2022年的 Arise 1系列GPU的架構(gòu)

DX12新架構(gòu)

結(jié)語

作為一個圖形學愛好者,還是很樂意見到國內(nèi)相關的硬件技術突破的。因此搜集了一些可能不太靠譜的公開資料對中國自研的現(xiàn)代游戲顯卡架構(gòu)的發(fā)展進行介紹和猜測。

1 現(xiàn)代GPU的介紹

1.1 引言

現(xiàn)代GPU是圖形繪制處理器和并行化數(shù)據(jù)處理器的結(jié)合體,純粹進行并行化數(shù)據(jù)處理的處理器叫做GPGPU,GPU包括GPGPU,但GPGPU不等于GPU。

GPU的總體架構(gòu)的發(fā)展趨勢隨著軟件需求的發(fā)展而改變自身架構(gòu)的實現(xiàn)方式,在不同的任務中它們會有不同的取舍。如何權衡正是考驗架構(gòu)師的設計水平之處。

從1999年NVIDIA發(fā)布第一款GPU產(chǎn)品至今, GPU技術發(fā)展主要經(jīng)歷了固定功能流水線階段、分離著色器架構(gòu)階段、統(tǒng)一著色器架構(gòu)階段。其處理架構(gòu)的不斷改變使得圖形處理能力和計算能力不斷提升,相應的流水線結(jié)構(gòu)、并行計算結(jié)構(gòu)、并行數(shù)據(jù)通信結(jié)構(gòu)、存儲結(jié)構(gòu)越發(fā)復雜。

國外NVIDIA、AMD等公司針對GPU圖形處理性能方面進行了大量研究,但都是各公司的核心機密,公開甚少。

N和A歷代 GPU架構(gòu)發(fā)展史 :

GPU顯卡架構(gòu)38 贊同 · 1 評論文章

1.2 現(xiàn)代GPU架構(gòu)機制

圖形處理器經(jīng)過近30年的發(fā)展,雖然圖形處理器體系結(jié)構(gòu)、處理方式發(fā)生了巨大變化,但其基于Z-Buffer的光柵化圖形處理流水線一直沿用至今。自2006年,NVIDIA發(fā)布統(tǒng)一渲染架構(gòu)的GPU以來,統(tǒng)一渲染架構(gòu)便成為GPU的主流。NVIDIA、AMD等各廠家都有自己不同的實現(xiàn)方式,但基本的CPU+GPU異構(gòu)工作方式、圖形處理流程都基本一致。

圖形渲染流程

定義: 顯卡內(nèi)部處理圖像信號的并行處理單元,也稱為渲染流水線

發(fā)生位置: CPU和GPU

渲染機理: 將圖像所具備的圖形信息(頂點、紋理、材質(zhì)、攝像機位置等)經(jīng)過一系列階段的處理,最終- 轉(zhuǎn)換為屏幕上的圖像.

渲染流程:

應用階段

幾何階段

光柵化階段

應用階段 Application Stage

發(fā)生位置: CPU

階段目標: 準備渲染所需的幾何信息,即渲染圖元(rendering primitives)

渲染數(shù)據(jù):

場景數(shù)據(jù):如攝像機,視錐體,模型,光源..

粗粒度剔除:即剔除不可見物體

渲染狀態(tài):材質(zhì),紋理,Shader..

基本流程:

加載數(shù)據(jù)到顯存: 由于渲染管線的圖形化處理基本位于GPU,所以渲染數(shù)據(jù)先從硬盤加載到RAM,再加載到顯存以供GPU后續(xù)處理.

設置渲染狀態(tài): 定義渲染圖形的方式,例如使用頂點著色器或者片元著色器、材質(zhì)、光源等.

調(diào)用Draw Call: 由CPU發(fā)起的DrawCall指令給GPU,指向已經(jīng)準備好的渲染圖元

Draw Call:

本質(zhì):圖像編程接口

機理:CPU通過調(diào)用DrawCall向命令緩沖區(qū)(Command Buffer)的隊列中添加渲染命令,而GPU則從已有的隊列中讀取渲染命令去執(zhí)行

優(yōu)化:由于調(diào)用DrawCall即使得CPU準備大量渲染數(shù)據(jù)提交到緩沖隊列,大量的DrawCall會使得CPU過載,因此盡量減少DrawCall的調(diào)用次數(shù)(如進行批處理,合并網(wǎng)格...)

幾何階段 Geometry Stage

發(fā)生位置: GPU

接收數(shù)據(jù): 應用階段所準備好的渲染圖元的信息,也就是頂點數(shù)據(jù)(模型自身坐標系、頂點顏色、紋理UV等)

階段目標: 決定所需繪制圖元的信息(繪制方法,繪制坐標)

基本流程:

頂點著色器(Vertex Shader):

調(diào)用次數(shù):每個頂點均調(diào)用一次

工作:坐標轉(zhuǎn)換(模型空間->齊次裁剪空間,也可說模型自身坐標->屏幕空間坐標。可人為干涉)和逐頂點光照(顏色計算)

曲面細分著色器(Tessellation Shader):

工作:細分圖元

幾何著色器(Geometry Shader):

工作:逐圖元著色操作或是生成新的圖元(減少CPU負擔)

裁剪(Clipping):

工作:裁剪去不在攝像機視野內(nèi)的頂點

屏幕映射(Screen Mapping):

工作:將圖元的x和y坐標轉(zhuǎn)換到屏幕坐標系(不對z坐標處理)

光柵化階段 Rasterizer Stage

發(fā)生位置: GPU

接收數(shù)據(jù): 幾何階段準備好的頂點信息

階段目標: 對幾何階段傳遞過來的屏幕空間的頂點信息進行處理,最終生成屏幕像素,渲染出圖像

基本流程:

三角形設置(Triangle Setup):

工作:根據(jù)幾何階段傳遞的數(shù)據(jù)(三角網(wǎng)絡的頂點),計算三角網(wǎng)絡每邊的數(shù)據(jù)信息

三角形遍歷(Triangle Traversal):

工作:根據(jù)三角形設置的結(jié)果,判斷某個三角網(wǎng)格所覆蓋的像素,并根據(jù)三個頂點的信息對整個覆蓋區(qū)域進行 插值 ,生成一系列 片元(fragment) ,片元包含信息有:屏幕坐標、深度、法線、紋理...

片元著色器(Fragment Shader): 又稱像素著色器(Pixel Shader)

調(diào)用次數(shù):一個像素點調(diào)用一次

工作:紋理采樣,計算光照(陰影、明暗...)

逐片元操作(Per-Fragment Operations):

工作:模板測試->深度測試->混合->顏色緩沖區(qū)

輸出屏幕圖像

1.3 現(xiàn)代GPU架構(gòu)實現(xiàn)

GeForce 8800是2006年NVIDIA發(fā)布的第一款統(tǒng)一染色架構(gòu)GPU,采用G80架構(gòu)。自此NVIDIA每兩年發(fā)布一款GPU架構(gòu)。2006年發(fā)布G80,2008年發(fā)布TeslaGT200,2010年發(fā)布Fermi-GF100, 2012年發(fā)布kepler,2014年發(fā)布年Maxwell. 2016年發(fā)布Pascal。每一款GPU架構(gòu)都對著色器陣列數(shù)量及結(jié)構(gòu)進行優(yōu)化、調(diào)整,但圖形處理過程改變甚微,基本保持著G80的處理過程。

圖形處理任務由主機生成圖形指令存儲到主機內(nèi)存中,CPU通過主機接口獲取圖形指令,然后將圖形指令解析為統(tǒng)一染色陣列和固定的硬件單元的控制和數(shù)據(jù)信息,配合完成圖形處理過程。

R700是2008年AMD公司發(fā)布的具有大規(guī)模SIMD統(tǒng)—染色陣列的圖形處理器架構(gòu),結(jié)構(gòu)如圖所示。其存儲系統(tǒng)包括兩部分,一部分是駐于主機內(nèi)存中的系統(tǒng)空間,另一部分則是位于GPU上的顯存空間。存儲系統(tǒng)中包含的數(shù)據(jù)包括命令隊列、指令、常數(shù)以及輸入輸出流,其中命令隊列指明了GPU需要處理的任務;指令給出了執(zhí)行部件的具體工作;常數(shù)、輸入和輸出流則提供了計算所需要的數(shù)據(jù),這幾個部分要素構(gòu)成了GPU運行的基本要素。

現(xiàn)代GPU有多個流多處理器( Streaming Multiprocessor ,SM) ,在每個SM 中,計算資源包括算術邏輯單元(ALU)、特殊函數(shù)單元(SFU)以及寄存器,片上內(nèi)存資源包括只讀紋理緩存和常量緩存、L1數(shù)據(jù)緩存( D-cache)和共享內(nèi)存。在多個 SMs 之間共享統(tǒng)一的一個L2緩存U。GPU中有多個處理器核SP,在一個時刻可以并行處理多個數(shù)據(jù)。寄存器(Reg File)是GPU內(nèi)部的存儲單元,是有限存儲容量的高速存儲部件,用來暫存指令、數(shù)據(jù)和位址。線程束調(diào)度程序( Warp Scheduler)負責調(diào)度一個SM 中的Warp。Warp是GPU執(zhí)行程序時的調(diào)度單位, Warp大小為32,32個thread組織成一個 Warp。

高性能GPU架構(gòu)設計的關鍵技術點主要包括:

(1)內(nèi)核結(jié)構(gòu)中的并行性開發(fā)技術, 主要指如何通過有效的運算資源組織方式,實現(xiàn)運算資源間的高效協(xié)同,從而高效開發(fā)程序中的數(shù)據(jù)級并行和指令級并行;

(2)數(shù)據(jù)供給機制,主要涉及 存儲子系統(tǒng)的設計,重點關注如何通過存儲層次設計、數(shù)據(jù)局部性挖掘以及數(shù)據(jù)使用方式預測等技術為運算資源提供高帶寬、低延遲的數(shù)據(jù)供給;

(3)互連機制,隨著多核已經(jīng)成為芯片性能持續(xù)提升的重 要因素,如何通過高效的核間互連,以及處理器核與存儲系統(tǒng)互連有效提升整體算力,對高性能GPU的性能發(fā)揮至關重要。

(4)內(nèi)存架構(gòu)設計,GPU通常需要大量的存儲空間來存儲圖形數(shù)據(jù)和計算數(shù)據(jù),如何設計高效的內(nèi)存架構(gòu),包括內(nèi)存容量、內(nèi)存帶寬、內(nèi)存訪問延遲等方面的優(yōu)化,對于GPU的性能和功耗控制都至關重要。在GPU集群中,各個節(jié)點之間的通信非常重要。為了提高通信效率和減少延遲,GPU架構(gòu)設計需要支持低延遲通信機制,如RDMA(Remote Direct Memory Access)等。

(5)硬件加速器設計:為了進一步提高GPU的性能,GPU中還可以集成各種硬件加速器,如Tensor Core、Ray Tracing等,用于加速機器學習、圖像處理、物理模擬等任務。

(6)軟件支持,高性能GPU的軟件支持也非常重要,包括編程模型、編譯器、調(diào)試器等方面的技術支持,能否為程序員提供友好的編程環(huán)境和高效的開發(fā)工具也是高性能GPU是否能夠被廣泛應用的重要因素。

(7)線程調(diào)度技術,線程調(diào)度是高性能GPU中的一個重要問題,如何通過優(yōu)秀的線程調(diào)度算法,合理地分配線程資源,充分發(fā)揮GPU的并行處理能力,是GPU架構(gòu)設計中的一個關鍵技術點。面對不同的應用和資源需求,為了更好地管理計算資源,為線程分配資源,目前主要有先到先服務 (FCFS) 、輪詢(RR)、優(yōu)先級調(diào)度(PSA)和最短線程優(yōu)先 (SJF) 調(diào)度算法。

(8)錯誤容忍機制,由于高性能GPU通常用于高性能計算和圖形渲染等關鍵任務,因此必須具備高可靠性和容錯能力。設計錯誤容忍機制,如冗余電路和錯誤檢測與糾正等技術,對于提高GPU的可靠性和容錯能力非常重要。

(9)能耗優(yōu)化技術,為了滿足綠色環(huán)保的需求,同時降低成本和延長電池壽命,GPU架構(gòu)設計需要采用一系列能耗優(yōu)化技術,如低功耗模式、動態(tài)電壓調(diào)節(jié)和溫度管理等技術。

(10)機器學習支持,機器學習已經(jīng)成為計算機領域的一個重要研究方向,GPU架構(gòu)設計需要考慮如何支持機器學習算法和應用,例如設計高效的矩陣乘法運算單元、加速深度學習模型訓練等。

(11)安全性設計,GPU被廣泛應用于數(shù)據(jù)中心和云計算環(huán)境,安全性設計成為了GPU架構(gòu)設計的一個重要考慮因素。GPU架構(gòu)需要具備安全性防護機制,例如硬件加密、安全啟動、身份驗證等技術。

(12)新型內(nèi)存設計,高性能GPU需要處理大規(guī)模數(shù)據(jù)和圖形,因此內(nèi)存設計對于GPU性能的影響非常大。新型內(nèi)存技術,如HBM(High Bandwidth Memory)、GDDR6和DDR5等,能夠提供更高的內(nèi)存帶寬和更低的訪問延遲,對于提高GPU性能具有重要作用。

(13)片上網(wǎng)絡設計,隨著GPU芯片核心數(shù)量的不斷增加,如何在芯片內(nèi)部實現(xiàn)高效的核心互連網(wǎng)絡,是GPU架構(gòu)設計中的一個重要問題。片上網(wǎng)絡設計需要考慮網(wǎng)絡拓撲結(jié)構(gòu)、流量調(diào)度算法等方面的優(yōu)化。

(14)異構(gòu)計算支持,隨著異構(gòu)計算技術的發(fā)展,GPU架構(gòu)設計需要支持異構(gòu)計算,能夠協(xié)同運行與CPU、FPGA等計算設備配合完成復雜的計算任務,提高整體計算能力。

(15)性能分析與優(yōu)化技術,GPU的應用涉及的場景非常廣泛,性能分析和優(yōu)化成為了GPU架構(gòu)設計中的一個非常重要的環(huán)節(jié)。通過使用性能分析工具,對GPU架構(gòu)進行深入分析,優(yōu)化GPU硬件和軟件設計,以達到更高的性能和更好的用戶體驗。

(16)標準與生態(tài)建設,標準化和生態(tài)建設是GPU應用普及和發(fā)展的重要支撐。比如,GPU的編程語言CUDA和OpenCL都是由廠商提出的專有技術,這限制了GPU應用的普及,需要推動標準化和開放的生態(tài)建設,提高GPU的通用性和兼容性。

(17)可編程性設計,可編程性是GPU架構(gòu)設計中的一個重要考慮因素?,F(xiàn)代GPU采用可編程架構(gòu),可以靈活支持不同的應用和算法。因此,在GPU架構(gòu)設計中需要重視可編程性設計,提高GPU的靈活性和適應性。

(18)可擴展性設計,GPU的應用場景不斷拓展,如何設計可擴展性強的GPU架構(gòu)成為一個重要問題。通過采用模塊化設計、分層設計等技術,實現(xiàn)GPU的可擴展性設計,以應對未來不斷擴大的GPU應用場景。

2 兆芯/格蘭菲的GPU設計

格蘭菲(Glenfly)是上海兆芯(Zhaoxin)旗下的GPU設計公司,成立于2020-12-29,早期人員來源于2001年成立的旭上電子(S3 Graphics 中國分部)。該公司的主要業(yè)務是開發(fā)和銷售高性能GPU以及屏幕驅(qū)動,面向計算機游戲、人工智能、數(shù)據(jù)中心等領域。

S3 Graphcs/VIA 時期的GPU架構(gòu)

如今的顯卡業(yè)界是NVIDIA、AMD、Intel的天下,提起S3 Graphics,很多的新人也許根本不了解,但對于資歷較老的DIY玩家來說,S3依舊是記憶中無法抹去的一筆,在2D時代,S3是當時無可爭議的顯卡霸主,trio64v+和trio64v2,使S3獲得了空前的成功,也為在3D領域的率先嘗試做下了鋪墊。在那個年代S3占據(jù)了90%的的市場份額,隨后S3公司推出的第一代“3D加速卡芯片”的代表作S3 Virge也給不少玩家留下了頗深的印象,S3創(chuàng)造了顯卡史上一次又一次的輝煌。

S3 Graphics成立于1989年,在90年代中前期、3D時代來臨前,稱霸了顯卡市場。在1994年,S3 Graphics憑借卓越的2D加速性能,壓倒了競爭對手Trident成為市場的領跑者,是第一個真正意義上的霸主。Trio64V+(S3 765)這塊2D顯卡相信老玩家都使用過,可以說是當時兼容機的標配。

當圖形技術進入以3D為主導的時代后,S3 Graphics漸漸跟不上技術發(fā)展的節(jié)奏。S3 Virge是S3 Graphics第一款支持3D加速的顯卡,但性能實在不敢恭維。倉促投入戰(zhàn)場的Savage 3D雖然規(guī)格上并不差,是第一款128bit的圖形顯示芯片,支持Direct3D和OpenGL,S3TC技術開創(chuàng)了材質(zhì)無損壓縮的先河,MPEG-2回放無論質(zhì)量和速度都很給力,但性能上抵擋不住各路競爭對手的進攻。雖然S3 Graphics得到了英特爾的支持,但隨后推出的Savage 4也只能靠性價比占據(jù)部分市場。

S3 Graphics推出的Savage 2000是市場上第二款支持T&L的產(chǎn)品,僅次于英偉達的GeForce 256,但是這款產(chǎn)品繼承了S3 Graphics驅(qū)動程序問題,各種bug讓用戶苦不堪言,而且不能盡情發(fā)揮其性能。

威盛在2000年收購了S3 Graphics,S3公司表示退出桌面顯卡領域,將主要精力放到了移動市場以及VIA的集成顯示芯片上,并依次推 出了Super Savage、Pro Savage和Savage XP等面向移動領域的顯示芯片。

S3 Graphics在2004年推出了DeltaChrome S8系列,維持了一定的市場份額,不過驅(qū)動問題仍然嚴重困擾著S3 Graphics。

在進入PCI-E時代以后,2005年,S3發(fā)布了其PCI-E平臺的第一款產(chǎn)品GammaChrome S18,并冠之以同前輩相同的命名——野人。

2008年2月27日,S3正式發(fā)布新一代酷龍“Chrome ”系列GPU,包括S3 Chrome 430GT/440GTX/530GT,重新殺入獨立顯卡市場。Chrome為我們帶來更多驚喜:DX10.1、SM4.1、統(tǒng)一渲染架構(gòu)、PCI-E 2.0、HDCP、HDMI、HDTV硬解碼、核心/流處理器異步、PowerWise節(jié)能,從規(guī)格及參數(shù)方面來看絲毫不遜色于NVIDIA及AMD同級別GPU產(chǎn)品。但在2009年發(fā)布Chrome 540 GTX 打平N卡的上代低端卡 9400GT 以后就一直沉寂。

VIA 2001年將S3 Graphics收至麾下,2011年被賣到HTC,開始研發(fā)與ARM處理器配套手機圖形處理器和嵌入式圖形處理器,再到2013年兆芯成立,將其在國內(nèi)的研發(fā)團隊一并收購,得以繼續(xù)研發(fā)。


2013-2018年 兆芯/格蘭菲 的早期GPU架構(gòu)

2016年發(fā)布的ZX-100S芯片組中的C-320 GPU是2011年 VX-11芯片組中的C-645/640 GPU的國產(chǎn)版本。兆芯為CPU發(fā)展出了配套的基于Excalibur 架構(gòu)的圖形處理器,并集成在ZX-100S芯片組、C-860/960核顯內(nèi)。

所有兆芯桌面 集成GPU C-320 (ZX-100S芯片組的集顯)、C-860/C-960(KX5000/6000系列的 核顯)都是來自 VX11(PH) 的 Chrome 640/645 (C-640/C-645) 的近似衍生產(chǎn)品,都基于 Excalibur GPU微架構(gòu)。在 ARM SoC中的Elite GPU 基于 S3G IP,但它不是 Excalibur。

而在Arm soc上,兆芯的Elite1000圖形處理器的性能基本達到了英特爾桌面產(chǎn)品HD GRAPHICS的水平,部分性能優(yōu)于它。其主要特色在于內(nèi)置了很多硬解碼的功能模塊,嵌入了眾多的音視頻解碼功能,可以輕松播放各類1080p全高清視頻,兆芯處理器的Elite1000圖形核心已經(jīng)被移植到了全上海的機頂盒里,也從側(cè)面證明它具備優(yōu)異的視頻播放性能。

兆芯的ZX-2000是發(fā)布于2015年,應用于4K超高清智能機頂盒等產(chǎn)品上的處理芯片,它采用ARM Cortex-A17架構(gòu),四核1.6GHz,其數(shù)據(jù)處理能力高達220DMIPS。其搭載的GPU也由兆芯自主研發(fā),擁有60GFlops的浮點計算能力。

兆芯ZX-2000 支持硬解4K、2K 60幀,可實時硬解H.265視頻以及完美支持HDMI 2.0。ZX-2000提供了對HEVC(H.265) 4Kx2K@60fps解碼的支持,為4K超高清視頻和主流3D游戲做了特別優(yōu)化,同時擁有H.264 1080P@60fps視頻編碼能力,對視頻內(nèi)容的無損壓縮率達70%,安兔兔跑分為31572。

GFXBench是專門針對GPU的測試軟件,其中曼哈頓(Mantattan)"測試場景對GPU最為敏感,可以深入地檢驗GPU性能。在ZX-2000上的測試結(jié)果是392.5Frames(6 fps)。約等于同時期 手機上的 mali-t720,adreno 306/405,以及 lntel HD Graphics for BayTrail、AMD E-350 上的 HD 6310。

Elite1000圖形處理器的GPU架構(gòu)基于王淵峰帶領的國內(nèi)團隊在 VIA的旭上電子時期 與其它S3分部合作開發(fā)的 酷龍(Chrome 400/500 Destination 架構(gòu) 和 Chrome 640/645 Excalibur 架構(gòu))圖形處理器架構(gòu),在其基礎上更新了一些功能,降低了功耗。

2016年的帶有 Elite 2000S1 GPU 的 ZX-2800AI是一個arm和mips混合架構(gòu)的soc,集成神經(jīng)網(wǎng)絡處理器,相比zx-2000支持opengl es 3.1 但圖形支持并不完善,但硬件加密模塊做得還行 .在elite2000 開發(fā)版上的Mantattan測試結(jié)果是1155 Frames(18.6 Fps)。


2018-2022年的 Arise 1系列GPU的架構(gòu)

而在Arise1 GT-10C0上,據(jù)悉這款GPU在elite2000的基礎上繼續(xù)提高了流處理器、TMU貼圖單元、ROG光柵處理單元的規(guī)模,從而增強圖形處理器的3D性能。它也被稱為elite3000,它的前身的馬甲版是2018年流片的中傳重工716所的 JARI G12。由海軍出資扶持。

Arise-GT-10C0 推測是1536sp, 24 cu,600Mhz , 類似GTX750Ti的浮點計算性能,但實際上是顆低頻中大核心。類似于AMD HD 7950,這款GPU架構(gòu)在設計上對標GCN 1.0,這并不是一個適合游戲的架構(gòu),而是更多考慮通用計算場景的架構(gòu)。

elite3000架構(gòu)的核心構(gòu)件是處理器陣列 或稱 計算單元(CU),如下圖所示。

現(xiàn)代圖形處理器(graphics processing unit,GPU)中包括大量的執(zhí)行單元,用于動態(tài)計算各種著色程序,從而可以利用GPU的多線程多執(zhí)行單元的特點,實現(xiàn)并行計算加速。GPU中的線程稱作Wave,包含多個子單元(lane),CPU能夠把所有l(wèi)ane打包,以單指令流多數(shù)據(jù)流(SIMD)的方式進行讀寫和計算;通常,CPU會將32個或者64個lane打包為一個GPU線程Wave,稱作simd32、simd64的wave/wavefront。

每2組CU共享一個指令緩存。每組CU有一個多線程控制器,被由四個SIMD單元共享。多線程控制器下發(fā)的指令會被轉(zhuǎn)發(fā)到SIMD單元的指令緩存(IC)。每個IC有用來處理wavefront的存儲空間,為了隱藏延遲,SIMT機制要求指令可在SIMD單元中進行切換,CU通過以下方式處理wavefront,命令流解釋器從驅(qū)動程序哪里接受圖形指令,將指令存到L2緩存中,任務生成器從緩存中提取指令生成不同的wave32線程束分派到每個TPC上某個CU的L1緩存。在每個時鐘周期,當前CU上的所有wavefront都會被考慮發(fā)出指令,每個執(zhí)行端口最多可以發(fā)出一條指令。

每個SIMD單元有16個通用計算單元(流處理器),每個流處理器有2個算術邏輯單元(ALU),每SIMD單元還有8個讀寫和特別函數(shù)單元(用來讀寫指令 以及 處理三角函數(shù)等非加減乘除運算),4個運行態(tài)線程。

每個SIMD單元執(zhí)行32個線程的指令,這稱為一個wavefront。每個SIMD單元每個時鐘周期可以發(fā)出一條單精度浮點指令。由于該架構(gòu)處理每個SIMD單元32個線程的wavefront,所以需要2個時鐘周期才能完全發(fā)出一個wavefront。

上圖頂部是全局任務動態(tài)任務分配。

然后是三個圖形處理集群(GPC).

命令流解析器進行全局動態(tài)任務分配,將驅(qū)動接受到的圖形處理任務調(diào)度到GPU的圖形流水線和計算引擎上,以便及時利用空閑GPU資源。

每個GPC,有4個由兩個CU組成的工作組 或稱 紋理處理集群(WGP/TPC),一個任務生成器。任務生成器提取L2 緩存中的指令,分發(fā)給該GPC的每組CU。

GPC需要盡快分配任務給CU。將計算任務調(diào)度到計算引擎上。任務生成器和多邊形引擎可以并行工作,這樣可以提高利用率,因為任務可以從不同的隊列交錯進行。工作可以從任何隊列中打補丁,而無需等待其他工作完成,這意味著獨立的任務可以同時在計算引擎上執(zhí)行。GPC們可以通過緩存或內(nèi)存進行同步。

從圖中可以看出,Elite.3000有三個GPC。每個圖形處理器集群(GPC)有4個TPC 共 8個CU,加起來一共有24個CU。

GPC具有幾何引擎和光柵化器。幾何引擎包括幾何裝配器、鑲嵌單元和頂點裝配器、圖元(Primitive)著色器。圖元(Primitive)著色器的理念是實現(xiàn)更靈活的幾何處理和更快的圖元剔除。圖形處理上結(jié)合了sort-middle和sort-last架構(gòu)的優(yōu)點,這也是tile緩存的目標。圖像在屏幕空間中被劃分為瓦片(tile),經(jīng)過幾何處理后,每個圖元(Primitive)被分配到它們重疊的tile上。在光柵化tile的過程中,所有需要的數(shù)據(jù)(如tile緩沖區(qū))都保存在L2緩存中,從而提高了性能。像素著色可以自動推遲,直到tile中的所有幾何體被處理完畢。

格蘭菲/兆芯公司的新GPU架構(gòu)采用了TBDR(Tile-Based Deferred Rendering)架構(gòu),與幾年前用在低功耗領域的TBR(Tile-Based Rendering)架構(gòu)不同。TBDR架構(gòu)類似于英偉達的Maxwell架構(gòu),具有高能效比,適用于桌面端顯卡的GPU架構(gòu)設計。Maxwell架構(gòu)也基于TBDR架構(gòu),它將屏幕分割成小的瓦片,在每個瓦片上執(zhí)行渲染操作,最后將瓦片合并成完整的圖像。這種方式可以提高渲染效率并減少內(nèi)存帶寬需求。TBDR架構(gòu)通過延遲深度測試和像素著色來減少內(nèi)存訪問,提高渲染效率。它對所有可見的幾何圖形進行深度測試,并在像素著色時只需訪問保存在緩存中的像素數(shù)據(jù),而不必再次訪問內(nèi)存。TBDR架構(gòu)的好處包括減少內(nèi)存帶寬和訪問延遲,提高圖形渲染效率,并能更好地處理特殊效果如透明和反射。為了實現(xiàn)TDBR架構(gòu),解決存儲器數(shù)據(jù)流量的問題,一種新的繪圖處理方法被提出,該方法利用命令流解析器和顯示驅(qū)動程序來控制圖塊的繪制處理,并通過高速緩存存儲器的簽名比較單元決定是否刷新存儲器存取單元中的更新數(shù)據(jù),從而減少數(shù)據(jù)刷新次數(shù)和存儲器數(shù)據(jù)流量。這種方法能夠提高繪圖處理的效率。

GT10C0 看起來是elite3000架構(gòu)的極限堆料規(guī)模,GT1020和 GT1040來自同一個Die,面積為約90mm2。GT10C0的Die面積為322mm2,GT1040和GT1020的Die 只有一組GPC,4組TPC、8個CU,而GT1020在GT1040基礎上進行了閹割,一組GPC,只剩下2組TPC、4個CU。

DX12新架構(gòu)

KX-6000G的 C-1080是 256 sp, 2 cu, 0.5Ghz. 支持DX12.1。

該架構(gòu)具有放大著色器(AS)和網(wǎng)格著色器(MS)

并對多線程Draw Call命令隊列進行了并行命令流解析,以提高DX12 多線程命令隊列的處理速度。

同時將線程并行機制變成RDNA風格的SIMD 32或SIMD 64,寄存器文件數(shù)量翻倍,在每個CU里運行態(tài)線程從四個變成八個,可以并發(fā)更多的wave??墒褂肈X12中的樣板模式構(gòu)造Computer Shader線程,降低了構(gòu)造開銷。


對于KX-6000G這款 1 TPC/WGP, 2 CU ,256sp、 512alu的核顯,具有 線程寄存單元(WVR,Wave Register Unit)、線程調(diào)度單元(WVC,Wave Controller)、計算單元(ALU)、指令緩存(IC,Instruction Cache)以及輸入輸出單元(INOUT)。

每個CU具有1個WVR用于暫存線程wave的中間數(shù)據(jù),每個wave包含多個子單元lane,能夠以SIMD(Single Instruction Multiple Data,單指令流多數(shù)據(jù)流)模式進行讀寫和計算;每個WVR可存儲8個wave的中間數(shù)據(jù);WVC是管理和調(diào)度每個線程的控制單元,包括選擇線程、取指、譯碼、發(fā)射等步驟;需要在每個時鐘周期按照優(yōu)先級從8個wave中選擇一個合適的wave,發(fā)送取指指令、對返回的指令譯碼、發(fā)送指令到ALU執(zhí)行等過程;ALU執(zhí)行單元的核心部件,完成線程wave的計算功能,每1個時鐘周期處理1個Wave 32或每兩個時鐘周期處理1個Wave 64,能夠以SIMD的方式同時處理多個lane的計算;計算結(jié)果將寫入到WVR或者通過INOUT輸出;其中,IC根據(jù)請求的指令偏移為每個線程wave讀取指令,它是一種高速緩存,包含緩存空間、匹配控制邏輯、Tag單元等部分,緩存空間組織為多個緩存行的形式進行管理。其中,INOUT用于線程wave通過INOUT從外部內(nèi)存讀取輸入數(shù)據(jù)、采樣紋理、存儲計算結(jié)果等操作。緩存空間組織為多個緩存行的形式進行管理。

WVR按照預先設置的優(yōu)先級順序,選擇一個線程wave向IC發(fā)出指令讀取請求,該指令讀取請求用于從IC中讀取WVR選擇的線程wave對應的緩存數(shù)據(jù)。

GPU中的著色程序經(jīng)過編譯器調(diào)用后,得到可以直接在GPU上執(zhí)行的指令集合,稱作著色指令程序。其中,每條著色指令程序由多條指令組成,每個指令對應一個線程wave。對于游戲應用,著色器指令大多為每周期兩個wave,對于科學計算和人工智能任務 大多為4個 .


在緩存結(jié)構(gòu)上,格蘭菲的新架構(gòu)進行了大改動,新的緩存系統(tǒng)具有在每2CU的WGP獨占的L0緩存、在Array/GPC 中獨占的L1緩存、共享的L2緩存,以及緩存DRAM中圖形數(shù)據(jù)的L3緩存,這類似于RDNA,這是一個相比前代相當進步的緩存體系。

結(jié)語

雖然格蘭菲的DX12新架構(gòu)相比前代具有很多現(xiàn)代GPU的特性,例如 支持更現(xiàn)代的圖形API(DX12)、擴展性更好、配置靈活的GPU架構(gòu)布局、更優(yōu)秀的緩存系統(tǒng)、更低的驅(qū)動開銷和更高的線程并行效率。

這些優(yōu)點使它足以與當今使用IMG核心的國內(nèi)GPU廠商進行市場競爭,但他并不支持光線追蹤和超采樣,在架構(gòu)規(guī)模上只是放出了最小規(guī)格的產(chǎn)品,不足以看出他們能將GPU架構(gòu)規(guī)模提高到何種程度,而且他們在游戲適配上還有很長的路要走。這些不足讓這款GPU架構(gòu)只能成為RDNA 0.8。

并且時刻面臨著制裁、缺乏優(yōu)秀的代工廠、更低的資金投入、不足的人力,這些使它很難追上國際主流GPU廠商的腳步。

如上所述,這是一個國產(chǎn)版本的RDNA 0.8,希望格蘭菲的下一代獨顯能夠解決上述提到的一部分問題,讓Arise 2系列能夠真正流暢運行3A游戲。

編輯于 2023-07-18 02:24?IP 屬地湖南

圖形處理器(GPU)

國產(chǎn)顯卡

顯卡

評論千萬條,友善第一條


3 條評論

默認

最新

幻影坦克不請自來

dx12是api不是架構(gòu)

07-22?·?IP 屬地山東

回復贊

心城

格蘭菲的Arise2的顯卡,據(jù)說性能和規(guī)模估計和gtx1660ti max-q差不多,功耗約60w-70w,臺積電 12nm或16nm工藝,是個不需要獨立供電的辦公/娛樂卡,明年就可以見到。

07-11?·?IP 屬地湖南

回復贊

匆匆

好文章,渲染狀態(tài)應該也包含管線的狀態(tài),裁剪不僅僅有clip,也有cull,老哥覺得對么

06-21?·?IP 屬地上海


【轉(zhuǎn)】格蘭菲GPU架構(gòu)的發(fā)展 最新的DX12架構(gòu),中國的RDNA?的評論 (共 條)

分享到微博請遵守國家法律
盱眙县| 都安| 南平市| 宜宾市| 炎陵县| 衡东县| 郴州市| 正安县| 东明县| 都兰县| 内江市| 邯郸县| 安泽县| 天柱县| 类乌齐县| 三亚市| 崇仁县| 怀安县| 广安市| 沛县| 和政县| 屯昌县| 遵义市| 梨树县| 延边| 登封市| 白河县| 邵武市| 禹州市| 合水县| 崇明县| 白朗县| 赤峰市| 汤阴县| 剑阁县| 库车县| 定远县| 株洲县| 肇东市| 沂源县| 兰西县|