手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 科技 »學(xué)習(xí) » 一篇詳解ARM Cortex-A9處理器相關(guān)介紹!

一篇詳解ARM Cortex-A9處理器相關(guān)介紹!

2022-06-27 19:10 作者:補(bǔ)給站Linux內(nèi)核 0人讀過(guò) | 我要投稿

ARM Cortex-A9處理器相關(guān)介紹

Cortex-A9處理器基于先進(jìn)的推測(cè)型八級(jí)流水線，該流水線具有高效、動(dòng)態(tài)長(zhǎng)度、多發(fā)射超標(biāo)量及無(wú)序完成特征，這款處理器的性能、功效和功能均達(dá)到了前所未有的水平，能夠滿足消費(fèi)、網(wǎng)絡(luò)、企業(yè)和移動(dòng)應(yīng)用等領(lǐng)域產(chǎn)品的要求。
Cortex-A9微架構(gòu)可提供兩種選項(xiàng)：可擴(kuò)展的Cortex-A9 MPCoreTM多核處理器和較為傳統(tǒng)的Cortex-A9單核處理器?？蓴U(kuò)展的多核處理器和單核處理器,支持16、32或64KB四路組相聯(lián)一級(jí)緩存的配置，具有無(wú)與倫比的靈活性，皆能達(dá)到特定應(yīng)用和市場(chǎng)的要求。

特定應(yīng)用優(yōu)化:Cortex-A9和Cortex-A9 MPCore應(yīng)用級(jí)處理器都擁有豐富的功能，同時(shí)也承襲了ARMv7 架構(gòu)的強(qiáng)大優(yōu)勢(shì)，為特定應(yīng)用和通用設(shè)計(jì)提供了高性能、低功耗的解決方案。
先進(jìn)的微架構(gòu)：Cortex- A9微架構(gòu)的設(shè)計(jì)不但著眼于解決超高頻設(shè)計(jì)的效率低下問(wèn)題，而且把目標(biāo)定為在不增加嵌入式設(shè)備硅成本的前提下最大限度地提升處理效率。通過(guò)綜合技術(shù)，這種處理器設(shè)計(jì)能使設(shè)備的時(shí)鐘頻率超過(guò)1GHz，而且提供了較高的功效水平，滿足了長(zhǎng)時(shí)間電池供電工作的要求。

流水線性能：Cortex- A9處理器最主要的流水線性能包括以下幾條：第一，先進(jìn)的取指及分支預(yù)測(cè)處理，可避免因訪問(wèn)指令的延時(shí)而影響跳轉(zhuǎn)指令的執(zhí)行；第二，最多支持四條指令 Cache Line預(yù)取掛起，這可進(jìn)一步減少內(nèi)存延時(shí)的影響，從而促進(jìn)指令的順利傳輸；第三，每個(gè)周期內(nèi)可連續(xù)將兩至四條指令發(fā)送到指令解碼，確保充分利用超標(biāo)量流水線性能。Fast-loop模式：執(zhí)行小循環(huán)時(shí)提供低功耗運(yùn)行；第四，超標(biāo)量解碼器可在每個(gè)周期內(nèi)完成兩條完全指令的解碼；第五，支持指令預(yù)測(cè)執(zhí)行：通過(guò)將物理寄存器動(dòng)態(tài)地重新命名至虛擬寄存器池來(lái)實(shí)現(xiàn)。
第六，提升了流水線的利用效率，消除了相鄰指令之間的數(shù)據(jù)依賴性，減少了中斷延時(shí)；第七，支持寄存器的虛擬重命名：以一種有效的、基于硬件的循環(huán)展開(kāi)方法，提高了代碼執(zhí)行效率，而不會(huì)增加代碼大小和功耗水平；第八，四個(gè)后續(xù) 流水線中的任何一個(gè)均可從發(fā)射隊(duì)列中選擇執(zhí)行指令—提供了無(wú)序分配，進(jìn)一步提高了流水線利用效率，無(wú)需借助于開(kāi)發(fā)者或編譯器指令調(diào)度。確保專為上一代處理器進(jìn)行優(yōu)化的代碼能夠發(fā)揮最大性能，也維護(hù)了現(xiàn)有軟件投資。
第九，每周期支持兩個(gè)算術(shù)流水線、加載-存儲(chǔ)(load- store)或計(jì)算引擎以及分支跳轉(zhuǎn)的并行執(zhí)行；第十，可將有相關(guān)性load-store指令提前傳送至內(nèi)存系統(tǒng)進(jìn)行快速處理，進(jìn)一步減少了流水線暫停，大幅提高了涉及存取復(fù)雜數(shù)據(jù)結(jié)構(gòu)或C++函數(shù)的高級(jí)代碼的執(zhí)行效率；第十一，支持四個(gè)數(shù)據(jù)Cache Line的填充請(qǐng)求：而且還能通過(guò)自動(dòng)或用戶控制預(yù)取操作，保證了關(guān)鍵數(shù)據(jù)的可用性，從而進(jìn)一步減少了內(nèi)存延時(shí)導(dǎo)致的暫?，F(xiàn)象；第十二，支持無(wú)序指令完成回寫(xiě)：允許釋放流水線資源，無(wú)需受限于系統(tǒng)提供所需數(shù)據(jù)的順序。

【文章福利】小編推薦自己的Linux內(nèi)核技術(shù)交流群:【891587639】整理了一些個(gè)人覺(jué)得比較好的學(xué)習(xí)書(shū)籍、視頻資料共享在群文件里面，有需要的可以自行添加哦?。。。ê曨l教程、電子書(shū)、實(shí)戰(zhàn)項(xiàng)目及代碼)? ?

Cortex-A9 MPCore技術(shù)

Cortex-A9 MPCore多核處理器是一種設(shè)計(jì)定制型處理器，以集成緩存一致的方式支持1到4個(gè)CPU內(nèi)核?？蓡为?dú)配置各處理器，設(shè)定其緩存大小以及是否支持FPU、 MPE或PTM接口等。

此外，無(wú)論采用何種配置，處理器都可應(yīng)用一致性加速口，允許其他無(wú)緩沖的系統(tǒng)控制外設(shè)及加速器(如DMA引擎或加密加速器)核與一級(jí)處理器緩存保持緩存一致。另外還集成了一種符合GIC架構(gòu)的綜合中斷及通信系統(tǒng)，該系統(tǒng)配有專用外設(shè)，其性能和軟件可移植性都更上一層樓，適當(dāng)配置后，可支持0(legacy bypass 模式)到224個(gè)獨(dú)立中斷資源。這種處理器可支持單個(gè)或兩個(gè)64位AMBA3 AXITM互聯(lián)接口。

利用ARM MPCore技術(shù)的設(shè)計(jì)靈活性和先進(jìn)的功耗管理技術(shù)，Cortex-A9 MPCore的針對(duì)性應(yīng)用能夠在有限的功耗下維持移動(dòng)設(shè)備的正常運(yùn)轉(zhuǎn)，從而為移動(dòng)設(shè)備帶來(lái)優(yōu)于現(xiàn)有解決方案的峰值性能。這種處理器充分利用了可擴(kuò)展峰值性能，在性能上超越了現(xiàn)有的同等高端嵌入式設(shè)備，并在更為廣闊的市場(chǎng)中維持了持續(xù)穩(wěn)定的軟件投資。

偵測(cè)控制單元(SCU)

SCU 是ARM多核技術(shù)的中央情報(bào)局，負(fù)責(zé)為支持MPCore技術(shù)的處理器提供互聯(lián)、仲裁、通信、緩存間及系統(tǒng)內(nèi)存?zhèn)鬏?、緩存一致性及其他多核功能的管理?/p>
同時(shí)，Cortex-A9 MPCore處理器還率先向其他系統(tǒng)加速器及無(wú)緩沖的DM A驅(qū)動(dòng)控制外設(shè)開(kāi)啟此類功能，通過(guò)處理器緩存層次的共享，有效地提高了性能、減少了整個(gè)系統(tǒng)的功耗水平。不僅如此，利用這種系統(tǒng)來(lái)維持每個(gè)操作系統(tǒng)驅(qū)動(dòng)中的軟件一致性，軟件復(fù)雜性就大大降低了。

加速器鏈接埠

這個(gè)與AMBA 3 AXI兼容的Slave接口位于SCU之上，為多種系統(tǒng)Master接口提供了一個(gè)互聯(lián)接口；出于總體系統(tǒng)性能、功耗或軟件簡(jiǎn)化等方面的考慮，最好直接將這些Master接口與Cor tex-A9 MPCore處理器相連。這是個(gè)標(biāo)準(zhǔn)的AMBA 3 AXI Slave接口，支持所有標(biāo)準(zhǔn)讀寫(xiě)事務(wù)，對(duì)所接部件無(wú)任何附加一致性要求。

然而，指向某個(gè)一致內(nèi)存區(qū)的讀取事務(wù)要與SCU發(fā)生作用，以檢測(cè)所需信息是否已經(jīng)存儲(chǔ)在處理器的一級(jí)緩存之中。若檢測(cè)出確已存儲(chǔ)，相應(yīng)信息將被直接返回給發(fā)出請(qǐng)求的組件。如果一級(jí)緩存中不存在該信息，在最終傳給主內(nèi)存之前也可能檢測(cè)二級(jí)緩存。對(duì)于指向一致內(nèi)存區(qū)的寫(xiě)入事務(wù)，SCU會(huì)在把寫(xiě)入事務(wù)傳送至內(nèi)存系統(tǒng)之前強(qiáng)制確保一致性。也可選擇性地將事務(wù)分配給二級(jí)緩存，以避免直接寫(xiě)入片外內(nèi)存所帶來(lái)的功耗及性能影響。

通用中斷控制器(GIC)

該 GIC采用了最近標(biāo)準(zhǔn)化和架構(gòu)的中斷控制器，為處理器間通信及系統(tǒng)中斷的路由選擇及優(yōu)先級(jí)的確定提供了一種豐富而靈活的解決辦法。最多支持224個(gè)獨(dú)立中斷，通過(guò)軟件控制，可在整個(gè)CPU中對(duì)每個(gè)中斷進(jìn)行分配、確定其硬件優(yōu)先級(jí)并在操作系統(tǒng)與信任區(qū)軟件管理層之間進(jìn)行路由。這種路由靈活性加上對(duì)中斷虛擬進(jìn) 入操作系統(tǒng)的支持，是進(jìn)一步提升基于半虛擬化管理器解決方案功能的關(guān)鍵因素之一。

先進(jìn)的總線接口單元

Cortex-A9 MPCore處理器增強(qiáng)了處理器與系統(tǒng)互聯(lián)之間的接口性能，其先進(jìn)特色功能最大限度地提高了系統(tǒng)性能，為各種系統(tǒng)集成芯片設(shè)計(jì)理念創(chuàng)造了更大的靈活性。
這種處理器支持單個(gè)或兩個(gè)64-b i t AMBA 3 AXI Master接口的設(shè)計(jì)配置，可以按CPU的速度全負(fù)荷地將事務(wù)傳送至系統(tǒng)互聯(lián)之中，最高速度可達(dá)12G B/s以上。另外，第二接口也可定義某種事務(wù)過(guò)濾，只處理全局地址空間的一部分；也就是說(shuō)，可在處理器內(nèi)部直接對(duì)地址空間進(jìn)行切分，進(jìn)一步加強(qiáng)了系統(tǒng)設(shè)計(jì) 的靈活性。
而且每個(gè)接口還支持不同的CPU-總線頻率比(包括同步半時(shí)鐘比)，不但提高了設(shè)計(jì)靈活性，而且為需要考慮DVFS或高速集成內(nèi)存的設(shè)計(jì)增加了系統(tǒng)帶寬。同時(shí)為完整的A RM智能能量管理 (IEM)功能提供了良好的支持。

特定應(yīng)用的計(jì)算引擎加速

處理器不但擁有優(yōu)化的標(biāo)準(zhǔn)架構(gòu)特色，而且還可增加以下任一設(shè)計(jì)功能：

先進(jìn)二級(jí)緩存控制器：ARM二級(jí)緩存控制器(PrimeCell PL310)與Cortex-A9系列處理器同步設(shè)計(jì)，旨在提供一種能匹配Cortex-A9處理器性能和吞吐能力的優(yōu)化二級(jí)緩存控制器。PL310最多可為每個(gè)接口提供8項(xiàng)AXI事務(wù)支持，支持按Master接口進(jìn)行鎖定；這樣一來(lái)，即通過(guò)將PL310用作加速器與處理器之間的緩沖器，充分利用一致性加速口，實(shí)現(xiàn)多個(gè)CPU或組件之間的可控共享，既提升了系統(tǒng)性能，也降低了相關(guān)功耗水平。
另外，PL310不但具有Cortex-A9先進(jìn)總線接口單元的各項(xiàng)功能，支持同步1/2時(shí)鐘比，有助于減少高速處理器設(shè)計(jì)中的延時(shí)現(xiàn)象，而且能夠?qū)Φ诙﨧asterAXI 接口設(shè)置地址過(guò)濾，分割地址和頻率域、以及集成片上內(nèi)存的快速存取提供了支持。PL310最高可支持2MB的四至十六路組相聯(lián)二級(jí)緩存，可與奇偶校驗(yàn)及支持E C C的R A M集成，而且運(yùn)行速率能夠與處理器保持一致。而先進(jìn)的鎖定技術(shù)也提供了必要的機(jī)制，從而將緩存用作相關(guān)性加速器和處理器之間的傳輸RAM。
Cortex-A9 程序跟蹤宏單元(PTM)：Cortex-A9 PTM為兩款Cortex-A9處理器提供了兼容ARM CoreSight技術(shù)的程序流跟蹤功能，能夠?qū)μ幚砥髦械膶?shí)際指令流實(shí)現(xiàn)完全可視化的管理。Cortex-A9 PTM通過(guò)周期計(jì)數(shù)實(shí)施性能分析，可對(duì)所有代碼分支和程序流變動(dòng)進(jìn)行跟蹤管理。

Tegra 2GeForce處理內(nèi)核相關(guān)介紹

Tegra 2之所以強(qiáng)大除了采用兩顆頻率高達(dá)1Ghz的Cortex-A9處理器之外，另外一個(gè)非常重要的原因就是它在手持設(shè)備中引入了強(qiáng)大的Geforce處理器，借助于Geforce處理器的強(qiáng)大性能，可以為T(mén)egra 2提升3D圖形性能以及加速網(wǎng)頁(yè)瀏覽等諸多功能。下面我們就來(lái)說(shuō)說(shuō)Tegra 2里面非常重要也非常強(qiáng)大的Geforce處理器。

Tegra 2的GeForce內(nèi)核實(shí)現(xiàn)了功能強(qiáng)勁的管線頂點(diǎn)和像素處理架構(gòu)，可通過(guò)各種特性降低功耗和提高圖形質(zhì)量，支持下一代移動(dòng) 3D 游戲、流暢的高清視頻播放、在線 Flash 游戲性能和高度響應(yīng)的移動(dòng) GPU 加速用戶界面，而不會(huì)影響移動(dòng)電源預(yù)算。

OpenGL ES 2.0 圖形處理管線

OpenGL ES 是一個(gè)標(biāo)準(zhǔn)的應(yīng)用程序編程接口 (API)，開(kāi)發(fā)人員可使用它為智能電話、平板設(shè)備和便攜式游戲設(shè)備等移動(dòng)設(shè)備編寫(xiě)圖形應(yīng)用程序。OpenGL ES API是桌面OpenGL API 規(guī)范的一個(gè)子集，并且在圖形應(yīng)用程序和 GPU 硬件之間定義了一個(gè)靈活而強(qiáng)大的低級(jí)接口。最新的 OpenGL ES 2.x 規(guī)范針對(duì)完全可編程的現(xiàn)代 GPU 管線，并將 API 的所有固定函數(shù)元素替換為可編程著色。大多數(shù)移動(dòng) GPU 架構(gòu)均采用OpenGL ES API 標(biāo)準(zhǔn)，并且主要根據(jù)OpenGL ES API 的定義來(lái)實(shí)現(xiàn)邏輯處理管線。

為了顯示游戲或圖形應(yīng)用程序中定義的場(chǎng)景，應(yīng)用程序開(kāi)發(fā)人員必須先使用3D建模軟件創(chuàng)建各種3D對(duì)象和角色模型。每個(gè)對(duì)象和角色都可以由數(shù)百、數(shù)千甚至數(shù)百萬(wàn)個(gè)相互連接的三角形網(wǎng)格構(gòu)成，具體取決于所需的幾何真實(shí)水平。

接下來(lái)3D游戲軟件或其他3D應(yīng)用程序可以使用這些模型，并將它們置于模擬的3D場(chǎng)景或“3D世界”中。3D世界通過(guò)XYZ坐標(biāo)系定義，并且3D對(duì)象或角色將放置在3D世界的特定位置上。對(duì)象中的每個(gè)三角形都由它的三個(gè)頂點(diǎn)定義，并且每個(gè)頂點(diǎn)都由代表其屬性的一組數(shù)值構(gòu)成，這些屬性包括在3D世界中的XYZ位置、顏色值 (RGB)、阿爾法透明度、紋理坐標(biāo)、法線等。隨后，定義對(duì)象特定部分的頂點(diǎn)集將分組到一個(gè)頂點(diǎn)緩沖區(qū)中，后者類似于原始頂點(diǎn)流。
3D軟件會(huì)向GPU驅(qū)動(dòng)程序發(fā)起一個(gè)OpenGL ES調(diào)用，指向共享系統(tǒng)內(nèi)存中的頂點(diǎn)緩沖區(qū)位置，從而允許 GPU 直接訪問(wèn)和處理數(shù)據(jù)。OpenGL管線的原型處理階段發(fā)生在GPU中，并且會(huì)將傳入頂點(diǎn)數(shù)據(jù)轉(zhuǎn)換為可供GPU使用的格式和組織。隨后，頂點(diǎn)會(huì)傳遞至Vertex著色器；這時(shí)，頂點(diǎn)著色器程序可以運(yùn)行各種矩陣轉(zhuǎn)換和光照計(jì)算，以便將頂點(diǎn)移至新的X、Y和Z位置，或者改變燈光值等屬性。
轉(zhuǎn)換后的頂點(diǎn)將被組裝為原型，然后光柵化階段會(huì)將原型轉(zhuǎn)換為像素片段，為像素著色器階段做準(zhǔn)備?，F(xiàn)在，像素片段處于2D屏幕空間格式。像素著色階段將運(yùn)行像素著色器程序來(lái)處理每一個(gè)像素，并且可能會(huì)應(yīng)用新的照明或顏色值、應(yīng)用紋理或者執(zhí)行各種其他操作來(lái)計(jì)算應(yīng)用于像素的最終顏色值。
在典型的OpenGL管線中，隨后會(huì)對(duì)各個(gè)像素運(yùn)行Z緩沖測(cè)試，以確定是否比幀緩沖區(qū)中的相同屏幕位置中的已有像素更加接近觀眾的眼睛。如果確定新像素更加接近觀眾，它會(huì)取代幀緩沖區(qū)中的已有像素值，但如果它在已有像素后面，則會(huì)被丟棄。（注意：幀緩沖區(qū)可能位于與CPU共享的系統(tǒng)內(nèi)存空間中，或者可能位于專用內(nèi)存中，比如大多數(shù)獨(dú)立顯卡所使用的內(nèi)存）。
如果可見(jiàn)像素的 Alpha 值指示它是部分透明的，那么它將與相同屏幕位置的幀緩沖區(qū)中的已有像素相混合。如果啟用了抗鋸齒，那么可以通過(guò)修改像素的顏色值來(lái)創(chuàng)建更加平滑的邊緣，以便在寫(xiě)入幀緩沖區(qū)中之前減少鋸齒效果。

Tegra 2 GeForce處理架構(gòu)及功耗介紹

雙核處理器或許讓消費(fèi)者對(duì)于Tegra 2的功耗問(wèn)題比較擔(dān)心，而雙核處理器再加上GeForce內(nèi)核，頓時(shí)讓很多人對(duì)于Tegra 2的功耗問(wèn)題更加懷疑和關(guān)注。的確，現(xiàn)在手機(jī)續(xù)航時(shí)間短已經(jīng)成為智能手機(jī)的一個(gè)普遍現(xiàn)象，而Tegra 2同樣也繞不開(kāi)功耗的問(wèn)題，下面我們就來(lái)看看Tegra 2中的GeForce內(nèi)核架構(gòu)以及它如何實(shí)現(xiàn)功耗的控制。
GeForce架構(gòu)是一種固定函數(shù)管線架構(gòu)，包括完全可編程的像素和頂點(diǎn)著色器，以及一個(gè)先進(jìn)的紋理單元，可支持高品質(zhì)的各向異性過(guò)濾。

GeForce包含四個(gè)像素著色器內(nèi)核和四個(gè)頂點(diǎn)著色和內(nèi)核，專用于高速頂點(diǎn)和像素處理。GPU管線在像素管線中使用FP20數(shù)據(jù)精度的80位RBGA像素格式，在頂點(diǎn)管線中則使用FP32 精度的80位RBGA像素格式。它還實(shí)現(xiàn)了一種獨(dú)一無(wú)二和專有的各向異性過(guò)濾 (AF) 算法，該算法優(yōu)于許多臺(tái)式機(jī)GPU所使用的AF技術(shù)。該架構(gòu)支持各種高級(jí)特性，例如高動(dòng)態(tài)范圍 (HDR) 照明、多重渲染目標(biāo) (MRT)，并且兩種紋理支持均不會(huì)帶來(lái)功耗。該架構(gòu)同時(shí)支持 DXT 和 ETC 紋理格式。
雖然GeForce架構(gòu)是一種類似于OpenGL ES 2.0標(biāo)準(zhǔn)定義的管線架構(gòu)，但它還包含一些特殊特性和自定義功能，可顯著降低功耗并提供更高的性能和圖形質(zhì)量。Tegra 2移動(dòng)處理器中實(shí)現(xiàn)的一些獨(dú)特特性包括：

Early‐Z 支持，專用于過(guò)濾掉不可見(jiàn)的像素。
集成像素著色器 (Pixel Shader) 和混合單元 (Blend Unit)，可實(shí)現(xiàn)編程靈活性和更高的性能。
像素緩存、紋理緩存、頂點(diǎn)和屬性緩存，可減少內(nèi)存操作。
獨(dú)特的 5 倍覆蓋采樣抗鋸齒 (CSAA) 技術(shù)，可在更低的內(nèi)存帶寬下實(shí)現(xiàn)更高的圖像質(zhì)量。
高級(jí)各向異性過(guò)濾 (AF)，可實(shí)現(xiàn)高細(xì)節(jié)紋理。
內(nèi)部開(kāi)發(fā)的自定義內(nèi)存控制器，可提高 GPU 性能和降低功耗。
實(shí)現(xiàn)超低功耗的眾多電源管理功能。

Early–Z 技術(shù)

現(xiàn)代GPU使用Z緩沖（也稱作深度緩沖）來(lái)跟蹤該場(chǎng)景中的可見(jiàn)但由于被其他像素遮擋而不需要顯示的像素。每個(gè)像素在Z緩沖中都有相應(yīng)的Z信息。單一3D幀會(huì)經(jīng)過(guò)處理并轉(zhuǎn)換為2D圖像，以便在顯示器上顯示。該幀由從主機(jī)發(fā)送至GPU的頂點(diǎn)順序流構(gòu)成。多邊形將由頂點(diǎn)流組配而成，并且會(huì)生成和呈現(xiàn)2D屏幕空間像素。
在指定時(shí)間單元（如1/60秒）內(nèi)構(gòu)建單一2D幀的過(guò)程中，多個(gè)多邊形及其相應(yīng)像素可能會(huì)覆蓋相同的基于2D屏幕的像素位置。這經(jīng)常被稱作深度復(fù)雜性，并且現(xiàn)代游戲的深度復(fù)雜性可能達(dá)到 3、4 或者更高，即在覆蓋相同 2D 屏幕位置的幀中呈現(xiàn) 3 個(gè)、4 個(gè)或更多像素。
想象首次在頂點(diǎn)流中處理構(gòu)成某塊墻的多邊形（和由此產(chǎn)生的像素），以構(gòu)建場(chǎng)景。接下來(lái)，處理位于墻前面的一把椅子的多邊形和像素。對(duì)于特定的2D屏幕像素位置，觀眾最終只能看到一個(gè)像素，即椅子的像素或墻的像素。椅子離觀眾更近，因此會(huì)顯示它的像素。（請(qǐng)注意，某些對(duì)象可能是透明的，并且透明對(duì)象的像素可以與背景中已有的不透明或透明像素相混合，或者與之前幀的幀緩沖區(qū)中的已有像素相混合）。

OpenGL ES2.0 邏輯管線定義的針對(duì)各像素?cái)?shù)據(jù)的 Z 比較會(huì)在像素經(jīng)過(guò)像素著色器處理之后執(zhí)行。在像素著色處理之后評(píng)估像素的問(wèn)題在于，像素必須遍歷幾乎整個(gè)管線才能最終確定堵塞且需要丟棄的像素。對(duì)于擁有數(shù)百或數(shù)千處理步驟的復(fù)雜著色器程序，所有處理都浪費(fèi)在永遠(yuǎn)不會(huì)顯示的像素上！更重要的是，在移動(dòng)設(shè)備中，處理這些像素涉及 GPU 和共享系統(tǒng)內(nèi)存之間大量事務(wù)。由于系統(tǒng)內(nèi)存位于片外，因此內(nèi)存操作會(huì)顯著消耗電源并且會(huì)迅速耗盡電池電量。
GeForce中的Early‐Z實(shí)現(xiàn)是高端臺(tái)式GeForce中所使用的實(shí)現(xiàn)的優(yōu)化版本。Early‐Z操作會(huì)測(cè)試所有像素的Z深度并僅將可見(jiàn)像素傳遞給像素著色器塊。通過(guò)執(zhí)行Early‐Z操作，GeForce架構(gòu)會(huì)僅獲取通過(guò)Z測(cè)試的可用像素的Z值、顏色和紋理數(shù)據(jù)。Early‐Z效率極高，可準(zhǔn)確檢測(cè)出和丟棄隱藏像素。
Early‐Z處理的主要優(yōu)勢(shì)在于它不僅可通過(guò)減少GPU與片外系統(tǒng)內(nèi)存之間的內(nèi)存流量來(lái)顯著降低功耗，而且速度也要快于其他 Z 比較算法。大多數(shù)情況下，高效的Early‐Z都可以識(shí)別和丟棄隱藏像素。但在極少數(shù)情況下，對(duì)于一些特殊場(chǎng)景程序員可能需要在像素著色完成之后隱藏像素。對(duì)于這些極少數(shù)的情況，GeForce管線實(shí)現(xiàn)了一種后期階段深度計(jì)算，并混合于集成像素著色器和混合單元中。

像素和紋理緩存可減少內(nèi)存操作

傳統(tǒng)的OpenGL GPU管線指定紋理、深度、顏色等像素信息存儲(chǔ)在系統(tǒng)內(nèi)存（或幀緩沖存儲(chǔ)器）中。在像素處理階段，像素信息會(huì)在內(nèi)存之間來(lái)回移動(dòng)。這就需要在片外系統(tǒng)執(zhí)行大量?jī)?nèi)存操作，從而消耗大量電能。GeForce架構(gòu)實(shí)現(xiàn)了片上像素、紋理和屬性緩存，以及獨(dú)特的緩存管理算法，不僅可減少系統(tǒng)內(nèi)存操作，而且還可以最大限度地利用這些緩存。
像素緩存用于存儲(chǔ)像素的片上Z值和顏色值，并且適應(yīng)于所有重復(fù)訪問(wèn)的像素，比如用戶界面組件。此外，由于像素顏色和深度數(shù)據(jù)在許多其他圖形場(chǎng)景圖像中的良好空間及時(shí)間局部性，像素緩存可提供非常理想的緩存命中率，并且可降低訪問(wèn)系統(tǒng)內(nèi)存的需要。
紋理數(shù)據(jù)具有良好的空間和時(shí)間局部性。特定像素通常會(huì)在雙線性過(guò)濾等紋理過(guò)濾操作過(guò)程中使用許多相同的紋理元素（像素）作為相鄰像素，并且紋理經(jīng)常在圖像的至少一些幀中保持相同。因此，在片上緩存紋理數(shù)據(jù)有助于重用紋理數(shù)據(jù)以及顯著減少通過(guò)訪問(wèn)系統(tǒng)內(nèi)存來(lái)獲取紋理數(shù)據(jù)。

覆蓋面采樣抗鋸齒

鋸齒是出現(xiàn)在圖像上的鋸齒狀邊緣，而這些區(qū)域本應(yīng)顯示為流暢的線條或邊緣；抗鋸齒 (AA)技術(shù)在計(jì)算機(jī)圖形中用于讓這些鋸齒線條更加平滑。當(dāng)高清晰度圖像在較低分辨率的顯示器上顯示時(shí)，或者當(dāng)較高分辨率的圖像轉(zhuǎn)換為較低分辨率的圖像時(shí)便會(huì)出現(xiàn)鋸齒效果。
通常，GPU使用多重采樣抗鋸齒(MSAA)和超級(jí)采樣抗鋸齒(SSAA)技術(shù)減少鋸齒效果。在之前的抗鋸齒技術(shù)中，覆蓋面始終與“實(shí)際”采樣類型相關(guān)聯(lián)，而覆蓋面采樣與此不同。在SSAA中，每個(gè)實(shí)際采樣都有其獨(dú)特的顏色和Z值，并且在4xAA的情況下，著色器程序會(huì)運(yùn)行四次，并獲取四個(gè)紋理 ‐ 每個(gè)樣本一個(gè)紋理（或者在多紋理的情況會(huì)更多）。采用4xAA時(shí)，幀緩沖區(qū)要比未使用抗鋸齒時(shí)大四倍，并且會(huì)經(jīng)過(guò)向下過(guò)濾，以創(chuàng)建最終像素顏色。
CSAA可以將簡(jiǎn)單的覆蓋面采樣從顏色/z/模板/覆蓋面采樣中解耦出來(lái)，進(jìn)一步優(yōu)化抗鋸齒流程，從而較 MSAA和SSAA減少帶寬和存儲(chǔ)成本。CSAA 使用更多覆蓋面樣本來(lái)計(jì)算指定像素區(qū)域中的多邊形的覆蓋面水平，從而實(shí)現(xiàn)更高質(zhì)量的抗鋸齒效果，而不會(huì)由于處理額外的實(shí)際顏色和Z樣本而產(chǎn)生內(nèi)存和功耗成本。

高級(jí)各向異性過(guò)濾

各向異性過(guò)濾是一種用于提高表面上處于斜視角的紋理的圖像質(zhì)量的技術(shù)。通常，屏幕上的每個(gè)像素都需要從內(nèi)存的紋理貼圖中獲取多個(gè)紋理元素，經(jīng)過(guò)過(guò)濾并應(yīng)用于像素以改變其顏色。從正面看表面時(shí)（垂直于鏡頭或觀眾），通常會(huì)使用方形采樣模式為每個(gè)像素采樣同等數(shù)量的紋理元素。但是，在極端視角下（即屏幕上的圖像從一個(gè)軸延伸至另一軸），從紋理貼圖中為每個(gè)軸提取相同數(shù)量的樣本會(huì)導(dǎo)致紋理沿延伸至水平方向的軸出現(xiàn)模糊。

可以看到接近地平線處的跑道部分的紋理細(xì)節(jié)出現(xiàn)了模糊。各向異性過(guò)濾技術(shù)可以智能地沿該延伸軸采集更多的紋理樣本，并保留沿該軸的紋理細(xì)節(jié)。GeForce支持高達(dá)16倍各向異性過(guò)濾。它采用自適應(yīng)過(guò)濾算法和高效紋理緩存管理技術(shù)來(lái)提供高紋理質(zhì)量，同時(shí)不會(huì)顯著增加內(nèi)存操作。

優(yōu)化的內(nèi)存控制器

Tegra 2)處理器包括經(jīng)過(guò)全新設(shè)計(jì)的GPU和內(nèi)存控制器(MC)內(nèi)核，GPU內(nèi)核的性能極度依賴于MC交付帶寬的效率以及圖形處理延遲要求。由于GPU和MC均采用了內(nèi)部開(kāi)發(fā)，因此MC針對(duì)GeForce的特定需求進(jìn)行了高度調(diào)優(yōu)，同時(shí)還增強(qiáng)了GPU性能和降低了功耗。

MC控制器設(shè)計(jì)的一些關(guān)鍵優(yōu)化包括：
動(dòng)態(tài)時(shí)鐘速度控制(DCSC)：DCSC支持內(nèi)存控制器迅速提高工作頻率以響應(yīng)來(lái)自GPU內(nèi)核的高級(jí)指標(biāo)便于系統(tǒng)內(nèi)存訪問(wèn)，以及在 GPU 完成其內(nèi)存訪問(wèn)后將工作頻率迅速降低至節(jié)能水平。由于采用了嚴(yán)密的內(nèi)部設(shè)計(jì)流程，因此MC可以直接接入GPU內(nèi)核硬件，主動(dòng)預(yù)測(cè)GPU需求和管理其工作水平，以滿足GPU需求。
以GPU為中心的內(nèi)存仲裁：系統(tǒng)內(nèi)存是移動(dòng)處理器中最寶貴的資源之一。CPU、GPU、視頻和音頻等各種內(nèi)核都需要能夠以高帶寬、高度響應(yīng)性的形式訪問(wèn)系統(tǒng)內(nèi)存。MC實(shí)現(xiàn)了高級(jí)仲裁機(jī)制，可有效確保多個(gè)客戶端訪問(wèn)系統(tǒng)內(nèi)存。
MC內(nèi)核具有關(guān)于來(lái)自GPU客戶端的內(nèi)存訪問(wèn)請(qǐng)求的類型和緊急性的深入信息，并且實(shí)現(xiàn)了一種高度優(yōu)化的仲裁機(jī)制，可滿足呈現(xiàn)器和幾何請(qǐng)求對(duì)帶寬的苛刻要求，以及滿足對(duì)服務(wù)高優(yōu)級(jí)級(jí)延遲敏感的顯示和CPU請(qǐng)求在低延遲方面的苛刻要求。MC還掌握GPU內(nèi)核生成的各請(qǐng)求的優(yōu)先級(jí)的信息，并且可進(jìn)一步優(yōu)化其性能以滿足這些請(qǐng)求的需求。
GPU請(qǐng)求分組：片外系統(tǒng)內(nèi)存設(shè)備在任何特定時(shí)間都只能打開(kāi)特定數(shù)量的內(nèi)存條。當(dāng)內(nèi)存的請(qǐng)求訪問(wèn)區(qū)不包含在當(dāng)前打開(kāi)的內(nèi)存條中時(shí)，MC需要關(guān)閉當(dāng)前打開(kāi)的內(nèi)存條，然后激活包含所需內(nèi)存單元或區(qū)域的新內(nèi)存條。這一過(guò)程不僅會(huì)影響延遲和帶寬，同時(shí)對(duì)功耗的需要也較高。
GeForce掌握當(dāng)前的系統(tǒng)配置，并且會(huì)對(duì)訪問(wèn)模式進(jìn)行優(yōu)化，而不會(huì)發(fā)起多個(gè)不同的訪問(wèn)內(nèi)存子系統(tǒng)的不同部分中的隨機(jī)內(nèi)存條的內(nèi)存請(qǐng)求。GPU可以將訪問(wèn)相同內(nèi)存條的內(nèi)存請(qǐng)求組合在一起。MC控制器還可以根據(jù)內(nèi)存條訪問(wèn)模式對(duì)獨(dú)立內(nèi)存請(qǐng)求進(jìn)行重新排序。這些功能可以提供更加高效的內(nèi)存訪問(wèn)，并通過(guò)限制頻繁的內(nèi)存條切換來(lái)降低功耗。

高級(jí)電源管理

GeForce內(nèi)核實(shí)現(xiàn)了一些可降低功耗的高級(jí)電源管理技術(shù)，包括：

多層頻率門(mén)控：GPU實(shí)現(xiàn)了多層頻率門(mén)控，可在空閑狀態(tài)下關(guān)閉頻率。它使用一種系統(tǒng)級(jí)功率控制算法來(lái)控制Tegra 2處理器中的所有8個(gè)內(nèi)核的功率和頻率。當(dāng)功率控制邏輯檢測(cè)到空閑狀態(tài)的GPU內(nèi)核時(shí)，它會(huì)通過(guò)頻率門(mén)來(lái)控制送入GPU的主干線頻率，從而將GPU的動(dòng)態(tài)功耗有效限制至接近零毫瓦特的水平。當(dāng)功率控制器檢測(cè)到系統(tǒng)處于待機(jī)模式時(shí)，它會(huì)通過(guò)功耗門(mén)來(lái)控制GPU內(nèi)核，從而將其功耗降低至接近零的水平。
本地電源管理功能：GPU內(nèi)核具有一些電源管理功能，可進(jìn)一步降低功耗。它實(shí)現(xiàn)了一些功能級(jí)頻率門(mén)控機(jī)制，可通過(guò)頻率門(mén)來(lái)控制GPU內(nèi)核中的各種不同的空閑塊。例如，當(dāng)管線未執(zhí)行任何頂點(diǎn)著色任務(wù)時(shí)，頂點(diǎn)著色器會(huì)采用頻率門(mén)控并處于低功耗狀態(tài)，直到接收到下一個(gè)頂點(diǎn)著色命令為止。同樣，當(dāng)像素著色器正在處理數(shù)學(xué)計(jì)算等不需要獲取紋理的任務(wù)時(shí)，紋理單元可采用頻率門(mén)控。此外，如果 GPU 僅僅刷新設(shè)備顯示而非積極呈現(xiàn)，內(nèi)存控制器可以借機(jī)將系統(tǒng)內(nèi)存置于低功耗狀態(tài)。

顯示請(qǐng)求分組：GPU會(huì)對(duì)多個(gè)顯示請(qǐng)求進(jìn)行分組，并按批次向系統(tǒng)內(nèi)存發(fā)出這些要求。然后，GPU 向內(nèi)存控制器（通過(guò)計(jì)時(shí)器）通知下一個(gè)請(qǐng)求的時(shí)間。在發(fā)送GPU顯示請(qǐng)求之間的空閑期，內(nèi)存控制器會(huì)積極尋找機(jī)會(huì)將系統(tǒng)內(nèi)存置于低功耗狀態(tài)。
功耗優(yōu)化的晶體管設(shè)計(jì)：GeForce內(nèi)核還在晶體管級(jí)針對(duì)超低功耗進(jìn)行了優(yōu)化。非計(jì)時(shí)敏感的塊使用了低漏晶體管，而需要高速運(yùn)作的關(guān)鍵路徑則采用了速度更高的晶體管。因此GeForce內(nèi)核可以在不影響性能同時(shí)實(shí)現(xiàn)低功耗。
動(dòng)態(tài)電壓和頻率縮放(DVFS)：Tegra 2處理器還實(shí)現(xiàn)了一個(gè)先進(jìn)的芯片級(jí)DVFS技術(shù)，該技術(shù)在任何時(shí)候都可以控制六個(gè)主要系統(tǒng)時(shí)鐘的時(shí)鐘頻率，以及最多兩個(gè)電壓軌的電壓水平?？梢允褂密浖刂频脑O(shè)置來(lái)選擇在DVFS控制下的時(shí)鐘及電壓軌。
DVFS的基本原理是為各種處理單元采用不同的內(nèi)核頻率和電壓，從而控制功耗。半導(dǎo)體芯片的功耗與工作頻率成正比關(guān)系，同時(shí)也與工作電壓的平方成正比關(guān)系。當(dāng)處理器未處理任何任務(wù)時(shí)，頻率和電壓可降至較低水平，從而大大降低空閑功耗。當(dāng)Tegra 2中的8個(gè)內(nèi)核中的任何一個(gè)檢測(cè)到傳入任務(wù)時(shí)，該事件將被報(bào)告給全局DVFS控制塊，并且頻率和電壓會(huì)立即提高至合適的水平，以確保更高的性能。
DVFS 軟件會(huì)智能地將電壓和頻率提高至最適合的水平，以滿足應(yīng)用程序的性能需求。DVFS算法可以非常精細(xì)地控制頻率水平，并且可以按1MHz的增量來(lái)增加或降低頻率。

Tegra 2其它處理核心介紹

2007年的時(shí)候NVIDIA花費(fèi)3億多美元收購(gòu)了為蘋(píng)果提供音頻處理器的PortalPlayer公司，有了PortalPlayer公司強(qiáng)大的技術(shù)支持，NVIDIA為T(mén)egra 2提供了更優(yōu)秀的音頻解碼器，這一點(diǎn)從微軟采用Tegra平臺(tái)來(lái)打造Zune播放器也能看出來(lái)。

第一代Tegra只能實(shí)現(xiàn)720P高清視頻的編解碼，而Tegra 2分別采用了獨(dú)立的視頻編碼器和視頻解碼器設(shè)計(jì)。Tegra 2的視頻編碼處理單元可以實(shí)現(xiàn)每秒10幀的1080P H.264加速能力。NVIDIA稱Tegra 2在1080P解碼時(shí)，其功耗低于100毫瓦，并且聲稱其它1080P解碼方案，在功耗方面至少需要1W，因?yàn)樵S多運(yùn)算要依賴于CPU完成，這對(duì)于整個(gè)系統(tǒng)來(lái)說(shuō)會(huì)有許多額外的附加運(yùn)算。
獨(dú)立的第三代圖像處理器支持1200萬(wàn)像素的圖像傳感器，可以給手持設(shè)備帶來(lái)非常強(qiáng)悍的圖片和圖像功能。Tegra 2采用的ARM 7控制芯片則負(fù)責(zé)處理器數(shù)據(jù)和電源管理。

PConline評(píng)測(cè)室總結(jié)

當(dāng)年第一代Tegra出現(xiàn)的時(shí)候，我們苦于在市場(chǎng)上找不到基于Tegra的產(chǎn)品，甚至不覺(jué)得Tegra能在移動(dòng)設(shè)備領(lǐng)域找到屬于自己的空間。然而，當(dāng)Tegra 2再次來(lái)到我們眼前的時(shí)候，卻是以一種幾乎席卷整個(gè)移動(dòng)設(shè)備的姿態(tài)出現(xiàn)。的確，目前不僅在手機(jī)方面能夠看到越來(lái)越多的Tegra 2產(chǎn)品，在平板電腦等其他移動(dòng)終端設(shè)備上也有越來(lái)越多的產(chǎn)品出現(xiàn)，可以說(shuō)Tegra 2不僅開(kāi)創(chuàng)了手機(jī)雙核的先河，也開(kāi)創(chuàng)了屬于NVIDIA的一個(gè)嶄新的面貌。

不可否認(rèn)的是借助于Tegra 2強(qiáng)大的性能，帶來(lái)的Flash、高清視頻以及3D游戲的加速，不僅可以讓我們體驗(yàn)到更加暢快的應(yīng)用體驗(yàn)，同時(shí)也能更加豐富和真實(shí)化我們的應(yīng)用，目前NVIDIA推出了適用于Tegra 2處理器的Tegra Zone平臺(tái)，相信隨著Tegra 2設(shè)備的增加類似于Tegra Zone平臺(tái)上的應(yīng)用將會(huì)更多，而手機(jī)勢(shì)必也將會(huì)成為全方位的移動(dòng)多媒體設(shè)備。

標(biāo)簽：

一篇詳解ARM Cortex-A9處理器相關(guān)介紹!的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

一篇詳解ARM Cortex-A9處理器相關(guān)介紹!

ARM Cortex-A9處理器相關(guān)介紹

Cortex-A9 MPCore技術(shù)

偵測(cè)控制單元(SCU)

加速器鏈接埠

通用中斷控制器(GIC)

先進(jìn)的總線接口單元

特定應(yīng)用的計(jì)算引擎加速

Tegra 2GeForce處理內(nèi)核相關(guān)介紹

OpenGL ES 2.0 圖形處理管線

Tegra 2 GeForce處理架構(gòu)及功耗介紹

Early–Z 技術(shù)

像素和紋理緩存可減少內(nèi)存操作

覆蓋面采樣抗鋸齒

高級(jí)各向異性過(guò)濾

優(yōu)化的內(nèi)存控制器

高級(jí)電源管理

Tegra 2其它處理核心介紹

PConline評(píng)測(cè)室總結(jié)

一篇詳解ARM Cortex-A9處理器相關(guān)介紹!的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

一篇詳解ARM Cortex-A9處理器相關(guān)介紹!

ARM Cortex-A9處理器相關(guān)介紹

Cortex-A9 MPCore技術(shù)

偵測(cè)控制單元(SCU)

加速器鏈接埠

通用中斷控制器(GIC)

先進(jìn)的總線接口單元

特定應(yīng)用的計(jì)算引擎加速

Tegra 2GeForce處理內(nèi)核相關(guān)介紹

OpenGL ES 2.0 圖形處理管線

Tegra 2 GeForce處理架構(gòu)及功耗介紹

Early–Z 技術(shù)

像素和紋理緩存可減少內(nèi)存操作

覆蓋面采樣抗鋸齒

高級(jí)各向異性過(guò)濾

優(yōu)化的內(nèi)存控制器

高級(jí)電源管理

Tegra 2其它處理核心介紹

PConline評(píng)測(cè)室總結(jié)

本文作者的其他文章

一篇詳解ARM Cortex-A9處理器相關(guān)介紹!的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

一篇詳解ARM Cortex-A9處理器相關(guān)介紹!的評(píng)論 (共條)