最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

一篇詳解ARM Cortex-A9處理器相關(guān)介紹!

2022-06-27 19:10 作者:補(bǔ)給站Linux內(nèi)核  | 我要投稿

ARM Cortex-A9處理器相關(guān)介紹

  • Cortex-A9處理器基于先進(jìn)的推測(cè)型八級(jí)流水線,該流水線具有高效、動(dòng)態(tài)長(zhǎng)度、多發(fā)射超標(biāo)量及無(wú)序完成特征,這款處理器的性能、功效和功能均達(dá)到了前所未有的水平,能夠滿足消費(fèi)、網(wǎng)絡(luò)、企業(yè)和移動(dòng)應(yīng)用等領(lǐng)域產(chǎn)品的要求。

  • Cortex-A9微架構(gòu)可提供兩種選項(xiàng):可擴(kuò)展的Cortex-A9 MPCoreTM多核處理器和較為傳統(tǒng)的Cortex-A9單核處理器??蓴U(kuò)展的多核處理器和單核處理器,支持16、32或64KB四路組相聯(lián)一級(jí)緩存的配置,具有無(wú)與倫比的靈活性,皆能達(dá)到特定應(yīng)用和市場(chǎng)的要求。



  • 特定應(yīng)用優(yōu)化:Cortex-A9和Cortex-A9 MPCore應(yīng)用級(jí)處理器都擁有豐富的功能,同時(shí)也承襲了ARMv7 架構(gòu)的強(qiáng)大優(yōu)勢(shì),為特定應(yīng)用和通用設(shè)計(jì)提供了高性能、低功耗的解決方案。

  • 先進(jìn)的微架構(gòu):Cortex- A9微架構(gòu)的設(shè)計(jì)不但著眼于解決超高頻設(shè)計(jì)的效率低下問(wèn)題,而且把目標(biāo)定為在不增加嵌入式設(shè)備硅成本的前提下最大限度地提升處理效率。通過(guò)綜合技術(shù),這種 處理器設(shè)計(jì)能使設(shè)備的時(shí)鐘頻率超過(guò)1GHz,而且提供了較高的功效水平,滿足了長(zhǎng)時(shí)間電池供電工作的要求。



  • 流水線性能:Cortex- A9處理器最主要的流水線性能包括以下幾條:第一,先進(jìn)的取指及分支預(yù)測(cè)處理,可避免因訪問(wèn)指令的延時(shí)而影響跳轉(zhuǎn)指令的執(zhí)行;第二,最多支持四條指令 Cache Line預(yù)取掛起,這可進(jìn)一步減少內(nèi)存延時(shí)的影響,從而促進(jìn)指令的順利傳輸;第三,每個(gè)周期內(nèi)可連續(xù)將兩至四條指令發(fā)送到指令解碼,確保充分利用超標(biāo)量流 水線性能。Fast-loop模式:執(zhí)行小循環(huán)時(shí)提供低功耗運(yùn)行;第四,超標(biāo)量解碼器可在每個(gè)周期內(nèi)完成兩條完全指令的解碼;第五,支持指令預(yù)測(cè)執(zhí)行:通 過(guò)將物理寄存器動(dòng)態(tài)地重新命名至虛擬寄存器池來(lái)實(shí)現(xiàn)。

  • 第六,提升了流水線的利用效率,消除了相鄰指令之間的數(shù)據(jù)依賴性,減少 了中斷延時(shí);第七,支持寄存器的虛擬重命名:以一種有效的、基于硬件的循環(huán)展開(kāi)方法,提高了代碼執(zhí)行效率,而不會(huì)增加代碼大小和功耗水平;第八,四個(gè)后續(xù) 流水線中的任何一個(gè)均可從發(fā)射隊(duì)列中選擇執(zhí)行指令—提供了無(wú)序分配,進(jìn)一步提高了流水線利用效率,無(wú)需借助于開(kāi)發(fā)者或編譯器指令調(diào)度。確保專為上一代處理 器進(jìn)行優(yōu)化的代碼能夠發(fā)揮最大性能,也維護(hù)了現(xiàn)有軟件投資。

  • 第九,每周期支持兩個(gè)算術(shù)流水線、加載-存儲(chǔ)(load- store)或計(jì)算引擎以及分支跳轉(zhuǎn)的并行執(zhí)行;第十,可將有相關(guān)性load-store指令提前傳送至內(nèi)存系統(tǒng)進(jìn)行快速處理,進(jìn)一步減少了流水線暫停, 大幅提高了涉及存取復(fù)雜數(shù)據(jù)結(jié)構(gòu)或C++函數(shù)的高級(jí)代碼的執(zhí)行效率;第十一,支持四個(gè)數(shù)據(jù)Cache Line的填充請(qǐng)求:而且還能通過(guò)自動(dòng)或用戶控制預(yù)取操作,保證了關(guān)鍵數(shù)據(jù)的可用性,從而進(jìn)一步減少了內(nèi)存延時(shí)導(dǎo)致的暫?,F(xiàn)象;第十二,支持無(wú)序指令完成 回寫(xiě):允許釋放流水線資源,無(wú)需受限于系統(tǒng)提供所需數(shù)據(jù)的順序。

【文章福利】小編推薦自己的Linux內(nèi)核技術(shù)交流群:【891587639】整理了一些個(gè)人覺(jué)得比較好的學(xué)習(xí)書(shū)籍、視頻資料共享在群文件里面,有需要的可以自行添加哦?。。。ê曨l教程、電子書(shū)、實(shí)戰(zhàn)項(xiàng)目及代碼)? ?

Cortex-A9 MPCore技術(shù)

  • Cortex-A9 MPCore多核處理器是一種設(shè)計(jì)定制型處理器,以集成緩存一致的方式支持1到4個(gè)CPU內(nèi)核??蓡为?dú)配置各處理器,設(shè)定其緩存大小以及是否支持FPU、 MPE或PTM接口等。


  • 此外,無(wú)論采用何種配置,處理器都可應(yīng)用一致性加速口,允許其他無(wú)緩沖的系統(tǒng)控制外設(shè)及加速器(如DMA引擎或加密加速器)核與一 級(jí)處理器緩存保持緩存一致。另外還集成了一種符合GIC架構(gòu)的綜合中斷及通信系統(tǒng),該系統(tǒng)配有專用外設(shè),其性能和軟件可移植性都更上一層樓,適當(dāng)配置后, 可支持0(legacy bypass 模式)到224個(gè)獨(dú)立中斷資源。這種處理器可支持單個(gè)或兩個(gè)64位AMBA3 AXITM互聯(lián)接口。


  • 利用ARM MPCore技術(shù)的設(shè)計(jì)靈活性和先進(jìn)的功耗管理技術(shù),Cortex-A9 MPCore的針對(duì)性應(yīng)用能夠在有限的功耗下維持移動(dòng)設(shè)備的正常運(yùn)轉(zhuǎn),從而為移動(dòng)設(shè)備帶來(lái)優(yōu)于現(xiàn)有解決方案的峰值性能。這種處理器充分利用了可擴(kuò)展峰值性能,在性能上超越了現(xiàn)有的同等高端嵌入式設(shè)備,并在更為廣闊的市場(chǎng)中維持了持續(xù)穩(wěn)定的軟件投資。

偵測(cè)控制單元(SCU)

  • SCU 是ARM多核技術(shù)的中央情報(bào)局,負(fù)責(zé)為支持MPCore技術(shù)的處理器提供互聯(lián)、仲裁、通信、緩存間及系統(tǒng)內(nèi)存?zhèn)鬏?、緩存一致性及其他多核功能的管理?/p>

  • 同時(shí),Cortex-A9 MPCore處理器還率先向其他系統(tǒng)加速器及無(wú)緩沖的DM A驅(qū)動(dòng)控制外設(shè)開(kāi)啟此類功能,通過(guò)處理器緩存層次的共享,有效地提高了性能、減少了整個(gè)系統(tǒng)的功耗水平。不僅如此,利用這種系統(tǒng)來(lái)維持每個(gè)操作系統(tǒng)驅(qū)動(dòng)中 的軟件一致性,軟件復(fù)雜性就大大降低了。

加速器鏈接埠

  • 這個(gè)與AMBA 3 AXI兼容的Slave接口位于SCU之上,為多種系統(tǒng)Master接口提供了一個(gè)互聯(lián)接口;出于總體系統(tǒng)性能、功耗或軟件簡(jiǎn)化等方面的考慮,最好直接將 這些Master接口與Cor tex-A9 MPCore處理器相連。這是個(gè)標(biāo)準(zhǔn)的AMBA 3 AXI Slave接口,支持所有標(biāo)準(zhǔn)讀寫(xiě)事務(wù),對(duì)所接部件無(wú)任何附加一致性要求。



  • 然而,指向某個(gè)一致內(nèi)存區(qū)的讀取事務(wù)要與SCU發(fā)生作用,以檢測(cè)所需信息是否已經(jīng)存儲(chǔ)在處理器的一級(jí)緩存之中。若檢 測(cè)出確已存儲(chǔ),相應(yīng)信息將被直接返回給發(fā)出請(qǐng)求的組件。如果一級(jí)緩存中不存在該信息,在最終傳給主內(nèi)存之前也可能檢測(cè)二級(jí)緩存。對(duì)于指向一致內(nèi)存區(qū)的寫(xiě)入 事務(wù),SCU會(huì)在把寫(xiě)入事務(wù)傳送至內(nèi)存系統(tǒng)之前強(qiáng)制確保一致性。也可選擇性地將事務(wù)分配給二級(jí)緩存,以避免直接寫(xiě)入片外內(nèi)存所帶來(lái)的功耗及性能影響。

通用中斷控制器(GIC)

  • 該 GIC采用了最近標(biāo)準(zhǔn)化和架構(gòu)的中斷控制器,為處理器間通信及系統(tǒng)中斷的路由選擇及優(yōu)先級(jí)的確定提供了一種豐富而靈活的解決辦法。最多支持224個(gè)獨(dú)立中 斷,通過(guò)軟件控制,可在整個(gè)CPU中對(duì)每個(gè)中斷進(jìn)行分配、確定其硬件優(yōu)先級(jí)并在操作系統(tǒng)與信任區(qū)軟件管理層之間進(jìn)行路由。這種路由靈活性加上對(duì)中斷虛擬進(jìn) 入操作系統(tǒng)的支持,是進(jìn)一步提升基于半虛擬化管理器解決方案功能的關(guān)鍵因素之一。

先進(jìn)的總線接口單元

  • Cortex-A9 MPCore處理器增強(qiáng)了處理器與系統(tǒng)互聯(lián)之間的接口性能,其先進(jìn)特色功能最大限度地提高了系統(tǒng)性能,為各種系統(tǒng)集成芯片設(shè)計(jì)理念創(chuàng)造了更大的靈活性。

  • 這種處理器支持單個(gè)或兩個(gè)64-b i t AMBA 3 AXI Master接口的設(shè)計(jì)配置,可以按CPU的速度全負(fù)荷地將事務(wù)傳送至系統(tǒng)互聯(lián)之中,最高速度可達(dá)12G B/s以上。另外,第二接口也可定義某種事務(wù)過(guò)濾,只處理全局地址空間的一部分;也就是說(shuō),可在處理器內(nèi)部直接對(duì)地址空間進(jìn)行切分,進(jìn)一步加強(qiáng)了系統(tǒng)設(shè)計(jì) 的靈活性。

  • 而且每個(gè)接口還支持不同的CPU-總線頻率比(包括同步半時(shí)鐘比),不但提高了設(shè)計(jì)靈活性,而且為需要考慮DVFS或高速集成內(nèi)存的設(shè)計(jì)增加了系統(tǒng)帶寬。同時(shí)為完整的A RM智能能量管理 (IEM)功能提供了良好的支持。

特定應(yīng)用的計(jì)算引擎加速

  • 處理器不但擁有優(yōu)化的標(biāo)準(zhǔn)架構(gòu)特色,而且還可增加以下任一設(shè)計(jì)功能:



  • 先進(jìn)二級(jí)緩存控制器:ARM二級(jí)緩存控制器(PrimeCell PL310)與Cortex-A9系列處理器同步設(shè)計(jì),旨在提供一種能匹配Cortex-A9處理器性能和吞吐能力的優(yōu)化二級(jí)緩存控制器。PL310最多可為每個(gè)接口提供8項(xiàng)AXI事務(wù)支持,支持按Master接口進(jìn)行鎖定;這樣一來(lái),即通過(guò)將PL310用作加速器與處理器之間的緩沖器,充分利用一致性加速口,實(shí)現(xiàn)多個(gè)CPU或組件之間的可控共享,既提升了系統(tǒng)性能,也降低了相關(guān)功耗水平。

  • 另外,PL310不但具有Cortex-A9先進(jìn)總線接口單元的各項(xiàng)功能,支持同步1/2時(shí)鐘比,有助于減少高速處理器設(shè)計(jì)中的延時(shí)現(xiàn)象,而且能夠?qū)Φ诙﨧asterAXI 接口設(shè)置地址過(guò)濾,分割地址和頻率域、以及集成片上內(nèi)存的快速存取提供了支持。PL310最高可支持2MB的四至十六路組相聯(lián)二級(jí)緩存,可與奇偶校驗(yàn)及支持E C C的R A M集成,而且運(yùn)行速率能夠與處理器保持一致。而先進(jìn)的鎖定技術(shù)也提供了必要的機(jī)制,從而將緩存用作相關(guān)性加速器和處理器之間的傳輸RAM。

  • Cortex-A9 程序跟蹤宏單元(PTM):Cortex-A9 PTM為兩款Cortex-A9處理器提供了兼容ARM CoreSight技術(shù)的程序流跟蹤功能,能夠?qū)μ幚砥髦械膶?shí)際指令流實(shí)現(xiàn)完全可視化的管理。Cortex-A9 PTM通過(guò)周期計(jì)數(shù)實(shí)施性能分析,可對(duì)所有代碼分支和程序流變動(dòng)進(jìn)行跟蹤管理。

Tegra 2GeForce處理內(nèi)核相關(guān)介紹

  • Tegra 2之所以強(qiáng)大除了采用兩顆頻率高達(dá)1Ghz的Cortex-A9處理器之外,另外一個(gè)非常重要的原因就是它在手持設(shè)備中引入了強(qiáng)大的Geforce處理器,借助于Geforce處理器的強(qiáng)大性能,可以為T(mén)egra 2提升3D圖形性能以及加速網(wǎng)頁(yè)瀏覽等諸多功能。下面我們就來(lái)說(shuō)說(shuō)Tegra 2里面非常重要也非常強(qiáng)大的Geforce處理器。



  • Tegra 2的GeForce內(nèi)核實(shí)現(xiàn)了功能強(qiáng)勁的管線頂點(diǎn)和像素處理架構(gòu),可通過(guò)各種特性降低功耗和提高圖形質(zhì)量,支持下一代移動(dòng) 3D 游戲、流暢的高清視頻播放、在線 Flash 游戲性能和高度響應(yīng)的移動(dòng) GPU 加速用戶界面,而不會(huì)影響移動(dòng)電源預(yù)算。

OpenGL ES 2.0 圖形處理管線

  • OpenGL ES 是一個(gè)標(biāo)準(zhǔn)的應(yīng)用程序編程接口 (API),開(kāi)發(fā)人員可使用它為智能電話、平板設(shè)備和便攜式游戲設(shè)備等移動(dòng)設(shè)備編寫(xiě)圖形應(yīng)用程序。OpenGL ES API是桌面OpenGL API 規(guī)范的一個(gè)子集,并且在圖形應(yīng)用程序和 GPU 硬件之間定義了一個(gè)靈活而強(qiáng)大的低級(jí)接口。最新的 OpenGL ES 2.x 規(guī)范針對(duì)完全可編程的現(xiàn)代 GPU 管線,并將 API 的所有固定函數(shù)元素替換為可編程著色。大多數(shù)移動(dòng) GPU 架構(gòu)均采用OpenGL ES API 標(biāo)準(zhǔn),并且主要根據(jù)OpenGL ES API 的定義來(lái)實(shí)現(xiàn)邏輯處理管線。



  • 為了顯示游戲或圖形應(yīng)用程序中定義的場(chǎng)景,應(yīng)用程序開(kāi)發(fā)人員必須先使用3D建模軟件創(chuàng)建各種3D對(duì)象和角色模型。每個(gè)對(duì)象和角色都可以由數(shù)百、數(shù)千甚至數(shù)百萬(wàn)個(gè)相互連接的三角形網(wǎng)格構(gòu)成,具體取決于所需的幾何真實(shí)水平。



  • 接下來(lái)3D游戲軟件或其他3D應(yīng)用程序可以使用這些模型,并將它們置于模擬的3D場(chǎng)景或“3D世界”中。3D世界通過(guò)XYZ坐標(biāo)系定義,并且3D對(duì)象或角色將放置在3D世界的特定位置上。對(duì)象中的每個(gè)三角形都由它的三個(gè)頂點(diǎn)定義,并且每個(gè)頂點(diǎn)都由代表其屬性的一組數(shù)值構(gòu)成,這些屬性包括在3D世界中的XYZ位置、顏色值 (RGB)、阿爾法透明度、紋理坐標(biāo)、法線等。隨后,定義對(duì)象特定部分的頂點(diǎn)集將分組到一個(gè)頂點(diǎn)緩沖區(qū)中,后者類似于原始頂點(diǎn)流。

  • 3D軟件會(huì)向GPU驅(qū)動(dòng)程序發(fā)起一個(gè)OpenGL ES調(diào)用,指向共享系統(tǒng)內(nèi)存中的頂點(diǎn)緩沖區(qū)位置,從而允許 GPU 直接訪問(wèn)和處理數(shù)據(jù)。OpenGL管線的原型處理階段發(fā)生在GPU中,并且會(huì)將傳入頂點(diǎn)數(shù)據(jù)轉(zhuǎn)換為可供GPU使用的格式和組織。隨后,頂點(diǎn)會(huì)傳遞至Vertex著色器;這時(shí),頂點(diǎn)著色器程序可以運(yùn)行各種矩陣轉(zhuǎn)換和光照計(jì)算,以便將頂點(diǎn)移至新的X、Y和Z位置,或者改變燈光值等屬性。

  • 轉(zhuǎn)換后的頂點(diǎn)將被組裝為原型, 然后光柵化階段會(huì)將原型轉(zhuǎn)換為像素片段,為像素著色器階段做準(zhǔn)備?,F(xiàn)在,像素片段處于2D屏幕空間格式。像素著色階段將運(yùn)行像素著色器程序來(lái)處理每一個(gè)像素,并且可能會(huì)應(yīng)用新的照明或顏色值、應(yīng)用紋理或者執(zhí)行各種其他操作來(lái)計(jì)算應(yīng)用于像素的最終顏色值。

  • 在典型的OpenGL管線中,隨后會(huì)對(duì)各個(gè)像素運(yùn)行Z緩沖測(cè)試,以確定是否比幀緩沖區(qū)中的相同屏幕位置中的已有像素更加接近觀眾的眼睛。如果確定新像素更加接近觀眾,它會(huì)取代幀緩沖區(qū)中的已有像素值,但如果它在已有像素后面,則會(huì)被丟棄。(注意:幀緩沖區(qū)可能位于與CPU共享的系統(tǒng)內(nèi)存空間中,或者可能位于專用內(nèi)存中,比如大多數(shù)獨(dú)立顯卡所使用的內(nèi)存)。

  • 如果可見(jiàn)像素的 Alpha 值指示它是部分透明的,那么它將與相同屏幕位置的幀緩沖區(qū)中的已有像素相混合。如果啟用了抗鋸齒,那么可以通過(guò)修改像素的顏色值來(lái)創(chuàng)建更加平滑的邊緣,以便在寫(xiě)入幀緩沖區(qū)中之前減少鋸齒效果。

Tegra 2 GeForce處理架構(gòu)及功耗介紹

  • 雙核處理器或許讓消費(fèi)者對(duì)于Tegra 2的功耗問(wèn)題比較擔(dān)心,而雙核處理器再加上GeForce內(nèi)核,頓時(shí)讓很多人對(duì)于Tegra 2的功耗問(wèn)題更加懷疑和關(guān)注。的確,現(xiàn)在手機(jī)續(xù)航時(shí)間短已經(jīng)成為智能手機(jī)的一個(gè)普遍現(xiàn)象,而Tegra 2同樣也繞不開(kāi)功耗的問(wèn)題,下面我們就來(lái)看看Tegra 2中的GeForce內(nèi)核架構(gòu)以及它如何實(shí)現(xiàn)功耗的控制。

  • GeForce架構(gòu)是一種固定函數(shù)管線架構(gòu),包括完全可編程的像素和頂點(diǎn)著色器,以及一個(gè)先進(jìn)的紋理單元,可支持高品質(zhì)的各向異性過(guò)濾。



  • GeForce包含四個(gè)像素著色器內(nèi)核和四個(gè)頂點(diǎn)著色和內(nèi)核,專用于高速頂點(diǎn)和像素處理。GPU管線在像素管線中使用FP20數(shù)據(jù)精度的80位RBGA像素格式,在頂點(diǎn)管線中則使用FP32 精度的80位RBGA像素格式。它還實(shí)現(xiàn)了一種獨(dú)一無(wú)二和專有的各向異性過(guò)濾 (AF) 算法,該算法優(yōu)于許多臺(tái)式機(jī)GPU所使用的AF技術(shù)。該架構(gòu)支持各種高級(jí)特性,例如高動(dòng)態(tài)范圍 (HDR) 照明、多重渲染目標(biāo) (MRT),并且兩種紋理支持均不會(huì)帶來(lái)功耗。該架構(gòu)同時(shí)支持 DXT 和 ETC 紋理格式。

  • 雖然GeForce架構(gòu)是一種類似于OpenGL ES 2.0標(biāo)準(zhǔn)定義的管線架構(gòu),但它還包含一些特殊特性和自定義功能,可顯著降低功耗并提供更高的性能和圖形質(zhì)量。Tegra 2移動(dòng)處理器中實(shí)現(xiàn)的一些獨(dú)特特性包括:

  1. Early‐Z 支持,專用于過(guò)濾掉不可見(jiàn)的像素。

  2. 集成像素著色器 (Pixel Shader) 和混合單元 (Blend Unit),可實(shí)現(xiàn)編程靈活性和更高的性能。

  3. 像素緩存、紋理緩存、頂點(diǎn)和屬性緩存,可減少內(nèi)存操作。

  4. 獨(dú)特的 5 倍覆蓋采樣抗鋸齒 (CSAA) 技術(shù),可在更低的內(nèi)存帶寬下實(shí)現(xiàn)更高的圖像質(zhì)量。

  5. 高級(jí)各向異性過(guò)濾 (AF),可實(shí)現(xiàn)高細(xì)節(jié)紋理。

  6. 內(nèi)部開(kāi)發(fā)的自定義內(nèi)存控制器,可提高 GPU 性能和降低功耗。

  7. 實(shí)現(xiàn)超低功耗的眾多電源管理功能。

Early–Z 技術(shù)

  • 現(xiàn)代GPU使用Z緩沖(也稱作深度緩沖)來(lái)跟蹤該場(chǎng)景中的可見(jiàn)但由于被其他像素遮擋而不需要顯示的像素。每個(gè)像素在Z緩沖中都有相應(yīng)的Z信息。單一3D幀會(huì)經(jīng)過(guò)處理并轉(zhuǎn)換為2D圖像,以便在顯示器上顯示。該幀由從主機(jī)發(fā)送至GPU的頂點(diǎn)順序流構(gòu)成。多邊形將由頂點(diǎn)流組配而成,并且會(huì)生成和呈現(xiàn)2D屏幕空間像素。

  • 在指定時(shí)間單元(如1/60秒)內(nèi)構(gòu)建單一2D幀的過(guò)程中,多個(gè)多邊形及其相應(yīng)像素可能會(huì)覆蓋相同的基于2D屏幕的像素位置。這經(jīng)常被稱作深度復(fù)雜性,并且現(xiàn)代游戲的深度復(fù)雜性可能達(dá)到 3、4 或者更高,即在覆蓋相同 2D 屏幕位置的幀中呈現(xiàn) 3 個(gè)、4 個(gè)或更多像素。

  • 想象首次在頂點(diǎn)流中處理構(gòu)成某塊墻的多邊形(和由此產(chǎn)生的像素),以構(gòu)建場(chǎng)景。接下來(lái),處理位于墻前面的一把椅子的多邊形和像素。對(duì)于特定的2D屏幕像素位置,觀眾最終只能看到一個(gè)像素,即椅子的像素或墻的像素。椅子離觀眾更近,因此會(huì)顯示它的像素。(請(qǐng)注意,某些對(duì)象可能是透明的,并且透明對(duì)象的像素可以與背景中已有的不透明或透明像素相混合,或者與之前幀的幀緩沖區(qū)中的已有像素相混合)。



  • OpenGL ES2.0 邏輯管線定義的針對(duì)各像素?cái)?shù)據(jù)的 Z 比較會(huì)在像素經(jīng)過(guò)像素著色器處理之后執(zhí)行。在像素著色處理之后評(píng)估像素的問(wèn)題在于,像素必須遍歷幾乎整個(gè)管線才能最終確定堵塞且需要丟棄的像素。對(duì)于擁有數(shù)百或數(shù)千處理步驟的復(fù)雜著色器程序,所有處理都浪費(fèi)在永遠(yuǎn)不會(huì)顯示的像素上! 更重要的是,在移動(dòng)設(shè)備中,處理這些像素涉及 GPU 和共享系統(tǒng)內(nèi)存之間大量事務(wù)。由于系統(tǒng)內(nèi)存位于片外,因此內(nèi)存操作會(huì)顯著消耗電源并且會(huì)迅速耗盡電池電量。

  • GeForce中的Early‐Z實(shí)現(xiàn)是高端臺(tái)式GeForce中所使用的實(shí)現(xiàn)的優(yōu)化版本。Early‐Z操作會(huì)測(cè)試所有像素的Z深度并僅將可見(jiàn)像素傳遞給像素著色器塊。通過(guò)執(zhí)行Early‐Z操作,GeForce架構(gòu)會(huì)僅獲取通過(guò)Z測(cè)試的可用像素的Z值、顏色和紋理數(shù)據(jù)。Early‐Z效率極高,可準(zhǔn)確檢測(cè)出和丟棄隱藏像素。

  • Early‐Z處理的主要優(yōu)勢(shì)在于它不僅可通過(guò)減少GPU與片外系統(tǒng)內(nèi)存之間的內(nèi)存流量來(lái)顯著降低功耗,而且速度也要快于其他 Z 比較算法。大多數(shù)情況下,高效的Early‐Z都可以識(shí)別和丟棄隱藏像素。但在極少數(shù)情況下,對(duì)于一些特殊場(chǎng)景程序員可能需要在像素著色完成之后隱藏像素。對(duì)于這些極少數(shù)的情況,GeForce管線實(shí)現(xiàn)了一種后期階段深度計(jì)算,并混合于集成像素著色器和混合單元中。

像素和紋理緩存可減少內(nèi)存操作

  • 傳統(tǒng)的OpenGL GPU管線指定紋理、深度、顏色等像素信息存儲(chǔ)在系統(tǒng)內(nèi)存(或幀緩沖存儲(chǔ)器)中。在像素處理階段,像素信息會(huì)在內(nèi)存之間來(lái)回移動(dòng)。這就需要在片外系統(tǒng)執(zhí)行大量?jī)?nèi)存操作,從而消耗大量電能。GeForce架構(gòu)實(shí)現(xiàn)了片上像素、紋理和屬性緩存,以及獨(dú)特的緩存管理算法,不僅可減少系統(tǒng)內(nèi)存操作,而且還可以最大限度地利用這些緩存。

  • 像素緩存用于存儲(chǔ)像素的片上Z值和顏色值,并且適應(yīng)于所有重復(fù)訪問(wèn)的像素,比如用戶界面組件。此外,由于像素顏色和深度數(shù)據(jù)在許多其他圖形場(chǎng)景圖像中的良好空間及時(shí)間局部性,像素緩存可提供非常理想的緩存命中率,并且可降低訪問(wèn)系統(tǒng)內(nèi)存的需要。

  • 紋理數(shù)據(jù)具有良好的空間和時(shí)間局部性。 特定像素通常會(huì)在雙線性過(guò)濾等紋理過(guò)濾操作過(guò)程中使用許多相同的紋理元素(像素)作為相鄰像素,并且紋理經(jīng)常在圖像的至少一些幀中保持相同。因此,在片上緩存紋理數(shù)據(jù)有助于重用紋理數(shù)據(jù)以及顯著減少通過(guò)訪問(wèn)系統(tǒng)內(nèi)存來(lái)獲取紋理數(shù)據(jù)。

覆蓋面采樣抗鋸齒

  • 鋸齒是出現(xiàn)在圖像上的鋸齒狀邊緣,而這些區(qū)域本應(yīng)顯示為流暢的線條或邊緣;抗鋸齒 (AA)技術(shù)在計(jì)算機(jī)圖形中用于讓這些鋸齒線條更加平滑。當(dāng)高清晰度圖像在較低分辨率的顯示器上顯示時(shí),或者當(dāng)較高分辨率的圖像轉(zhuǎn)換為較低分辨率的圖像時(shí)便會(huì)出現(xiàn)鋸齒效果。

  • 通常,GPU使用多重采樣抗鋸齒(MSAA)和超級(jí)采樣抗鋸齒(SSAA)技術(shù)減少鋸齒效果。在之前的抗鋸齒技術(shù)中,覆蓋面始終與“實(shí)際”采樣類型相關(guān)聯(lián),而覆蓋面采樣與此不同。在SSAA中,每個(gè)實(shí)際采樣都有其獨(dú)特的顏色和Z值,并且在4xAA的情況下,著色器程序會(huì)運(yùn)行四次,并獲取四個(gè)紋理 ‐ 每個(gè)樣本一個(gè)紋理(或者在多紋理的情況會(huì)更多)。采用4xAA時(shí),幀緩沖區(qū)要比未使用抗鋸齒時(shí)大四倍,并且會(huì)經(jīng)過(guò)向下過(guò)濾,以創(chuàng)建最終像素顏色。

  • CSAA可以將簡(jiǎn)單的覆蓋面采樣從顏色/z/模板/覆蓋面采樣中解耦出來(lái),進(jìn)一步優(yōu)化抗鋸齒流程,從而較 MSAA和SSAA減少帶寬和存儲(chǔ)成本。CSAA 使用更多覆蓋面樣本來(lái)計(jì)算指定像素區(qū)域中的多邊形的覆蓋面水平,從而實(shí)現(xiàn)更高質(zhì)量的抗鋸齒效果,而不會(huì)由于處理額外的實(shí)際顏色和Z樣本而產(chǎn)生內(nèi)存和功耗成本。

高級(jí)各向異性過(guò)濾

  • 各向異性過(guò)濾是一種用于提高表面上處于斜視角的紋理的圖像質(zhì)量的技術(shù)。 通常,屏幕上的每個(gè)像素都需要從內(nèi)存的紋理貼圖中獲取多個(gè)紋理元素,經(jīng)過(guò)過(guò)濾并應(yīng)用于像素以改變其顏色。從正面看表面時(shí)(垂直于鏡頭或觀眾),通常會(huì)使用方形采樣模式為每個(gè)像素采樣同等數(shù)量的紋理元素。但是,在極端視角下(即屏幕上的圖像從一個(gè)軸延伸至另一軸),從紋理貼圖中為每個(gè)軸提取相同數(shù)量的樣本會(huì)導(dǎo)致紋理沿延伸至水平方向的軸出現(xiàn)模糊。



  • 可以看到接近地平線處的跑道部分的紋理細(xì)節(jié)出現(xiàn)了模糊。 各向異性過(guò)濾技術(shù)可以智能地沿該延伸軸采集更多的紋理樣本,并保留沿該軸的紋理細(xì)節(jié)。GeForce支持高達(dá)16倍各向異性過(guò)濾。它采用自適應(yīng)過(guò)濾算法和高效紋理緩存管理技術(shù)來(lái)提供高紋理質(zhì)量,同時(shí)不會(huì)顯著增加內(nèi)存操作。

優(yōu)化的內(nèi)存控制器

  • Tegra 2)處理器包括經(jīng)過(guò)全新設(shè)計(jì)的GPU和內(nèi)存控制器(MC)內(nèi)核,GPU內(nèi)核的性能極度依賴于MC交付帶寬的效率以及圖形處理延遲要求。由于GPU和MC均采用了內(nèi)部開(kāi)發(fā),因此MC針對(duì)GeForce的特定需求進(jìn)行了高度調(diào)優(yōu),同時(shí)還增強(qiáng)了GPU性能和降低了功耗。


  • MC控制器設(shè)計(jì)的一些關(guān)鍵優(yōu)化包括:

  • 動(dòng)態(tài)時(shí)鐘速度控制(DCSC):DCSC支持內(nèi)存控制器迅速提高工作頻率以響應(yīng)來(lái)自GPU內(nèi)核的高級(jí)指標(biāo)便于系統(tǒng)內(nèi)存訪問(wèn),以及在 GPU 完成其內(nèi)存訪問(wèn)后將工作頻率迅速降低至節(jié)能水平。由于采用了嚴(yán)密的內(nèi)部設(shè)計(jì)流程,因此MC可以直接接入GPU內(nèi)核硬件,主動(dòng)預(yù)測(cè)GPU需求和管理其工作水平,以滿足GPU需求。

  • 以GPU為中心的內(nèi)存仲裁:系統(tǒng)內(nèi)存是移動(dòng)處理器中最寶貴的資源之一。CPU、GPU、視頻和音頻等各種內(nèi)核都需要能夠以高帶寬、高度響應(yīng)性的形式訪問(wèn)系統(tǒng)內(nèi)存。MC實(shí)現(xiàn)了高級(jí)仲裁機(jī)制,可有效確保多個(gè)客戶端訪問(wèn)系統(tǒng)內(nèi)存。

  • MC內(nèi)核具有關(guān)于來(lái)自GPU客戶端的內(nèi)存訪問(wèn)請(qǐng)求的類型和緊急性的深入信息,并且實(shí)現(xiàn)了一種高度優(yōu)化的仲裁機(jī)制,可滿足呈現(xiàn)器和幾何請(qǐng)求對(duì)帶寬的苛刻要求,以及滿足對(duì)服務(wù)高優(yōu)級(jí)級(jí)延遲敏感的顯示和CPU請(qǐng)求在低延遲方面的苛刻要求。MC還掌握GPU內(nèi)核生成的各請(qǐng)求的優(yōu)先級(jí)的信息,并且可進(jìn)一步優(yōu)化其性能以滿足這些請(qǐng)求的需求。

  • GPU請(qǐng)求分組:片外系統(tǒng)內(nèi)存設(shè)備在任何特定時(shí)間都只能打開(kāi)特定數(shù)量的內(nèi)存條。當(dāng)內(nèi)存的請(qǐng)求訪問(wèn)區(qū)不包含在當(dāng)前打開(kāi)的內(nèi)存條中時(shí),MC需要關(guān)閉當(dāng)前打開(kāi)的內(nèi)存條,然后激活包含所需內(nèi)存單元或區(qū)域的新內(nèi)存條。這一過(guò)程不僅會(huì)影響延遲和帶寬,同時(shí)對(duì)功耗的需要也較高。

  • GeForce掌握當(dāng)前的系統(tǒng)配置,并且會(huì)對(duì)訪問(wèn)模式進(jìn)行優(yōu)化,而不會(huì)發(fā)起多個(gè)不同的訪問(wèn)內(nèi)存子系統(tǒng)的不同部分中的隨機(jī)內(nèi)存條的內(nèi)存請(qǐng)求。GPU可以將訪問(wèn)相同內(nèi)存條的內(nèi)存請(qǐng)求組合在一起。MC控制器還可以根據(jù)內(nèi)存條訪問(wèn)模式對(duì)獨(dú)立內(nèi)存請(qǐng)求進(jìn)行重新排序。這些功能可以提供更加高效的內(nèi)存訪問(wèn),并通過(guò)限制頻繁的內(nèi)存條切換來(lái)降低功耗。

高級(jí)電源管理

GeForce內(nèi)核實(shí)現(xiàn)了一些可降低功耗的高級(jí)電源管理技術(shù),包括:

  • 多層頻率門(mén)控:GPU實(shí)現(xiàn)了多層頻率門(mén)控,可在空閑狀態(tài)下關(guān)閉頻率。它使用一種系統(tǒng)級(jí)功率控制算法來(lái)控制Tegra 2處理器中的所有8個(gè)內(nèi)核的功率和頻率。當(dāng)功率控制邏輯檢測(cè)到空閑狀態(tài)的GPU內(nèi)核時(shí),它會(huì)通過(guò)頻率門(mén)來(lái)控制送入GPU的主干線頻率,從而將GPU的動(dòng)態(tài)功耗有效限制至接近零毫瓦特的水平。當(dāng)功率控制器檢測(cè)到系統(tǒng)處于待機(jī)模式時(shí),它會(huì)通過(guò)功耗門(mén)來(lái)控制GPU內(nèi)核,從而將其功耗降低至接近零的水平。

  • 本地電源管理功能:GPU內(nèi)核具有一些電源管理功能,可進(jìn)一步降低功耗。它實(shí)現(xiàn)了一些功能級(jí)頻率門(mén)控機(jī)制,可通過(guò)頻率門(mén)來(lái)控制GPU內(nèi)核中的各種不同的空閑塊。例如,當(dāng)管線未執(zhí)行任何頂點(diǎn)著色任務(wù)時(shí),頂點(diǎn)著色器會(huì)采用頻率門(mén)控并處于低功耗狀態(tài),直到接收到下一個(gè)頂點(diǎn)著色命令為止。同樣,當(dāng)像素著色器正在處理數(shù)學(xué)計(jì)算等不需要獲取紋理的任務(wù)時(shí),紋理單元可采用頻率門(mén)控。此外,如果 GPU 僅僅刷新設(shè)備顯示而非積極呈現(xiàn),內(nèi)存控制器可以借機(jī)將系統(tǒng)內(nèi)存置于低功耗狀態(tài)。



  • 顯示請(qǐng)求分組:GPU會(huì)對(duì)多個(gè)顯示請(qǐng)求進(jìn)行分組,并按批次向系統(tǒng)內(nèi)存發(fā)出這些要求。然后,GPU 向內(nèi)存控制器(通過(guò)計(jì)時(shí)器)通知下一個(gè)請(qǐng)求的時(shí)間。在發(fā)送GPU顯示請(qǐng)求之間的空閑期,內(nèi)存控制器會(huì)積極尋找機(jī)會(huì)將系統(tǒng)內(nèi)存置于低功耗狀態(tài)。

  • 功耗優(yōu)化的晶體管設(shè)計(jì):GeForce內(nèi)核還在晶體管級(jí)針對(duì)超低功耗進(jìn)行了優(yōu)化。非計(jì)時(shí)敏感的塊使用了低漏晶體管,而需要高速運(yùn)作的關(guān)鍵路徑則采用了速度更高的晶體管。因此GeForce內(nèi)核可以在不影響性能同時(shí)實(shí)現(xiàn)低功耗。

  • 動(dòng)態(tài)電壓和頻率縮放(DVFS):Tegra 2處理器還實(shí)現(xiàn)了一個(gè)先進(jìn)的芯片級(jí)DVFS技術(shù),該技術(shù)在任何時(shí)候都可以控制六個(gè)主要系統(tǒng)時(shí)鐘的時(shí)鐘頻率,以及最多兩個(gè)電壓軌的電壓水平??梢允褂密浖刂频脑O(shè)置來(lái)選擇在DVFS控制下的時(shí)鐘及電壓軌。

  • DVFS的基本原理是為各種處理單元采用不同的內(nèi)核頻率和電壓,從而控制功耗。半導(dǎo)體芯片的功耗與工作頻率成正比關(guān)系,同時(shí)也與工作電壓的平方成正比關(guān)系。當(dāng)處理器未處理任何任務(wù)時(shí),頻率和電壓可降至較低水平,從而大大降低空閑功耗。當(dāng)Tegra 2中的8個(gè)內(nèi)核中的任何一個(gè)檢測(cè)到傳入任務(wù)時(shí),該事件將被報(bào)告給全局DVFS控制塊,并且頻率和電壓會(huì)立即提高至合適的水平,以確保更高的性能。

  • DVFS 軟件會(huì)智能地將電壓和頻率提高至最適合的水平,以滿足應(yīng)用程序的性能需求。DVFS算法可以非常精細(xì)地控制頻率水平,并且可以按1MHz的增量來(lái)增加或降低頻率。

Tegra 2其它處理核心介紹

  • 2007年的時(shí)候NVIDIA花費(fèi)3億多美元收購(gòu)了為蘋(píng)果提供音頻處理器的PortalPlayer公司,有了PortalPlayer公司強(qiáng)大的技術(shù)支持,NVIDIA為T(mén)egra 2提供了更優(yōu)秀的音頻解碼器,這一點(diǎn)從微軟采用Tegra平臺(tái)來(lái)打造Zune播放器也能看出來(lái)。



  • 第一代Tegra只能實(shí)現(xiàn)720P高清視頻的編解碼,而Tegra 2分別采用了獨(dú)立的視頻編碼器和視頻解碼器設(shè)計(jì)。Tegra 2的視頻編碼處理單元可以實(shí)現(xiàn)每秒10幀的1080P H.264加速能力。NVIDIA稱Tegra 2在1080P解碼時(shí),其功耗低于100毫瓦,并且聲稱其它1080P解碼方案,在功耗方面至少需要1W,因?yàn)樵S多運(yùn)算要依賴于CPU完成,這對(duì)于整個(gè)系統(tǒng)來(lái)說(shuō)會(huì)有許多額外的附加運(yùn)算。

  • 獨(dú)立的第三代圖像處理器支持1200萬(wàn)像素的圖像傳感器,可以給手持設(shè)備帶來(lái)非常強(qiáng)悍的圖片和圖像功能。Tegra 2采用的ARM 7控制芯片則負(fù)責(zé)處理器數(shù)據(jù)和電源管理。

PConline評(píng)測(cè)室總結(jié)

  • 當(dāng)年第一代Tegra出現(xiàn)的時(shí)候,我們苦于在市場(chǎng)上找不到基于Tegra的產(chǎn)品,甚至不覺(jué)得Tegra能在移動(dòng)設(shè)備領(lǐng)域找到屬于自己的空間。然而,當(dāng)Tegra 2再次來(lái)到我們眼前的時(shí)候,卻是以一種幾乎席卷整個(gè)移動(dòng)設(shè)備的姿態(tài)出現(xiàn)。的確,目前不僅在手機(jī)方面能夠看到越來(lái)越多的Tegra 2產(chǎn)品,在平板電腦等其他移動(dòng)終端設(shè)備上也有越來(lái)越多的產(chǎn)品出現(xiàn),可以說(shuō)Tegra 2不僅開(kāi)創(chuàng)了手機(jī)雙核的先河,也開(kāi)創(chuàng)了屬于NVIDIA的一個(gè)嶄新的面貌。



  • 不可否認(rèn)的是借助于Tegra 2強(qiáng)大的性能,帶來(lái)的Flash、高清視頻以及3D游戲的加速,不僅可以讓我們體驗(yàn)到更加暢快的應(yīng)用體驗(yàn),同時(shí)也能更加豐富和真實(shí)化我們的應(yīng)用,目前NVIDIA推出了適用于Tegra 2處理器的Tegra Zone平臺(tái),相信隨著Tegra 2設(shè)備的增加類似于Tegra Zone平臺(tái)上的應(yīng)用將會(huì)更多,而手機(jī)勢(shì)必也將會(huì)成為全方位的移動(dòng)多媒體設(shè)備。


一篇詳解ARM Cortex-A9處理器相關(guān)介紹!的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
邵东县| 呼和浩特市| 鸡泽县| 葫芦岛市| 呈贡县| 新野县| 泽州县| 库尔勒市| 阿荣旗| 贵溪市| 宣恩县| 白城市| 万山特区| 汝阳县| 永春县| 徐汇区| 清原| 莫力| 青田县| 柯坪县| 梁河县| 阳春市| 安康市| 方正县| 鄂托克前旗| 和平县| 开化县| 攀枝花市| 昭平县| 上栗县| 商洛市| 茶陵县| 宝山区| 南开区| 连山| 津南区| 重庆市| 无极县| 扎囊县| 突泉县| 九龙坡区|