散文網(wǎng) » 科技 »學習 » 一文解析超標量處理器

一文解析超標量處理器

2023-08-14 16:14 作者:補給站Linux內(nèi)核 0人讀過 | 我要投稿

一、引言

處理器（central process unit,簡稱CPU）是手機的核心部件，其主要功能是取指令并譯碼執(zhí)行。CPU主要包括控制器和運算器兩個部件，它對在手機中的所有硬件資源（如存儲器，輸入輸出單元）進行控制調(diào)配，執(zhí)行運算。在系統(tǒng)中所有軟件層的操作，最終都將通過指令集映射為CPU的操作，因此，它的性能高低直接影響著用戶的體驗。

得益于半導(dǎo)體工藝的進步，架構(gòu)的演進，CPU的性能不斷地提升。然而，應(yīng)用程序（APP）的不斷發(fā)展對處理器性能有了更高的要求，要使得APP運行的穩(wěn)定、流暢，軟件工作者要深入理解處理器的微架構(gòu)，理解指令的執(zhí)行過程，做出一些更精細化的改善和優(yōu)化。

二、超標量處理器簡介

目前，手機處理器大部分是超標量處理器（superscalar processor）。想要理解超標量處理器，得先明白流水線技術(shù)。流水線技術(shù)是將一條指令分解為多個步驟（周期），并且每一個周期時間相同。

超標量處理器的流水線中，允許多條指令同時存在。這樣一條指令不用等待它前面的指令執(zhí)行完畢，就有可能可以進入處理器的后面得到執(zhí)行，這種方式提升了處指令并行性（ILP: instruction level parallelism），進而提升性能。如上圖所示，當處理器沒有使用流水線的時候，它的時間周期是D，在使用了n級流水線之后，一條指令的平均執(zhí)行周期變成了D/n+S,其中s表示為流水線中間的延遲。

如今，處理器的微架構(gòu)已經(jīng)趨于成熟，指令所經(jīng)過的部件和被處理的過程相似。一個典型的超標量亂序處理器的組織結(jié)構(gòu)如下圖所示:

該處理器它包含了取指令（fetch），譯碼(decode)，寄存器重命名(rename)，發(fā)射(issue)，執(zhí)行（execute），寫回(write back)，和提交階段(commit)。

【文章福利】小編推薦自己的Linux內(nèi)核技術(shù)交流群:【749907784】整理了一些個人覺得比較好的學習書籍、視頻資料共享在群文件里面，有需要的可以自行添加哦?。。。ê曨l教程、電子書、實戰(zhàn)項目及代碼)? ? ?

三、處理器流水線介紹

前一小節(jié)介紹了超標量處理器的組織結(jié)構(gòu)，本小節(jié)將跟蹤指令的具體執(zhí)行過程，介紹處理器在每一個階段的行為。

1.分支預(yù)測/取指令

在取指令階段，除了需要從I-Cache中取出指令之外，同時還要決定下個周期指令的地址。而分支指令的結(jié)果只有在執(zhí)行階段才可以得出，因此，有必要對分支指令的行為進行預(yù)測，需要預(yù)測的內(nèi)容包含了跳轉(zhuǎn)方向和跳轉(zhuǎn)地址。

a.跳轉(zhuǎn)方向

分支指令可能是發(fā)生跳轉(zhuǎn)和不發(fā)生跳轉(zhuǎn)，有些分支指令是無條件執(zhí)行的，它的方向總是發(fā)生跳轉(zhuǎn)，其余分支指令則需要進行預(yù)測。

對于分支指令方向的預(yù)測，主要有以下4種方式：

首先，本文給大家介紹一個簡單的分支預(yù)測

該方法直接使用上次分支的結(jié)果，相比于靜態(tài)分支預(yù)測在一些情況下可以獲得比較好的結(jié)果。如下圖，在10000次的for循環(huán)語句中，只有兩次預(yù)測失敗了，預(yù)測失敗率僅有2/10000=0.002%。

但是在一些情況下，預(yù)測的結(jié)果是不準確的，如指令的方向不停的發(fā)生跳轉(zhuǎn)，那么分支預(yù)測的預(yù)測失敗率可能接近100%.

i. 基于兩位飽和數(shù)的分支預(yù)測

兩位飽和數(shù)的預(yù)測方式在特定情況下有較好的預(yù)測結(jié)果，但其有一個極限值，因次后來處理器都放棄了這一做法。

ii.?基于局部歷史的分支預(yù)測

通過將它的每次跳轉(zhuǎn)或者不跳轉(zhuǎn)的結(jié)果記錄于BHR寄存器中作為歷史狀態(tài)，然后通過PC值索引該表作為參考。如果一條分支指令的執(zhí)行結(jié)果很有規(guī)律，那么可以較好地預(yù)測正確率。

iii.?基于全局歷史的分支預(yù)測

與BHR相似，GHR寄存器記錄了最近所有的分支指令的執(zhí)行結(jié)果并作為預(yù)測。

i.競爭的分支預(yù)測

基于BHR和GHR，在不同場景的應(yīng)用中，各有優(yōu)缺點。競爭的分支預(yù)設(shè)計了一種自適應(yīng)的算法根據(jù)不同的場景自動的選擇其中一種預(yù)測正確率較高的方法。

當處理器預(yù)測了分支指令會跳轉(zhuǎn)之后，需要對目標地址進行預(yù)測：

b. 目標地址

i. 直接跳轉(zhuǎn)：在指令中直接以立即數(shù)的形式給出了一個相對PC的偏移值。目標地址是固定的，分支預(yù)測器可以準確的找到地址；

ii. 間接跳轉(zhuǎn)：分支指令的目標地址在通用寄存器中，處理器通過獲取寄存器中的值，然后根據(jù)該值進行跳轉(zhuǎn)。對于一些跳轉(zhuǎn)地址有規(guī)律情形，如call指令調(diào)用固定地址的函數(shù)，return函數(shù)返回至函數(shù)調(diào)用的下一條指令，預(yù)測的結(jié)果比較準確。其余一些不規(guī)律情形，預(yù)測它的跳轉(zhuǎn)地址則比較困難。

2.?譯碼

指令解碼階段的任務(wù)是將指令中攜帶的信息提取出來，這時候指令就變成了微操作（uop），處理器的后續(xù)階段將使用這些信息繼續(xù)執(zhí)行。對于CICS指令集，指令的長度是不固定的，尋址方式也比較復(fù)雜，這增加了譯碼的難度。目前，在手機處理器中主要用的ARM系列處理器，其指令的長度格式是格式固定的，如在32位處理器中：

3.?寄存器重命名

接下來，在超標量亂序處理器中，指令將進入寄存器重命名階段。首先，本文介紹關(guān)于相關(guān)性的概念。在處理器執(zhí)行過程中，指令之間存在一定的相關(guān)性，所謂的相關(guān)性是指一條指令的執(zhí)行依賴于另一條指令的執(zhí)行結(jié)果，指令之間的執(zhí)行順序不能夠改變，這制約了指令發(fā)射階段的選擇范圍。具體的依賴關(guān)系有如下三種：

先寫后寫（write after write)：表示兩條指令都將結(jié)果寫到同一個寄存器；

先讀后寫（write after read)：一條指令的目的寄存器和它前面某一條指令的源寄存器一樣；

先寫后讀（read after write)：一條指令的源寄存器來自于它前面某條指令的計算結(jié)果；

在采用亂序執(zhí)行的處理器中，寄存器重命名通過映射表將邏輯寄存器（指令中表示的寄存器）映射到物理寄存器（處理器中參與運算的寄存器）解決了WAR 和WAW依賴關(guān)系，不存在依賴關(guān)系的指令可以同時執(zhí)行，提高了ILP（instruction level parallesim)。如下圖：

只有第二條指令的源寄存器r0依賴于第一條指令計算的結(jié)果，寄存器重命名之后，其余指令之間并無依賴關(guān)系。

4.?發(fā)射

將符合一定條件的指令從發(fā)射隊列中選出來，并送到FU（function unit）中去執(zhí)行。滿足發(fā)射條件是指指令的操作數(shù)準備好了，F(xiàn)U數(shù)量充足。然而，對于訪存（load/store）指令，只有在執(zhí)行階段指令的地址被計算得出，它們之間的依賴關(guān)系才可以知道。處理器有一定的做法，來加速這種執(zhí)行方式。對于存儲指令加速的如下的三種方式，當出現(xiàn)違例（memory vialotion）時，在流水線的后續(xù)階段會進行消歧處理。

1. 完全的順序處理

2. 部分的亂序指行，如下圖

3. 完全的亂序指令

5. 執(zhí)行

指令在執(zhí)行單元獲得執(zhí)行，典型的執(zhí)行單元有ALU，AGU，BPU。

6. 寫回

將FU計算的結(jié)果寫到物理寄存器堆，并通過旁路網(wǎng)絡(luò)將這個計算結(jié)果送到需要的地方，喚醒依賴于這條指令計算結(jié)果的指令。如：

add r0, r1, r2 （1）

add r4, r0, r3 （2）

當?shù)谝粭l指令的結(jié)果r0計算完成，它會通知第二條指令r0的值已近準備好，那么這條指令才有可能變成準備好的狀態(tài)并獲得發(fā)射執(zhí)行。

7.?提交

程序的指令流順序進入處理器，亂序執(zhí)行，并按照指令進入ROB（Reorder Buffer，重排序緩存）的順序進行提交這保證了程序執(zhí)行正確性。保留提交信息的關(guān)鍵部件是ROB，它的結(jié)構(gòu)如下圖：

當一條指令到達流水線的這個階段時，ROB會將這條指令標記為complete狀態(tài)，但是并不意味著可以提交了，比如異常，分支預(yù)測失敗等，一條已經(jīng)完成狀態(tài)的指令可能從流水線中抹掉。所以，在一條指令沒有退休（retire）之前，他的狀態(tài)都是推測的（speculative），

ROB本質(zhì)上是一個FIFO器件，存儲了一條指令的相關(guān)信息。如這條指令的類型、結(jié)果、目的寄存器、和異常的類型等。ROB的容量決定了流水線中最多可以同時執(zhí)行的指令的個數(shù)。每一個ROB的表項可以包括的內(nèi)容如下：

（1）complete, 表示一條指令是否已經(jīng)執(zhí)行完畢；

（2）Areg: 在原始程序中指定的目的寄存器，它以邏輯寄存器的形式給出；

（3）Preg：指令的Areg經(jīng)過寄存器重命名之后，對應(yīng)的物理寄存器編號；

（4）Opreg: 指令的Areg被重命名為新的Preg之前，對應(yīng)的舊的Preg, 當指令發(fā)生異常(exception), 而進行狀態(tài)恢復(fù)的時候，會使用這個值；

（5）PC：指令對應(yīng)的PC值，當一條指令發(fā)生中斷或者異常的時，需要重新保存這個值；

（6）Exception,如果指令發(fā)生了異常，會將這個異常的類型記錄，當指令要退休的時候，會對這個異常進行處理；

（7）Type：指令的類型會被記錄到這里，當指令退休的時候，不同類型的指令會有不同的動作，例如store指令要寫入D-cache。

處理器的執(zhí)行過程中，錯誤的分支預(yù)測也需要處理，這個執(zhí)行過程如下：

(1)?回滾：將在錯誤路徑上的后續(xù)指令從流水線中“沖刷”；

?(2) 重新取指："正確的路徑上取出合適的指令執(zhí)行；

四、處理器性能建模

處理器的執(zhí)行過程中，理想狀況下，處理器運行在穩(wěn)定的狀態(tài)，沒有停頓和“汽泡”。然而總會有各種缺失（miss）事件導(dǎo)致性能的下降。根據(jù)區(qū)間模型理論，處理器的CPI（cycles per instruction）可以根據(jù)硬件PMU參數(shù)的值和參考硬件手冊中缺失事件的代價，并通過公式進行擬合。這些擬合的結(jié)果可以作為應(yīng)用負載的特性給處理器的調(diào)度作為參考。

五、影響處理器發(fā)展的三堵墻

1.?功耗墻

功耗是影響處理器性能發(fā)揮的重要因素，尤其在是嵌入式設(shè)備如手機領(lǐng)域，手機通過電池供電，電池容量有限，所以處理器功耗不能過高。

Post-Dennardian（處理器供電電壓不變），系統(tǒng)增加S倍，但是因為供電電壓不變，電容減少了S倍，所以總功耗增大了S^2倍。為了保持總功耗不變，chip利用率將減小為以前的1/S^2。

2. 訪存墻

處理器的性能在發(fā)展過程中有大量的提升，然而內(nèi)存受限于工藝，價格，帶寬和延遲等發(fā)展緩慢。處理器運算速度和內(nèi)存訪問速度不匹配。

3.?編譯墻

不同處理器有不同的指令集，需要通過二進制翻譯技術(shù)將一種處理器上的二進制程序翻譯到另一種處理器上的可執(zhí)行程序，這可以擴大了硬件、軟件的適用范圍，提高了兼容性。

六、總結(jié)

超標量處理器是手機平臺的核心，處理器的微架構(gòu)在不斷地變化和演進中，軟件工程師如何利用硬件特性，寫出高質(zhì)量、高性能的代碼成為了一個難點和痛點。

本文詳細介紹了超標量處理器的微架構(gòu)，跟蹤了一條指令在處理器每一階段的具體執(zhí)行過程，讓讀者深刻理解了硬件行為。同時，結(jié)合性能采樣分析工具如perf, vtune, simpleperf，讀者可以獲取程序的熱點（hotspot）或者性能瓶頸。然后，軟件工作人員可以通過讀取硬件數(shù)據(jù)PMU（Performance Monitor Unit），深刻理解處理器的性能瓶頸，對代碼做出針對性的調(diào)整、優(yōu)化。這可以充分發(fā)揮具體處理器的性能，進而提升整個手機應(yīng)用的體驗。此外，深刻理解處理器執(zhí)行方式，通過建模的方式，可以獲悉軟件應(yīng)用的負載大小，這為操作系統(tǒng)的調(diào)度提供了進一步的思考。

處理器，特別是在手機平臺上的處理器，它的性能發(fā)揮受限于存儲墻，功耗墻，如何克服這些不利因素，提高未來手機的整體體驗，讀者可以進一步思考。

原文地址：內(nèi)核工匠

標簽：