手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 【知乎】簡述PC X86處理器上的單核心性能提升歷史

【知乎】簡述PC X86處理器上的單核心性能提升歷史

2023-07-21 18:48 作者:失傳技術(shù)電磁所 0人讀過 | 我要投稿

簡述PC X86處理器上的單核心性能提升歷史

Bluebear

有問題請私信或者在相關(guān)回答下評論，勿用值乎。

因為懶所以可能忽略好多東西，甚至忽略某幾代和一些主流產(chǎn)品線。

第一顆X86處理器是intel1978年發(fā)布的8086，8MHz版本性能約0.8MIPs，為了方便大家了解 E3 1230 V2大約13w DMIPS也就是單核9DIPs/1hz,而8086則是0.1DIPs/hz，也就是提升了90倍(DMIPS對超標量，流水線貌似有很大加分)，當(dāng)然性能還要考慮不同指令所占的時鐘（實際IPC較低，所以IPS也比較低），還有浮點性能（用Flops衡量）等。

80186中提升頻率并加入更多微碼（改善指令所需時鐘數(shù)）提升性能。

80286，引入pipeline，提升了性能，使IPC比80806提高一倍，AMD還進一步提高了頻率。　

80386，引入32位架構(gòu)，i386開端。

80486，支持SRAM緩存，流水線更加緊湊，集成FPU，改進內(nèi)存管理，加入一些新的指令原子操作。多嘴說句，這貨在2007年才停止生產(chǎn)。

AMD于1982年得到授權(quán)也開始制造8086處理器了，在486（含）之前AMD通過逆向（山寨）intel產(chǎn)品，然后用更低的價格出售。所以其實也沒啥很厲害的提升。還有別的以后不玩了的或者像VIA那樣不在PC上玩的廠商也就不提了。

80586/奔騰，第一代超標量（最早在Seymour Cray CDC 6600中使用）X86處理器，2pipelines，允許指令級并行。數(shù)據(jù)總線擴展為64bit，代碼緩存和數(shù)據(jù)緩存分離，超流水線FPU，四輸入加法器，減少尋址時間，硬件乘法器。引入RISC設(shè)計，不再是純CISC。Larrabee或者說是Knights其實也是堆586。

K5，在29000基礎(chǔ)上改進而來，通過分支預(yù)測提高管線性能，并加入投機執(zhí)行和寄存器重命名。

Pentium Pro ，使用指令池的12級流水線，加入二級緩存為有利于亂序執(zhí)行，投機執(zhí)行和寄存器重命名。還有不太重要的PAE。4-1-1格局。主要影響了除了P4和PD之外的產(chǎn)品。

Pentium MMX，引入MMX SIMD。

K6（1.2.3）加入 MMX和3D Now! SIMD。

Pentium 2，三發(fā)射，消費級產(chǎn)品，把L2分離出來。

Pentium 3 三發(fā)射卡特邁，加入SSE，改進緩存控制，L2回歸處理器。

Pentium 3銅礦，改善管線延遲。

Pentium 3圖拉丁，試驗品，但是較短的管線比奔四同頻有優(yōu)勢。

K7 Athlon ，三發(fā)射，融合21264設(shè)計，加入DDR，改進分支預(yù)測，使長管線的效率提高，增強超級流水線浮點運算單元（AMD賤賤的鎖定頻率，不過于是有了經(jīng)典的金手指）。隨后的雷鳥使用了銅互連技術(shù)。

Pentium 4 Willamette，PD和P4都是Netburst架構(gòu)（同時期P6仍在發(fā)展Banias-dothan-yonah），三發(fā)射，使用前端總線，超長流水線，增加一級追蹤緩存，增加SSE2，快速執(zhí)行引擎（ALU通過雙泵浦達到雙倍速率）。

Northwood，引入HT，提高核心利用率。

Athlon XP Palomino，改進轉(zhuǎn)譯后備緩沖器和預(yù)讀機制。

Athlon XPThoroughbred ，改進工藝。巴頓是K7的極限了。

Prescott，31級管線，更高的頻率，改進分支預(yù)測器，加入SSE3，部分加入EMT64。

K8 Athlon 64，宏內(nèi)核支持AMD64和SSE3，使用SOI工藝，使用HT總線，將內(nèi)存控制器放到核心上。（后來版本支持雙通道）

PD與P4差距不大。

A64X2 加入SSE4A。K8L本來打算出四發(fā)射的結(jié)果死掉了。

Yonah（Core），奔三的延續(xù)，較短的流水線，單一總線控制，仍是三發(fā)射。不過指令所要時鐘降了很多。

Core 2 (Merom之后)Core架構(gòu)，四發(fā)射（四路超標量），四解碼器（三簡單一復(fù)雜），四微操作發(fā)送，七路亂序執(zhí)行，大亂序緩沖區(qū)，集中式保留，三調(diào)度口，三整數(shù)單元（二簡單一復(fù)雜），乘除加減分離的雙浮點單元，改進SSE，加入宏融合和微融合，更強的亂序執(zhí)行能力更大的指令Throughout和更短的指令Latency。

K10 Phenom，512路的間接分支預(yù)測與更大的回歸堆棧與分支目標緩沖，改善部分指令時間與延遲，提高取指令能力，改進浮點單元，SSE執(zhí)行單元寬度加倍到128bit，共享L3。

Phenom2，增加三緩并改進緩存延遲，解決TLB，內(nèi)存控制等bug。

Core i一代，Nehalem架構(gòu)，QPI總線，增強亂序執(zhí)行，增加 TLB，增加宏融合指令，加入睿頻，HT回歸，整合內(nèi)存控制器,加入L3。

Core i SNB，環(huán)形聯(lián)通架構(gòu)，DMI總線，加入譯碼微操作高速緩存（L0），全新分支預(yù)測，加入亂序群集，加入AVX AES等SIMD，加入Anaphase逆向超線程技術(shù)），投機加速。

推土機/壓路機，加入AVX FMA4 XOP等SIMD，加入硬件除法器。單模塊四發(fā)射，優(yōu)化效率，對于每核心“二發(fā)射”擁有不錯的IPC，每核心4個整數(shù)計算管線，但是浮點單元兩個核心共享一個。

Core i IVYBridge，改進工藝，改進了I/A核心和ISA指令集，使用3D晶體管。

Core i Haswell，比前代多了兩個分派端口，每時鐘可多執(zhí)行兩個操作加入AVX2 FMA3等SIMD（亂序窗口從Nehalem的128個擴展到192個，差不多只是在增強CPU的指令級并行能力）。

額，最后就是湊合寫的，因為實在沒耐心了。

不過作為A飯，最后要好好預(yù)測下挖掘機，（因為壓路機很有可能被略過了），挖掘機單核心四發(fā)射，很多部件數(shù)量翻倍，浮點性能起碼增強60%，如果異構(gòu)投機加速就更恐怖了。

嘛由于本人并不是微電子專業(yè)，對于架構(gòu)的分析僅停留在門外漢狀態(tài)，so 僅供娛樂。

由于知乎不支持文字顏色，所以看起來效果不是很好，可以去我的博客

簡述PC X86處理器上的單核心性能提升歷史?這里看

編輯于 2013-10-12 23:20

標簽：