手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 生活 »日常 » 【轉(zhuǎn)】華為鯤鵬920 TSV110微架構(gòu)（下）:初露鋒芒，砥礪前行

【轉(zhuǎn)】華為鯤鵬920 TSV110微架構(gòu)（下）:初露鋒芒，砥礪前行

2023-06-22 00:08 作者:失傳技術(shù)研究所工作室 0人讀過(guò) | 我要投稿

華為鯤鵬920 TSV110微架構(gòu)（下）:初露鋒芒，砥礪前行

JamesAslan

喜歡畫(huà)畫(huà)和攝影的硅工碼農(nóng)（滑稽）

關(guān)注他

82 人贊同了該文章

收起

幕間

Mid Core

重命名消除

亂序資源

訪(fǎng)存

load-store前遞

Dcache端口

Cache延遲

訪(fǎng)存序

訪(fǎng)存并行度

Pointer Chasing

核外

核間延遲

訪(fǎng)存帶寬

總結(jié)

測(cè)試平臺(tái)

幕間

在上篇中我們主要探究了鯤鵬920 TSV110微架構(gòu)的取指前端和后端執(zhí)行單元配置，下篇我們繼續(xù)探究Mid Core、訪(fǎng)存子系統(tǒng)、核外系統(tǒng)。

JamesAslan：華為鯤鵬920 TSV110微架構(gòu)評(píng)測(cè)（上）:初露鋒芒，砥礪前行110 贊同 · 24 評(píng)論文章

Mid Core

重命名消除

在實(shí)際應(yīng)用程序中許多指令并不需要進(jìn)入處理器后端被真正執(zhí)行（如move指令）；現(xiàn)代處理器普遍配備了各式各樣的重命名消除機(jī)制，以減少處理器后端壓力并加速程序執(zhí)行。

Elimination typeThroughputmove imm zero4move imm one4move chain1.3move single4move self1.3move bounce1.3sub self1xor self1

TSV110配備了基本的重命名消除機(jī)制，優(yōu)于A78之流，但與X86競(jìng)品相比仍有相當(dāng)?shù)牟罹?。X86處理器傾向于配備極強(qiáng)的重命名消除機(jī)制，可能源自于其寄存器數(shù)相對(duì)較少的歷史包袱。令人驚喜的是，move置0以及move置立即數(shù)1都被特別消除了。TSV110的重命名可以消除不相關(guān)的move，但是不能在同一周期內(nèi)處理move相關(guān)鏈；這樣的取舍可以理解，一方面是在真實(shí)應(yīng)用中這樣的場(chǎng)景較少；另一方面是TSV110流水線(xiàn)可能偏較短，支持相關(guān)鏈重命名會(huì)給重命名級(jí)帶來(lái)巨大的時(shí)序壓力。

move imm zero(mov x10, #0)吞吐為4說(shuō)明重命名對(duì)置立即數(shù)0進(jìn)行了消除，因?yàn)槠鋬H有3個(gè)ALU。
move imm one(mov x10, #1)吞吐為4說(shuō)明重命名時(shí)對(duì)置立即數(shù)1進(jìn)行了消除，因?yàn)槠鋬H有3個(gè)ALU。
sub與xor均未對(duì)置0情況進(jìn)行特別優(yōu)化，可能是ARM ISA的編譯器極少進(jìn)行此類(lèi)操作；X86處理器普遍配備此類(lèi)優(yōu)化。
move single（非相關(guān)的move消除）等的吞吐為4，超過(guò)了ALU數(shù)量（因此move并未由后端真正執(zhí)行），說(shuō)明其具備基本的重命名消除機(jī)制。
move bounce與move chain等的吞吐為1.3，說(shuō)明后端出現(xiàn)了數(shù)據(jù)相關(guān)或前端重命名吞吐量下降，無(wú)論如何均表明未被重命名消除。
move self的吞吐為1.3，說(shuō)明其未被重命名消除。雖然這一細(xì)節(jié)的實(shí)用意義不大，但是move self理應(yīng)被識(shí)別為nop，TSV110沒(méi)有做這一點(diǎn)可以說(shuō)是向Intel致敬了。

亂序資源

亂序推測(cè)執(zhí)行的處理器需要海量的隊(duì)列空間來(lái)跟蹤指令，確保指令最終的提交順序正確。

IcestormA78TSV110ROB~108~160~92*n(coalesced ROB)PRF(integer)~108~160~140PRF(float)~112~92~96PRF(conditional bit/flag)~36~44~42

TSV110在ROB設(shè)計(jì)上進(jìn)行了大膽的嘗試。倘若只使用Nop指令，我們會(huì)得到：

似乎ROB只有92項(xiàng)，小得異乎尋常。倘若我們交替混合Nop與Add指令，那么結(jié)論就大不一樣：

似乎ROB有180項(xiàng)。倘若使用精心配比的各種指令交替混合，結(jié)論又發(fā)生了變化：

似乎ROB有230項(xiàng)，逐漸大得離譜。這是Coalesced ROB的特征，每個(gè)ROB表項(xiàng)可以追蹤多條指令，古時(shí)的IBM、現(xiàn)如今的Apple、Sifive等公司也采用了這樣的設(shè)計(jì)。但是TSV110的選擇有些許令人困惑，即為什么nop指令沒(méi)有被特別優(yōu)化，甚至連續(xù)的nop都需要占據(jù)單獨(dú)表項(xiàng)；在A78、Icestorm等微架構(gòu)中，每個(gè)ROB表項(xiàng)都可以存儲(chǔ)多條nop指令。TSV110似乎能將不同類(lèi)型的指令合并存儲(chǔ)在同一ROB表項(xiàng)中，但具體的規(guī)則我們沒(méi)有探究。

從寄存器堆的配置來(lái)看TSV110傾向于優(yōu)化定點(diǎn)性能。由于Coalesced ROB的特殊性，我們不能簡(jiǎn)單地判斷各類(lèi)寄存器堆是否足額或超額。不過(guò)單純考慮各物理寄存器堆的規(guī)模，TSV110定點(diǎn)略大，浮點(diǎn)略小。雖然亂序資源的容量十分重要，但是使用效率的優(yōu)化也是重中之重，因此我們不能簡(jiǎn)單地追求資源的堆砌。

亂序推測(cè)執(zhí)行的處理器最為直接的調(diào)度窗口由各級(jí)發(fā)射隊(duì)列的容量決定：

IcestormA78TSV110IssueQ+DispatchQ (Simple fix)～36~56~36IssueQ+DispatchQ (Complex fix)～14~32~28IssueQ+DispatchQ (Float)～32~48~28IssueQ+DispatchQ (Load)～20~32~42LDQ～54~64~48STQ～40~48~32

DispatchQ并不一定存在，且DispatchQ的容量并不是在任何微結(jié)構(gòu)中都可以探測(cè)的，因此我們不分離計(jì)數(shù)。

整數(shù)發(fā)射隊(duì)列為36項(xiàng)左右，不算小?？梢哉J(rèn)為是較為平衡的設(shè)計(jì)，代表了一般場(chǎng)景下足夠的亂序調(diào)度能力。
復(fù)雜整數(shù)指令（如乘法指令）所享受到的發(fā)射隊(duì)列項(xiàng)數(shù)為～28項(xiàng)，這個(gè)曖昧的數(shù)字不足以判斷是否與簡(jiǎn)單整數(shù)指令共享了發(fā)射隊(duì)列。我們首先測(cè)試了3 add + 1 mul的指令序列，發(fā)現(xiàn)能夠保持4 inst/cycle的吞吐，因此發(fā)射隊(duì)列擁有每周期同時(shí)發(fā)射4條指令的能力；再將add與mul指令混合以探測(cè)發(fā)射隊(duì)列的大小，發(fā)現(xiàn)容量為～60，接近36與28的加和；因此執(zhí)行復(fù)雜整數(shù)指令的MDU大概獨(dú)享了～28項(xiàng)的發(fā)射隊(duì)列。
由上條可知，TSV110具有分布式發(fā)射隊(duì)列的特征，每個(gè)執(zhí)行單元前有一個(gè)獨(dú)立的發(fā)射隊(duì)列。分布式發(fā)射隊(duì)列的有效容量在極端情況下不及集中式發(fā)射隊(duì)列，因此會(huì)與A78等新設(shè)計(jì)有較大的差距。
浮點(diǎn)發(fā)射隊(duì)列為28項(xiàng)左右，相較整數(shù)大幅縮減。
訪(fǎng)存發(fā)射隊(duì)列為42項(xiàng)左右，十分巨大。足見(jiàn)對(duì)訪(fǎng)存能力的追求是永無(wú)盡頭的。

總體而言，TSV110的亂序調(diào)度窗口在當(dāng)時(shí)已然十分巨大，但是容量的分配有些許奇怪，可能是我們測(cè)試方法的局限導(dǎo)致了TSV110上數(shù)據(jù)的異常。

TSV110的Load Queue容量為48項(xiàng)，Store Queue容量為32項(xiàng)。從執(zhí)行單元的規(guī)格上來(lái)看（2 load AGU、1 store AGU），TSV110的LDQ與STQ容量是足額的。但是在接下來(lái)的訪(fǎng)存測(cè)試環(huán)節(jié)中，我們可以看到其STQ的設(shè)計(jì)似乎有一定的局限性。

訪(fǎng)存

訪(fǎng)存是體系結(jié)構(gòu)永恒的話(huà)題與難題，訪(fǎng)存性能直接決定了處理器性能的上限（甚至取指也是一種形式的訪(fǎng)存），訪(fǎng)存子系統(tǒng)的表現(xiàn)體現(xiàn)了設(shè)計(jì)團(tuán)隊(duì)的綜合實(shí)力（前端、后端）。為了緩解越發(fā)明顯的緩存墻（memory wall）問(wèn)題，現(xiàn)代處理器的訪(fǎng)存子系統(tǒng)十分復(fù)雜；流水線(xiàn)內(nèi)的LDQ、STQ，Dcache、DTLB，下級(jí)Cache、下級(jí)TLB，各級(jí)預(yù)取器等組件交織配合，嘗試在延遲、帶寬等多個(gè)維度提高訪(fǎng)存性能。

load-store前遞

當(dāng)load指令命中STQ中還未來(lái)得及寫(xiě)回DCache的store指令（訪(fǎng)問(wèn)了相同的物理地址）時(shí)，配備了store-to-load forwarding的處理器無(wú)需等待store指令寫(xiě)回DCache后再執(zhí)行l(wèi)oad指令，而是可以直接將STQ中存儲(chǔ)的相應(yīng)數(shù)據(jù)發(fā)送至LSU，完成load指令的執(zhí)行。

TSV110的Store-to-load forwarding圖像并不傳統(tǒng)。從計(jì)算得出的延遲來(lái)看，2.5ns約為6.5個(gè)時(shí)鐘周期，其配備了store-to-load forwarding機(jī)制。與大部分其他處理器核不同的是，TSV110的前遞粒度為8bit即1 Byte（STQ支持的查詢(xún)和存儲(chǔ)粒度為8bit），也就是說(shuō)TSV110可以從任何非對(duì)齊位置對(duì)partial overlay的load指令進(jìn)行store數(shù)據(jù)前遞，而無(wú)需等待store指令的數(shù)據(jù)寫(xiě)入DCache再重新執(zhí)行l(wèi)oad指令，這一設(shè)計(jì)十分激進(jìn)。更為激進(jìn)的是，在store跨行、load跨行時(shí)都沒(méi)有嚴(yán)重影響store-to-load forwarding的效率，其近乎完美地工作著。至于圖中的其他條帶，我們?cè)诤笪闹性賴(lài)L試分析。

Dcache端口

store-to-load forwarding圖像還包含了更多的信息，TSV110的訪(fǎng)存子系統(tǒng)展現(xiàn)出了一些令人費(fèi)解的特性。

load、store均不跨16Byte時(shí)，每周期能夠執(zhí)行1組store-load指令對(duì)，符合TSV110只有1個(gè)AGU store（共兩個(gè)AGU）的設(shè)計(jì)。

一旦store過(guò)16Byte對(duì)齊線(xiàn)，奇怪的現(xiàn)象便出現(xiàn)了：store寫(xiě)入Dcache的帶寬下降了，2周期才能完成1條store指令。Zen4也有類(lèi)似的現(xiàn)象，其store在跨32Byte時(shí)會(huì)被拆分為2條。這樣的現(xiàn)象在早期的處理器上更為常見(jiàn)，如A75:

受制于“節(jié)儉”的Cache設(shè)計(jì)，這些處理器在跨越部分行內(nèi)邊界時(shí)也會(huì)需要拆分。但是TSV110的DCache似乎并不節(jié)儉，經(jīng)過(guò)測(cè)試其應(yīng)該是使用了體復(fù)制的方式實(shí)現(xiàn)了多端口設(shè)計(jì)（也就是說(shuō)使用了鏡像的2組SRAM），這一設(shè)計(jì)不算優(yōu)雅。我猜測(cè)可能是STQ設(shè)計(jì)時(shí)只支持128bit對(duì)齊的存儲(chǔ)，凡是越過(guò)128bit對(duì)齊的store都需要占據(jù)兩項(xiàng)STQ，進(jìn)而導(dǎo)致了寫(xiě)入DCache的帶寬降低。也許是為了Neon才促成了這樣的設(shè)計(jì)？這也印證了TSV110使用的是不支持同時(shí)讀寫(xiě)的單口SRAM。但是不尋常的地方不止于此：

load跨16Byte，store不跨16Byte時(shí)居然也出現(xiàn)了吞吐量下降。完成一組store-load指令對(duì)的耗時(shí)由1周期上升至了1.2周期。這其中的原因難以捉摸，究竟是什么結(jié)構(gòu)出現(xiàn)了瓶頸呢？難道是對(duì)STQ的查詢(xún)？

load跨行store不跨行時(shí)，load讀取Dcache的帶寬下降，load指令發(fā)生了拆分；此時(shí)每周期能夠執(zhí)行0.5組store-load指令對(duì)。store指令跨行時(shí)的行為參照跨16Byte的情形，而當(dāng)load、store指令均跨行時(shí)沒(méi)有額外的疊加損失。

總體而言TSV110的近核訪(fǎng)存子系統(tǒng)表現(xiàn)出了較為奇怪的特性，較為嚴(yán)格的對(duì)齊約束也許會(huì)對(duì)實(shí)際應(yīng)用的訪(fǎng)存帶寬造成不利影響。

Cache延遲

我們使用多種訪(fǎng)存模式訪(fǎng)問(wèn)逐漸變大的數(shù)據(jù)集（直至內(nèi)存），以探究TSV110的Cache層級(jí)設(shè)計(jì)、預(yù)取器效果、內(nèi)存控制器效果。

TSV110采用了傳統(tǒng)的3級(jí)Cache設(shè)計(jì)：

DCache有效容量為64KB。
L2Cache有效容量為512KB。
Linear Chain不能做到無(wú)損預(yù)取，疑似沒(méi)有直達(dá)L1的Stream和Stride預(yù)取器。
開(kāi)頁(yè)預(yù)取器或類(lèi)Region預(yù)取器不存在或效果不佳。
LLC有效容量為1MB/core，對(duì)于32核型號(hào)可訪(fǎng)問(wèn)總空間為32MB。

TSV110的一級(jí)和二級(jí)Cache訪(fǎng)問(wèn)延遲都不算高，表現(xiàn)較為優(yōu)秀。Kunpeng920的LLC掛載在環(huán)形總線(xiàn)上，實(shí)測(cè)表現(xiàn)出了明顯的local和remote特征，每個(gè)4核核心簇有3-4MB的快速訪(fǎng)問(wèn)區(qū)間，應(yīng)該是直接所屬的那部分LLC slice；超出這一空間后進(jìn)入remote部分，延遲激增，但是從訪(fǎng)問(wèn)cycle數(shù)上仍然優(yōu)于部分Intel處理器（同為ringbus，不過(guò)這一對(duì)比不甚科學(xué)，畢竟這些Intel SKU的頻率倍增且定位不同）。數(shù)據(jù)預(yù)取器的缺失令人如鯁在喉。縱使是擔(dān)心激進(jìn)的數(shù)據(jù)預(yù)取影響全片滿(mǎn)載表現(xiàn)，也不至于不配備基本的Stream、Stride預(yù)取器，這會(huì)極大影響很多應(yīng)用的表現(xiàn)，個(gè)人十分好奇這其中的設(shè)計(jì)考量。

訪(fǎng)存序

亂序推測(cè)執(zhí)行的處理器中，store指令無(wú)法被推測(cè)執(zhí)行但是load指令允許被推測(cè)執(zhí)行，這就造成了訪(fǎng)存的RAW和WAR問(wèn)題。為了避免錯(cuò)誤推測(cè)執(zhí)行的load指令帶來(lái)頻繁的回滾或流水線(xiàn)清空，處理器內(nèi)部普遍配備了訪(fǎng)存違例預(yù)測(cè)器，預(yù)測(cè)可能會(huì)導(dǎo)致回滾和流水線(xiàn)清空的load指令，并強(qiáng)制這樣的load指令不再完全推測(cè)執(zhí)行。

TSV110的訪(fǎng)存違例預(yù)測(cè)器有32項(xiàng)容量，采用了較為傳統(tǒng)的設(shè)計(jì)。現(xiàn)今處理器仍然廣泛使用這樣的傳統(tǒng)設(shè)計(jì)而非store-set等機(jī)制（只有Intel的大核采用了類(lèi)store-set設(shè)計(jì)），但是傳統(tǒng)機(jī)制也有海量的設(shè)計(jì)細(xì)節(jié)，我們不在此展開(kāi)。時(shí)至今日，業(yè)內(nèi)主流設(shè)計(jì)的容量普遍在32項(xiàng)左右。

CapacityTSV11032Icestorm12A7632A7832

訪(fǎng)存并行度

在該測(cè)試項(xiàng)目中，我們考察處理器同時(shí)面對(duì)多個(gè)訪(fǎng)存流時(shí)的表現(xiàn)。每個(gè)訪(fǎng)存流均是隨機(jī)且獨(dú)立的，因此可以規(guī)避預(yù)取器的有效介入，最大限度壓榨核內(nèi)流水線(xiàn)亂序結(jié)構(gòu)、各級(jí)Cache亂序結(jié)構(gòu)。

可見(jiàn)TSV110的圖像清晰整潔，優(yōu)于A78，近似Icestorm。其在雙流訪(fǎng)存時(shí)能夠獲得接近線(xiàn)性的帶寬提升，但是更多的訪(fǎng)存流已經(jīng)無(wú)法提高近核區(qū)間的總帶寬。在遠(yuǎn)端的內(nèi)存段，最大的有收益流數(shù)量為16個(gè)，在現(xiàn)如今處理器中不算很多。但是考慮到TSV110極為保守的預(yù)取器表現(xiàn)，這樣的MLP成績(jī)就中規(guī)中矩了。

Pointer Chasing

Pointer chasing是現(xiàn)代高性能處理器中常見(jiàn)的訪(fǎng)存優(yōu)化，當(dāng)一條load指令的結(jié)果用于下一條load指令的地址計(jì)算時(shí)，該結(jié)果會(huì)從快速通路進(jìn)入AGU流水線(xiàn)，縮短這兩條load指令的執(zhí)行間隔。在配備了pointer chasing消除機(jī)制的處理器中，觸發(fā)pointer chasing時(shí)load-to-use延遲會(huì)比正常情況減少1周期。

Load-to-use latencyPointer-chasing Case4No-pointer-chasing Case4

從測(cè)試結(jié)果來(lái)看TSV110并沒(méi)有配備pointer chasing優(yōu)化。不過(guò)4周期的訪(fǎng)存延遲本身較低，時(shí)至今日也不落伍。想要如蘋(píng)果一樣在4周期的訪(fǎng)存延遲上更進(jìn)一步，不僅僅需要強(qiáng)大的邏輯設(shè)計(jì)能力（從蘋(píng)果的專(zhuān)利來(lái)看，其中有很多細(xì)節(jié)）還需要強(qiáng)悍的物理設(shè)計(jì)能力，這樣的投入是否有足夠的性?xún)r(jià)比各設(shè)計(jì)公司都會(huì)有自己的考量。題外話(huà)，從12代酷睿的GoldenCove開(kāi)始，Intel裁撤了P core的pointer chasing優(yōu)化，可能是超高目標(biāo)頻率的負(fù)影響。

核外

隨著摩爾定律的放緩，即便是消費(fèi)級(jí)處理器也被迫向多核方向發(fā)展，核外組件發(fā)揮著重要的作用。核外系統(tǒng)是個(gè)紛繁復(fù)雜的世界，無(wú)論是總線(xiàn)結(jié)構(gòu)、一致性協(xié)議、LLC設(shè)計(jì)還是內(nèi)存控制器調(diào)度，每項(xiàng)都復(fù)雜到讀完1本書(shū)都無(wú)法入門(mén)。因此，我們只關(guān)注其中較為淺顯、直觀的部分。

核間延遲

我們通過(guò)CAS測(cè)量Soc中兩兩核間的延遲（臟數(shù)據(jù)傳遞），其反映了處理器的一致性協(xié)議效率、LLC設(shè)計(jì)、總線(xiàn)設(shè)計(jì)等多個(gè)維度特性的交疊。

鯤鵬920的核間互聯(lián)結(jié)構(gòu)在HPCA等體系結(jié)構(gòu)頂會(huì)上有論文介紹，我們只關(guān)注其實(shí)際表現(xiàn)。從測(cè)試結(jié)果來(lái)看，每個(gè)4核核心簇內(nèi)部是類(lèi)crossbar設(shè)計(jì)，延遲表現(xiàn)一般但也符合預(yù)期。核心簇掛載在雙向bufferless ringbus上，在單socket內(nèi)延遲與AMD EPYC 7003跨CCD延遲比肩，但是落后于使用mesh結(jié)構(gòu)的intel。在跨片延遲方面，鯤鵬920還是落后于EPYC 7003（～200ns），但是優(yōu)勢(shì)在于其跨路時(shí)支持了更多的一致性操作，少了許多不必要的跨片傳輸（由peer to peer傳輸代替）；intel的跨片則全面領(lǐng)先，僅需～140ns?？傮w而言，考慮到鯤鵬920超多的核心數(shù)量，其互聯(lián)結(jié)構(gòu)展現(xiàn)出了相當(dāng)?shù)膶?shí)力，雙路、四路互聯(lián)都不在話(huà)下，初出茅廬已能與老牌巨頭煮酒論劍。

訪(fǎng)存帶寬

我們通過(guò)Stream程序測(cè)試Soc中CPU單核的訪(fǎng)存帶寬，其反映了處理器核內(nèi)的流水線(xiàn)設(shè)計(jì)、各級(jí)Cache設(shè)計(jì)、總線(xiàn)設(shè)計(jì)、內(nèi)存控制器設(shè)計(jì)等多個(gè)維度特性的交疊。

FunctionBest Rate (MB/s)Copy12185Scale11231Add9285Triad9274

TSV110的單核Stream帶寬極為低下，甚至讓我一度懷疑測(cè)試程序沒(méi)有向量化；其效果仿佛整個(gè)平臺(tái)只插了半截內(nèi)存條。經(jīng)由前文的微結(jié)構(gòu)分析，有效數(shù)據(jù)預(yù)取器的缺失導(dǎo)致了Stream帶寬的低下，進(jìn)而也導(dǎo)致了基準(zhǔn)測(cè)試部分浮點(diǎn)性能的低下。但數(shù)據(jù)預(yù)取是一把雙刃劍，過(guò)于激進(jìn)的預(yù)取在多核滿(mǎn)載時(shí)反而可能導(dǎo)致帶寬爭(zhēng)搶、饑餓，也許是出于鯤鵬920的服務(wù)器定位TSV110才在這一方面保守了呢？事實(shí)上如果我們測(cè)試多線(xiàn)程的Stream，鯤鵬920的確表現(xiàn)出了較高的總帶寬效率，不過(guò)鑒于其單核低得離譜的帶寬，良好的多核延展性也是應(yīng)該的。總體而言TSV110在這一方面的進(jìn)步空間無(wú)限大。

總結(jié)

盡管TSV110有著為數(shù)眾多的奇怪特性和肉眼可見(jiàn)的細(xì)節(jié)上的粗糙，但是與當(dāng)年的國(guó)際同期微架構(gòu)A76相去并不遙遠(yuǎn)。整數(shù)負(fù)載的優(yōu)秀表現(xiàn)讓我們看到了其不可小覷的潛力；互聯(lián)與擴(kuò)展設(shè)計(jì)可謂一鳴驚人，直達(dá)可用的狀態(tài)；在嘗試許多新技術(shù)的前提下仍然保證了相當(dāng)?shù)娜瓿啥取Ｕ鐚?duì)體系結(jié)構(gòu)的認(rèn)知是螺旋上升的，TSV110的成功與失敗都會(huì)成為財(cái)富，化作TSV120乃至其他后來(lái)者向頂峰發(fā)起沖擊的長(zhǎng)階。隨著國(guó)際對(duì)抗烈度的加劇，越來(lái)越多的芯片公司遭受了長(zhǎng)臂管轄制裁，一個(gè)個(gè)熟悉的名字接連蒙上陰霾，頗有前赴后繼的悲壯感。不過(guò)一代人有一代人的長(zhǎng)征，我相信縱使當(dāng)下黑云壓城城欲摧，也終會(huì)峰回路轉(zhuǎn)，守得撥云見(jiàn)日開(kāi)。讓我們共同期待鯤鵬們的涅槃歸來(lái)，道一聲同慶鯤魚(yú)躍。

分析與測(cè)試：lyz、lxy

測(cè)試平臺(tái)

我們共使用了兩套平臺(tái)，一套是清華同方主機(jī)，處理器為Kunpeng 920 8核SKU；另一套則是雙路服務(wù)器平臺(tái)，處理器為2顆Kunpeng 920 32核SKU。之所以使用了兩套平臺(tái)，是因?yàn)樵诓糠譁y(cè)試中我們得到了“難以置信”的結(jié)論，以至于懷疑桌面版本的鯤鵬920有所閹割，只得又找來(lái)另一套平臺(tái)進(jìn)行對(duì)照測(cè)試。

（假裝有圖）

發(fā)布于 2023-03-25 10:22?IP 屬地北京

華為

鯤鵬 920 芯片

中央處理器 (CPU)

贊同 824 條評(píng)論

喜歡收藏申請(qǐng)轉(zhuǎn)載

評(píng)論千萬(wàn)條，友善第一條

4 條評(píng)論

默認(rèn)

文章被以下專(zhuān)欄收錄

CPU微架構(gòu)評(píng)測(cè)

深入評(píng)測(cè)CPU微架構(gòu)

標(biāo)簽：