【轉(zhuǎn)】華為鯤鵬920 TSV110微架構(gòu)(下):初露鋒芒,砥礪前行

華為鯤鵬920 TSV110微架構(gòu)(下):初露鋒芒,砥礪前行

JamesAslan
喜歡畫(huà)畫(huà)和攝影的硅工碼農(nóng)(滑稽)
關(guān)注他
82 人贊同了該文章
目錄
收起
幕間
Mid Core
重命名消除
亂序資源
訪(fǎng)存
load-store前遞
Dcache端口
Cache延遲
訪(fǎng)存序
訪(fǎng)存并行度
Pointer Chasing
核外
核間延遲
訪(fǎng)存帶寬
總結(jié)
測(cè)試平臺(tái)
幕間
在上篇中我們主要探究了鯤鵬920 TSV110微架構(gòu)的取指前端和后端執(zhí)行單元配置,下篇我們繼續(xù)探究Mid Core、訪(fǎng)存子系統(tǒng)、核外系統(tǒng)。
JamesAslan:華為鯤鵬920 TSV110微架構(gòu)評(píng)測(cè)(上):初露鋒芒,砥礪前行110 贊同 · 24 評(píng)論文章

Mid Core
重命名消除
在實(shí)際應(yīng)用程序中許多指令并不需要進(jìn)入處理器后端被真正執(zhí)行(如move指令);現(xiàn)代處理器普遍配備了各式各樣的重命名消除機(jī)制,以減少處理器后端壓力并加速程序執(zhí)行。
Elimination typeThroughputmove imm zero4move imm one4move chain1.3move single4move self1.3move bounce1.3sub self1xor self1
TSV110配備了基本的重命名消除機(jī)制,優(yōu)于A78之流,但與X86競(jìng)品相比仍有相當(dāng)?shù)牟罹?。X86處理器傾向于配備極強(qiáng)的重命名消除機(jī)制,可能源自于其寄存器數(shù)相對(duì)較少的歷史包袱。令人驚喜的是,move置0以及move置立即數(shù)1都被特別消除了。TSV110的重命名可以消除不相關(guān)的move,但是不能在同一周期內(nèi)處理move相關(guān)鏈;這樣的取舍可以理解,一方面是在真實(shí)應(yīng)用中這樣的場(chǎng)景較少;另一方面是TSV110流水線(xiàn)可能偏較短,支持相關(guān)鏈重命名會(huì)給重命名級(jí)帶來(lái)巨大的時(shí)序壓力。
move imm zero(mov x10, #0)吞吐為4說(shuō)明重命名對(duì)置立即數(shù)0進(jìn)行了消除,因?yàn)槠鋬H有3個(gè)ALU。
move imm one(mov x10, #1)吞吐為4說(shuō)明重命名時(shí)對(duì)置立即數(shù)1進(jìn)行了消除,因?yàn)槠鋬H有3個(gè)ALU。
sub與xor均未對(duì)置0情況進(jìn)行特別優(yōu)化,可能是ARM ISA的編譯器極少進(jìn)行此類(lèi)操作;X86處理器普遍配備此類(lèi)優(yōu)化。
move single(非相關(guān)的move消除)等的吞吐為4,超過(guò)了ALU數(shù)量(因此move并未由后端真正執(zhí)行),說(shuō)明其具備基本的重命名消除機(jī)制。
move bounce與move chain等的吞吐為1.3,說(shuō)明后端出現(xiàn)了數(shù)據(jù)相關(guān)或前端重命名吞吐量下降,無(wú)論如何均表明未被重命名消除。
move self的吞吐為1.3,說(shuō)明其未被重命名消除。雖然這一細(xì)節(jié)的實(shí)用意義不大,但是move self理應(yīng)被識(shí)別為nop,TSV110沒(méi)有做這一點(diǎn)可以說(shuō)是向Intel致敬了。
亂序資源
亂序推測(cè)執(zhí)行的處理器需要海量的隊(duì)列空間來(lái)跟蹤指令,確保指令最終的提交順序正確。
IcestormA78TSV110ROB~108~160~92*n(coalesced ROB)PRF(integer)~108~160~140PRF(float)~112~92~96PRF(conditional bit/flag)~36~44~42
TSV110在ROB設(shè)計(jì)上進(jìn)行了大膽的嘗試。倘若只使用Nop指令,我們會(huì)得到:
似乎ROB只有92項(xiàng),小得異乎尋常。倘若我們交替混合Nop與Add指令,那么結(jié)論就大不一樣:
似乎ROB有180項(xiàng)。倘若使用精心配比的各種指令交替混合,結(jié)論又發(fā)生了變化:
似乎ROB有230項(xiàng),逐漸大得離譜。這是Coalesced ROB的特征,每個(gè)ROB表項(xiàng)可以追蹤多條指令,古時(shí)的IBM、現(xiàn)如今的Apple、Sifive等公司也采用了這樣的設(shè)計(jì)。但是TSV110的選擇有些許令人困惑,即為什么nop指令沒(méi)有被特別優(yōu)化,甚至連續(xù)的nop都需要占據(jù)單獨(dú)表項(xiàng);在A78、Icestorm等微架構(gòu)中,每個(gè)ROB表項(xiàng)都可以存儲(chǔ)多條nop指令。TSV110似乎能將不同類(lèi)型的指令合并存儲(chǔ)在同一ROB表項(xiàng)中,但具體的規(guī)則我們沒(méi)有探究。
從寄存器堆的配置來(lái)看TSV110傾向于優(yōu)化定點(diǎn)性能。由于Coalesced ROB的特殊性,我們不能簡(jiǎn)單地判斷各類(lèi)寄存器堆是否足額或超額。不過(guò)單純考慮各物理寄存器堆的規(guī)模,TSV110定點(diǎn)略大,浮點(diǎn)略小。雖然亂序資源的容量十分重要,但是使用效率的優(yōu)化也是重中之重,因此我們不能簡(jiǎn)單地追求資源的堆砌。
亂序推測(cè)執(zhí)行的處理器最為直接的調(diào)度窗口由各級(jí)發(fā)射隊(duì)列的容量決定:
IcestormA78TSV110IssueQ+DispatchQ (Simple fix)~36~56~36IssueQ+DispatchQ (Complex fix)~14~32~28IssueQ+DispatchQ (Float)~32~48~28IssueQ+DispatchQ (Load)~20~32~42LDQ~54~64~48STQ~40~48~32
DispatchQ并不一定存在,且DispatchQ的容量并不是在任何微結(jié)構(gòu)中都可以探測(cè)的,因此我們不分離計(jì)數(shù)。
整數(shù)發(fā)射隊(duì)列為36項(xiàng)左右,不算小??梢哉J(rèn)為是較為平衡的設(shè)計(jì),代表了一般場(chǎng)景下足夠的亂序調(diào)度能力。
復(fù)雜整數(shù)指令(如乘法指令)所享受到的發(fā)射隊(duì)列項(xiàng)數(shù)為~28項(xiàng),這個(gè)曖昧的數(shù)字不足以判斷是否與簡(jiǎn)單整數(shù)指令共享了發(fā)射隊(duì)列。我們首先測(cè)試了3 add + 1 mul的指令序列,發(fā)現(xiàn)能夠保持4 inst/cycle的吞吐,因此發(fā)射隊(duì)列擁有每周期同時(shí)發(fā)射4條指令的能力;再將add與mul指令混合以探測(cè)發(fā)射隊(duì)列的大小,發(fā)現(xiàn)容量為~60,接近36與28的加和;因此執(zhí)行復(fù)雜整數(shù)指令的MDU大概獨(dú)享了~28項(xiàng)的發(fā)射隊(duì)列。
由上條可知,TSV110具有分布式發(fā)射隊(duì)列的特征,每個(gè)執(zhí)行單元前有一個(gè)獨(dú)立的發(fā)射隊(duì)列。分布式發(fā)射隊(duì)列的有效容量在極端情況下不及集中式發(fā)射隊(duì)列,因此會(huì)與A78等新設(shè)計(jì)有較大的差距。
浮點(diǎn)發(fā)射隊(duì)列為28項(xiàng)左右,相較整數(shù)大幅縮減。
訪(fǎng)存發(fā)射隊(duì)列為42項(xiàng)左右,十分巨大。足見(jiàn)對(duì)訪(fǎng)存能力的追求是永無(wú)盡頭的。
總體而言,TSV110的亂序調(diào)度窗口在當(dāng)時(shí)已然十分巨大,但是容量的分配有些許奇怪,可能是我們測(cè)試方法的局限導(dǎo)致了TSV110上數(shù)據(jù)的異常。
TSV110的Load Queue容量為48項(xiàng),Store Queue容量為32項(xiàng)。從執(zhí)行單元的規(guī)格上來(lái)看(2 load AGU、1 store AGU),TSV110的LDQ與STQ容量是足額的。但是在接下來(lái)的訪(fǎng)存測(cè)試環(huán)節(jié)中,我們可以看到其STQ的設(shè)計(jì)似乎有一定的局限性。
訪(fǎng)存
訪(fǎng)存是體系結(jié)構(gòu)永恒的話(huà)題與難題,訪(fǎng)存性能直接決定了處理器性能的上限(甚至取指也是一種形式的訪(fǎng)存),訪(fǎng)存子系統(tǒng)的表現(xiàn)體現(xiàn)了設(shè)計(jì)團(tuán)隊(duì)的綜合實(shí)力(前端、后端)。為了緩解越發(fā)明顯的緩存墻(memory wall)問(wèn)題,現(xiàn)代處理器的訪(fǎng)存子系統(tǒng)十分復(fù)雜;流水線(xiàn)內(nèi)的LDQ、STQ,Dcache、DTLB,下級(jí)Cache、下級(jí)TLB,各級(jí)預(yù)取器等組件交織配合,嘗試在延遲、帶寬等多個(gè)維度提高訪(fǎng)存性能。
load-store前遞
當(dāng)load指令命中STQ中還未來(lái)得及寫(xiě)回DCache的store指令(訪(fǎng)問(wèn)了相同的物理地址)時(shí),配備了store-to-load forwarding的處理器無(wú)需等待store指令寫(xiě)回DCache后再執(zhí)行l(wèi)oad指令,而是可以直接將STQ中存儲(chǔ)的相應(yīng)數(shù)據(jù)發(fā)送至LSU,完成load指令的執(zhí)行。
TSV110的Store-to-load forwarding圖像并不傳統(tǒng)。從計(jì)算得出的延遲來(lái)看,2.5ns約為6.5個(gè)時(shí)鐘周期,其配備了store-to-load forwarding機(jī)制。與大部分其他處理器核不同的是,TSV110的前遞粒度為8bit即1 Byte(STQ支持的查詢(xún)和存儲(chǔ)粒度為8bit),也就是說(shuō)TSV110可以從任何非對(duì)齊位置對(duì)partial overlay的load指令進(jìn)行store數(shù)據(jù)前遞,而無(wú)需等待store指令的數(shù)據(jù)寫(xiě)入DCache再重新執(zhí)行l(wèi)oad指令,這一設(shè)計(jì)十分激進(jìn)。更為激進(jìn)的是,在store跨行、load跨行時(shí)都沒(méi)有嚴(yán)重影響store-to-load forwarding的效率,其近乎完美地工作著。至于圖中的其他條帶,我們?cè)诤笪闹性賴(lài)L試分析。
Dcache端口
store-to-load forwarding圖像還包含了更多的信息,TSV110的訪(fǎng)存子系統(tǒng)展現(xiàn)出了一些令人費(fèi)解的特性。
load、store均不跨16Byte時(shí),每周期能夠執(zhí)行1組store-load指令對(duì),符合TSV110只有1個(gè)AGU store(共兩個(gè)AGU)的設(shè)計(jì)。

一旦store過(guò)16Byte對(duì)齊線(xiàn),奇怪的現(xiàn)象便出現(xiàn)了:store寫(xiě)入Dcache的帶寬下降了,2周期才能完成1條store指令。Zen4也有類(lèi)似的現(xiàn)象,其store在跨32Byte時(shí)會(huì)被拆分為2條。這樣的現(xiàn)象在早期的處理器上更為常見(jiàn),如A75:
受制于“節(jié)儉”的Cache設(shè)計(jì),這些處理器在跨越部分行內(nèi)邊界時(shí)也會(huì)需要拆分。但是TSV110的DCache似乎并不節(jié)儉,經(jīng)過(guò)測(cè)試其應(yīng)該是使用了體復(fù)制的方式實(shí)現(xiàn)了多端口設(shè)計(jì)(也就是說(shuō)使用了鏡像的2組SRAM),這一設(shè)計(jì)不算優(yōu)雅。我猜測(cè)可能是STQ設(shè)計(jì)時(shí)只支持128bit對(duì)齊的存儲(chǔ),凡是越過(guò)128bit對(duì)齊的store都需要占據(jù)兩項(xiàng)STQ,進(jìn)而導(dǎo)致了寫(xiě)入DCache的帶寬降低。也許是為了Neon才促成了這樣的設(shè)計(jì)?這也印證了TSV110使用的是不支持同時(shí)讀寫(xiě)的單口SRAM。但是不尋常的地方不止于此:

load跨16Byte,store不跨16Byte時(shí)居然也出現(xiàn)了吞吐量下降。完成一組store-load指令對(duì)的耗時(shí)由1周期上升至了1.2周期。這其中的原因難以捉摸,究竟是什么結(jié)構(gòu)出現(xiàn)了瓶頸呢?難道是對(duì)STQ的查詢(xún)?

load跨行store不跨行時(shí),load讀取Dcache的帶寬下降,load指令發(fā)生了拆分;此時(shí)每周期能夠執(zhí)行0.5組store-load指令對(duì)。store指令跨行時(shí)的行為參照跨16Byte的情形,而當(dāng)load、store指令均跨行時(shí)沒(méi)有額外的疊加損失。
總體而言TSV110的近核訪(fǎng)存子系統(tǒng)表現(xiàn)出了較為奇怪的特性,較為嚴(yán)格的對(duì)齊約束也許會(huì)對(duì)實(shí)際應(yīng)用的訪(fǎng)存帶寬造成不利影響。
Cache延遲
我們使用多種訪(fǎng)存模式訪(fǎng)問(wèn)逐漸變大的數(shù)據(jù)集(直至內(nèi)存),以探究TSV110的Cache層級(jí)設(shè)計(jì)、預(yù)取器效果、內(nèi)存控制器效果。
TSV110采用了傳統(tǒng)的3級(jí)Cache設(shè)計(jì):
DCache有效容量為64KB。
L2Cache有效容量為512KB。
Linear Chain不能做到無(wú)損預(yù)取,疑似沒(méi)有直達(dá)L1的Stream和Stride預(yù)取器。
開(kāi)頁(yè)預(yù)取器或類(lèi)Region預(yù)取器不存在或效果不佳。
LLC有效容量為1MB/core,對(duì)于32核型號(hào)可訪(fǎng)問(wèn)總空間為32MB。
TSV110的一級(jí)和二級(jí)Cache訪(fǎng)問(wèn)延遲都不算高,表現(xiàn)較為優(yōu)秀。Kunpeng920的LLC掛載在環(huán)形總線(xiàn)上,實(shí)測(cè)表現(xiàn)出了明顯的local和remote特征,每個(gè)4核核心簇有3-4MB的快速訪(fǎng)問(wèn)區(qū)間,應(yīng)該是直接所屬的那部分LLC slice;超出這一空間后進(jìn)入remote部分,延遲激增,但是從訪(fǎng)問(wèn)cycle數(shù)上仍然優(yōu)于部分Intel處理器(同為ringbus,不過(guò)這一對(duì)比不甚科學(xué),畢竟這些Intel SKU的頻率倍增且定位不同)。數(shù)據(jù)預(yù)取器的缺失令人如鯁在喉。縱使是擔(dān)心激進(jìn)的數(shù)據(jù)預(yù)取影響全片滿(mǎn)載表現(xiàn),也不至于不配備基本的Stream、Stride預(yù)取器,這會(huì)極大影響很多應(yīng)用的表現(xiàn),個(gè)人十分好奇這其中的設(shè)計(jì)考量。
訪(fǎng)存序
亂序推測(cè)執(zhí)行的處理器中,store指令無(wú)法被推測(cè)執(zhí)行但是load指令允許被推測(cè)執(zhí)行,這就造成了訪(fǎng)存的RAW和WAR問(wèn)題。為了避免錯(cuò)誤推測(cè)執(zhí)行的load指令帶來(lái)頻繁的回滾或流水線(xiàn)清空,處理器內(nèi)部普遍配備了訪(fǎng)存違例預(yù)測(cè)器,預(yù)測(cè)可能會(huì)導(dǎo)致回滾和流水線(xiàn)清空的load指令,并強(qiáng)制這樣的load指令不再完全推測(cè)執(zhí)行。
TSV110的訪(fǎng)存違例預(yù)測(cè)器有32項(xiàng)容量,采用了較為傳統(tǒng)的設(shè)計(jì)。現(xiàn)今處理器仍然廣泛使用這樣的傳統(tǒng)設(shè)計(jì)而非store-set等機(jī)制(只有Intel的大核采用了類(lèi)store-set設(shè)計(jì)),但是傳統(tǒng)機(jī)制也有海量的設(shè)計(jì)細(xì)節(jié),我們不在此展開(kāi)。時(shí)至今日,業(yè)內(nèi)主流設(shè)計(jì)的容量普遍在32項(xiàng)左右。
CapacityTSV11032Icestorm12A7632A7832
訪(fǎng)存并行度
在該測(cè)試項(xiàng)目中,我們考察處理器同時(shí)面對(duì)多個(gè)訪(fǎng)存流時(shí)的表現(xiàn)。每個(gè)訪(fǎng)存流均是隨機(jī)且獨(dú)立的,因此可以規(guī)避預(yù)取器的有效介入,最大限度壓榨核內(nèi)流水線(xiàn)亂序結(jié)構(gòu)、各級(jí)Cache亂序結(jié)構(gòu)。
可見(jiàn)TSV110的圖像清晰整潔,優(yōu)于A78,近似Icestorm。其在雙流訪(fǎng)存時(shí)能夠獲得接近線(xiàn)性的帶寬提升,但是更多的訪(fǎng)存流已經(jīng)無(wú)法提高近核區(qū)間的總帶寬。在遠(yuǎn)端的內(nèi)存段,最大的有收益流數(shù)量為16個(gè),在現(xiàn)如今處理器中不算很多。但是考慮到TSV110極為保守的預(yù)取器表現(xiàn),這樣的MLP成績(jī)就中規(guī)中矩了。
Pointer Chasing
Pointer chasing是現(xiàn)代高性能處理器中常見(jiàn)的訪(fǎng)存優(yōu)化,當(dāng)一條load指令的結(jié)果用于下一條load指令的地址計(jì)算時(shí),該結(jié)果會(huì)從快速通路進(jìn)入AGU流水線(xiàn),縮短這兩條load指令的執(zhí)行間隔。在配備了pointer chasing消除機(jī)制的處理器中,觸發(fā)pointer chasing時(shí)load-to-use延遲會(huì)比正常情況減少1周期。
Load-to-use latencyPointer-chasing Case4No-pointer-chasing Case4
從測(cè)試結(jié)果來(lái)看TSV110并沒(méi)有配備pointer chasing優(yōu)化。不過(guò)4周期的訪(fǎng)存延遲本身較低,時(shí)至今日也不落伍。想要如蘋(píng)果一樣在4周期的訪(fǎng)存延遲上更進(jìn)一步,不僅僅需要強(qiáng)大的邏輯設(shè)計(jì)能力(從蘋(píng)果的專(zhuān)利來(lái)看,其中有很多細(xì)節(jié))還需要強(qiáng)悍的物理設(shè)計(jì)能力,這樣的投入是否有足夠的性?xún)r(jià)比各設(shè)計(jì)公司都會(huì)有自己的考量。題外話(huà),從12代酷睿的GoldenCove開(kāi)始,Intel裁撤了P core的pointer chasing優(yōu)化,可能是超高目標(biāo)頻率的負(fù)影響。
核外
隨著摩爾定律的放緩,即便是消費(fèi)級(jí)處理器也被迫向多核方向發(fā)展,核外組件發(fā)揮著重要的作用。核外系統(tǒng)是個(gè)紛繁復(fù)雜的世界,無(wú)論是總線(xiàn)結(jié)構(gòu)、一致性協(xié)議、LLC設(shè)計(jì)還是內(nèi)存控制器調(diào)度,每項(xiàng)都復(fù)雜到讀完1本書(shū)都無(wú)法入門(mén)。因此,我們只關(guān)注其中較為淺顯、直觀的部分。
核間延遲
我們通過(guò)CAS測(cè)量Soc中兩兩核間的延遲(臟數(shù)據(jù)傳遞),其反映了處理器的一致性協(xié)議效率、LLC設(shè)計(jì)、總線(xiàn)設(shè)計(jì)等多個(gè)維度特性的交疊。
鯤鵬920的核間互聯(lián)結(jié)構(gòu)在HPCA等體系結(jié)構(gòu)頂會(huì)上有論文介紹,我們只關(guān)注其實(shí)際表現(xiàn)。從測(cè)試結(jié)果來(lái)看,每個(gè)4核核心簇內(nèi)部是類(lèi)crossbar設(shè)計(jì),延遲表現(xiàn)一般但也符合預(yù)期。核心簇掛載在雙向bufferless ringbus上,在單socket內(nèi)延遲與AMD EPYC 7003跨CCD延遲比肩,但是落后于使用mesh結(jié)構(gòu)的intel。在跨片延遲方面,鯤鵬920還是落后于EPYC 7003(~200ns),但是優(yōu)勢(shì)在于其跨路時(shí)支持了更多的一致性操作,少了許多不必要的跨片傳輸(由peer to peer傳輸代替);intel的跨片則全面領(lǐng)先,僅需~140ns??傮w而言,考慮到鯤鵬920超多的核心數(shù)量,其互聯(lián)結(jié)構(gòu)展現(xiàn)出了相當(dāng)?shù)膶?shí)力,雙路、四路互聯(lián)都不在話(huà)下,初出茅廬已能與老牌巨頭煮酒論劍。
訪(fǎng)存帶寬
我們通過(guò)Stream程序測(cè)試Soc中CPU單核的訪(fǎng)存帶寬,其反映了處理器核內(nèi)的流水線(xiàn)設(shè)計(jì)、各級(jí)Cache設(shè)計(jì)、總線(xiàn)設(shè)計(jì)、內(nèi)存控制器設(shè)計(jì)等多個(gè)維度特性的交疊。
FunctionBest Rate (MB/s)Copy12185Scale11231Add9285Triad9274
TSV110的單核Stream帶寬極為低下,甚至讓我一度懷疑測(cè)試程序沒(méi)有向量化;其效果仿佛整個(gè)平臺(tái)只插了半截內(nèi)存條。經(jīng)由前文的微結(jié)構(gòu)分析,有效數(shù)據(jù)預(yù)取器的缺失導(dǎo)致了Stream帶寬的低下,進(jìn)而也導(dǎo)致了基準(zhǔn)測(cè)試部分浮點(diǎn)性能的低下。但數(shù)據(jù)預(yù)取是一把雙刃劍,過(guò)于激進(jìn)的預(yù)取在多核滿(mǎn)載時(shí)反而可能導(dǎo)致帶寬爭(zhēng)搶、饑餓,也許是出于鯤鵬920的服務(wù)器定位TSV110才在這一方面保守了呢?事實(shí)上如果我們測(cè)試多線(xiàn)程的Stream,鯤鵬920的確表現(xiàn)出了較高的總帶寬效率,不過(guò)鑒于其單核低得離譜的帶寬,良好的多核延展性也是應(yīng)該的。總體而言TSV110在這一方面的進(jìn)步空間無(wú)限大。
總結(jié)
盡管TSV110有著為數(shù)眾多的奇怪特性和肉眼可見(jiàn)的細(xì)節(jié)上的粗糙,但是與當(dāng)年的國(guó)際同期微架構(gòu)A76相去并不遙遠(yuǎn)。整數(shù)負(fù)載的優(yōu)秀表現(xiàn)讓我們看到了其不可小覷的潛力;互聯(lián)與擴(kuò)展設(shè)計(jì)可謂一鳴驚人,直達(dá)可用的狀態(tài);在嘗試許多新技術(shù)的前提下仍然保證了相當(dāng)?shù)娜瓿啥取U鐚?duì)體系結(jié)構(gòu)的認(rèn)知是螺旋上升的,TSV110的成功與失敗都會(huì)成為財(cái)富,化作TSV120乃至其他后來(lái)者向頂峰發(fā)起沖擊的長(zhǎng)階。隨著國(guó)際對(duì)抗烈度的加劇,越來(lái)越多的芯片公司遭受了長(zhǎng)臂管轄制裁,一個(gè)個(gè)熟悉的名字接連蒙上陰霾,頗有前赴后繼的悲壯感。不過(guò)一代人有一代人的長(zhǎng)征,我相信縱使當(dāng)下黑云壓城城欲摧,也終會(huì)峰回路轉(zhuǎn),守得撥云見(jiàn)日開(kāi)。讓我們共同期待鯤鵬們的涅槃歸來(lái),道一聲同慶鯤魚(yú)躍。
分析與測(cè)試:lyz、lxy
測(cè)試平臺(tái)
我們共使用了兩套平臺(tái),一套是清華同方主機(jī),處理器為Kunpeng 920 8核SKU;另一套則是雙路服務(wù)器平臺(tái),處理器為2顆Kunpeng 920 32核SKU。之所以使用了兩套平臺(tái),是因?yàn)樵诓糠譁y(cè)試中我們得到了“難以置信”的結(jié)論,以至于懷疑桌面版本的鯤鵬920有所閹割,只得又找來(lái)另一套平臺(tái)進(jìn)行對(duì)照測(cè)試。
(假裝有圖)
發(fā)布于 2023-03-25 10:22?IP 屬地北京
華為
鯤鵬 920 芯片
中央處理器 (CPU)
贊同 824 條評(píng)論
分享
喜歡收藏申請(qǐng)轉(zhuǎn)載

評(píng)論千萬(wàn)條,友善第一條
4 條評(píng)論
默認(rèn)
最新

huhu
天賦都點(diǎn)在互聯(lián)上了,跨cluster 的互訪(fǎng)也不錯(cuò)
03-25?·?IP 屬地浙江
回復(fù)1
JamesAslan
作者
這些都不好做
04-02?·?IP 屬地北京
回復(fù)贊
Luv Letter
鯤鵬的 BIOS 有 LLC 微調(diào)的選項(xiàng)...
03-25?·?IP 屬地上海
回復(fù)贊
JamesAslan
作者
LLC的劃分模式有好幾種,不過(guò)對(duì)于stream之類(lèi)的測(cè)試最大的瓶頸應(yīng)該不在這里。
03-25?·?IP 屬地北京
回復(fù)贊
文章被以下專(zhuān)欄收錄
CPU微架構(gòu)評(píng)測(cè)
深入評(píng)測(cè)CPU微架構(gòu)