最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

【轉】麒麟9000s大中核規(guī)格對比、初步性能測試

2023-09-02 00:16 作者:小林家的垃圾王R  | 我要投稿

【轉】

麒麟9000s大中核規(guī)格對比、初步性能測試


麒麟9000s大中核規(guī)格對比、初步性能測試

麒麟9000s大中核規(guī)格對比、初步性能測試

JamesAslan

喜歡畫畫和攝影的硅工碼農(滑稽)


目錄

收起

前言

大核中核規(guī)格對比

性能預覽

SPEC06

SPEC17

Coremark

Verilator

超線程(SMT)

測試平臺

前言

鑒于許多人的詢問和關心,我們提前放出了部分初步測試結果,用以詳細刻畫9000s使用的TSV new(?)微架構的技術細節(jié)。

大核中核規(guī)格對比

麒麟9000s的中核相較大核有一定程度的閹割降級。主要集中于最大頻率、L2 Cache容量、浮點流水線規(guī)模、亂序隊列規(guī)模方面。以下數(shù)據為初步probe結果,在手動細測后會有所變動,請注意。

從頻率上來看,中核最大頻率為~2GHz,大核最大頻率為~2.61GHz。

流水級寬度TSV110TSV new(middle)TSV new(big)Cortex A78Fetch(ICache)4664Fetch(mop Cache)N/AN/AN/A6Decode4664Rename4666

從主流水線寬度上來看,大核中核是一致的,他們大概率是同源微架構。整個海思微架構家族沒有使用mop cache的跡象,至少mop cache沒有被用于提升供指帶寬。

執(zhí)行部件數(shù)量TSV110TSV new(middle)TSV new(big)Cortex A78ALU3444BRU2222MUL1222AGU(ld+st)2443AGU(ld)2223AGU(st)1222FPU2242FADD2222FMUL2242FMA2222

從執(zhí)行單元規(guī)格上來看,中核閹割了浮點側規(guī)格,屬于意料之中。TSV new展現(xiàn)出了與前作TSV110完全不同的單元配置,整數(shù)側ALU、MUL單元有所增長;浮點側的寬度大幅增加,延遲大幅降低。TSV new也與A78完全不同,其AGU風格為intel式的load、store全分離,而非ARM慣用的組合式。

Cache容量TSV new(middle)TSV new(big)L1I64KB64KBL1D64KB64KBL2512KB1MBL3 (shared)4MB4MBSLC (shared)4MB4MB

從Cache規(guī)格上來看,中核縮小L2容量情理之中。9000s的L3容量過小是一大遺憾,會嚴重影響整數(shù)側的性能表現(xiàn),限制了TSV new發(fā)揮其全部潛力。


TSV110TSV new
(middle)TSV new
(big)Cortex A78Cortex X1ROB~92*n(coalesced ROB)~224~240~160~216PRF(integer)~140~160~192~160~184PRF(float)~96~160~192~92~152DispatchQ+IssueQ(fix)~36~64~72~56~64DispatchQ+IssueQ(float)~28~56~56~48~56LDQ~48~78~128~64~80STQ~32~54~72~48~60

從亂序隊列規(guī)模上來看,中核有所縮減。不過TSV new相較前代有了大幅增長,規(guī)模更接近Cortex X系列。不過較為遺憾的是,TSV110上coalesced ROB的設計巧思似乎沒有延續(xù)。由于暫時沒有去探究TSV new是否真實啟用了SMT以及SMT的具體策略,此處容量存在誤差,僅供參考。LDQ與STQ容量均未減去相關發(fā)射隊列容量。ISQ容量測試時默認使用了非intel風格的probe模式。話說回來,TSV new的LDQ容量大得驚人,可能使用了什么特殊的優(yōu)化提升了等效容量。受限于本人精力,各種隊列的準確容量和分布方式我們就留到以后再去探究吧。

性能預覽

在這一部分我們使用SPEC06、SPEC17、Coremark以及Verilator對處理器進行測試。注意,我們并不執(zhí)著于fine-tune以獲得某一微架構的最高分數(shù);而是以合理、統(tǒng)一的編譯參數(shù)帶來可比的分值數(shù)據。SPEC06、SPEC17等的分值受系統(tǒng)環(huán)境、編譯器版本、編譯參數(shù)、BIOS調教、頻率穩(wěn)定性、具體SKU的Cache配置、具體平臺的內存參數(shù)等因素影響巨大,且無法通過任何簡單線性縮放進行分數(shù)推演。

我們首先總覽TSV new在各種微架構中的位置:

SPEC06

SPEC06是已經退役的SPEC測試集但是仍然被廣泛使用;其負載特性與SPEC17并不相同,因此仍然具有相當?shù)臏y試價值。

編譯環(huán)境:GCC12.0 -Ofast -static ? ? ? ?GLIBC 23.5-0

TSV new的fp成績遠高于int成績。由于浮點程序訪存行為較為容易預取,SPEC06int相較fp對L3容量更敏感,倘若能夠增大L3 Cache(如16MB),個人估計同頻下SPECint成績能夠提升15+%,其中受L3容量影響較大的子項應該是401、403、429、471、473、483。浮點側受到的影響相對小,預計436、450、470、482受到了可觀的負面影響。

TSV new在部分重訪存代寬的子項中表現(xiàn)優(yōu)秀,如462、410、433、434、437、447、450、459、470、481,表明了其配備了精細調節(jié)過的訪存子系統(tǒng)(包括內存控制器和數(shù)據預取器等)。462.libquantum與470.lbm分數(shù)較高表明TSV new配備了較好的stream/stride預取器;而462.libquantum想要更進一步則需要更大的L3 Cache容量(如>20MB)。433.milc成績離當前的第一梯隊有一定距離,表明delta模式預取可能仍然存在進步空間。由于Cache容量過小,這些分析的噪聲較大;如429.mcf受L3容量影響極大,我們無從剝離分析預取表現(xiàn)。483.xalancbmk相較TSV110提升寥寥,很可能是L3 Cache過小的緣故,但同樣不能排除面對短流時預取器的無效操作過多。471.omnetpp的表現(xiàn)似乎表明TSV new沒能克服激進預取帶來的污染和擁塞問題。

總體而言TSV new取得了長足的進步。在本節(jié)我們同時列出了手機、PC平臺的A78的表現(xiàn),可見平臺對微架構的性能的影響;因此TSV new在可能的鯤鵬930上才能發(fā)揮出其全部實力。

SPEC17

SPEC17是現(xiàn)役的SPEC測試集,被廣泛用于微結構性能評估。

編譯環(huán)境:GCC12.0 -O3 -static ? ? ? ?GLIBC 23.5-0

總體而言中核相較大核性能衰減較大,但是這主要來自于頻率的大幅下降,倘若我們計算IPC性能會發(fā)現(xiàn)中核的縮水較為有限。盡管頻率處于劣勢,但是中核仍然在總性能中超越了前代產品TSV110;如果有更好的下級memory system支持,中核恐怕也能夠超越全規(guī)格的TSV110。盡管受限于有限的memory system規(guī)格,TSV new仍然保持著對A78的性能優(yōu)勢,這讓我更為期待可能的滿血版本了。

Coremark

由于其他測試耗時較長,我們首先放出coremark的成績。Coremark是一款嵌入式基準測試程序,其受下級Cache子系統(tǒng)、內存等的影響極小,主要考察核內流水線以及L1 Cache的性能表現(xiàn)。

可見TSV new成功邁入了9分大關,符合我們對一款現(xiàn)代6發(fā)射處理器的基本期待,但是時至2023年,這樣的成績算不上優(yōu)秀,6發(fā)射的上限遠不止于此,期待后續(xù)產品的迭代。

Verilator

以上三款測試集對處理器的前端壓力較小,仿真大規(guī)模設計的verilator則恰恰相反,海量的分支與數(shù)MB的代碼足跡能夠輕松壓垮ICache、BTB等組件,導致巨大的性能下降。

由于手機環(huán)境的限制,我們完整仿真環(huán)境中的部分組件無法運行,裁切部分組件并削減仿真規(guī)模后得到了Verilator_lite測試。注意:

  • Verilator_lite測試的成績與Verilator測試的結果不能直接比較。

  • 我們也會在桌面平臺上運行Verilator_lite測試以提供參照,請留意圖表標題是Verilator_lite還是Verilator。

  • 在同一圖表中僅會出現(xiàn)Verilator_lite或Verilator成績中的一種,不會有數(shù)據混雜。

TSV110表現(xiàn)過差不予展示(各位自行腦補一個突破天際的柱子)。TSV new在前端供指方面取得了長足的進步,這是部分服務器負載十分看重的性能指標,因此對于可能的鯤鵬930十分重要。盡管頻率極低,TSV new仍然能保持與ARM公版最新的產品接近的成績。可以預計倘若配備了2顆2.8GHz的TSV new,在verilator中它們的表現(xiàn)將超過A715。不過本人還在糾結TSV new到底有沒有使用decoupled frontend設計,有沒有大神知道其中的真相呢23333。

超線程(SMT)

在ubuntu中雖然我們可以調用額外的線程號,但是從core-to-core latency的測試來看并沒有超線程跡象。這里有兩種可能:

  1. 我們使用的ubuntu中的API沒有真正成功綁定8-11號核,導致我們仍然在0-7號核上執(zhí)行,致使沒有觀測到sibbling核間超低的臟數(shù)據交換延遲。那么我們只能等待其他大佬真正適配SMT了。

  2. TSV new使用了特殊的設計,保證了sibbling線程間更強的數(shù)據一致性,使得所有數(shù)據交換都下探到了L3層級。

測試平臺

Mate60Pro 12+512G版本。

好漂亮的手機555,就是好貴,我的A7C2副機灰飛煙滅了啊。

分析與測試:lyz、lxy

編輯于 2023-09-01 19:50?IP 屬地北京


華為



麒麟9000s



中央處理器 (CPU)


發(fā)布一條帶圖評論吧


34 條評論

默認

最新

冰糖葫蘆娃

雖然看不懂,但是很厲害的樣子

3 小時前 · IP 屬地河南

小筑

感謝A7C2副機對本文做出的貢獻

3 小時前 · IP 屬地山東

張景源

看不懂咋辦...筆者能寫一篇通俗一點的嗎

3 小時前 · IP 屬地北京

雷你到死

+10086

1 小時前 · IP 屬地遼寧

求知者

牛哇,2017拉爆a715了

2 小時前 · IP 屬地上海

蟋蟀777

很好,謝謝。字都認識。。。。在結尾不能做個簡單的總結嗎?

1 小時前 · IP 屬地福建

maomaobear

測個7zip吧,對比一下龍芯芯3a6000,我一直認為龍芯的spec2006成績離譜。

3 小時前 · IP 屬地山東

飛飛

手機上超線程,華為牛逼

3 小時前 · IP 屬地北京

滑稽一世

自信

當年x86丟手機上做過超線程。但x86下的超線程沒啥增益。arm移動端超線程華子是第一個

1 小時前 · IP 屬地浙江

薄荷奶糖

自信

英特爾有手機芯片?

1 小時前 · IP 屬地河南

時間

這個spec06單核分數(shù)是真高

2 小時前 · IP 屬地寧夏

鳳兮鳳兮

媲美a715,這么強?

1 小時前 · IP 屬地浙江

大白貓

結論就是,設計能力極其牛批,已經快趕上蘋果A系列,目前由于制程拖累,無法發(fā)揮出這個新架構的全部性能。

16 分鐘前 · IP 屬地安徽

一共28年

說個結論吧

57 分鐘前 · IP 屬地河南

努力加油上鏡

然而,到底是幾分?

44 分鐘前 · IP 屬地福建

瞎看看

夏core的作品好強

1 小時前 · IP 屬地廣東

遠余燼

我雖然不懂,但是大為震撼

53 分鐘前 · IP 屬地云南

weakleilei

下降有限

3 小時前 · IP 屬地廣東

hikariat

alu數(shù)量是怎么檢測的

3 小時前 · IP 屬地上海

秋元明

A78級別,很不錯了,考慮到咱有個X1+A78的K9000,2020年,華子21年能搞出這個很不錯

12 分鐘前 · IP 屬地廣東

鳳兮鳳兮

17超過a715,是說明和a系一樣更善于跑復雜情況吧

1 小時前 · IP 屬地浙江

起起起起起風了

圍觀

3 小時前 · IP 屬地福建

麥克斯韋

nbnb

回頭用這個和核同事交流交流

1 小時前 · IP 屬地上海

發(fā)布了想法2023-08-31 17:44

JamesAslan

喜歡畫畫和攝影的硅工碼農(滑稽)

可惜了,L3Cache太小了啊
9000S超大核的SPECfp比int高那么多,因為int受L3影響相對更大。目前只有4MB,感覺加到16MB的話單核SPEC06int應該至少能提升15%吧
生活可能總會伴隨著Can be better吧

發(fā)布于 2023-08-31 17:44

發(fā)布一條帶圖評論吧


30 條評論

默認

最新

LITTERTREE66

目前diesize都111.28,Big Cache不得干炸size

08-31 · IP 屬地陜西

傳說中的胖子

我關注的人

林zh

AMD演示過了堆疊cache考驗散熱,估計手機也就這樣了,下一個懸念是桌面會不會疊。

10 小時前 · IP 屬地廣東

林zh

能不能用堆疊技術。

15 小時前 · IP 屬地海南

葉清逸

目前k9000s的電鏡掃描顯示面積>老k9k了,還是工藝太差(密度低),面積太大導致良率不理想,沒法再堆料了。期待迭代吧,慢慢打磨工藝/架構。

08-31 · IP 屬地浙江

碼腚內shi

電鏡顯示在哪里?求消息源出處。

9 小時前 · IP 屬地廣東

Sazo

可能良率不理想,布置太大的L3成本爆炸?
或者大l3的版本給了傳說中的9100?

08-31 · IP 屬地北京

Sazo

林zh

chiplet延遲爆炸,L3再大都沒意義。而且封裝的空間也不太允許加更多的die

4 小時前 · IP 屬地北京

林zh

chiplet分開搞是不是可以。

15 小時前 · IP 屬地海南

瞎看看

密度問題,面積不夠應該

08-31 · IP 屬地廣東

我在東北玩泥巴

16m l3也太夸張了吧。。。麒麟9000才4m

08-31 · IP 屬地河北

OTHB-radar

A16有16+4MB的L2再配上24MB的系統(tǒng)緩存

手機SOC論堆緩存還得看蘋果

08-31 · IP 屬地河南

WhitePawn

A廠:一般??

08-31 · IP 屬地福建

Amaterasu

沒事,可以期待一下下一代翻倍

7 小時前 · IP 屬地北京

萬得

因為內核邏輯單元設計太差導致緩存不夠了,懂嗎?誰不想大緩存啊。

1 小時前 · IP 屬地福建

JamesAslan

作者

930人呢,

08-31 · IP 屬地北京

WhitePawn

葉清逸

晶哥啥也不會說,他拿出來的板子還是閑魚買的

08-31 · IP 屬地福建

Cheerx

葉清逸

他是鯤鵬的架構師

11 小時前 · IP 屬地陜西

蔣三水

如果15%,那是不是接近888的x1水平了吧?

08-31 · IP 屬地北京

傳說中的胖子

我關注的人

現(xiàn)在2.62GHz的GB分數(shù)接近888的2.84GHz,加這15%就有意思了

10 小時前 · IP 屬地廣東

天御

頻率太低了

才2.6 華為加把勁干到3.2就好了

08-31 · IP 屬地廣東

Sylas

浮點容易做spatial預取

08-31 · IP 屬地北京

阿丘今天不吃飯

看了一眼P是64/1024/4096+4096KB SLC的組合,SMIC的SRAM density比較捉急,如果做8+8M搞不好要到120+ mm2.

08-31 · IP 屬地上海

阿丘今天不吃飯

JamesAslan

是的,中核心才是512。

08-31 · IP 屬地上海

JamesAslan

作者

我還在游移到底L2是512還是1024,第一次跑出的曲線跳變太不明顯了,原來真是1024么

08-31 · IP 屬地北京


【轉】麒麟9000s大中核規(guī)格對比、初步性能測試的評論 (共 條)

分享到微博請遵守國家法律
天长市| 柯坪县| 靖西县| 平塘县| 桂平市| 昂仁县| 涿州市| 韶山市| 明光市| 卫辉市| 永春县| 梅州市| 淮北市| 永年县| 甘南县| 寻甸| 翼城县| 阿鲁科尔沁旗| 纳雍县| 正宁县| 景德镇市| 太谷县| 和林格尔县| 凤翔县| 嘉祥县| 三明市| 西吉县| 平昌县| 逊克县| 腾冲县| 乾安县| 金秀| 罗甸县| 潞城市| 镇巴县| 瓦房店市| 贡山| 广汉市| 青龙| 南澳县| 富民县|