手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 【知乎】龍芯6000性能已經(jīng)趕上十代酷睿了，兆芯海光的性能為啥還這么差？

【知乎】龍芯6000性能已經(jīng)趕上十代酷睿了，兆芯海光的性能為啥還這么差？

2023-11-01 19:00 作者:ACFUN-AK 0人讀過 | 我要投稿

龍芯6000性能已經(jīng)趕上十代酷睿了，兆芯海光的性能為啥還這么差？

關(guān)注者

7

被瀏覽

6,985

Eidosper 也關(guān)注了該問題

關(guān)注問題寫回答

邀請回答

好問題

添加評論

修改問題

4?個回答

默認排序

傳說中的胖子

戰(zhàn)斗工程貓

已關(guān)注

沒意義。很無聊。

所謂龍芯的“追上十代酷睿”，不就是guee搞的那個測試，SPECCPU2006的cint（單實例整數(shù)）龍芯跑43分，他比較的10100F跑42分嘛。

酷睿這邊：選桌面級最低型號10100F，有可能還鎖頻；編譯談不上優(yōu)化。

龍芯這邊：還沒發(fā)布且很可能無法后繼制造的型號；用定向優(yōu)化過的編譯；用臺積電12納米堆16MB三級緩存拿對10100F的6MB三緩的優(yōu)勢。

來隨手列一點證據(jù)。

AnandTech SPEC2006 得分比較

十代酷睿里明明有同樣采用16MB三緩的i7-10700，58.5分。單實例跑分cint分（不是多核跑分cint_rate）并不受核數(shù)影響，為何龍芯不比它？是因為cint06受緩存容量影響比較大而不能選，還是因為10700基頻低會導致關(guān)睿頻的分數(shù)低得太明顯了不能選，留給他們狡辯。

而且這個表述本身就比較……便宜。為什么不表述為“有8gen2的七成”呢。無非是為了利用不關(guān)注的人的陳舊印象罷了。就一個字，便宜。

另外，有趣的是，龍芯官方承認是按跑分而非業(yè)務(wù)profile優(yōu)化。現(xiàn)在不提供SPECCPU 2017分數(shù)是沒按它調(diào)整好。還要說什么。

發(fā)布于 2023-10-31 13:56?IP 屬地廣東

已贊同 10收起評論

收藏喜歡

收起

發(fā)布一條帶圖評論吧

2 條評論

默認

最新

查看被折疊評論

Eidosper

冰消雪融，花為汝開～

已關(guān)注

客觀來說龍芯采用了“力大飛磚”的策略，例如3A5000配備了高達16MB的三級緩存，這是什么概念呢？4core花了145mm2這又是什么概念呢？

AMD的7950x旗艦CPU是16core配64MB三級緩存（每core 4MB），采用vcache的7900x3d也不過是8core96MB緩存。

intel的10100f的4c8t區(qū)域也就是75mm2，tsmc12大體也能認為是intel14同級別制程。

龍芯單core配4MB的緩存那可以理解成是“范大將軍彈藥量”，基本上是IA兩家頂配才會有的。像12490這種6core也只有20MB的緩存。

而兆芯這邊的緩存就比較小了，一些對于cache容量敏感的跑分子項會吃大虧的。

我們不妨先看看10代酷睿最低的10100：

總面積125mm2左右，含有GPU。

龍芯這邊6000暫時還沒有數(shù)據(jù)，5000有：

3A50003A600010100die面積145mm2左右未知125mm2左右去GPU后面積145mm2左右同上75mm2左右制程TSMC 12nmTSMC 12nmIntel 14nm主頻2.5GHz2.5GHz3.6GHz（睿頻4.3GHz）核心數(shù)4C4T4C8T4C8T三級緩存16MB未知6MB

可以大致了解到，3A5000在基本同代制程的情況下，以二倍面積、二倍多的緩存去對標10100。

發(fā)布于 2023-10-31 20:17

贊同 12收起評論

收藏喜歡

收起

發(fā)布一條帶圖評論吧

3 條評論

默認

圖吧垃圾王

其實設(shè)計能力落后的情況下堆緩存算不上錯，之前垃圾佬也分析過，其實45nm時代的775 CPU就已經(jīng)給過每core 3M L2的緩存規(guī)模，用起來也算是相當不錯了能效也還行，甚至筆記本的移動版一些程度上能反殺桌面端的金牌奔騰在筆記本跑分能效的情況。

龍芯真正的問題是持續(xù)攻擊其他國產(chǎn)芯片比如這個問題，這恐怕除了龍芯圈以外不會有人喜歡。

最新

最終范式

3a6000的面積相比3a5000縮小了20%

3 小時前?·?IP 屬地浙江

回復2

碎虛

3A6000確實算是巨大提升了，同工藝下性能大幅提升，die面積還減少了

8 小時前?·?IP 屬地上海

回復1

常成

3a6000是128KB L1 I/D，512KB L2，16M L3

10 小時前?·?IP 屬地湖南

回復喜歡

不愛釣魚的貓

?關(guān)注

你贊同過 TA 的內(nèi)容

龍粉一貫的特點都是只有他家能研發(fā)CPU，其他國產(chǎn)廠商都沒研發(fā)CPU的能力，這個特點從龍芯的胡xx貫穿到龍粉。

好心提醒一句，老美制裁當下，連華為都不宣傳9000s，近期某兩家國產(chǎn)廠商未開發(fā)布會直接低調(diào)開賣，而只有龍芯又是媒體評測、又是軟文宣傳，在知乎更是一個問題一個問題的求表揚、貶低友商。就你龍那比10100還低20-30%性能3a6000板u1800RMB，價格足足是10100板u600RMB的三倍，還不能裝Windows，你覺得在媒體發(fā)軟文宣傳能起到什么效果？真以為普通民眾會為溢價三倍、軟件生態(tài)一團糟的電子垃圾買單？媒體宣傳對新創(chuàng)等保護性政策市場真的能產(chǎn)生影響？

然后再來錘一下3a6000是如何實現(xiàn)等價10100的。

先概括結(jié)論：龍芯或Guee先將十代酷睿等價成i3 10100（10100單核性能約為10900K不超頻情況下的83%，多核性能10100僅為10900K不超頻情況下的40%左右），并通過將10100降頻17%，再通過定制化的GCC la664專屬架構(gòu)優(yōu)化編譯參數(shù)提升12.9%，最后再通過龍芯官方提供的未公開源碼的GCC特定優(yōu)化版本提升7%的跑分性能，實現(xiàn)和降頻后的10100相似性能水平。而實際上使用龍芯官方版本（截止今天2023.10.31前）的GCC不開啟微架構(gòu)優(yōu)化，3a6000單核性能為10100的71.4%（35.7/50），10900K的61%。多核成績類似，落后10100 30%左右（10100單核有睿頻優(yōu)勢，但是3a6000落后的總線影響了多核性能發(fā)揮）。

3a6000性能趕上十代酷睿四核處理器由龍芯官方宣稱，然后由龍粉Guee測試，并在知乎上發(fā)評測報告：guee：詳測龍芯3A6000——性能強到?jīng)]有朋友

在評測中，可以看到這樣一個數(shù)據(jù)比較：

在評測中我們發(fā)現(xiàn)，10100的spec 2006 int speed單核跑分為42.5，頻率被降頻為3.6G，而Intel官方的數(shù)據(jù)顯示10100最高睿頻4.3G，全核睿頻4.1G。Guee在貼吧解釋為需要需要中高端主板和熱管或水冷散熱10100才能達到49.x分。鏈接：科技大up主評測3a6000【龍芯吧】_百度貼吧

但實際上10100的TDP是65瓦，spec 2006 int speed為單核跑分，單核TDP為16瓦，我們即使認為單核睿頻功耗翻倍，最多也就32瓦，以目前十代主板的供電水平，即使是供電最爛的寨板，也不至于無法提供32瓦的CPU供電，鋁制散熱器也是可以輕松解決32瓦散熱問題。顯然這位Guee網(wǎng)友是非常清楚的，但是畢竟不能直接造假，所以調(diào)出一個和3a6000優(yōu)化后相似性能的頻率，至于讀者由于自己不清楚10100是4.3Ghz這顯然是讀者自身的問題。

這位Guee 10100的42.5成績出來后，被多方質(zhì)疑，Guee為了洗脫自己造假，然后對10100成績進行了補測，分別使用H510低端主板+2666內(nèi)存+熱管風冷、Z490高端主板+3200內(nèi)存+水冷。

H510低端主板+2666內(nèi)存+熱管風冷測試結(jié)果如下，成績?yōu)?8.5：

2023-06/SPEC CPU 2006/i3-10100F（UOS專業(yè)版）H510M-2666雙通道-強力風冷/int-base-speed/CPU2006.023.log · guee/國產(chǎn)CPU的一些性能測試結(jié)果 - Gitee.com

編譯參數(shù)：

C benchmarks: ? ? -m64 -mavx2 -march=native -mtune=native -funroll-all-loops ? ? -ftree-vectorize -flto -static -Ofast

Z490高端主板+3200內(nèi)存+水冷測試結(jié)果如下，成績?yōu)?9.2：

https://gitee.com/guee/CPU-benchmarks/blob/master/2023-06/SPEC%20CPU%202006/i3-10100F%EF%BC%88UOS%E4%B8%93%E4%B8%9A%E7%89%88%EF%BC%89Z490M-3200%E5%8F%8C%E9%80%9A%E9%81%93+%E6%B0%B4%E5%86%B7%E6%95%A3%E7%83%AD/int_base_speed_B/CINT2006.003.ref.txt

編譯參數(shù)：

C benchmarks: ? ? -m64 -mavx2 -march=native -mtune=native -funroll-all-loops ? ? -ftree-vectorize -flto -static -Ofast

從上述測試結(jié)果看，和初步推測的一致，由于是單核成績，高端主板和低端主板最大的差別在供電，低端主板的供電完全足夠10100發(fā)揮出該有的單核性能（至于差的0.7分，內(nèi)存的影響可能更多一點）。B站的部分數(shù)碼博主的10100最佳成績?yōu)?1分，應該也屬于正常誤差范圍。

通過淘寶簡單查詢我們可以知道：普通4熱管散熱器在30 RMB左右，6熱管散熱器在60 RMB左右，高端6熱管雙塔散熱器在80+RMB以上，散熱器價格并不貴，普通人完全可以負擔。

結(jié)論一：10100使用低端主板+熱管風冷散熱+2666可以正常釋放性能，spec2006 int speed成績?yōu)?8.5分，guee在貼吧說的“中高端主板+水冷才能測出49.x成績”屬于刻意隱藏了低端主板+風冷10100也能撤出48.5成績。

2、三級緩存問題，十代酷睿中10100為6M三級緩存，10900K為20M三級緩存，3a6000為16M三級緩存，spec2006跑分是一個三級緩存敏感的測試。通過查閱資料可以知道10900K在不超頻的情況下spec 2006 int單核跑分在58分以上，所以究竟10900K單核性能能代表十代酷睿，還是10100單核性能能代表十代酷睿？

3、編譯優(yōu)化，3a6000在下面兩個編譯優(yōu)化參數(shù)下有兩種不同的跑分，其中Test1 spec 2006 int單核跑分為35.7，Test2跑分為40.1（目前3a6000已有開發(fā)板在某寶發(fā)售，也歡迎各位龍粉用數(shù)據(jù)來挑戰(zhàn)，挑戰(zhàn)時請附帶編譯參數(shù)和sepc截圖，數(shù)據(jù)來源：有言以對默無聲：華為 VS 龍芯國產(chǎn)CPU架構(gòu)初步探測、對比與分析）（以下有部分內(nèi)容引用“有言以對默無聲”）：

loongson 3A6000 Test1 -> GCC 8.3 -Ofast -static -flto -march=loongarch64 -mtune=loongarch64 -mlsx -mlasx -funroll-all-loops loongson 3A6000 Test2 -> GCC 8.3 -Ofast -static -flto -mcond-move-int -mforce-drap -mvecarg -march=la664 -mtune=la664 -msimd=lasx -ftree-vectorize -funroll-all-loops

兩者的編譯優(yōu)化差異主要在一個mtune使用loongarch64，另外一個使用la664，查閱架構(gòu)資料可以知道la664為3a6000微架構(gòu)代號，而在GCC 8.3的官方版本中，我們是無法使用la664參數(shù)的，使用該參數(shù)需要使用龍芯官方提供的GCC版本：https://pkg.loongnix.cn/loongnix/pool/main/g/gcc-8/gcc-8_8.3.0-6.lnd.vec.36.debian.tar.xz

通過龍芯提供的GCC源碼以及GCC更新記錄，可以知道龍芯的mtune參數(shù)主要有：loongarch64、LA464、LA664。LA664編譯選項主要開啟了SIMD向量化并行等一系列優(yōu)化選項，從而能高效地從大L1和L3進行數(shù)據(jù)預取，造成緩存性能高。龍芯通用的設(shè)置為-mtune=loongarch64，LA464為3a5000 微架構(gòu)的優(yōu)化參數(shù)，LA664為3a6000微架構(gòu)優(yōu)化參數(shù)。

部分龍粉堅持的龍芯未開啟向量優(yōu)化應該指的是la464，在測試中發(fā)現(xiàn)3a5000編譯參數(shù)中開啟向量優(yōu)化不能帶來性能提升；其次很多龍粉存在對向量化誤解的情況（目前猜測應該都是受guee誤導），他們觀察有沒有向量化并行的依據(jù)居然是跑單核跑分的時候觀察其他CPU核是否有占用，這明顯屬于把多線程并行和向量化并行搞混了，向量化并行指的是利用處理器的128/256/512的向量指令在循環(huán)或其他批量操作時一個周期同時處理多個32/64操作數(shù)計算。

目前主流的并行技術(shù)主要包括：指令集并行（流水線、多發(fā)射、亂序執(zhí)行、分支預測等，編譯器或代碼都不感知，各家處理器都在用）、向量化并行（使用向量指令優(yōu)化循環(huán)或某些批處理，各家處理器也都在用，通過編譯器優(yōu)化開啟）、多線程并行（需要手工代碼優(yōu)化，單線程任務(wù)無法通過編譯器實現(xiàn)多線程并行優(yōu)化，操作系統(tǒng)側(cè)可觀察到程序占用了多個CPU核心）

龍芯處理器的微架構(gòu)具有與以往微架構(gòu)設(shè)計不同的地方，GS464V、LA464和LA664都傾向于采用較大規(guī)模的ALU，較大的一級緩存，以及激進的SIMD指令優(yōu)化策略，重視通過編譯器優(yōu)化來改進處理器的每周期指令與數(shù)據(jù)的吞吐量，通過每周期吞吐更多、更密集的SIMD指令來減少分支預測錯誤帶來的懲罰。-mtune=la664這類指定架構(gòu)編譯選項，會生成更符合該架構(gòu)的代碼，然而對于其它架構(gòu)，例如la464，那么就是負優(yōu)化，因為它的4寬度的人吞吐量不能很好處理6寬度的指令，這會在一些應用中帶來性能的下降。

在實際開發(fā)過程中，我們也不可能為每個CPU單獨設(shè)置一份編譯參數(shù)，不可能為LoongArch架構(gòu)單獨出2個或多個不同優(yōu)化參數(shù)的包，所以實際使用意義并不大（最大的意義可能就是跑分了）。

在測試中，同樣采用-mtune=alderlake進行針對性優(yōu)化的Zen3或酷睿同代微架構(gòu)處理器也可以做到與同樣的性能增益幅度，性能提升在10.8%左右（參考圖片3，5800x使用-mtune=alderlake的5800x spec 2006 int單核跑出75.9的高分，而使用core-avx2情況下跑分是68.5分）。

R7-5800X Test 1 -> GCC 12.2 -Ofast -fomit-frame-pointer -march=x86-64 -mtune=core-avx2 -mavx -mavx2 R7-5800X Test 2-> GCC 12.2 -Ofast -march=alderlake -mtune=alderlake

同樣的事情發(fā)生在兆芯的陸家嘴架構(gòu)上，如果使用-mtune=lujiazui的編譯選項，陸家嘴架構(gòu)的spec性能同樣會提高很多。

但是，如果僅用龍芯官方提供的GCC源碼，以及開啟微架構(gòu)優(yōu)化，spec 2006 int單核跑分仍然只有40分左右，這位G網(wǎng)友實際的43分是使用龍芯在評測機器中提供的已編譯完成的spec工具完成的，我們可以推測這個未發(fā)布的GCC版本采用了更加激進的優(yōu)化策略，而這種優(yōu)化策略可能會帶來計算結(jié)果的不可靠所以導致沒發(fā)布？（Intel的ICC在某幾個版本中就存在計算結(jié)果錯誤的情況）。

4、多核性能，B站的幾位數(shù)碼博主評測中我們可以發(fā)現(xiàn)，3a6000的多核性能也只有10100的70左右，包括7z跑分、unixBench跑分等。

最后再扯一下，龍粉的另外一個說辭，龍粉說10100大部分品牌機用鋁制風冷散熱，主板供電拉胯，實際體驗會比測試低。不知道龍粉關(guān)注不關(guān)注LoongArch目前生態(tài)落后，應用軟件偏少，目前很多應用依賴x86翻譯，而目前龍芯x86翻譯性能僅為原生性能的30%。所以如果扯體驗10100要打8折的時候，需要關(guān)注3a6000實際很多時候要打三折。

另外再扯扯淡，為什么龍芯無法做到宣稱的80%翻譯性能，討論這個問題之前，實際上要先研究近期的6000是如何提升性能的：
a、LoongArch是一種新架構(gòu)，沒有任何歷史包袱，這就意味著龍指令集可以充分吸收目前已有架構(gòu)的優(yōu)點，可以對指令集做優(yōu)化，刪減部分效率低下的指令，同時可以使用激進的向量指令優(yōu)化。LoongArch指令集比MIPS等傳統(tǒng)指令集指令密度提升7%，并開啟激進的向量優(yōu)化行化，進一步提升LoongArch性能。
而這是傳統(tǒng)x86、ARM指令集無法比擬的，尤其是x86，x86有極其復雜的兼容關(guān)系，再加上Windows系統(tǒng)極其變態(tài)的軟硬件兼容性要求（比如win11可以直接運行03、04年的程序，甚至通過簡單補丁，可以運行90年代的某些程序；又比如win10可以跑15年前的Q8300上。直到win11，最低指令集要求才是AVX2），這導致很多x86程序無法享受向量指令帶來的性能優(yōu)化，尤其是AVX/AVX2/AVX512指令。
b、3a6000使用“-mtune=la664”專屬的微架構(gòu)編譯優(yōu)化參數(shù)，可以將3a6000 spec 2006 int單核跑分從35.7（默認為-mtune=LA464）提升到40.1（-mtune=la664）；除了微架構(gòu)優(yōu)化，龍芯官方也可以通過進一步優(yōu)化GCC，來提升性能，比如3a6000使用龍芯內(nèi)部未開源的GCC版本編譯的spec2006進一步提高到43分。
但是在翻譯x86程序時，由于x86自身指令集復雜的兼容性問題，以及LoongArch的x86翻譯指令也只兼容到SSM4，無法直接翻譯AVX/AVX2/AVX512指令，會直接導致LoongArch激進的向量優(yōu)化策略失效。同時并且因為x86程序不可能使用“-mtune=la664”或使用龍芯專屬優(yōu)化的GCC編譯，導致b中的優(yōu)化也失效。而這也直接導致LoongArch在翻譯x86指令時，實際性能會比理論性能更低。

我們可以簡單計算LoongArch翻譯x86的理論性能為：100*0.80*（35.7/43）*0.93=61.7%（解釋一下：80%為龍芯官方PPT說明的翻譯性能，35.7/43為專屬微架構(gòu)或?qū)貵CC版本優(yōu)化性能，0.93為向量化帶來的指令密度提升性能【這里只是算一個大概，實際上7%的指令密度提升加向量化不止7%的性能提升】）。

龍芯如果真的想靠x86翻譯來解決生態(tài)問題，那么就以為著自己CPU性能要打六折（當然這個是理論性能，目前實際翻譯性能應該是三折或稍多一點）。當然wine實際上也不太好用，性能也有損耗。

所以結(jié)論：龍芯要么宣稱的時候降低自己的原生性能（降為優(yōu)化前的分數(shù)），要么降低自己宣稱的x86指令集翻譯性能，這兩者屬于魚和熊掌不可兼得。

編輯于 2023-10-31 12:43

贊同 4收起評論

收藏喜歡

收起

發(fā)布一條帶圖評論吧

2 條評論

默認

最新

七月流火

但你不能否認兆芯的性能長期原地踏步吧? 龍芯至少有明顯進步, 兆芯還不如龍芯呢.

19 小時前?·?IP 屬地江蘇

回復喜歡

不愛釣魚的貓

作者

仔細看我第二段話，有些話不好明說

11 小時前?·?IP 屬地浙江

回復1

好為人師

人工智能的人工智能的人工智能

?關(guān)注

龍芯追上的酷睿，可能是i3都不到，海光主要的對手是Xeon，兩邊不是一個對手。

發(fā)布于 2023-10-30 09:51

贊同 2收起評論

收藏喜歡

發(fā)布一條帶圖評論吧

4 條評論

默認

最新

21世紀米客

3a6000四核定位桌面版，服務(wù)器版的3c6000，3d6000還沒出。

10-30?·?IP 屬地上海

回復3

不愛釣魚的貓

比服務(wù)器的話Intel鉑金8373C 72核144線程、AMD EPYC9754 128核256線程，怎么比，不說Intel、AMD，就2019年的64核鯤鵬920多核成績3d6000打得過不？

8 小時前?·?IP 屬地浙江

回復喜歡

不愛釣魚的貓

當然上面難度可能太大，3c6000打得過150塊錢的2690v4不？

8 小時前?·?IP 屬地浙江

回復喜歡

回眸一笑倒蒼生

提問者

xeon的ipc也不比i3高

10-30?·?IP 屬地上海

Eidosper

冰消雪融，花為汝開～

已關(guān)注

你關(guān)注的失傳技術(shù)字幕組贊同

龍芯3A5000有幾個點：

diesize約為147mm2
三級緩存高達16MB
不含顯卡、也幾乎沒有多媒體等功能
主頻約為2.5GHz
使用二十年前的AMD HT總線進行核間互聯(lián)

其對比的酷睿10100大概是這樣：

diesize約為125mm2
三級緩存6MB
含有GPU、DSP等
主頻為3.6GHz、可以睿頻4.2GHz
使用業(yè)界先進的intel ringbus總線

編輯于 2023-10-31 20:57?IP 屬地四川

已贊同 7收起評論

收藏喜歡

收起

發(fā)布一條帶圖評論吧

2 條評論

默認

最新

圖吧垃圾王

捉個BUG，龍芯圈用來對比10100（暴芯）的是3A6000，雖然主頻、HT總線之類的特性依然沒變就是了……

還有，環(huán)形總線也算不上特別先進的東西，垃圾佬的X79用的就是環(huán)形總線，當時這玩意最大其實也就是10核20線的水平，不少15核砍下來的12核U反倒表現(xiàn)被10核吊打原因是其內(nèi)部使用了3條環(huán)形總線實現(xiàn)了10核以上的互連……

10-30?·?IP 屬地遼寧

回復2

Eidosper

作者

好了，我更新了3a5000的dieshot

21 小時前?·?IP 屬地四川?

標簽：