【轉(zhuǎn)】這可能是最全面的龍芯3A3000處理器評(píng)測(cè)(存檔)
?

這可能是最全面的龍芯3A3000處理器評(píng)測(cè)

第一千零一個(gè)人

感謝來自龍芯愛好者zevan提供的詳盡的龍芯3A3000處理器評(píng)測(cè)!
2017 年九月份龍芯俱樂部辦了一個(gè)龍芯 3A 主板的團(tuán)購。作為多年關(guān)注龍芯的愛好者,我參加了這次團(tuán)購,購買了一個(gè)龍芯 3A3000 的主板。鑒于目前而龍芯 3A4000 處理器即將流片, 而目前對(duì)即將過氣的龍芯 3A3000 處理器的性能并沒有一個(gè)比較詳細(xì)的評(píng)測(cè), 我使用phronix-test-suite 對(duì)龍芯 3A3000 處理器做了一個(gè)盡可能理性、中立、客觀、全面的評(píng)測(cè),、不吹不黑,不夸大成績也不回避問題。
龍芯 3A3000 主板介紹
首先,還是曬曬圖,回顧一下龍芯 3A3000 主板的模樣。




我拿到的這塊龍芯 3A3000 處理器不是性能最高的 1.5GHz 主頻版本,而是性能略低的1.4GHz 版本。因此,在估算龍芯 3A3000(1.5GHz) 的性能時(shí), 應(yīng)該將我的測(cè)試結(jié)果乘以 1.07。此外,需要說明的是龍芯 3A3000 筆記本里帶的龍芯 3A3000 的主頻被限制在了 1.2GHZ。
拿到主板后,參照主板手冊(cè)以及百度貼吧的手冊(cè),另外在龍芯俱樂部群和龍芯電腦用戶和開發(fā)者群網(wǎng)友的幫助下,我裝了一臺(tái)龍芯 3A3000 的主機(jī),并安裝了 Debian buster 和 Loongnix兩個(gè)操作系統(tǒng)。
作為龍芯的老粉絲,我用過福瓏 6003的龍芯盒子以及 8089D筆記本,兩個(gè)機(jī)器都是用龍芯 2F的處理器。從個(gè)人的體驗(yàn)上,使用龍芯 2F的的圖形界面只能說是“能用”,真正使用起來還是太慢。龍芯3A3000的性能和龍芯2F相比有了非常大的進(jìn)步,不管是Loongnix還是 Debian,在使用上都可以稱得上是真正的流暢了。使用Firefox進(jìn)行網(wǎng)頁瀏覽,觀看本地高清視頻都都十分流暢。從用戶體驗(yàn)上,龍芯 3A3000已經(jīng)完全可以滿足辦公、上網(wǎng)、聽音樂、看視頻這樣的基本需求了。
龍芯3A3000處理器性能評(píng)測(cè)方案
和主流的 x86 處理器相比,龍芯 3A3000 究竟有多大差距呢?從性能上,龍芯 3A 3000 相當(dāng)于哪一款 CPU,即將流片的 3A4000 又相當(dāng)與那個(gè)處理器?和其他國產(chǎn)處理器相比,龍芯3A3000 的性能究竟是高還是低?
為了回答以上的問題,我使用 phoronix test suite 中提供的有關(guān) CPU 性能的 benchmark程序,對(duì) X270 筆記本上的 i5-7200U 處理器和龍芯 3A3000 處理器進(jìn)行了詳盡的對(duì)比。此外,openbenchmarking 網(wǎng)站上提供了很多不同處理器性能測(cè)試的結(jié)果,可以供人們更客觀的評(píng)測(cè)系統(tǒng)的性能。
我在 openbenchmarking 網(wǎng)站上發(fā)現(xiàn)了飛騰 1500A 和飛騰 2000+處理器的部分評(píng)測(cè)結(jié)果,在本次測(cè)試中也將對(duì)利用這些數(shù)據(jù)進(jìn)行對(duì)比。作為參照,我又尋找了部分 Intel J1900 處理器的性能數(shù)據(jù)。
最近一段時(shí)間,兆芯處理器在性能上進(jìn)步飛速,已經(jīng)出了 ZX-C、KX-5000 以及 KX-6000 等多個(gè)系列的處理器,并且在網(wǎng)絡(luò)上也有了一些測(cè)評(píng),但在 Openbenchmarking 網(wǎng)站上我沒有找到任何兆芯的最新處理器的蹤跡,因此在本文中無法對(duì)比兆芯和龍芯的性能了。
為了比較兩塊 CPU 在相同主頻下的性能差距,在測(cè)試中將 Intel i5-7200U 處理器的睿頻模式關(guān)掉,去掉自動(dòng)降頻的電源管理,將頻率鎖定在 2.5GHz。i5-7200U 處理器最高可以睿頻到3.1GHz,因此其實(shí)際峰值性能比本次測(cè)試時(shí)的數(shù)據(jù)的要高。
echo performance | tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
wrmsr -p0 0x1a0 0x850089
wrmsr -p1 0x1a0 0x850089
wrmsr -p2 0x1a0 0x850089
wrmsr -p3 0x1a0 0x850089
在測(cè)試中,我們關(guān)注處理器的多核性能,也關(guān)注處理器的單核性能。最近,兆芯 KX6000系列處理器在評(píng)測(cè)中根據(jù) 7zip 等多線程程序的測(cè)試結(jié)果,得出 KX6000 性能相當(dāng)于 i5-7400 處理器的結(jié)論,但卻有意無意的忽略了 KX6000 是 8 核 8 線程的處理器而 i5-7400 是 4 核 4 線程處理器。如果看單核性能,那么 KX6000 大致相當(dāng)于 i5-7400 的一半。

Intel i5-7200U
Intel? Core? i5-7200U Processor (3M Cache, up to 3.10 GHz) Product Specificationsark.intel.com/products/95443/Intel-Core-i5-7200U-Processor-3M-Cache-up-to-3_10-GHz
Intel J1900
Intel? Celeron? Processor J1900 (2M Cache, up to 2.42 GHz) 產(chǎn)品規(guī)格ark.intel.com/zh-cn/products/78867/Intel-Celeron-Processor-J1900-2M-Cache-up-to-2_42-GHz
龍芯 3A3000
龍芯3A3000/3B3000_龍芯官方網(wǎng)站-[龍芯官方網(wǎng)站]www.loongson.cn/product/cpu/3/3A3000.html

測(cè)試使用的是 7.8.0 版本的 phronix-test-suite。
http://www.phoronix-test-suite.com/?k=downloads
測(cè)試分別在配備了 Intel i5-7200U 處理器的 X270 筆記本電腦以及自行組裝的龍芯3A3000電腦上進(jìn)行,其中對(duì)龍芯3A3000的測(cè)試在Debiantesting系統(tǒng)上進(jìn)行。測(cè)試環(huán)境如下:

在測(cè)試過程中,我發(fā)現(xiàn)了疑似龍芯實(shí)驗(yàn)室使用 1.5GHz 的龍芯 3A 3000 處理器在 Loognix系統(tǒng)上進(jìn)行的部分測(cè)試結(jié)果。因此,我就不再單獨(dú)使用 Loongnix 系統(tǒng)對(duì)該處理器的性能進(jìn)行測(cè)試了。
對(duì)龍芯 3A3000 所使用的編譯器選項(xiàng),可以參考
http://ftp.loongnix.org/doc/08Performance%20Optimization/Loongson3A%20Performance%20Optimization.pdf
對(duì)部分應(yīng)用,在編譯時(shí)采用了 n32 的 abi,即增加參數(shù) -mabi=n32。
由于 CPU 性能是我最想了解的東西,因此在測(cè)試過程中主要關(guān)心能反應(yīng) CPU 性能的測(cè)試, 而不考慮對(duì)磁盤、顯卡、內(nèi)存等硬件的性能測(cè)試。
測(cè)試程序介紹及測(cè)試結(jié)果分析
科學(xué)計(jì)算
scimark2
這個(gè)測(cè)試運(yùn)行了 SimiMark 2.0 的 ANSI C 版本,它是由國家標(biāo)準(zhǔn)與技術(shù)研究所的程序員開發(fā)的科學(xué)和數(shù)值計(jì)算的基準(zhǔn)。該測(cè)試由快速傅利葉變換、雅可比逐次超松弛、蒙特卡洛、稀疏矩陣乘法和密集 LU 矩陣分解基準(zhǔn)構(gòu)成。本測(cè)試為單核性能測(cè)試。
測(cè)試結(jié)果:
https://openbenchmarking.org/result/1806074-FO-LS3ASCIMA03?https://openbenchmarking.org/result/1806183-FO-LS3ASCIMA63

測(cè)試結(jié)果如圖所示。在圖中以龍芯 3A3000(紅色)的性能為基準(zhǔn)(1.0),與 i5-7200U和J1900 相比。鑒于龍芯3A4000 即將流片,根據(jù)龍芯方面放出的消息,龍芯3A4000 相比3A3000同主頻性能提高了 30%,同時(shí)主頻將從 1.5GHz 提高到 2.0GHz。此外,龍芯 3A4000 還將增加256 位 SIMD 指令,并將 L3 cache 從 8MB 增加到 12MB,SPEC CPU2006 的分值達(dá)到 20 分,達(dá)到龍芯 3A3000 的兩倍。
http://www.ict.cas.cn/kycg/cgnb/201709/P020170926639136974767.pdf
因此,我們以將 3A4000 的性能設(shè)為 2.0,作為性能預(yù)測(cè)的參考。
從測(cè)試圖可以看出, 在 Monte Carlo 測(cè)試中,3A3000 性能非常糟糕,只有 i5-7200U 的不到 10%,甚至不到 J1900 的 30%。這很不正常,可能有某個(gè)浮點(diǎn)運(yùn)算沒有使用硬件浮點(diǎn),而使用了軟件模擬的浮點(diǎn)運(yùn)算。在其余的測(cè)試中,3A3000 性能均與 J1900 相當(dāng),部分測(cè)試性能優(yōu)于 J1900。 J1900 和 i5-7200U 相比,雖然其主頻也有 1.99GHz,但單核性能只有 i5-7200U 的30%左右。
FFTE
FFTE 是 Daisuke Takahashi 寫的計(jì)算 1、2 和 3 維的序列長度為(2 ^ p)*(3 ^ q)*(5 ^ r)的離散傅立葉變換的一個(gè)包。單核性能測(cè)試。
測(cè)試結(jié)果:
https://openbenchmarking.org/result/1806090-FO-LS3AFFTED49
fhourstones
解 Connect-4 游戲,測(cè)試處理器的整數(shù)性能。單核性能測(cè)試。測(cè)試結(jié)果:
https://openbenchmarking.org/result/1806071-FO-LS3AFHOUR46
LS3A_fhourstones Performance - OpenBenchmarking.orgopenbenchmarking.org/result/1806071-FO-LS3AFHOUR46
https://openbenchmarking.org/result/1806071-FO-LS3AFHOUR46
gmpbench
用 GMP 6.1.2 數(shù)學(xué)庫進(jìn)行的性能測(cè)試。注意,gmpbench 只考慮程序的整數(shù)性能,不是浮點(diǎn)性能。單核性能測(cè)試。
https://gmplib.org/gmpbench.html
測(cè)試結(jié)果:
https://openbenchmarking.org/result/1806079-FO-LS3AGMPBE54
minion
Minion 是一個(gè)設(shè)計(jì)上具有可擴(kuò)展性的開源約束求解器。 單線程性能測(cè)試。
https://constraintmodelling.org/minion/
測(cè)試結(jié)果:
https://openbenchmarking.org/result/1806115-FO-LS3AMINIO86
mpcbench
GNU MPC 是復(fù)數(shù)算術(shù)的 C 庫。 單線程性能測(cè)試。
https://openbenchmarking.org/result/1806164-FO-LOONGSON301
multichase
單線程,多線程性能測(cè)試。
https://openbenchmarking.org/result/1806120-FO-LS3AMULTI28

在以上的測(cè)試中,我們找到了兩個(gè)關(guān)于 J1900 的測(cè)試數(shù)據(jù),其中 ffte 性能僅相當(dāng)于龍芯3A3000 的 2/3, fhourstone 性能是龍芯的 1.1 倍。從總體性能上看,i5-7200U 在以上的性能測(cè)試是龍芯 3A3000 的 2 倍到 4.5 倍不等,集中分布在 2.3 倍左右,我們預(yù)測(cè)龍芯 3A4000 的性能在這些測(cè)試中能達(dá)到 i5-7200U 的 85%左右。i5-7200U 在 gmpbench 和 mpcbench 中測(cè)試中性能是龍芯 3A3000 的 4.5 倍左右,優(yōu)勢(shì)明顯。
Bullet
Bullet 物理引擎. Bullet 是一個(gè)開源的物理模擬計(jì)算引擎,世界三大物理模擬引擎之一。單線程性能測(cè)試。
https://openbenchmarking.org/result/1806126-FO-LS3ABULLE82
himeno
The Himeno benchmark is a linear solver of pressure Poisson using a point-Jacobi method.單線程性能測(cè)試。
https://openbenchmarking.org/result/1806127-FO-LS3A3000H21
tscp
這是 TSCP,Tom Kerrigan 的簡單國際象棋程序的性能測(cè)試,它有一個(gè)內(nèi)置的性能基準(zhǔn)。單線程性能測(cè)試。
https://openbenchmarking.org/result/1806104-FO-LS3ATSCPD75

在這一組測(cè)試中,i5-7200U 優(yōu)勢(shì)非常明顯,除了在國際象棋性能測(cè)試 TSCP 上速度是 3A3000的 3.6 倍,在其他測(cè)試中速度基本都是龍芯 3A3000 的 4 倍以上,在 bullet 的 ragdoll 測(cè)試中性能甚至達(dá)到了龍芯 3A3000 的 30 倍。我們對(duì) bullet 的代碼進(jìn)行了分析,發(fā)現(xiàn)其中有大量的 SIMD 相關(guān)的代碼以及針對(duì) X86 處理器的匯編語言優(yōu)化。這是 bullet 在 Intel 處理器下運(yùn)行速度快的重要原因。而針對(duì) Ragdoll 測(cè)試,我們發(fā)現(xiàn)代碼中有大量的三角函數(shù)運(yùn)算,而龍芯目前三角函數(shù)的計(jì)算是有問題的,沒有啟用硬件浮點(diǎn),而是使用的軟件模擬,因此速度較慢。
hpcg
高性能共軛梯度算法,由桑地亞國家實(shí)驗(yàn)室開發(fā)的面向超算的科學(xué)基準(zhǔn)程序。多線程測(cè)試。
https://openbenchmarking.org/result/1806094-FO-LS3AHPCGD08?https://openbenchmarking.org/result/1806202-FO-LS3AHPCGO04
npb
NPB,NAS 并行基準(zhǔn),是美國國家航空航天局為高端計(jì)算機(jī)系統(tǒng)開發(fā)的基準(zhǔn)。此測(cè)試配置文件目前使用 MPI 版本的 NPB。 多線程測(cè)試。
https://openbenchmarking.org/result/1806097-FO-LS3ANPBDE97
n-queens
OpenMP 版本的 N-皇后問題解法器。問題大小是 18。多核性能測(cè)試。?https://openbenchmarking.org/result/1806109-FO-LS3ANQUEE29
mafft
100 個(gè)丙酮酸脫羧酶序列的比對(duì)。多線程性能測(cè)試。
https://openbenchmarking.org/result/1806108-FO-LS3AMAFFT56
primesieve
Primesieve 使用高度優(yōu)化的 Eratosthenes 篩法實(shí)現(xiàn)來產(chǎn)生素?cái)?shù)。Primesieve 對(duì) CPU L1/L2存性能進(jìn)行基準(zhǔn)測(cè)試。多線程性能測(cè)試。
https://openbenchmarking.org/result/1806103-FO-LS3APRIME23

以上的測(cè)試都是多線程的性能測(cè)試,HPCG 測(cè)試中 i5-7200U 性能達(dá)到了龍芯 3A3000 的 3.76倍。在 NPB 的測(cè)試中,龍芯在其中 3 項(xiàng)超過了 J1900,另外兩項(xiàng)不如 J1900。在 N-皇后問題、MAFFT 以及素?cái)?shù)篩選的測(cè)試中,i5-7200U 性能是龍芯 3A3000 的兩倍左右;如果龍芯 3A4000 性能能夠達(dá)到 3000 的兩倍,在這幾個(gè)測(cè)試中龍芯能夠達(dá)到 i5-7200U 的性能。
加密算法
Botan
Botan 是一個(gè)跨平臺(tái)的 C++的開源加密庫,支持大多數(shù)的所有公開的加密算法。(單線程測(cè)試)
https://openbenchmarking.org/result/1806093-FO-LS3ABOTAN50
Gnupg
用 GnuPG 加密文件,統(tǒng)計(jì)耗時(shí)。單線程性能測(cè)試。
https://openbenchmarking.org/result/1806105-FO-LS3AGNUPG86

在 Botan 測(cè)試中,龍芯 3A3000 在部分項(xiàng)目上與 i5-7200U 的差距在 3 倍左右。在 AES 的加密和解密這兩個(gè)測(cè)試中,和 i5-7200U 有近 80 倍的性能差異!原因在于 i5-7200U 存在 AES 加密解密硬件實(shí)現(xiàn),效率很高,而龍芯 3A3000 沒有這樣的功能,或者暫時(shí)無法使用該功能。此外, 在 Botan 中同樣存在針對(duì) X86 的匯編優(yōu)化,在能使用到這些優(yōu)化的測(cè)試中,x86 處理器就非常有優(yōu)勢(shì)。
多媒體編碼
encode-flac, encode-mp3, encode-ogg, encode-opus, encode-wavpack
將音頻文件轉(zhuǎn)碼為 flac,mp3,ogg,opus 和 wavpack,統(tǒng)計(jì)所需時(shí)間。
測(cè)試結(jié)果:
https://openbenchmarking.org/result/1806043-FO-LS3A3000A60
espeak
這個(gè)測(cè)試需要花費(fèi)多長時(shí)間的用 espeak 語音合成引擎讀取古騰堡項(xiàng)目的 The Outline of
Science,并輸出到 WAV 文件。單線程性能測(cè)試。
https://openbenchmarking.org/result/1806148-FO-LS3AESPEA06
dcraw
用 DCRAW 轉(zhuǎn)換多個(gè)高分辨率 RAW NEF 圖像文件到 PPM 圖像格式,統(tǒng)計(jì)所需要的時(shí)間。單線程性能測(cè)試。
https://openbenchmarking.org/result/1806140-FO-LS3ADCRAW96
mencoder
這個(gè)測(cè)試使用 mplayer 的 mencoder 編碼器程序和 LIVAVCODEC 系列來測(cè)試系統(tǒng)的音頻/視頻編碼性。單線程性能測(cè)試。
https://openbenchmarking.org/result/1806145-FO-LS3AMENCO12
Vpxenc
這是一個(gè)標(biāo)準(zhǔn)的視頻編碼性能測(cè)試,使用谷歌的 libvpx 庫和 vpxenc 命令實(shí)現(xiàn) VP8/WebM 格式的編碼。單核性能測(cè)試。
https://openbenchmarking.org/result/1806148-FO-LS3AVPXEN59

在音視頻壓縮編碼的測(cè)試中,龍芯再次完敗于 Inel 處理器,不管是 J1900 還是 i5-7200U。其原因,還是在優(yōu)化上。以上這些多媒體應(yīng)用,針對(duì) x86 處理器進(jìn)行了大量的優(yōu)化,而沒有對(duì)龍芯處理器進(jìn)行優(yōu)化。
壓縮算法
Compress-7zip
用 7zip 程序自帶的 benchmark 功能測(cè)試程序的多線程性能。
https://openbenchmarking.org/result/1806036-FO-LOONGSON337?https://openbenchmarking.org/result/1806230-FO-LS3A7ZIPL48
Compress-gzip
用 tar 程序壓縮 Linux 源碼包,檢驗(yàn)系統(tǒng)自帶的 gzip 程序的單線程性能。
https://openbenchmarking.org/result/1806039-FO-LS3A3000G15優(yōu)化以后的 gzip 程序?https://openbenchmarking.org/result/1806056-FO-LS3A3000G52
Compress-pbzip2
用并行的 bzip2 算法壓縮 Linux 內(nèi)核源碼包,統(tǒng)計(jì)所需時(shí)間。多線程程序。
https://openbenchmarking.org/result/1806109-FO-LS3APBZIP29
網(wǎng)絡(luò)應(yīng)用
Apache
Apache 基準(zhǔn)程序,評(píng)價(jià)標(biāo)準(zhǔn)是發(fā)出 100 萬的請(qǐng)求,100 個(gè)并發(fā),看系統(tǒng)每秒能夠處理多少。多線程性能測(cè)試。
https://openbenchmarking.org/result/1806159-FO-LS3AAPACH45
ebizzy
Ebizzy 測(cè)試。Ebizzy 可以生成類似 Web 服務(wù)器的工作負(fù)載。
https://openbenchmarking.org/result/1806152-FO-LS3AEBIZZ72
postmark
這是一個(gè)測(cè)試 NETAPP 的 POSTMARK 基準(zhǔn)測(cè)試,旨在模擬類似于 Web 和郵件服務(wù)器所承受的任務(wù)的小文件測(cè)試。此測(cè)試配置文件將設(shè)置 POSTMARK 以同時(shí)執(zhí)行 500 個(gè)文件的 25000 個(gè)事務(wù),文件大小介于 5 到 512 千字節(jié)之間。
https://openbenchmarking.org/result/1806151-FO-LS3APOSTM75
LS3A-postmark-debian Benchmarks - OpenBenchmarking.orgopenbenchmarking.org/result/1806151-FO-LS3APOSTM75
https://openbenchmarking.org/result/1806151-FO-LS3APOSTM75

從以上的測(cè)試結(jié)果可以看出,在壓縮算法以及網(wǎng)絡(luò)應(yīng)用上,龍芯 3A3000 和 J1900 性能接近。和 i5-7200U 處理器相比,差距也在有兩倍左右。需要指出的是,除了 gzip 是單線程測(cè)試, 其余的測(cè)試都是多線程測(cè)試。
內(nèi)存測(cè)試
Cachebench
這是 Calebench 的性能測(cè)試,它是 LLCBench 的一部分。Cachebench 是用來測(cè)試內(nèi)存和緩存帶寬性能的。
https://openbenchmarking.org/result/1806034-FO-LS3A3000C27
stream
系統(tǒng)內(nèi)存(RAM)性能基準(zhǔn)測(cè)試。測(cè)試結(jié)果:
https://openbenchmarking.org/result/1806044-FO-LS3A3000S37

在 stream 測(cè)試和 CacheBench 測(cè)試中,龍芯 3A3000 終于實(shí)現(xiàn)了對(duì) J1900 的全面優(yōu)勢(shì)。另外,除了在 Cachebench 中有兩項(xiàng)數(shù)據(jù)明顯若與 i5-7200U,在其他測(cè)試內(nèi)容中龍芯 3A3000 和i5-7200U 性能相當(dāng)。能有這樣好的性能,還是因?yàn)辇埿咎幚砥鳉v史上因?yàn)樵L存性能太差深受其害,然后花了很大的力氣優(yōu)化了訪存??梢云诖埿?3A4000 一樣會(huì)有較好的訪存性能。
最后,根據(jù) openbenchmarking 網(wǎng)站上找到的部分 FT1500A 和 FT-2000+的數(shù)據(jù),和龍芯3A3000 進(jìn)行了對(duì)比。

基本上,龍芯 3A3000 的性能強(qiáng)于 FT1500A,但明顯弱于 FT-2000+。和 FT1500A 相比,F(xiàn)T-2000+性能有了很大的提升,部分得益于工藝的改進(jìn),部分得益于架構(gòu)的更新。3A3000 在Monte Carlo 模擬上性能意外的糟糕,很可能是某關(guān)鍵函數(shù)缺少優(yōu)化。
總結(jié)與展望
從縱向上看龍芯的發(fā)展,相比龍芯 2F,龍芯 3A3000 的性能有了很大的進(jìn)步。工藝上,從龍芯 2F 的 90nm,提高到了龍芯 3A3000 處理器的 28nm;主頻從龍芯 2F 的 800MHZ 提高到了 1.5GHz。在用戶實(shí)際應(yīng)用上,基本可以達(dá)到流暢使用的程度。與 Intel 處理器相比,龍芯 3A3000 綜合性能相當(dāng)于 Intel J1900 處理器,單核性能相當(dāng)于 intel i5-7200U 的 30%~40%。
通過本文中所進(jìn)行的 34 項(xiàng)測(cè)試,我們發(fā)現(xiàn)龍芯 3A3000 在性能不好的根源有以下幾個(gè):
同主頻性能較弱。
從同主頻性能來看,龍芯 3A3000 已經(jīng)超過了 J1900, 但只有 intel i5-7200U 的 60%~70%。預(yù)計(jì) 2019 年流片的龍芯 3A4000 同主頻性能至少有 30%的性能提升。
主頻太低。
這是龍芯處理器讓眾多愛好者耿耿于懷的的一個(gè)難以回避的弱點(diǎn)。誠然,主頻不代表所有性能,但主頻太低是萬萬不行的。J1900 的同主頻性能弱于龍芯 3A3000,但由于它的主頻可以到 1.99GHz,并且還可以睿頻到 2.4GHz,在多項(xiàng)測(cè)試中一樣超過了龍芯 3A3000。Intel i5-7200U 基礎(chǔ)主頻達(dá)到 2.5GHz,睿頻可以到 3.1GHz。飛騰 2000+主頻可以到 2.2GHz,而兆芯的 KX-6000 主頻甚至可以到3.0GHz。飛騰、兆芯處理器可能在同主頻性能上弱于龍芯,但還是可以靠著較高的主頻擊敗龍芯 3A3000。
龍芯主頻較低的原因之一是落后的工藝制程,目前還在使用 28nm 工藝,而Intel、飛騰、兆芯等已經(jīng)在使用 14nm 工藝。根據(jù)龍芯的發(fā)展規(guī)劃,到 2020 年龍芯將使用 14nm 工藝對(duì)了龍芯 3C5000 進(jìn)行流片,主頻能夠達(dá)到 2.5GHz。
系統(tǒng)軟件優(yōu)化不夠。
在測(cè)試中,我們發(fā)現(xiàn)的問題有三角函數(shù)等數(shù)學(xué)函數(shù)運(yùn)算速度過慢,看起來部分硬件浮點(diǎn)運(yùn)算的沒有得到應(yīng)用,而且龍芯缺少一個(gè)優(yōu)化的 數(shù)學(xué)函數(shù)庫。在加密解密指令上,缺少AES 硬件實(shí)現(xiàn)。在測(cè)試中,我們發(fā)現(xiàn)使用Debian 操作系統(tǒng)、GCC 7.3 和 1.4GHz 的龍芯 3A3000 進(jìn)行的各項(xiàng)測(cè)試基本優(yōu)于使用 Loongnix 操作系統(tǒng)、GCC 4.9 編譯器和 1.5GHz 龍芯 3A3000 的組合。我們認(rèn)為編譯器的優(yōu)化對(duì)發(fā)揮龍芯的性能非常重要。在測(cè)試中,我們也發(fā)現(xiàn)使用 4.14 的 Linux 內(nèi)核會(huì)比3.10 的 Linux 內(nèi)核上有相當(dāng)程度的性能提升,龍芯依然缺少優(yōu)化的 Linux 內(nèi)核。
應(yīng)用軟件優(yōu)化不夠。
由于 MIPS 架構(gòu)缺少軟件生態(tài),各種應(yīng)用軟件缺少針對(duì)MIPS 架構(gòu)的優(yōu)化。具體表現(xiàn)就是在很多軟件有針對(duì) X86 系統(tǒng)的匯編優(yōu)化。要建立龍芯的生態(tài),發(fā)揮龍芯處理器的性能,相同級(jí)別的優(yōu)化不可缺少。
隨著龍芯未來架構(gòu)的優(yōu)化、主頻的提升,影響龍芯發(fā)展的瓶頸將不是處理器的性能,而是軟件生態(tài)的建設(shè),也就是系統(tǒng)軟件優(yōu)化以及應(yīng)用軟件優(yōu)化。其中,各種應(yīng)用軟件的優(yōu)化將是提升龍芯用戶體驗(yàn)的捷徑。實(shí)際上,龍芯也已經(jīng)意識(shí)到了這些問題,提出了要學(xué)習(xí)蘋果,”app by app, feature by feature, pixel by pixel” 的進(jìn)行優(yōu)化。
當(dāng)下,龍芯 3A4000 的流片工作正在開展,預(yù)計(jì)到 2019 年初就能看到芯片了。
在 3A4000 出現(xiàn)之前,我們對(duì) 3A4000 的性能進(jìn)行一下預(yù)測(cè)?;谖覀兊脑u(píng)測(cè),我們認(rèn)為,3A4000 的同主頻性能將從 i5-7200U 的 60%~70%,提升到 80%~90%,2.0GHz 下單核性能達(dá)到 i5-7200U 的 2/3,多線程性能超過 i5-7200U。和國內(nèi)其他 CPU 相比,龍芯 3A4000 的同主頻性能將超過飛騰以及兆芯,單核性能也將超過飛騰 2000+,但由于 3A4000 落后的 28 nm 工藝、依舊較低的主頻(2.0 GHz),龍芯 3A4000 的綜合性能將可能依舊無法超過采用 14 nm 工藝,主頻 3.0GHz 的兆芯 KX-6000。但鑒于KX-6000 并沒有看大規(guī)模量產(chǎn)出貨的跡象,龍芯 3A4000 依然可能會(huì)是 2019 年國內(nèi)可以買到的單核性能最強(qiáng)的國產(chǎn)自主處理器。
龍芯處理器和 Intel、AMD 的高性能處理器差距還是非常巨大,龍芯要走的路還很長。期待龍芯在未來采用更好的工藝,更優(yōu)化的微架構(gòu),也期待龍芯能夠在編譯器、數(shù)學(xué)庫、操作系統(tǒng)等系統(tǒng)軟件支持上有更好的表現(xiàn),構(gòu)建更好的應(yīng)用軟件生態(tài)系統(tǒng),期待著龍芯 3A4000、3B 4000、 龍芯 3C 5000 早日流片成功。
以上的評(píng)測(cè)只是一個(gè)非計(jì)算機(jī)專業(yè)的普通愛好者個(gè)人所為,不具有權(quán)威性,水平有限,時(shí)間倉促,數(shù)據(jù)繁多,有錯(cuò)誤和疏漏在所難免,還請(qǐng)批評(píng)指正。
以毛主席的話,結(jié)束我的測(cè)評(píng):
“我們正在前進(jìn)。我們正在做我們的前人從來沒有做過的極其光榮偉大的事 業(yè)。我們的目的一定要達(dá)到。我們的目的一定能夠達(dá)到?!?/h1>附 錄
各種測(cè)試結(jié)果匯總
龍芯 3A3000 (Loongnix)
https://openbenchmarking.org/result/1806113-TR-LSLABSLS380https://openbenchmarking.org/result/1709288-TR-LOONGSON390
FT1500A :https://openbenchmarking.org/result/1705187-KH-CPUSCIMAR08
I5-7200u
https://openbenchmarking.org/result/1806175-FO-I57200UDE18?https://openbenchmarking.org/result/1806174-FO-I57200UMU24
https://openbenchmarking.org/result/1806175-FO-I57200URA38?https://openbenchmarking.org/result/1806176-FO-I57200UCO93
https://openbenchmarking.org/result/1806179-FO-I57200UCR30
J1900
https://openbenchmarking.org/result/1404256-PL-1404206PL73
https://openbenchmarking.org/result/1404250-PL-1404206SO61
https://openbenchmarking.org/result/1404268-PL-J1900MULT15
https://openbenchmarking.org/result/1404272-PL-J1900SPEE11
https://openbenchmarking.org/result/1404275-PL-J1900PROC21
發(fā)布于 2018-11-23 22:40
「救救龍芯!」
還沒有人贊賞,快來當(dāng)?shù)谝粋€(gè)贊賞的人吧!
龍芯
中央處理器 (CPU)
評(píng)測(cè)