【圖吧雜談】為什么IPC或同頻性能代表不了芯片設(shè)計(jì)水平?
額……老鐵們,我圖吧老撿垃圾的了,今天咱簡單說下為什么IPC或同頻性能代表不了芯片設(shè)計(jì)水平這個(gè)問題。
前作:為什么說兆芯擠牙膏是偽命題 中我們提到了同頻性能不能代表芯片設(shè)計(jì)水平,能效對(duì)現(xiàn)代芯片產(chǎn)品改變用戶體驗(yàn)甚至使用成本至關(guān)重要的這個(gè)概念,但是顯然一些評(píng)論來看還是不能理解這個(gè)問題,所以這期咱簡單說明一下情況。

前情提要:龍芯在拋棄MIPS之后一直在擴(kuò)大單核心的規(guī)模,目前流水線寬度已經(jīng)達(dá)到了6發(fā)射的水平,同頻性能號(hào)稱打平了4發(fā)射的I3 10100。
之前在4發(fā)射的3A5000出現(xiàn)之后,龍芯吧小吧主以及龍芯圈就以“IPC代表芯片設(shè)計(jì)水平”為幌子到處拉踩其他國產(chǎn)同行,包括華為海思。BV1v84y1q7d7 01:30
《龍芯的足跡》反復(fù)宣稱只有使用MIPS開發(fā)處理器才有國產(chǎn)處理器的未來,其他引進(jìn)技術(shù)兼容現(xiàn)有指令集的路線都是買B路線(BV1Xh4y1K71H),而麒麟9000S被央媒譽(yù)為突破封鎖的標(biāo)志而不是3A6000。
3A6000和麒麟9000S使用的自研CPU同為6發(fā)射的架構(gòu),雖然麒麟9000S只有一個(gè)大核三個(gè)中核是自研但是在功耗只有10W的前提下跑分同頻性能達(dá)到50W的3A6000的一半。因此長期宣傳同頻性能代表芯片設(shè)計(jì)水平的回旋鏢終于飛回來了。
過去龍芯那些人總說引進(jìn)技術(shù)、兼容ARM X86主流指令集架構(gòu)是沒有未來的,是買辦路線,產(chǎn)品是買辦CPU,就算有國產(chǎn)X86 ARM的自研也總是說什么單核性能太差,不能抗制裁,指令集會(huì)被人卡脖子,沒了先進(jìn)工藝性能就無法提升或者同頻性能不行就是設(shè)計(jì)能力不行之類的鬼話。這個(gè)上期也說過了這套典中典的詞。
現(xiàn)在麒麟9000S上了自研大核中核架構(gòu)之后老百姓終于見識(shí)到了華為海量的研發(fā)投入下砸出的強(qiáng)悍自研能力,絲毫不輸蘋果的國際水平(CPU+GPU全自研,還捎帶手自研了NPU ISP DSP 5G基帶等等,后者蘋果沒有),以及頂著制裁下突破封鎖的能力,雖然只有DUV工藝,但是已經(jīng)達(dá)到了能效不輸三星4nm的水平(根據(jù)A510小核實(shí)測(cè),順帶說下,A510小核的存在說明華為有ARMV9),而且因?yàn)樽匝械募軜?gòu)可能原定是給服務(wù)器使用核心規(guī)模很大,因此同頻性能也不差,在控制整個(gè)芯片功耗在手機(jī)芯片的水平下,同頻性能依然達(dá)到了很高的水平,1大核+3中核的跑分只比龍芯35W SDP 50W TDP的桌面級(jí)U低一點(diǎn)。
按照龍芯那些人的理論應(yīng)該算是設(shè)計(jì)能力先進(jìn)了,雖然過去一直在攻擊其他國產(chǎn)路線,而現(xiàn)在龍芯中科董事長胡偉武在學(xué)校演講時(shí)面對(duì)學(xué)生提問關(guān)于過去龍芯在單核同頻性能領(lǐng)先國內(nèi)同行那么多結(jié)果現(xiàn)在華為新架構(gòu)自研CPU與麒麟9000S跑分單核性能這么高和聯(lián)系到鯤鵬920很可能這款I(lǐng)P未來會(huì)產(chǎn)生與龍芯的競(jìng)爭關(guān)系時(shí)被這么一句無心之問直接造成暴擊,導(dǎo)致其之前還在照著PPT夸夸其談,而被問到之后語無倫次答非所問甚至前言不搭后語只得回避問題。“華為應(yīng)該和蘋果高通比”“這個(gè)問題不好多說”“都在進(jìn)步”:
“龍芯之父”胡偉武對(duì)華為麒麟 9000S 看法-字幕
過去一直宣傳所謂的同頻性能=芯片設(shè)計(jì)水平的回旋鏢終于甩回來了,而指令集自主才能實(shí)現(xiàn)全自主,把指令集與自主研發(fā)能力等同的論調(diào)也完全破產(chǎn)了。
為什么我會(huì)知道這些?因?yàn)槲铱催^《龍芯的足跡》這本書,龍芯把自己這么多年來的想法都寫在里面了,甚至公開出了沒有出版社和版號(hào)的書而且看售價(jià)應(yīng)該出了不少本。他們就敢這么寫在書里,和無法無天的美國佬一樣什么壞的冒泡的事都這么白紙黑字的寫出來,算是海內(nèi)存知己天涯若比鄰的一種志同道合了。
其實(shí)現(xiàn)在回頭看來,設(shè)計(jì)什么指令集的CPU都是設(shè)計(jì),有自主設(shè)計(jì)自研核心的能力就可以了,至于性能高低的差異,也完全沒法用單核同頻性能去對(duì)比,因?yàn)榇蠛诵男『诵牡某杀径际遣灰粯拥?,就像雖然CORE和ATOM的單核性能迥異,但是從成本上看買一個(gè)大核心的成本可以買四個(gè)小核心,而四個(gè)小核心的性能就已經(jīng)無論怎么看都不會(huì)比單個(gè)大核心低了而且在同樣的制程下能耗可以更低(N4100 TDP:6W/解鎖15W 9700K TDP:95W/解鎖150W Intel14nm)。
就像華為的鯤鵬920和現(xiàn)在麒麟9000S一樣,鯤鵬920是一個(gè)類似小核心的設(shè)計(jì),四核為一簇IOD CCD分離設(shè)計(jì)可以很容易的堆出64核的規(guī)模。思路就是單核可以弱一些但是在使用7nm工藝的前提下一個(gè)DIE就能放下32核心,服務(wù)器標(biāo)準(zhǔn)版兩個(gè)CCD一個(gè)IOD就是64核:

至于4核 8核 16核 48核之類的參數(shù)明顯是屏蔽得到的,相當(dāng)于這個(gè)核心因?yàn)槊娣e很小良率就算低一些也很容易屏蔽有瑕疵的核心繼續(xù)正常出廠,而由于IOD類似原來的南北橋依然是使用16nm工藝分立生產(chǎn),所以CPU是一個(gè)比較純粹的低成本的計(jì)算核心,大部分因?yàn)樯a(chǎn)工藝瑕疵損壞的次品也可以很容易的屏蔽掉損壞部分降級(jí)使用。
至于鯤鵬930由于受制裁無法使用麒麟9000同款5nm工藝無法量產(chǎn)所以咱并不知道是否原計(jì)劃就是要擴(kuò)大核心規(guī)模,據(jù)架構(gòu)分析文章說現(xiàn)在的TSV架構(gòu)很可能就是19年傳說中的新款鯤鵬的架構(gòu)。然而擴(kuò)大核心規(guī)模的鯤鵬930和之前的鯤鵬920比肯定是存在進(jìn)步但是無法證明華為過去研發(fā)實(shí)力就比現(xiàn)在弱設(shè)計(jì)能力就差,這個(gè)是沒有因果關(guān)系的。無論采用大核心還是小核心其實(shí)都是基于市場(chǎng)做出的選擇,英特爾既有大核又有小核難道說研發(fā)大核心的部門因?yàn)镃PU同頻性能高所以研發(fā)能力就強(qiáng)于研發(fā)小核心的部門?沒有的事。

原計(jì)劃今年已經(jīng)應(yīng)該有鯤鵬950了,現(xiàn)在鯤鵬930依然沒有發(fā)布。這個(gè)架構(gòu)大概率是下放到了麒麟9000S上了。所以這個(gè)說明了一個(gè)問題就是要么現(xiàn)在華為裝備的鯤鵬920的性能優(yōu)化算法之后夠用不需要升級(jí)迭代或者現(xiàn)在華為還能用XEON的FusionServer Pro,要么就是換大核心架構(gòu)之后核心太多面積太大良率太低沒法像手機(jī)一樣砍了一大堆東西縮了緩存核心數(shù)也少降低了面積所以可以相對(duì)不計(jì)成本的使用略差一些的國內(nèi)工藝生產(chǎn)。代價(jià)太大沒法批量生產(chǎn),就算量產(chǎn)之后也會(huì)因?yàn)槌杀咎邲]法銷售。
順帶說下,鯤鵬920是HPC,需要提高算力加節(jié)點(diǎn)就是了。這還不算AI計(jì)算現(xiàn)在已經(jīng)轉(zhuǎn)向NPU,昇騰910在算法優(yōu)化的前提下落后兩代也能算出和國外相當(dāng)水平的模型。糾結(jié)單核性能同頻性能根本沒用還是需要能夠以盡可能低廉的成本提供盡可能更高的處理器性能、內(nèi)存性能、I/O 性能以及網(wǎng)絡(luò)性能。如果過于糾結(jié)單核性能核心過大很容易出現(xiàn)一種情況就是單核性能很強(qiáng),但是生產(chǎn)出來之后用戶用不起,如果能效還比小核心更低那就更拉了,對(duì)于超算來說反倒是反向升級(jí),KW級(jí)的耗電能效稍微低一點(diǎn)很快就能體現(xiàn)在使用成本上。所以只有在見過的大多數(shù)計(jì)算機(jī)產(chǎn)品核心數(shù)都不多且沒有接觸過集群概念的情況下用戶才會(huì)有閑心糾結(jié)同頻性能單核性能這種東西吧。
作為用戶來說電腦和車一樣是生產(chǎn)生活工具,是一個(gè)整體,使用的時(shí)候不僅要看發(fā)動(dòng)機(jī)怎么樣還要看售價(jià)看變速箱看油箱輪胎甚至看修車報(bào)價(jià)和舊車殘值。所以很多時(shí)候?qū)τ脩魜碚fGPU比CPU對(duì)使用體驗(yàn)來說更重要。而礦潮那些年垃圾佬感覺最明顯的就是由于顯卡的漲價(jià)配不起好顯卡一個(gè)個(gè)CPU就好像掛不上檔一樣有勁使不上。垃圾佬買得起I5 8400的板U當(dāng)時(shí)也就1000多但是隨便一張GTX960都漲到了800+笑死根本就買不起結(jié)果最后就只能核顯UHD630湊合用,然后就基本告別什么大型3D AI運(yùn)算之類的軟件了除非用CPU硬算,游戲也別想,CPU用核顯就像一個(gè)2.0T的發(fā)動(dòng)機(jī)配個(gè)4AT的變速箱,這車是人就開著難受,還不如弄個(gè)5MT的手動(dòng)擋。后來礦難之后給這機(jī)器花100配了張P106舒服了。
而單論發(fā)動(dòng)機(jī)來說就像CPU一樣,設(shè)計(jì)時(shí)其實(shí)已經(jīng)想好了該怎么處理。就像開車一樣,用戶其實(shí)不是非常關(guān)心CPU的單核性能而更關(guān)心整體性能以及能效,就像沒人會(huì)糾結(jié)發(fā)動(dòng)機(jī)是幾缸,L4 L6 V8這些其實(shí)都無所謂,除非三缸機(jī)。一般情況下只要車好開動(dòng)力夠省油就行了,至于它是四缸還是八缸甚至混合動(dòng)力作為駕駛員來說這些其實(shí)都不是很重要,真正帶來體驗(yàn)改變的無非是加速推背感以及大幅降低油耗。換言之發(fā)動(dòng)機(jī)排量差不多油耗也相近動(dòng)力也相當(dāng)?shù)那疤嵯?,用戶根本就不在意這車是L4還是V8。
而CPU的同頻性能甚至對(duì)不上單缸排量,單缸排量對(duì)應(yīng)單核性能,同頻性能的話就應(yīng)該看發(fā)動(dòng)機(jī)每次做功輸出多少能量了,而有的發(fā)動(dòng)機(jī)紅線高轉(zhuǎn)速可以拉上萬,有的發(fā)動(dòng)機(jī)干六千轉(zhuǎn)就不行了,說到底功率上限和上述參數(shù)無關(guān),用戶最后還是得看整個(gè)發(fā)動(dòng)機(jī)的最高功率以及經(jīng)濟(jì)油耗。所以CPU看同頻性能這個(gè)參數(shù)也是沒啥意義的,不如看看TDP和能效比這些參數(shù),這是最終決定用戶會(huì)用多少電設(shè)備需要頂多高發(fā)熱的關(guān)鍵參數(shù)。
然后說回同頻性能和能效以及工藝之間的關(guān)系。不知道各位記得上期咱對(duì)比VIA以前的產(chǎn)品的時(shí)候發(fā)現(xiàn)90nm SOI工藝的C7M ULV在1.6G跑分是40nm TSMC工藝雙核L4350 1.6G+/1.73G的約三分之一(象棋1.03倍/3.34倍)的情況下TDP只有約四分之一(7W/27.5W)嗎?不同的架構(gòu)不同工藝對(duì)功耗的影響其實(shí)很大,只不過各位可能不知道。所以垃圾佬寧可用45nm的AMD K10.5速龍羿龍也不愿意用32nm的推土機(jī)就是這樣的道理。性能差不多,價(jià)格還更貴,功耗甚至更高,誰愛用誰用反正圖吧垃圾佬撿垃圾都不用。
其實(shí)想知道同樣的架構(gòu)不同的工藝會(huì)不會(huì)帶來同頻性能提升對(duì)比J1900/1800和Z8300的跑分其實(shí)就能算出來:

J1900 22nm在鎖2.0G的前提下CPUz單核91.9多核361
單核每Ghz45.95

J1800 22nm雙核2.57G 象棋4.1倍 CPUz96/188
單核每37.35,反倒更低了,說明最佳頻率不在這么高,畢竟14級(jí)流水線兩發(fā)射的架構(gòu)。


z8300 14nm cpuz分?jǐn)?shù)單核66,多核233,象棋5倍多跑分時(shí)全程睿頻1.6G,CPUz跑分單核能上1.84G
單核每Ghz35,同頻性能(所謂的IPC)基本沒變,甚至略低于J1800。
這就能看出來怎么回事了吧,Airmont是Silvermont的衍生微架構(gòu),14級(jí)流水線雙發(fā)射的結(jié)構(gòu)。從22nm時(shí)代Intel引入了亂序執(zhí)行到14nm初代ATOM架構(gòu)是沒怎么改過的。Airmont核心面積減少了64%,是專門為手機(jī)和平板等平臺(tái)推出的處理器架構(gòu)。因?yàn)殒i了功耗所以其實(shí)在架構(gòu)基本不變的前提下CPU整體的跑分其實(shí)也相對(duì)更低了得解鎖功耗性能才能起來。
簡單來說盲目上先進(jìn)制程不僅不會(huì)提升同頻性能,對(duì)功耗也沒啥幫助(參考AMD 32nm FM1的K10.6,比45nm的K10.5能效好不到哪去)。
FM2的打樁機(jī)到挖掘機(jī),28nmGF制程不變的前提下功耗降低40%,面積幾乎相同,但晶體管數(shù)量增加29%,雖然跑分來看同頻性能基本沒變甚至相比一些過去高端的型號(hào)頻率還降了(比如A10 7870K在頻率更高的前提下跑出的分?jǐn)?shù)比A8 7680更高),但是同樣畫質(zhì)同樣顯卡幀數(shù)就是能提高,影響CPU使用體驗(yàn)的除了跑分和能效以外還有訪存能力 延遲 分支預(yù)測(cè)精度 緩存命中率之類的,其實(shí)這些能提高使用體驗(yàn)也都能提高。
作為垃圾佬比較遺憾的就是AMD在ZEN1之后放棄了HSA異構(gòu)APU的發(fā)展,其實(shí)到后期挖掘機(jī)的U能效相當(dāng)不錯(cuò)的,甚至有45W的2M4T,按這個(gè)能效上了14/12nm之后出個(gè)4M8T甚至8M16T也不是不行可惜歷史沒有如果。RYZEN好歹也算是比較陽間的產(chǎn)品雖然有點(diǎn)性能之后AMD價(jià)格就起來了但是無論怎么說好歹不失為一個(gè)正經(jīng)產(chǎn)品,有一點(diǎn)利潤提供研發(fā)是可以理解的,總比買個(gè)體驗(yàn)感人的垃圾回來強(qiáng),不論什么價(jià)錢用著遭罪渾身難受就夠嗆。
最后簡單說結(jié)論吧:就像提高CPU的流水線級(jí)數(shù)就更容易超頻一樣,核心大流水線寬度高同頻性能自然就高,核心簡單規(guī)模小單核同頻性能自然就弱,但是功耗卻可以降低也可以降低面積降低生產(chǎn)成本甚至更容易堆核最后產(chǎn)品的總體性能不一定會(huì)比大核產(chǎn)品差而且通常能效比和性價(jià)比更高。所以就像垃圾佬之前說的芯片產(chǎn)品不能不顧能耗唯性能論一樣,唯同頻性能(或者被一些人稱為IPC)論也是相當(dāng)不可取的,這種思想就像是二十年前看見奔騰4就大喊高頻低能那些人一樣,如今看來給人感覺是只知其表不知其里,奔騰4也好推土機(jī)也好帶來的使用體驗(yàn)惡劣是因?yàn)楦腥说哪苄П?,而不是糟糕的同頻性能,同頻性能很差的ATOM、ARM用著都好好的,提高能效堆核就好了。
所以今天看來一些人總喜歡拿同頻性能代表芯片設(shè)計(jì)水平說事,屬實(shí)是比較拙劣的話術(shù)了。話說這些人該不會(huì)真是這么想的吧不會(huì)吧不會(huì)吧不會(huì)吧,不會(huì)真有人覺得能效比和芯片架構(gòu)+物理設(shè)計(jì)水平無關(guān)吧,不會(huì)有人不知道在工藝不變的前提下可以通過改進(jìn)設(shè)計(jì)提升能效吧?
就這樣,謝謝朋友們!