沒有先進(jìn)制程能造出好芯片嗎?
額……老鐵們,我圖吧老撿垃圾的。今天咱簡(jiǎn)單給各位講下這個(gè)在CPU制程受限的情況下如何最大化提升CPU的性能的方案。作為資深圖吧撿垃圾的垃圾佬,從130nm到90nm到65nm45nm32nm22nm一路撿垃圾過來的咱一直到現(xiàn)在用上了14nm沒+的電腦以及7nm沒EUV的手機(jī),見過了無數(shù)的歷史,也見證了大量的科學(xué)奇跡,所以今天咱就想簡(jiǎn)單給各位說下如何在不提高CPU的制程的前提下提升CPU性能的方法。
下面開始講故事,如果需要省流直接跳到最后就可以了
首先其實(shí)作為圖吧垃圾佬,最應(yīng)該給各位科普的就應(yīng)該是圖拉丁奔騰3吊錘奔騰4的故事。圖拉丁的奔騰3我們知道,其實(shí)就是晚期P6架構(gòu)的奔騰3相比奔騰4有高性能、低功耗、低發(fā)熱量的優(yōu)勢(shì),到了面向雙路服務(wù)器市場(chǎng)的圖拉丁奔騰III-S性能極為強(qiáng)悍,133MHz FSB,512KB全速二級(jí)緩存,二級(jí)緩存延遲時(shí)間為0(桌面版圖拉丁奔騰家用版和賽揚(yáng)都只有延遲時(shí)間為1的256KB全速L2),支持增強(qiáng)型數(shù)據(jù)預(yù)讀取技術(shù)(這個(gè)在奔騰和賽揚(yáng)或多或少都砍過)。


就這么一款相對(duì)來說古老的CPU,卻能吊錘后來使用RAMBUS內(nèi)存和超長(zhǎng)流水線超高頻率NetBurst架構(gòu)的奔騰4,甚至直到今天圖吧垃圾佬都以擁有一塊圖拉丁羊(賽揚(yáng))為精神支柱(我還真有一塊圖拉丁羊)。

垃圾佬的圖拉丁PIII-M 1.13G是真的對(duì)比圖拉丁P3 1.0G跑出了完美的1.13倍性能的,所以一般來說相同架構(gòu)的CPU頻率越高性能越強(qiáng)是沒問題的,但是垃圾佬沒有1.33G的PIII-M或者1.4G的賽揚(yáng)M,非常遺憾。
但是當(dāng)時(shí)對(duì)于圖拉丁奔騰3來說贏并不是英特爾想要看到的結(jié)果,看到自己家老架構(gòu)的CPU吊錘新架構(gòu)的電子垃圾之后,英特爾是真的急了急了,因?yàn)閳D拉丁奔騰3采用的是130nm架構(gòu)所以能在低頻吊錘高頻的NetBurst P4,在給180nm的P4升級(jí)成130nm的Northwood之后依然只能和圖拉丁奔騰3相比略有優(yōu)勢(shì),同頻性能依然還是不行,后期逐漸升級(jí)外頻和主頻之后才拉開檔次,大概得達(dá)到圖拉丁奔騰3的1.5-2倍主頻才能打贏,結(jié)果到了90nm的Prescott之后英特爾又翻車了,反正就是工藝雖然新了但是加長(zhǎng)流水線頻率拉得高的直接后果就是你散熱壓不住

我們知道,英特爾在PIII時(shí)代上1.0G的努力失敗了之后就開始玩上了邪魔外道,理論上CPU流水線越長(zhǎng)頻率越容易提高但是執(zhí)行指令時(shí)越容易出錯(cuò)理論效率越低,所以本質(zhì)上來說加長(zhǎng)流水線提升紙面頻率的操作是有問題的,IPC(instruction per clock,每時(shí)鐘指令數(shù))并沒有提升反倒下降了,這就導(dǎo)致了市場(chǎng)上出現(xiàn)了大量高頻低能的怪物,而這種低執(zhí)行效率的架構(gòu)的產(chǎn)品自然是被隔壁AMD各種凌辱PLAY了,比如早期的AMD閃龍2800+,它的命名非常有意思,雖然只有單核90nm,但是它可以在1.6G的主頻下吊打英特爾的P4 2.8G,所以命名為2800+,同理同時(shí)期的速龍也是差不多的命名方式,當(dāng)然后來非常經(jīng)典的速龍5000系列和FX5000我就不太清楚是不是這么命名的了,但是事實(shí)證明AMD直到K10.5的時(shí)代這種高執(zhí)行效率短流水線的設(shè)計(jì)思路都是沒問題的。雖然后期一起轉(zhuǎn)堆核之后英特爾也反應(yīng)過來還是得拿起來老P6架構(gòu)繼續(xù)改而不是再堅(jiān)持長(zhǎng)流水線+超線程了,畢竟筆記本奔騰M干翻臺(tái)式奔4全家實(shí)在是太丟人了,但是人類從歷史中吸取的唯一教訓(xùn),就是人類不會(huì)從歷史中吸取教訓(xùn)。

到了K10.5之后的時(shí)代(大概是AMD AM3+)AMD Bulldozer 推土機(jī)在追求紙面頻率上也犯過一樣的錯(cuò)誤。這次輪到AMD從超長(zhǎng)流水線走火入魔了,從壓路機(jī)打樁機(jī)挖掘機(jī)之后AMD直到2018年RYZEN上市前一直是處于低谷的狀態(tài)。各位可能記得當(dāng)時(shí)AMD玩的比較順手的APU,但是實(shí)際上從今天看來就是集成了一個(gè)還算可以的集顯的CPU而已,F(xiàn)M2+的話可能集成的還是GCN架構(gòu)的集顯而且理論上可以和AMD的獨(dú)顯交火同時(shí)使用,但是也僅此而已。這種APU的問題在于CPU流水線過長(zhǎng)效率過低雖然頻率高但是散熱一旦壓不住CPU性能和發(fā)熱就會(huì)雪崩,所以當(dāng)時(shí)的AMD的7860K和860K雖然看上去是四核APU/CPU,但是性能也就是同時(shí)期普通雙核的水平。這里還有一個(gè)比較可悲的概念就是AMD的推土機(jī)打不過K10.5羿龍主要并不是因?yàn)镃PU高頻低能,而是AMD玩起了物理超線程的把戲給各位整了個(gè)假核心數(shù)的操作,AMD的推土機(jī)是4M8T的,也就是說實(shí)際上只有物理四核心,八核實(shí)際上是物理超線程。當(dāng)然對(duì)于長(zhǎng)流水線的CPU來說超線程不要太容易,32nm的時(shí)代英特爾在SNB和X58上也在做超線程,但是AMD顯然有點(diǎn)用力過猛了,同樣的工藝居然能達(dá)到4.0G起步的可怕頻率,可想而知這個(gè)流水線有多長(zhǎng)。
所以無論是圖拉丁PIII也好還是AMD從K7開始一直在秀直到K10.5的過去也罷其實(shí)我們是能看得出來一款好的CPU它的必要條件是什么的。高IPC高運(yùn)行效率,主頻未必要高但是工藝成熟、架構(gòu)設(shè)計(jì)合理,緩存大、分支預(yù)測(cè)算法先進(jìn)這些是關(guān)鍵的。PIII-M之所以比臺(tái)式機(jī)的圖拉丁羊更成熟更好用并不是因?yàn)槎嗔硕嗌俟奶嵘嗌僦黝l或者有什么先進(jìn)的工藝,只是有更大更快的緩存和更適合筆記本的智能供電功率調(diào)度,而AMD的羿龍2 K10.5的一代神U 640T則是因?yàn)橛胁桓卟坏偷闹黝l和成熟工藝以及開核后有很大的L3(記得是6M吧)還有就是它本身確實(shí)發(fā)熱不高,和標(biāo)稱的144W TDP不搭,這也是基于45nm的老AMD直到現(xiàn)在也能被認(rèn)為是一代神U還有很多人用的主要原因。

這里我們簡(jiǎn)單給各位看下垃圾佬目前使用至今的一代神U,當(dāng)年45nm的低功耗筆記本上面用的主力L9400,順帶說下,MacBook Air2,1也用的是頻率略高的L9600,能達(dá)到2.13G。
這個(gè)U就符合高運(yùn)行效率的必要條件,首先它雙核雙線1.84G主頻不高,理論上來說這個(gè)玩意的性能并沒有比后來的I5 520UM強(qiáng),但是受惠于6M的超大L2,這玩意的實(shí)際體驗(yàn)完全吊錘了后來有超線程加持的520UM,當(dāng)然了它本身的功耗也略高,單CPU 17W,相比10W的520UM確實(shí)高了一些,但是其實(shí)垃圾佬最喜歡的TDP功耗范圍并不是17W,而是P8600/8800的25W,遺憾的是P8800也好8600也好8400也好只有3M的L2,所以實(shí)際上雖然頻率很高但是在某些方面就比較差了。

L9400雖然主頻不高但是它搭配64位解碼器可以實(shí)現(xiàn)軟解1080P H265 10BIT的視頻,4K確實(shí)不行。

這主要還是因?yàn)樗腖2每核3M大緩存以及雙通道DDR3 1066內(nèi)存的帶寬更高

相對(duì)來說同樣是45nm的T8300就沒法流暢的把1080P H265的視頻解碼,即使有2.4G的主頻,這里主要就是卡在緩存和內(nèi)存上了,T8300通常搭配的是DDR2 800,而P8600同樣的2.4G主頻則通常搭配了DDR3 1066,所以說差就差在這里。

還有需要各位注意的點(diǎn)就是在IBM的機(jī)器上,無論是X200還是X200s X200T,都集成了原始睿頻,比如說P8600可以跑全核2.53G約等于P8700的水平,還有L9400也可以單核拉2.13G約等于單核有L9600的水平,這是很難得的。雖然只是曇花一現(xiàn)的頻率調(diào)動(dòng),但是在需要加性能的時(shí)候也非常有用。

主頻還是比較重要的,比如說英特爾后來2W SDP 4W TDP的8寸Windows平板用U,雖然當(dāng)年滿街都是1.84G到頂?shù)腪8300,但是最后能玩到現(xiàn)在還能當(dāng)東西用的還是得雙核2.24G的Z8500,而且必須得是雙通道內(nèi)存。Z8300被人為限制到了單通道DDR3 1600的水平,最大內(nèi)存帶寬也就那樣了,所以性能上肯定還是相當(dāng)受影響的。有些時(shí)候頻率差一點(diǎn)不代表只差一點(diǎn)點(diǎn),比如今天看來L9300雖然也有6M大緩存,但是相比L9400就是不能用和能用的區(qū)別,P8400和P8600也同理,P8700/8800相比P8600是錦上添花頻率更高更好用的產(chǎn)品,但是P8400就是基本沒法用看視頻都卡的水平了。

英特爾在后期從ATOM升級(jí)來的APOLLOLAKE也好GEMINILAKE也好都是用的一樣的套路,只不過對(duì)于CPU的功耗放得更開(N系列TDP給到了6W,J系列直接上了10W,這倆都能解鎖到15W),緩存給的更大(N3450還看不出來,到了N4100直接給L2翻倍了,這樣有了4M的L2也算是勉強(qiáng)可以一戰(zhàn)),然后就基本沒啥別的提升了。從CPU跑分也能看得出來,同樣的運(yùn)行頻率下跑分基本沒啥提升(N4100最高頻率2.4G,跑分的時(shí)候達(dá)不到),而且一直使用的是祖?zhèn)鞯?4nm沒+工藝,控制成本的考慮下提升性能基本只靠對(duì)集顯的小改(HD500→UHD600)以及給CPU稍微提升下頻率(N3450 2.2G到頂)就沒有了,相比22nm的Z3735到Z8500的CPU能耗比的提升帶來的更大規(guī)模的集顯,14nm的產(chǎn)品可以認(rèn)為是到了N3450這代基本就定型了,N4100提升有限。提升主要還是體現(xiàn)在CPU的緩存和集顯以及接口方面(一些魔改過的N4100可以用PCIE2.0×2帶NVME固態(tài),N3450普遍只有自帶的SATA)。
緩存的提升有什么用?
曾有內(nèi)部消息指出,英特爾工程師建議給Willamette搭配512MB緩存甚至三級(jí)緩存,以求提升Willamette的性能,但是以當(dāng)時(shí)的工藝根本做不到,現(xiàn)在來看AMD確實(shí)在做大緩存的產(chǎn)品,堆上了3D V-Cache,在5800X3D上堆出了96M的L3,這個(gè)在CPU里面確實(shí)是絕無僅有的,畢竟我們要考慮的是實(shí)際體驗(yàn),當(dāng)年也不是沒有人做過CPU PCB上帶DRAM的L4,但是從速度來看還是不如L3 L2的,所以從5800X3D上來講雖然為了安全穩(wěn)定考慮主頻更低且不支持加壓超頻,但是大緩存用起來確實(shí)爽,在更低的主頻下游戲性能卻足足提高了10%。
想當(dāng)年的771膠水四核給了兩個(gè)45nm的6M L2核心堆出來了X5430 L5420這樣12M L2的怪物就震撼垃圾佬很多年了,后來X58的12M L3六核十二線的L5640也就是12M的L3,相當(dāng)于每核2M,而直到現(xiàn)在咱也沒見過每核舍得給3M L2的CPU存在了。 ?
所以我們知道,CPU發(fā)展的歷史不考慮軟件優(yōu)化的情況下它總體來說是要遵循一個(gè)科學(xué)規(guī)律的,即CPU本身的性能并不是人為的主觀想要它提升就一定能提升的,受限于實(shí)際條件我們發(fā)現(xiàn)越是急于求成、拔苗助長(zhǎng)的CPU設(shè)計(jì)往往越容易遭受到失敗,而好的CPU設(shè)計(jì)長(zhǎng)盛不衰的則需要良好的架構(gòu)、成熟穩(wěn)定的工藝以及產(chǎn)品的配套,缺一不可。
產(chǎn)品的配套有什么用?同樣是P8600的機(jī)器,我們知道這個(gè)CPU在搭配GM45芯片組的時(shí)候DP輸出是啞巴,而蘋果的MacBook因?yàn)榇钆涞氖怯ミ_(dá)的定制集顯芯片組GT320M,所以不僅能支持DP的音頻輸出,而且還有16G的最大內(nèi)存(相比之下直到P8600向下兩代的二代I3的時(shí)代英特爾自己的HM65才支持了16G的內(nèi)存,之前從GM45開始一直是8G),此外,軟件的用處可大了。很多時(shí)候我們認(rèn)為一個(gè)機(jī)器有沒有可用性不在于它性能多好,而是軟件適配有多強(qiáng)。比如同樣的作為手機(jī)平板,Windows平板絕大多數(shù)時(shí)間在生產(chǎn)力工具屬性上吊錘其他陣營(yíng),而IOS又可以通過統(tǒng)一封閉的軟硬件系統(tǒng)生態(tài)給自己整出一些別的平臺(tái)沒有的操作,比如IOS14就可以直接在手機(jī)平板上跑WAIFU2X,這個(gè)安卓陣營(yíng)現(xiàn)在還沒有能穩(wěn)定在本機(jī)運(yùn)行的實(shí)體。MacBook也是一樣,P8600對(duì)于我們現(xiàn)在來說什么也不是就是個(gè)office辦公機(jī),但是Mac OS X下的P8600卻能有更低的待機(jī)功耗以及祖?zhèn)鞯淖詣?dòng)適配打印機(jī)驅(qū)動(dòng),在配合打印機(jī)使用的時(shí)候不僅能自己找驅(qū)動(dòng)下載安裝甚至能解EPSON噴墨打印機(jī)的掉速問題。這些都是在硬件配置上看不出來的,所以我們說自有系統(tǒng)和軟件生態(tài)的存在絕對(duì)是有意義的,即使硬件受限被卡脖子,軟件方面我們也能找回來的,要有這個(gè)自信。
而當(dāng)工藝受限的情況下,我們要造SOC,尤其是造CPU(麒麟直到最后依然沒有像蘋果一樣有自研GPU的能力,這點(diǎn)我們要正視現(xiàn)實(shí))這方面,要發(fā)揮優(yōu)勢(shì),遵循客觀科學(xué)規(guī)律,絕對(duì)不能在制程落后架構(gòu)先進(jìn)的情況下掉進(jìn)唯性能論的陷阱,科學(xué)的提升性能,尤其是在移動(dòng)端要吸取芯片行業(yè)過去的經(jīng)驗(yàn)教訓(xùn),絕不能學(xué)隔壁高通造電烙鐵現(xiàn)大眼,科學(xué)的提升芯片性能在制程落后的情況下通過堆緩存提升IPC使用高效架構(gòu)的方法進(jìn)行合理芯片設(shè)計(jì),記得17年那會(huì)兒的麒麟960 970嗎,雖然和華為P9的麒麟955一樣本質(zhì)上都是4G芯片,而且直到960都是單4G芯片,但是由于CPU架構(gòu)和GPU功耗控制的問題,導(dǎo)致960也出現(xiàn)了高通一樣的問題,CPU高頻低能IPC執(zhí)行效率上不去發(fā)熱自然就高的離譜,加上當(dāng)年三星自爆之后閃存大幅漲價(jià),一套組合拳直接給P10給送走了,后來到了麒麟970也沒好。而低頻高效的麒麟955垃圾佬則把P9作為主力一直用到了今年,備用機(jī)現(xiàn)在還在用P9 PLUS。因?yàn)榉€(wěn)定可靠好用就是真理,不要多高性能,手機(jī)能硬解H265 10BIT編碼4K之類的都不重要,只要它續(xù)航可以運(yùn)行穩(wěn)定平時(shí)信號(hào)強(qiáng)不發(fā)熱就完事了。很多時(shí)候作為一個(gè)圖吧人我們得說經(jīng)典的架構(gòu)是永流傳的,AMD過去的輝煌也好現(xiàn)在的RYZEN也好離不開優(yōu)秀的設(shè)計(jì)師比如Jim Keller,甚至我們可以認(rèn)為蘋果也好INTEL也好之前的輝煌時(shí)刻都離不開這樣優(yōu)秀的設(shè)計(jì)師,而華為如果有足夠多的人才儲(chǔ)備的話相信即使在制程劣勢(shì)的情況下也可以通過架構(gòu)造出一樣優(yōu)秀的產(chǎn)品,個(gè)人認(rèn)為要造高性能產(chǎn)品最佳的方案就是采用成熟工藝優(yōu)秀架構(gòu)降頻堆核堆緩存,這個(gè)在實(shí)際使用中是能一眼看出區(qū)別的。
也就是說如果要在14nm下吊錘7nm需要的不是拉高頻堆功耗,而是科學(xué)的芯片設(shè)計(jì),有多大鍋下多少米,14nm就要有14nm的設(shè)計(jì),如果這個(gè)工藝沒有坑的話其實(shí)用起來也是一樣可以的,畢竟之前在iPhone6S那個(gè)時(shí)代也出過臺(tái)積電16nm吊打三星14nm,驍龍800 801 810從28nm到20nm都是大火爐的歷史,所以其實(shí)現(xiàn)在看來如果有一個(gè)穩(wěn)定可靠的工藝就去好好用它,這并沒有太大的問題(英特爾:這我熟啊,14nm沒+又能怎么樣,現(xiàn)在用著不也挺好的),如果要提升性能就優(yōu)先考慮架構(gòu)和芯片規(guī)格而不是規(guī)模的升級(jí)就可以了,簡(jiǎn)單來說就是堆緩存提升IPC以及堆核降頻,說起來其實(shí)非常簡(jiǎn)單但是實(shí)際上很考驗(yàn)芯片設(shè)計(jì)功力,而且拉緩存其實(shí)是最簡(jiǎn)單的,堆核是最難的,因?yàn)樾酒?guī)模上限終究是受限于工藝的。聽說這次的710A是采用了雙芯片堆疊設(shè)計(jì),個(gè)人認(rèn)為還是很有意思值得一試的。
還有,其實(shí)萬物互聯(lián)也非常重要,這點(diǎn)垃圾佬也是玩了這么長(zhǎng)時(shí)間的電腦或者說數(shù)碼產(chǎn)品之后才明白的,這年頭單打獨(dú)斗是不行的,一個(gè)機(jī)器再強(qiáng)大終究有它的短板,比如手機(jī),雖然現(xiàn)在的手機(jī)普遍很強(qiáng)悍,但是很多時(shí)候在需要一定特定用途的時(shí)候就不行,比如你需要大屏幕或者24×7掛機(jī)作為下載機(jī)或者電視盒的時(shí)候使用就不行,它不如一個(gè)500塊錢的N4100 NUC,而且它本身的接口性能也受限,不適合作為大規(guī)模數(shù)據(jù)轉(zhuǎn)移終端使用,雖然5G很快但是你沒法用手機(jī)從移動(dòng)硬盤往U盤里快速的倒文件。很多人覺得單個(gè)手機(jī)或者電腦性能好就可以了,這顯然就是沒考慮到使用環(huán)境,現(xiàn)實(shí)就是人不可能只抱著一臺(tái)手機(jī)或者電腦使用,總是要組合使用的(比如最簡(jiǎn)單的,手機(jī)掃碼登錄一些網(wǎng)站網(wǎng)頁端,你總不能為了脫離手機(jī)從電腦里開個(gè)模擬器自己掃自己,總歸是需要用到多設(shè)備的)。而怎么能把不同的設(shè)備的組合使用做到極致這也是需要基于用戶的各種使用環(huán)境來進(jìn)行優(yōu)化的。這其實(shí)更考驗(yàn)的是供應(yīng)商的用戶反饋和社區(qū)建設(shè),說到底是一個(gè)互相幫助的關(guān)系,企業(yè)在乎用戶的感受,用戶也真正愿意幫助企業(yè)改進(jìn)產(chǎn)品提升使用體驗(yàn),是一個(gè)雙向奔赴。要實(shí)現(xiàn)這些需要自己有完整生態(tài),軟硬件一把抓,還需要天時(shí)地利人和,我看英特爾之類的企業(yè)是沒戲了,蘋果有軟硬件有生態(tài),但是不在乎用戶感受的企業(yè)(指IOS的CPU降頻門)又有多少用戶原因幫助改進(jìn)產(chǎn)品呢?要做出失敗的產(chǎn)品其實(shí)很簡(jiǎn)單,但是要做出經(jīng)典的好產(chǎn)品很難。這個(gè)世界上從來不缺乏失敗的產(chǎn)品,作為垃圾佬撿垃圾的目的就是透過時(shí)間長(zhǎng)河大浪淘沙找出適合自己的優(yōu)秀產(chǎn)品,而雖然現(xiàn)在面對(duì)著這個(gè)擺爛的世界,咱還是希望未來能有更多更好的產(chǎn)品出現(xiàn)的。
就這樣,謝謝朋友們!