最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

CPU/GPU封裝第二期——多芯封裝的命運(yùn)前夜

2023-08-08 18:24 作者:仰望晨曦  | 我要投稿

上期我們梳理了芯片生產(chǎn)的整個過程,并著重分析了芯片封裝從打線封裝到覆晶封裝的技術(shù)進(jìn)步,感興趣的網(wǎng)友可以移步上期專欄;再次重申,本人技術(shù)力有限,如有錯誤,歡迎網(wǎng)友們指出糾正,我將不勝感激

我們這期看看廠家為了提升芯片性能,都做了哪些努力

其一是優(yōu)化架構(gòu)

增加架構(gòu)規(guī)模可以很好的提升芯片的計(jì)算能力,實(shí)現(xiàn)相同周期內(nèi)執(zhí)行更多的簡單指令或者執(zhí)行同樣數(shù)量但功能更強(qiáng)大的復(fù)雜指令(如光追和AVX512);但隨著架構(gòu)規(guī)模的增大,晶體管數(shù)量也會增加,更高效率的架構(gòu)設(shè)計(jì)顯然可以節(jié)省晶體管,畢竟在制造工藝不變的情況下,晶體管數(shù)量越多,功耗自然越大

一代神卡GTX 980相比GTX 780,均采用臺積電28nm工藝;僅通過將架構(gòu)從Kepler替換為Maxwell,就達(dá)成了25%性能提升,更驚人的是功耗竟從250W降低到165W
采用RDNA1和RDNA2架構(gòu)的GPU均采用臺積電7nm工藝,在僅更新架構(gòu)、制造工藝不變的情況下,顯卡的能耗比提升最高達(dá)到了54%

其二是提升工作頻率(也就是超頻)

這個也很好理解,提升頻率就相當(dāng)于縮短每個計(jì)算周期的用時,哪怕一個周期內(nèi)的執(zhí)行能力沒有改變,但在同樣時間內(nèi)執(zhí)行了更多的周期次數(shù),也能提升性能;假設(shè)一顆芯片原本跑在1GHz的頻率,讓它超頻跑在1.5Ghz,這樣可以馬上讓它的執(zhí)行速度提升50%,然而提頻的代價是會讓芯片變得不穩(wěn)定;為了使芯片穩(wěn)定跑在高頻,將需要更高的驅(qū)動電壓,這會催生功耗的急劇上升

極限超頻到8.43GHz的FX 8150處理器,為了穩(wěn)定僅開啟兩顆核心且采用液氮壓制

其三就是使用更先進(jìn)的制造工藝

提升制造工藝的目的就是制造尺寸更小、漏電率更小的晶體管,這可以讓單位面積內(nèi)的硅片塞下更多晶體管,并且能以更低的電壓驅(qū)動芯片,這兩項(xiàng)進(jìn)步共同抵消架構(gòu)規(guī)模和頻率提升造成功耗增加的負(fù)面影響

臺積電先進(jìn)工藝節(jié)點(diǎn)宣傳的性能進(jìn)步

然而芯片的集成電路規(guī)模越來越大,晶體管數(shù)量也越來越多,隨之面臨的芯片設(shè)計(jì)和生產(chǎn)難度成指數(shù)級上升(成本也噌噌往上漲)

提升芯片性能面對的挑戰(zhàn)

芯片設(shè)計(jì)師設(shè)計(jì)芯片時,會首先規(guī)劃好一些可以實(shí)現(xiàn)特定計(jì)算任務(wù)的簡單電路,它們由若干晶體管組成,這被稱為標(biāo)準(zhǔn)單元庫(Satndard Cell Library);將單元庫模自由組建成適應(yīng)市場需求的核心IP,這可以減少大量的冗余工作,使架構(gòu)設(shè)計(jì)標(biāo)準(zhǔn)化、模塊化,大大提高設(shè)計(jì)速度(劃重點(diǎn),待會兒會考到)

打個比方,假如我們拼樂高積木,不可能從買桶合成塑料開始手搓樂高零件,正常人(確信)所理解的最小組成單位是一個個樂高零件;芯片架構(gòu)師眼中的標(biāo)準(zhǔn)單元庫就相當(dāng)于樂高中的基礎(chǔ)零件,在樂高芯片設(shè)計(jì)師的步步構(gòu)建下,一個核心IP,設(shè)計(jì)出來力

你已經(jīng)學(xué)會拼樂高和設(shè)計(jì)芯片之間的潛在關(guān)聯(lián)了,試著設(shè)計(jì)出一個吊打蘋果M1的優(yōu)秀芯片架構(gòu)吧(bushi)

一個有趣的共通點(diǎn)是,所有現(xiàn)代芯片都采用了多核心設(shè)計(jì):截至目前,消費(fèi)端CPU,AMD有16核32線程,英特爾有8大核16小核32線程;服務(wù)器端的EPYC堆到了96核192線程,甚至是128核256線程;GPU的每個流處理器都算一個核心的話,更是成百上千的規(guī)模

我們常聽到“一核有難,九核圍觀”之類調(diào)侃多核無用論的笑話,不禁要問:為什么不設(shè)計(jì)一個超強(qiáng)的單核去完成幾個核心才能完成的事呢?這樣不就沒有多核優(yōu)化的難題了嗎?

答案是可以,但代價很大

正如我前面所說,提升架構(gòu)規(guī)模的前提是保證晶體管效率,當(dāng)一個核心晶體管增加的幅度遠(yuǎn)大于實(shí)際執(zhí)行能力的提升幅度,這意味著單核性能的提升開始接近瓶頸,堆多核是個更有效的選擇

讓我們拿一個實(shí)例分析,這里借用極客灣對12900K的測試數(shù)據(jù),請關(guān)注藍(lán)色部分(不參考橙色功耗部分原因:小核功耗是拿核心全開功耗減去關(guān)閉小核的功耗,這168.2W的“大核功耗”其中包含如內(nèi)存控制器、PCIE控制器等外圍設(shè)備的非核心功耗,這些非核心功耗極客灣未另作標(biāo)識,純核心功耗和整體功耗不具有比較意義,因此不予采納)

由測試得出八小核約為八大核性能的36%

36%的數(shù)值似乎不多,那我們結(jié)合Die Shot對比大小核面積

大概量下,一個大核的面積頂4.4個小核,算上互聯(lián)電路,且算成是一個大核的面積等同于四個小核吧

假如一個大核的面積是1,八個大核的面積是8,八小核的面積是2,那么從面積上考慮

2÷8×100%=25%

八個小核用不到25%的面積達(dá)到了八個大核36%的性能,這樣好像還不夠明顯,那就假設(shè)把原先大核的位置全部替換成小核,得到一個面積上和原先差不多的純40小核處理器

如果八個大核的性能是100%,八大核八小核的性能就是

100%+36%=136%

40個純小核的性能就是

40÷8×36%=180%

兩種設(shè)計(jì)的性能差距就是

(180%-135%)÷135%≈33.3%

通過將核心全換成小核的操作,我們立即獲得了超過33%的全核性能提升

假如處理器就是一個工廠,一個核對應(yīng)一條生產(chǎn)線,我們可以下大價錢優(yōu)化設(shè)備,培訓(xùn)工人熟練度,提升單條產(chǎn)線的速度;但產(chǎn)速不可能無限增加,最終會達(dá)到瓶頸,死亡流水線是不可取的,要照顧工人情緒的嘛(你明白我要說什么)既然一條產(chǎn)線不夠,那就再加一條,沒什么是加產(chǎn)線所不能解決的!對應(yīng)的,處理器核心就越加越多了~

現(xiàn)在明白英特爾為什么要梭哈大小核了吧?要單核多核性能兩手抓,還要嚴(yán)格控制成本,這既要又要的要求不上大小核的話,很難做呀~(暴論:AMD的Zen4c也算小核~)

至于多核優(yōu)化,我認(rèn)為這是現(xiàn)代軟件開發(fā)所必須考慮的問題,假如程序?qū)τ?jì)算系統(tǒng)有更高的性能請求,操作系統(tǒng)撥分了更多的資源,就更應(yīng)做好硬件調(diào)度,否則就不應(yīng)該覬覦更多的計(jì)算機(jī)資源,軟件對硬件需求的無理增長是非常無恥的行為(告誡の心)

我預(yù)計(jì)未來處理器的進(jìn)步方向是:核心數(shù)有進(jìn)一步增加的可能,并且大小核設(shè)計(jì)也將越來越常見

除了加核心,咱還可以加緩存(這個也劃重點(diǎn),待會兒會考到)

在一個典型的計(jì)算機(jī)系統(tǒng)中,處理器(CPU)執(zhí)行運(yùn)算是要向內(nèi)存(Memory)讀寫數(shù)據(jù)的,隨著CPU性能快速進(jìn)步,內(nèi)存的讀寫速度逐漸開始跟不上CPU,這造成了性能瓶頸,為了避免CPU干等內(nèi)存?zhèn)鬏敂?shù)據(jù)的窘?jīng)r,設(shè)計(jì)師開始引入緩存(Cache)這一結(jié)構(gòu)

從1980至2000年間,CPU的性能提升了一千倍,內(nèi)存卻只提升了六倍,兩者巨大的性能鴻溝亟需引入緩存來平衡

緩存的設(shè)計(jì)目標(biāo)是存儲訪問熱點(diǎn)高的數(shù)據(jù),減少CPU等待時間;CPU請求數(shù)據(jù)時,先在緩存內(nèi)找:假如恰好是需要的數(shù)據(jù),高速的緩存將顯著減少CPU的等待時間,這稱之為緩存命中(Cache hit);假如緩存內(nèi)沒有想要的數(shù)據(jù),CPU再向慢得多的內(nèi)存請求,這稱之為緩存未命中(Cache miss)

衡量一個緩存系統(tǒng)的性能,除了看它的讀寫速度、容量、延遲,還有個重要指標(biāo):即緩存命中率(Cache hit rate),關(guān)于它的計(jì)算方法可表示為

命中率=命中數(shù)÷總請求數(shù)×100%

緩存的出現(xiàn)極大解決了CPU運(yùn)算速度與內(nèi)存讀寫速度不匹配的矛盾;緩存的速度非常快,可以與CPU的運(yùn)算速度相匹配,假如緩存的命中率很高,CPU需要計(jì)算的數(shù)據(jù)大概率都能在緩存內(nèi)找到,那么就能大大減少等待內(nèi)存?zhèn)鬏敂?shù)據(jù)的頻次,提高運(yùn)算速度,這催生了分層存儲的概念

存儲設(shè)備從上往下,容量越大,每字節(jié)成本越低,但速度也越慢

匹配CPU速度的緩存制造成本非常高,容量很低,容量做大,成本爆炸~這也是緩存不能完全替代內(nèi)存的原因;既然設(shè)計(jì)師采用了分層存儲理念,索性貫徹到底:將一部分緩存速度縮減,但容量增加不少,為了表示區(qū)分,和CPU同速的緩存稱L1緩存,較之慢一些的稱L2緩存;雖然L2比L1慢了不少,但是只要它的速度、延遲還是比內(nèi)存快,這樣的緩存結(jié)構(gòu)設(shè)計(jì)仍然是值得的

自個兒腦補(bǔ)去~

我們假設(shè)一個緩存系統(tǒng),L1緩存的命中率為70%,這意味著CPU請求的每100條數(shù)據(jù)中,有70條可以在L1緩存中找到,但仍有30條需要在內(nèi)存里找;可當(dāng)我們再引入L2緩存,命中率還是70%,那在L1未命中的30條數(shù)據(jù)再在L2中找,我們可以找到21條,于是,最后只剩下9條數(shù)據(jù)需要去內(nèi)存里找了,這樣算下來,這個二級緩存系統(tǒng)的命中率就達(dá)到了91%

1-(100%-70%)2=91%

以此套娃,設(shè)計(jì)師在現(xiàn)代處理器中創(chuàng)造了多級緩存系統(tǒng),目的就是為了優(yōu)化緩存效率,提高緩存系統(tǒng)的命中率;CPU查找數(shù)據(jù)時依照讀寫速度,從快到慢為L1緩存、L2緩存、L3緩存……最終到內(nèi)存,容量則依次遞增

配備了二級緩存的CPU跑AIDA64帶寬測試,可以看到L1、L2緩存與內(nèi)存的讀寫速度、延遲的巨大差異

(據(jù)說十四代酷睿要引入L4緩存的說)

還有就是CPU附件的集成和加入針對特定應(yīng)用場景優(yōu)化的加速模塊(如視頻編解碼模塊)或者說協(xié)處理器,結(jié)合下面生產(chǎn)工藝馬上就會說到

設(shè)計(jì)之后的生產(chǎn)挑戰(zhàn)

晶圓廠表示,道理我都懂,但是突然要加核心、加緩存,我生產(chǎn)壓力很大呀~(要加錢?。?/p>

現(xiàn)代芯片都是拿光刻機(jī)造的(路邊小作坊手搓的不算)顧名思義,光刻機(jī)就是利用光在硅片上曝光、顯影、蝕刻電路的,想要在一定面積內(nèi)塞下更多晶體管,必然要把電路蝕刻得更精細(xì),我們常聽說的14nm、10nm、7nm等等名詞,就是廠家在宣傳他們縮小晶體管所做的努力

這里不得不提到一段非常著名的話

“集成電路芯片上所集成的電路的數(shù)目,每隔18個月到24個月就翻一番”

業(yè)內(nèi)稱之為“摩爾定律”,但其實(shí)我個人更傾向于稱為“摩爾戰(zhàn)略”,因?yàn)檫@并不是一個真的物理定律,這句話更像是一家企業(yè)對于芯片行業(yè)與消費(fèi)者的莊嚴(yán)承諾:即在18到24個月的時間里,提供晶體管翻倍的處理器;這就是我個人不愿稱之為“摩爾定律”的原因,這更像是芯片廠對于自身技術(shù)快速迭代進(jìn)步的嚴(yán)格要求,推動芯片行業(yè)高速進(jìn)步的同時保持在業(yè)內(nèi)的領(lǐng)先地位,同時也在逼迫競爭對手追趕,趕不上就面臨快速淘汰的敗局

在緊湊的時間節(jié)點(diǎn)內(nèi)快速推出迭代產(chǎn)品,這對設(shè)計(jì)端和生產(chǎn)端都是極大的挑戰(zhàn),稍有不慎就會面臨架構(gòu)或工藝翻車的情況

早期CPU受限于設(shè)計(jì)和生產(chǎn)能力,設(shè)計(jì)非常純粹,純粹到只有計(jì)算功能,以致于需要許多附件芯片,也就是芯片組才能搭建一個完整的計(jì)算機(jī)系統(tǒng),這與現(xiàn)代處理器高度集成化有著巨大差異

銳龍6000APU處理器架構(gòu)示意圖,可以看到除了集成CPU和GPU,還有許多其它的控制組件如內(nèi)存控制器、PCIe控制器、功耗管理器等,眾多組件由IF總線連接,整顆APU高度SoC(System on Chip)化
早期英特爾平臺結(jié)構(gòu)示意圖,可以看到CPU需要搭配如南北橋這樣的芯片組才能與計(jì)算機(jī)的其他組件正常通訊使用

像前面提到的L2緩存,早期也是不集成在CPU內(nèi)部的

遠(yuǎn)古時期奔騰平臺緩存架構(gòu)示意圖,可以看到L2緩存位于主板上

當(dāng)時對緩存的命名,除了L1、L2的區(qū)分方式,還可稱CPU內(nèi)部的緩存叫內(nèi)部高速緩存(Internal Cache),主板上的緩存叫外部高速緩存(External Cache)

遠(yuǎn)古時期主板上的緩存插槽

就以提到的L2緩存舉例,以現(xiàn)在的眼光看,我們是希望將它和CPU集成到一起的,這能提高計(jì)算速度,為什么這么說呢?

那我們來舉例子吧

假如我們在家肚子餓了,樓下和十公里外各有一家飯店,味道都還行,你更愿意到樓下還是走十公里去吃個飯呢?反正我是到樓下~

甚至現(xiàn)在外賣產(chǎn)業(yè)蓬勃發(fā)展,連樓都不用下,我們可以足不出戶,一日三餐靠外賣就能解決了,肥宅的錢真好賺?。ú皇牵?/p>

將CPU和L2緩存集成到一起,可以進(jìn)一步降低CPU的等待時間,而且數(shù)據(jù)傳輸?shù)奈锢砭嚯x更短,也能節(jié)省一定功耗,但正如前面所言,前途是光明的,道路是曲折的,一口氣把CPU和緩存制造在同一晶片上,對于當(dāng)時芯片廠的設(shè)計(jì)和生產(chǎn)端,都是不小的挑戰(zhàn)

于是芯片廠一合計(jì),既然目前的技術(shù)難以支撐一次性完成如此巨大的架構(gòu)革新,那就把帶L1緩存的CPU部分和L2緩存部分分開制造,再將它們封裝到一起,這樣也能解決問題啊,等到未來的設(shè)計(jì)和工藝成熟,再將CPU和緩存完全融合到一片晶片上也不遲

在這樣的背景下,劃時代的平面多芯封裝技術(shù)誕生了

圖片為采用多芯封裝的Pentium Pro處理器,靠左晶片為CPU,靠右的則為L2緩存,英特爾稱之為“PPGA”技術(shù),它的性能亮眼,卻因定價等因素在商業(yè)上算不上成功,但在多芯封裝的領(lǐng)域具有開創(chuàng)時代的意義

所以說,多芯封裝的出現(xiàn)平衡了芯片規(guī)模增長和制造成本之間的矛盾,這種“偷雞”雖帶著妥協(xié)的意味,但也體現(xiàn)了芯片工程師的巧思

說到底,懶還是人類科技進(jìn)步的動力呀~

人越懶,科技就越進(jìn)步,越進(jìn)步,工作完成量越高,完成量越高越顯得人勤快,所以人越懶,人越勤快~

圖片來自網(wǎng)絡(luò),侵刪

點(diǎn)贊投幣越多,三連越積極,更新下期的視頻就越快~(圖窮匕見了屬于)

To be continued…?

CPU/GPU封裝第二期——多芯封裝的命運(yùn)前夜的評論 (共 條)

分享到微博請遵守國家法律
娱乐| 井冈山市| 文山县| 石台县| 雷州市| 平远县| 吴忠市| 睢宁县| 蓝田县| 青铜峡市| 津市市| 许昌县| 浪卡子县| 黔江区| 江油市| 长乐市| 于田县| 五家渠市| 志丹县| 乡城县| 金川县| 巴彦县| 巴林右旗| 大悟县| 邳州市| 青海省| 宁阳县| 红河县| 鹤山市| 皋兰县| 和平县| 墨脱县| 嘉禾县| 榕江县| 博野县| 虹口区| 佳木斯市| 磐安县| 台江县| 广饶县| 潮州市|