最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

談一下AMD的農(nóng)用機(jī)械系(FX)架構(gòu)失敗的原因

2022-08-16 12:01 作者:夏目未央_  | 我要投稿

本文細(xì)講一下農(nóng)用機(jī)械系架構(gòu)為什么會(huì)拉跨的如此徹底

FX處理器

首先講一下推土機(jī)架構(gòu)的一些特性,每個(gè)線程具有獨(dú)立的整數(shù)執(zhí)行單元是推土機(jī)和傳統(tǒng)雙線程SMT處理器在設(shè)計(jì)上的主要區(qū)別。不過(guò)從推土機(jī)的設(shè)計(jì)來(lái)看,這也并不能算是真正意義上的雙核CMP設(shè)計(jì),兩個(gè)核心還要共享浮點(diǎn)執(zhí)行單元,而浮點(diǎn)單元還是經(jīng)過(guò)閹割的,如果將傳統(tǒng)的CPU核心的性能算是100%,那么推土機(jī)一個(gè)CMP的性能和效率大概就是140-150%,或者叫他1.5核而并非雙核。這樣的好處就是能夠大大節(jié)省晶體管的數(shù)量、降低核心面積和功耗,同時(shí)降低成本。雖然也算不上真正的“雙核”,但這樣的設(shè)計(jì)的確要比傳統(tǒng)SMT設(shè)計(jì)更加高效,傳統(tǒng)的SMT高出單個(gè)核心約15%-25%左右的效率,一個(gè)SMT核心由此就能粗略算是1.25個(gè)傳統(tǒng)核心

推土機(jī)模塊解析

雖然推土機(jī)的模塊設(shè)計(jì)要比傳統(tǒng)SMT在效率上更高,但是每個(gè)核心都單獨(dú)配備整數(shù)單元也提高了成本和功耗。如果沒(méi)有意外的話,推土機(jī)架構(gòu)的浮點(diǎn)性能應(yīng)該是極好的。AMD曾經(jīng)表示雖然浮點(diǎn)單元是被兩個(gè)線程共享的,但給予足夠的內(nèi)存帶寬,芯片將具有很高的浮點(diǎn)運(yùn)算性能,且AMD還想將浮點(diǎn)運(yùn)算的工作交由內(nèi)建的iGPU處理器來(lái)完成,這種內(nèi)建iGPU的處理器就被AMD稱作為APU,如果沒(méi)有意外的話,這時(shí)候意外就出現(xiàn)了,在實(shí)際應(yīng)用場(chǎng)景下,由于浮點(diǎn)單元被共享且本身效率就極低,內(nèi)存技術(shù)也沒(méi)有現(xiàn)在這樣發(fā)達(dá),導(dǎo)致推土機(jī)在涉及到浮點(diǎn)運(yùn)算的場(chǎng)景不能說(shuō)是完全拉跨只能說(shuō)是沒(méi)什么嗨用,APU方面考慮到功耗和發(fā)熱,AMD并沒(méi)有提供高性能的iGPU單元,甚至說(shuō)這種iGPU內(nèi)建的計(jì)算單元數(shù)量就很少,加上iGPU和CPU模塊之前并沒(méi)有使用高速總線連接,就導(dǎo)致APU性能也不是非常出色,但這只是農(nóng)用機(jī)械失敗的次要原因,因?yàn)檫@里的缺陷一定程度上可以用高頻來(lái)彌補(bǔ),只能說(shuō)那個(gè)時(shí)代的APU比上不足比下有余吧,不可否認(rèn)的是,APU在那一段AMD賣大樓的日子里也拯救了AMD

模塊交互

另一方面,推土機(jī)獨(dú)特的架構(gòu)也使其的緩存延遲太高,因?yàn)樗彩褂昧碎L(zhǎng)管線設(shè)計(jì),這點(diǎn)上推土機(jī)架構(gòu)和奔騰4的管線設(shè)計(jì)十分類似,長(zhǎng)管線導(dǎo)致延遲周期太高,高延遲對(duì)傳統(tǒng)桌面應(yīng)用有一定影響,這也是性能失利的原因之一

處理線

還有一個(gè)重要的原因是推土機(jī)的分支預(yù)測(cè),誤預(yù)測(cè)懲罰機(jī)制和指令緩存命中率的問(wèn)題,這也是影響推土機(jī)性能的主要原因,推土機(jī)跟英特爾的Sady Bridge一樣都是長(zhǎng)管線設(shè)計(jì),但是Sady Bridge卻針對(duì)可能的分支誤預(yù)測(cè)做了補(bǔ)救措施,有專用的緩存以減少預(yù)取和解碼過(guò)程中的延遲,但是推土機(jī)并沒(méi)有類似的設(shè)計(jì),且推土機(jī)的L1Cache并不能適應(yīng)雙線程操作,推土機(jī)的關(guān)聯(lián)性緩存太低,為2-way而英特爾卻在雙線程應(yīng)用中采用8-way的關(guān)聯(lián)性緩存,這就導(dǎo)致推土機(jī)只要在2-way 64KB L1指令緩存中進(jìn)行雙線程操作,指令緩存命中率就會(huì)明顯下降,也就導(dǎo)致了性能羸弱

普通管線架構(gòu)

簡(jiǎn)單的說(shuō)一下分支預(yù)測(cè)和流水線設(shè)計(jì),舉個(gè)例子,假如你有一條工廠流水線,上面有A,B,C,D四名員工,這四名員工都是只會(huì)照著圖紙組裝零件,你的工作流程是A to B to C to D,如果沒(méi)有流水線設(shè)計(jì),那么一旦某一天B環(huán)節(jié)上的負(fù)載突然增加,而你的工作流程是固定的,那么A,C,D就會(huì)閑死而B就忙死

理解圖

如果加入了流水線設(shè)計(jì),那么A在做完工作后將產(chǎn)品交給B,B就開始加工,此時(shí)的A又開始了下一產(chǎn)品的架構(gòu),這樣四個(gè)工人同時(shí)不間斷的工作,效率就會(huì)增加,而多個(gè)工人就叫多級(jí)流水線,在處理器中增加多級(jí)流水線,處理器在處理多條指令的時(shí)候就會(huì)有很大的優(yōu)勢(shì),現(xiàn)代處理器的流水線級(jí)數(shù)是很龐大的,但流水線設(shè)計(jì)會(huì)帶來(lái)很多風(fēng)險(xiǎn),其中一個(gè)就是遇到跳轉(zhuǎn)指令的時(shí)候。跳轉(zhuǎn)指令一般跟著if語(yǔ)句一起出現(xiàn)。就好像你的工人遇到了多個(gè)不一樣的零件,要工人自己去選擇正確的零件組裝成產(chǎn)品,那么這個(gè)時(shí)候工人的效率就會(huì)迅速下降,因?yàn)槟阏羞M(jìn)來(lái)的工人只會(huì)照?qǐng)D組裝,沒(méi)有了圖紙他就不知道怎么辦了,就會(huì)導(dǎo)致后面的功能有能力但是也在摸魚

理解圖

這個(gè)時(shí)候,分支預(yù)測(cè)就出現(xiàn)了,還是工廠流水線,A,B,C,D四名工人是比較聰明的工人,他們會(huì)察言觀色,B會(huì)觀察A工人的工作,然后提前選擇出需要的零件,如果選擇對(duì)了就開始組裝然后把零件給C工人,這就叫分支預(yù)測(cè),如果B工人自己提前選擇出的零件是錯(cuò)誤的,這就叫分支預(yù)測(cè)錯(cuò)誤,而B工人在反應(yīng)到自己拿錯(cuò)零件之后區(qū)重新選擇正確零件的過(guò)程就叫做分支預(yù)測(cè)錯(cuò)誤懲罰,如果B工人一直錯(cuò)下去,就會(huì)對(duì)你工廠流水線造成極大的影響,所以說(shuō),在處理器的分支預(yù)測(cè)上,如果分支預(yù)測(cè)一直錯(cuò)誤,就會(huì)對(duì)整條指令造成不可逆的影響,再甚者,有一些預(yù)測(cè)錯(cuò)誤甚至?xí)屨麠l指令推到重來(lái),這樣來(lái)理解,推土機(jī)就是錯(cuò)誤懲罰太高導(dǎo)致性能不足,英特爾之前因?yàn)楸简v四的超長(zhǎng)流水線設(shè)計(jì),有了很多分支預(yù)測(cè)的經(jīng)驗(yàn),才沒(méi)有使性能倒退,而AMD并沒(méi)有這種經(jīng)驗(yàn),這也就是農(nóng)用機(jī)械系產(chǎn)品失敗的主要原因

理解圖

再者,其實(shí)農(nóng)用機(jī)械系在設(shè)計(jì)之初,就瞄準(zhǔn)了服務(wù)器負(fù)載,在桌面平臺(tái)上,桌面應(yīng)用要求更高的IPC性能,對(duì)分支預(yù)測(cè)敏感,但是對(duì)線程數(shù)量要求比較低,這些恰好都不是推土機(jī)的擅長(zhǎng)的領(lǐng)域,AMD只能使用提高CPU頻率來(lái)掩蓋設(shè)計(jì)上的缺陷,以滿足桌面平臺(tái)的需要,原本AMD對(duì)于推土機(jī)的目標(biāo)是同功耗下頻率至少要高20-30%,但是最終卻是同頻率下功耗是高10%,就很離譜,但是服務(wù)器應(yīng)用才是推土機(jī)架構(gòu)最擅長(zhǎng)的領(lǐng)域,服務(wù)器應(yīng)用對(duì)CPU的IPC性能并不敏感,即使是CPU的緩存命中失誤比較高,但其延遲方面所受的影響也比較小,但是它對(duì)CPU并行、內(nèi)存占用要求比較高,因此推土機(jī)高延遲但是大容量的L2緩存在服務(wù)器應(yīng)用中表現(xiàn)就很好

AMD大樓

后來(lái)大量的缺陷導(dǎo)致了推土機(jī)桌面性能不濟(jì),對(duì)于當(dāng)時(shí)的AMD來(lái)說(shuō),現(xiàn)實(shí)就是除非架構(gòu)有較大變化,否則基于推土機(jī)架構(gòu)演變而來(lái)的農(nóng)用機(jī)械系的處理器依然難以跟Intel相提并論。在這一代失利中,對(duì)于AMD來(lái)說(shuō),也無(wú)力對(duì)農(nóng)用機(jī)械系的架構(gòu)進(jìn)行大改了,所以當(dāng)時(shí)的AMD重心轉(zhuǎn)向了APU這樣的全功能、低成本處理器

真正意義上的最后一代農(nóng)用機(jī)械 第七代APU

產(chǎn)品發(fā)布后推土機(jī)沒(méi)有帶給AMD復(fù)興的榮耀,反倒成了滑鐵盧,當(dāng)時(shí)的AMD在CPU性能上暫時(shí)無(wú)力跟Intel對(duì)線了,只能依靠APU和GPU業(yè)務(wù)茍延殘喘,當(dāng)其失敗的不只剛剛提到過(guò)的設(shè)計(jì)缺陷,在制程工藝上,AMD又被GF坑了一把,GlobalFoundries不成熟的32nm 工藝使得推土機(jī)的功耗和發(fā)熱巨大,而推土機(jī)又急需拉高頻率來(lái)掩蓋設(shè)計(jì)缺陷,這就進(jìn)一步拉高了推土機(jī)的發(fā)熱,進(jìn)一步限制了CPU性能提升

原本是AMD的,后來(lái)賣出去??覣MD

除了制程工藝,軟件和操作系統(tǒng)對(duì)于推土機(jī)的優(yōu)化也少之又少,推土機(jī)模塊化的設(shè)計(jì)和傳統(tǒng)SMT設(shè)計(jì)并不同,而開發(fā)者卻將AMD的推土機(jī)CPU單元看作是傳統(tǒng)的SMT核心,導(dǎo)致其很難發(fā)揮出真正的性能,雖然日后微軟也為推土機(jī)平臺(tái)提供了任務(wù)調(diào)度補(bǔ)丁,但也不足以改變推土機(jī)拉跨的事實(shí)

Windows

現(xiàn)在的AMD吸取了農(nóng)用機(jī)械系的教訓(xùn),也將模塊化的設(shè)計(jì)延續(xù)下來(lái),對(duì)整體的框架完全推倒重來(lái),才成就了如今的AMD,才有了現(xiàn)在和酷睿有對(duì)線能力的銳龍,不可否認(rèn),推土機(jī)從宏觀上來(lái)看,雖然擊潰了當(dāng)時(shí)的AMD,但一定程度上也成就了今天的AMD

AMD歷代產(chǎn)品渲染圖

授權(quán)轉(zhuǎn)載自酷安@MacAlistair

轉(zhuǎn)載請(qǐng)聯(lián)系原平臺(tái)作者

談一下AMD的農(nóng)用機(jī)械系(FX)架構(gòu)失敗的原因的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
洛川县| 化隆| 邳州市| 祁阳县| 平阳县| 永和县| 马公市| 新密市| 米易县| 庆元县| 祥云县| 泰州市| 德兴市| 高碑店市| 突泉县| 河间市| 建水县| 高安市| 义乌市| 镇沅| 邮箱| 达拉特旗| 桓仁| 徐汇区| 汉阴县| 吴江市| 天水市| 岳池县| 株洲县| 芦山县| 青神县| 新巴尔虎左旗| 汉中市| 昭平县| 湄潭县| 平原县| 饶河县| 册亨县| 柯坪县| 贵港市| 阿克苏市|