最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

計(jì)算很容易,記憶越來(lái)越難

2023-01-07 18:11 作者:黃先生斜杠青年  | 我要投稿


來(lái)源:維基共享

如果你無(wú)法以足夠快的速度將數(shù)據(jù)輸入到實(shí)際使用計(jì)算引擎在時(shí)鐘周期中以某種方式處理數(shù)據(jù),那么矢量或矩陣單元中體現(xiàn)的浮點(diǎn)操作有什么好處?答案對(duì)我們所有人來(lái)說(shuō)都是顯而易見(jiàn)的:不多。

幾十年來(lái),人們一直在談?wù)撚?jì)算和內(nèi)存帶寬之間的不平衡,每年高性能計(jì)算行業(yè)都被迫接受每個(gè)浮點(diǎn)操作的內(nèi)存帶寬越來(lái)越少,因?yàn)樵黾觾?nèi)存帶寬極其困難,最終也不會(huì)非常昂貴。

我是斜杠青年,一個(gè)被前沿技術(shù)耽誤掙錢的“雜食性”學(xué)者!

當(dāng)我們考慮這個(gè)問(wèn)題時(shí),增加記憶能力也變得越來(lái)越困難,因?yàn)榉逝值挠洃浺彩艿侥柖傻膲毫Γ褂洃浽絹?lái)越密集和越來(lái)越快,因此記憶的價(jià)格并沒(méi)有像其他時(shí)間下降那么多。因此,我們沒(méi)有幾十年前我們夢(mèng)寐以求的那種大型存儲(chǔ)器。

Jack Dongarra在圖靈獎(jiǎng)主題演講中敏銳地提醒我們這一點(diǎn),作為橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的杰出研究員和田納西大學(xué)名譽(yù)研究教授,《下一個(gè)平臺(tái)》的讀者對(duì)此非常熟悉。像你們?cè)S多人一樣,我們觀看了東加拉頒發(fā)的圖靈獎(jiǎng)主題演講,談?wù)摿怂侨绾纬鋈艘饬系剡M(jìn)入超級(jí)計(jì)算業(yè)務(wù)的,并成為測(cè)量這些大型機(jī)器系統(tǒng)性能的專家——主要是通過(guò)成為隨著超級(jí)計(jì)算機(jī)架構(gòu)每十年左右發(fā)生變化而不斷發(fā)展數(shù)學(xué)庫(kù)的團(tuán)隊(duì)的一員。如果你還沒(méi)有看這個(gè)主題演講,你應(yīng)該去看看。這段歷史令人著迷,它預(yù)測(cè)了隨著架構(gòu)的不斷發(fā)展,我們將如何繼續(xù)發(fā)展軟件。

但這就是我們?cè)谶@里不談?wù)摰摹?/p>

當(dāng)我們觀看Dongarra的主旨演講時(shí),我們腦海中突出的是,當(dāng)今處理器相對(duì)于內(nèi)存帶寬的襟翼過(guò)度配置,這在我們的腦海中引起了共鳴,因?yàn)橥恢苡⑻貭杽倓傂剂似浼磳⑼瞥龅摹八{(lán)寶石急流”至強(qiáng)SP服務(wù)器CPU的一些基準(zhǔn)結(jié)果,這表明HBM2e堆疊內(nèi)存的好處,其內(nèi)存的內(nèi)存帶寬約為現(xiàn)代服務(wù)器CPU中使用的普通香草DDR5記憶棒的4倍。(Sapphire Rapids具有64 GB HBM2e內(nèi)存選項(xiàng),可以與DDR5內(nèi)存一起使用,也可以代替它。)HBM2e高帶寬內(nèi)存的好處表明,有多少不合時(shí)的襟翼和帶寬是:

來(lái)源:科學(xué)共享圖庫(kù)

如你所見(jiàn),在藍(lán)寶石急流CPU中添加HBM2e內(nèi)存不會(huì)對(duì)Dongarra心愛(ài)的高性能Linpack(HPL)矩陣數(shù)學(xué)測(cè)試產(chǎn)生太大影響,這是因?yàn)镠PL不是特別的內(nèi)存綁定。但高性能共軛梯度(HPCG)和流三合會(huì)基準(zhǔn)測(cè)試都是瘋狂綁定的內(nèi)存,只需切換內(nèi)存,它們肯定會(huì)提高性能。(我們假設(shè)測(cè)試的機(jī)器有一對(duì)頂級(jí)垃圾箱,60核藍(lán)寶石急流芯片。)在HPCG測(cè)試的正常情況下,這可能是反映一些非常棘手的HPC應(yīng)用程序的真實(shí)編寫方式的最準(zhǔn)確測(cè)試(出于必要性,而不是出于選擇),世界上最快的超級(jí)計(jì)算機(jī)的使用率從機(jī)器的潛在故障的1%到5%不等。因此,如果性能可以擴(kuò)展到數(shù)千個(gè)節(jié)點(diǎn),那么將它增加3.8倍,這確實(shí)是一個(gè)非常非常大的改進(jìn)。(這還有待觀察,HPCG是將顯示或不會(huì)顯示它的測(cè)試。

那么,翻轉(zhuǎn)和內(nèi)存帶寬彼此相距有多遠(yuǎn)?Dongarra展示了超級(jí)計(jì)算中每一次建筑革命的發(fā)生,情況是如何變得更糟的:

來(lái)源:科學(xué)共享圖庫(kù)

以下是對(duì)Dongarra顯示的圖表的放大:

科學(xué)共享圖庫(kù)

Dongarra解釋說(shuō):“當(dāng)我們今天查看機(jī)器上的性能時(shí),數(shù)據(jù)移動(dòng)是殺手?!薄拔覀冋谘芯扛↑c(diǎn)執(zhí)行率除以數(shù)據(jù)移動(dòng)速率,我們正在研究不同的處理器。在過(guò)去,我們有處理器,每個(gè)數(shù)據(jù)移動(dòng)基本上有一個(gè)觸發(fā)器匹配——這就是它們的平衡方式。如果你們還記得舊的Cray-1,你們可以同時(shí)進(jìn)行兩個(gè)浮點(diǎn)操作和三個(gè)數(shù)據(jù)移動(dòng)。所以這是在試圖解決這個(gè)問(wèn)題。但隨著時(shí)間的推移,處理器改變了平衡。在接下來(lái)的二十年里,從一開(kāi)始,這里就發(fā)生了一個(gè)數(shù)量級(jí)的損失。也就是說(shuō),我們現(xiàn)在可以為我們所做的每個(gè)數(shù)據(jù)移動(dòng)進(jìn)行十個(gè)浮點(diǎn)操作。最近,我們看到每個(gè)數(shù)據(jù)移動(dòng)的數(shù)字都增長(zhǎng)到100個(gè)浮點(diǎn)操作。甚至今天的一些機(jī)器也在200范圍內(nèi)。這表明浮點(diǎn)和數(shù)據(jù)運(yùn)動(dòng)之間存在巨大的不平衡。因此,我們有巨大的浮點(diǎn)能力——我們對(duì)浮點(diǎn)過(guò)度配置——但我們沒(méi)有在系統(tǒng)中非常有效地移動(dòng)數(shù)據(jù)的機(jī)制。”

圖表顯示了代際狀況越來(lái)越糟。轉(zhuǎn)移到HBM2e,甚至HBM3或HBM4和HBM5內(nèi)存只是一個(gè)開(kāi)始。CXL 內(nèi)存只能部分解決這個(gè)問(wèn)題。由于CXL內(nèi)存比閃光燈快,我們喜歡它作為系統(tǒng)架構(gòu)師的工具。但系統(tǒng)中只有這么多PCI-Express通道來(lái)在節(jié)點(diǎn)內(nèi)進(jìn)行CXL內(nèi)存容量和內(nèi)存帶寬擴(kuò)展。雖然共享內(nèi)存很有趣,可能對(duì)HPC模擬和建模以及AI培訓(xùn)工作負(fù)載非常有用——同樣,因?yàn)樗男阅軐⒏哂陂W存——但這并不意味著所有這些都是負(fù)擔(dān)得起的。

我們還不知道Sapphire Rapids上的HBM2e內(nèi)存選項(xiàng)要花多少錢。如果它將內(nèi)存綁定應(yīng)用程序提高4倍到5倍,但CPU成本高出3倍,那么這并不是真正影響架構(gòu)選擇的每瓦前性能的收益。

未來(lái)至強(qiáng)SP上的HBM2e內(nèi)存選項(xiàng)是朝著正確方向邁出的良好一步。但是,如果我們想讓內(nèi)存恢復(fù)平衡,也許在L1、L2和L3緩存中擁有更多的SRAM比添加內(nèi)核更重要。

來(lái)源:科學(xué)共享圖庫(kù)

贏得圖靈獎(jiǎng)后,東卡拉有機(jī)會(huì)對(duì)行業(yè)進(jìn)行一些演講。

“因此,今天,我們根據(jù)AMD或英特爾的商品上架處理器、商品上架加速器、商品上架外互連——這些都是商品。我們不是根據(jù)將用于驅(qū)動(dòng)它們的應(yīng)用程序的細(xì)節(jié)來(lái)設(shè)計(jì)硬件。因此,也許我們應(yīng)該退后一步,更仔細(xì)地了解架構(gòu)應(yīng)該如何與應(yīng)用程序、軟件共同設(shè)計(jì)進(jìn)行交互——這是我們談?wù)摰?,但現(xiàn)實(shí)是,今天很少與我們的硬件進(jìn)行共同設(shè)計(jì)。你可以從這些數(shù)字中看到,幾乎沒(méi)有發(fā)生這種情況。也許一個(gè)好的——更好的——指標(biāo)是日本正在發(fā)生的事情,在那里,他們與建筑師、硬件人員進(jìn)行了更密切的互動(dòng),以設(shè)計(jì)具有更好平衡的機(jī)器。因此,如果我要查看前瞻性研究項(xiàng)目,我會(huì)說(shuō),也許我們應(yīng)該分拆一些項(xiàng)目,看看架構(gòu),讓架構(gòu)更好地反映在應(yīng)用程序中。但我想說(shuō),我們應(yīng)該在硬件、應(yīng)用程序和軟件之間取得更好的平衡——真正參與共同設(shè)計(jì)。有分拆項(xiàng)目,看看硬件。伊利諾伊州就是一個(gè)很好的例子——斯坦福、麻省理工學(xué)院、CMU。但遺憾的是,我們今天并沒(méi)有看到這方面更多的研發(fā)項(xiàng)目。也許更多的風(fēng)險(xiǎn)資本應(yīng)該考慮在那里投資,將一些研究資金——也許來(lái)自能源部——投入到這種機(jī)制中,以進(jìn)行這種工作。”

我們?nèi)娜獾赝庥布?軟件的共同設(shè)計(jì),我們認(rèn)為架構(gòu)應(yīng)該反映運(yùn)行它們的軟件。以Dongarra建議的方式這樣做將使所有超級(jí)計(jì)算機(jī)更獨(dú)特,更少通用,也更昂貴。但有一個(gè)地方,每瓦的性能、每觸發(fā)器的成本、每?jī)?nèi)存帶寬的性能和每?jī)?nèi)存帶寬的成本都比我們今天在HPCG等測(cè)試中看到的要好。我們必須讓這些HPC和AI架構(gòu)恢復(fù)到狀態(tài)。

受東加拉和他的同行的啟發(fā),下一代研究人員需要解決這個(gè)內(nèi)存帶寬問(wèn)題,而不是把它掃到地毯下?;蛘?,對(duì)于一個(gè)隱喻性的圖像來(lái)說(shuō),最好還是像暴徒一樣把它卷在地毯上。100倍或200倍的差異實(shí)際上是一種表現(xiàn)和經(jīng)濟(jì)犯罪。

了解更多前沿技術(shù),關(guān)注我就是你最好的選擇!


計(jì)算很容易,記憶越來(lái)越難的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
女性| 浪卡子县| 安塞县| 葫芦岛市| 河源市| 贵港市| 万载县| 白城市| 余江县| 宝坻区| 桃园市| 东山县| 苍梧县| 北京市| 河池市| 潞城市| 永昌县| 诏安县| 乐山市| 荔浦县| 高台县| 广南县| 阿拉尔市| 逊克县| 通榆县| 瑞昌市| 鹤岗市| 新乐市| 错那县| 惠东县| 长沙县| 青浦区| 星座| 安塞县| 微博| 娄烦县| 阿坝县| 全南县| 江山市| 温宿县| 富顺县|