散文網(wǎng) » 生活 »日常 » 超越4090一萬倍！英偉達(dá)的GPU強(qiáng)大到讓人害怕

超越4090一萬倍！英偉達(dá)的GPU強(qiáng)大到讓人害怕

2023-08-11 17:09 作者:科研市 0人讀過 | 我要投稿

從最開始的AI繪圖到如今的語言大模型、chatGPT等等，AI人工智能已經(jīng)是各大互聯(lián)網(wǎng)企業(yè)的新發(fā)展方向。借著AI浪潮，英偉達(dá)也順利成為新興行業(yè)的領(lǐng)軍人物。近兩年英偉達(dá)憑借著數(shù)據(jù)中心業(yè)務(wù)，從一家開發(fā)游戲硬件的企業(yè)變成了全球最大的算力供應(yīng)商。今年英偉達(dá)也召開了多場發(fā)布會，但黃仁勛提到最多的不是游戲，而是生成式AI、數(shù)據(jù)中心、加速計(jì)算等新名詞。

數(shù)據(jù)中心業(yè)務(wù)崛起并不代表英偉達(dá)放棄了游戲業(yè)務(wù)。目前英偉達(dá)的RTX 4090依然是頂級消費(fèi)級GPU顯卡，性能遠(yuǎn)超AMD和英特爾，而英偉達(dá)占據(jù)了80%以上游戲市場份額，游戲玩家的首選顯卡依然是NVIDA。

筆者了解到，英偉達(dá)當(dāng)前市值已突破1.1萬億，全球第一家市值突破萬億美元的芯片公司，也是當(dāng)前市值僅次于蘋果、微軟、Alphabet、亞馬遜的美股第五大科技股。

英偉達(dá)的計(jì)算卡已經(jīng)成為衡量企業(yè)實(shí)力的標(biāo)準(zhǔn)之一，誰擁有NVIDA的計(jì)算卡越多，證明這家企業(yè)算力越強(qiáng)，開發(fā)資源就豐富，潛力越大。

例如我們所熟知的微軟、Meta、亞馬遜、騰訊、網(wǎng)易等互聯(lián)網(wǎng)大廠都在爭搶英偉達(dá)的H100、A100、A800等計(jì)算卡。

因?yàn)橛ミ_(dá)的產(chǎn)品性能過于強(qiáng)大，導(dǎo)致美國政府推出限制出口政策，當(dāng)年國內(nèi)市場已經(jīng)出現(xiàn)一卡難求，部分顯卡價(jià)格瘋漲。

針對龐大的市場需求，英偉達(dá)已經(jīng)加大產(chǎn)能，并且持續(xù)更新?lián)Q代產(chǎn)品。今年5月的臺北電腦展上，英偉達(dá)展示了用256個GH200 Grace Hopper超級芯片組成的超級計(jì)算機(jī)DGX GH200。DGX GH200人工智能超級計(jì)算平臺所提供的AI算力是RTX 4090的一萬倍！

筆者了解到，?Grace Hopper超級芯片已經(jīng)全面投產(chǎn)，這是DGX GH200超算平臺和MGX系統(tǒng)的核心組件，專為處理海量的生成型人工智能任務(wù)而設(shè)計(jì)。

Grace Hopper 超級芯片是英偉達(dá)開發(fā)的基于Arm架構(gòu)的CPU+GPU集成方案，將72核的Grace CPU、Hopper GPU、96GB的HBM3和512GB的LPDDR5X集成在同一個封裝中，共有 2000億個晶體管。這種組合提供了CPU和GPU之間驚人的數(shù)據(jù)帶寬，高達(dá)1TB/S，為某些內(nèi)存受限的工作負(fù)載提供了強(qiáng)大的性能。

目前最新的DGX GH200超算平臺搭載HBM3e內(nèi)存，內(nèi)存容量從每個GPU96GB擴(kuò)展到144GB，增加了50%。筆者了解到，HBM3e內(nèi)存是一種新型的高帶寬內(nèi)存技術(shù)，在運(yùn)算速度上HBM3e能比HBM3運(yùn)算速度快50%，提供最高5TB/秒的傳輸速率。新內(nèi)存讓新GH200運(yùn)行AI模型的速度提高了3.5倍。

DGX GH200超算平臺內(nèi)存能達(dá)到282GB，相比上代產(chǎn)品，容量增加了3.5倍，帶寬增加了3倍。GH200還支持英偉達(dá)的NVLink，可以根據(jù)企業(yè)的需求組合成不同規(guī)模的形態(tài)，單卡、雙卡、多卡服務(wù)器、機(jī)柜，甚至是超級計(jì)算機(jī)。

GH200可以組合成256張卡的DGX GH200SuperPod超級計(jì)算機(jī)，擁有144TB的快速內(nèi)存，每秒可以執(zhí)行10的18次方次浮點(diǎn)運(yùn)算。如果單個DGX GH200超算平臺還不能滿足需求，英偉達(dá)還有專門的服務(wù)器機(jī)柜，官方人員會上門調(diào)試安裝，一站式服務(wù)?？傊髽I(yè)想要提升運(yùn)算速度，只需要增加更多的服務(wù)器機(jī)柜就行。

按照官方說法，曾經(jīng)1億美元預(yù)算，只能建設(shè)一個小的數(shù)據(jù)中心，而且還需要購買800個×86GPU，耗費(fèi)5兆瓦的電力。如果選擇英偉達(dá)Grace Hopper計(jì)算方案，成本僅800萬美元就能達(dá)到同等工作量。如果預(yù)算是1億美元，選英偉達(dá)的Grace Hopper僅耗費(fèi)3兆瓦的電力，而且數(shù)據(jù)吞吐量還能提高一個數(shù)量級。總之，同樣的預(yù)算，英偉達(dá)的方案更省電，而且算力更高。而同樣的算力，英偉達(dá)的成本更低。

筆者了解到，新款HBM3e內(nèi)存的DGX GH200超算平臺需要等到2024年的第二季度上市。而搭載普通HBM3內(nèi)存的GH200按原計(jì)劃在今年下半年正式發(fā)售。

針對個人開發(fā)者和小型企業(yè)，英偉達(dá)推出了新一代工作站顯卡：RTX 5000、RTX 4500以及RTX 4000。RTX 5000采用了第4代Tensor Core和第3代RT Core，相比上一代GPU，單精度浮點(diǎn)運(yùn)算性能提升了2倍，達(dá)到了90TFLOPS的峰值，配備高達(dá)32GB的GDDR6視頻內(nèi)存，支持ECC錯誤校驗(yàn)，適用于高端工作站、數(shù)據(jù)中心和云游戲。

RTX 4500配備24GB GDDR6視頻內(nèi)存，也支持ECC校驗(yàn)。光線追蹤性能提升1倍，AI處理性能提升2倍，適合創(chuàng)意專業(yè)用戶、小型工作站。RTX 4000是相同的GPU核心，配備20GB GDDR6視頻內(nèi)存，光線追蹤和AI計(jì)算性能都有大幅提升。全新的RTX 5000已經(jīng)發(fā)售，其余兩款產(chǎn)品將在下半年陸續(xù)上市。

雖然AI的功能很強(qiáng)大，但部署AI大模型非常繁瑣，門檻過高。為了降低門檻，英偉達(dá)將推出AI Workbench工具包。筆者了解到，AI Workbench提供配置AI模型所需框架、工具開發(fā)包等環(huán)境。開發(fā)人員能夠在PC或工作站上快速創(chuàng)建、測試和自定義預(yù)訓(xùn)練的生成式AI模型，然后擴(kuò)展到數(shù)據(jù)中心、公共云或NVIDIA DGX?云。