超越4090一萬倍!英偉達(dá)的GPU強(qiáng)大到讓人害怕
從最開始的AI繪圖到如今的語言大模型、chatGPT等等,AI人工智能已經(jīng)是各大互聯(lián)網(wǎng)企業(yè)的新發(fā)展方向。借著AI浪潮,英偉達(dá)也順利成為新興行業(yè)的領(lǐng)軍人物。近兩年英偉達(dá)憑借著數(shù)據(jù)中心業(yè)務(wù),從一家開發(fā)游戲硬件的企業(yè)變成了全球最大的算力供應(yīng)商。今年英偉達(dá)也召開了多場發(fā)布會,但黃仁勛提到最多的不是游戲,而是生成式AI、數(shù)據(jù)中心、加速計(jì)算等新名詞。

數(shù)據(jù)中心業(yè)務(wù)崛起并不代表英偉達(dá)放棄了游戲業(yè)務(wù)。目前英偉達(dá)的RTX 4090依然是頂級消費(fèi)級GPU顯卡,性能遠(yuǎn)超AMD和英特爾,而英偉達(dá)占據(jù)了80%以上游戲市場份額,游戲玩家的首選顯卡依然是NVIDA。

筆者了解到,英偉達(dá)當(dāng)前市值已突破1.1萬億,全球第一家市值突破萬億美元的芯片公司,也是當(dāng)前市值僅次于蘋果、微軟、Alphabet、亞馬遜的美股第五大科技股。

英偉達(dá)的計(jì)算卡已經(jīng)成為衡量企業(yè)實(shí)力的標(biāo)準(zhǔn)之一,誰擁有NVIDA的計(jì)算卡越多,證明這家企業(yè)算力越強(qiáng),開發(fā)資源就豐富,潛力越大。
例如我們所熟知的微軟、Meta、亞馬遜、騰訊、網(wǎng)易等互聯(lián)網(wǎng)大廠都在爭搶英偉達(dá)的H100、A100、A800等計(jì)算卡。

因?yàn)橛ミ_(dá)的產(chǎn)品性能過于強(qiáng)大,導(dǎo)致美國政府推出限制出口政策,當(dāng)年國內(nèi)市場已經(jīng)出現(xiàn)一卡難求,部分顯卡價(jià)格瘋漲。

針對龐大的市場需求,英偉達(dá)已經(jīng)加大產(chǎn)能,并且持續(xù)更新?lián)Q代產(chǎn)品。今年5月的臺北電腦展上,英偉達(dá)展示了用256個GH200 Grace Hopper超級芯片組成的超級計(jì)算機(jī)DGX GH200。DGX GH200人工智能超級計(jì)算平臺所提供的AI算力是RTX 4090的一萬倍!

筆者了解到,?Grace Hopper超級芯片已經(jīng)全面投產(chǎn),這是DGX GH200超算平臺和MGX系統(tǒng)的核心組件,專為處理海量的生成型人工智能任務(wù)而設(shè)計(jì)。

Grace Hopper 超級芯片是英偉達(dá)開發(fā)的基于Arm架構(gòu)的CPU+GPU集成方案,將72核的Grace CPU、Hopper GPU、96GB的HBM3和512GB的LPDDR5X集成在同一個封裝中,共有 2000億個晶體管。這種組合提供了CPU和GPU之間驚人的數(shù)據(jù)帶寬,高達(dá)1TB/S,為某些內(nèi)存受限的工作負(fù)載提供了強(qiáng)大的性能。

目前最新的DGX GH200超算平臺搭載HBM3e內(nèi)存,內(nèi)存容量從每個GPU96GB擴(kuò)展到144GB,增加了50%。筆者了解到,HBM3e內(nèi)存是一種新型的高帶寬內(nèi)存技術(shù),在運(yùn)算速度上HBM3e能比HBM3運(yùn)算速度快50%,提供最高5TB/秒的傳輸速率。新內(nèi)存讓新GH200運(yùn)行AI模型的速度提高了3.5倍。

DGX GH200超算平臺內(nèi)存能達(dá)到282GB,相比上代產(chǎn)品,容量增加了3.5倍,帶寬增加了3倍。GH200還支持英偉達(dá)的NVLink,可以根據(jù)企業(yè)的需求組合成不同規(guī)模的形態(tài),單卡、雙卡、多卡服務(wù)器、機(jī)柜,甚至是超級計(jì)算機(jī)。

GH200可以組合成256張卡的DGX GH200SuperPod超級計(jì)算機(jī),擁有144TB的快速內(nèi)存,每秒可以執(zhí)行10的18次方次浮點(diǎn)運(yùn)算。如果單個DGX GH200超算平臺還不能滿足需求,英偉達(dá)還有專門的服務(wù)器機(jī)柜,官方人員會上門調(diào)試安裝,一站式服務(wù)??傊髽I(yè)想要提升運(yùn)算速度,只需要增加更多的服務(wù)器機(jī)柜就行。

按照官方說法,曾經(jīng)1億美元預(yù)算,只能建設(shè)一個小的數(shù)據(jù)中心,而且還需要購買800個×86GPU,耗費(fèi)5兆瓦的電力。如果選擇英偉達(dá)Grace Hopper計(jì)算方案,成本僅800萬美元就能達(dá)到同等工作量。如果預(yù)算是1億美元,選英偉達(dá)的Grace Hopper僅耗費(fèi)3兆瓦的電力,而且數(shù)據(jù)吞吐量還能提高一個數(shù)量級。總之,同樣的預(yù)算,英偉達(dá)的方案更省電,而且算力更高。而同樣的算力,英偉達(dá)的成本更低。

筆者了解到,新款HBM3e內(nèi)存的DGX GH200超算平臺需要等到2024年的第二季度上市。而搭載普通HBM3內(nèi)存的GH200按原計(jì)劃在今年下半年正式發(fā)售。

針對個人開發(fā)者和小型企業(yè),英偉達(dá)推出了新一代工作站顯卡:RTX 5000、RTX 4500以及RTX 4000。RTX 5000采用了第4代Tensor Core和第3代RT Core,相比上一代GPU,單精度浮點(diǎn)運(yùn)算性能提升了2倍,達(dá)到了90TFLOPS的峰值,配備高達(dá)32GB的GDDR6視頻內(nèi)存,支持ECC錯誤校驗(yàn),適用于高端工作站、數(shù)據(jù)中心和云游戲。

RTX 4500配備24GB GDDR6視頻內(nèi)存,也支持ECC校驗(yàn)。光線追蹤性能提升1倍,AI處理性能提升2倍,適合創(chuàng)意專業(yè)用戶、小型工作站。RTX 4000是相同的GPU核心,配備20GB GDDR6視頻內(nèi)存,光線追蹤和AI計(jì)算性能都有大幅提升。全新的RTX 5000已經(jīng)發(fā)售,其余兩款產(chǎn)品將在下半年陸續(xù)上市。

雖然AI的功能很強(qiáng)大,但部署AI大模型非常繁瑣,門檻過高。為了降低門檻,英偉達(dá)將推出AI Workbench工具包。筆者了解到,AI Workbench提供配置AI模型所需框架、工具開發(fā)包等環(huán)境。開發(fā)人員能夠在PC或工作站上快速創(chuàng)建、測試和自定義預(yù)訓(xùn)練的生成式AI模型,然后擴(kuò)展到數(shù)據(jù)中心、公共云或NVIDIA DGX?云。

如果你想使用AI模型來繪圖,但沒有強(qiáng)大的硬件提供算力,也不懂如何部署模型,但有了AI Workbench,只需要選擇一個4個RTX 6000云工作站,然后就能一鍵配置AI模型。如果對生成圖片不滿意,還可以自己上傳圖片,重新訓(xùn)練模型后再生成。

過去,由于硬件算力的限制,訓(xùn)練AI模型需要成千上萬張A100顯卡才能完成,不僅成本過高,而且難度也很大,效率較低。但現(xiàn)在有了DGX GH200,企業(yè)就不需要部署龐大的計(jì)算機(jī)集群,僅需要一套超算平臺,就能完成工作任務(wù)。

筆者認(rèn)為,英偉達(dá)的產(chǎn)品極大降低了AI行業(yè)門檻,無論你是個人,還是小微企業(yè),只需要一個工具包,就能自己部署、訓(xùn)練AI模型,成功跨入AI時(shí)代。