亞馬遜云科技自研芯片,為企業(yè)云服務(wù)提高性價比
6月27日至28日,2023亞馬遜云科技中國峰會于上海順利召開。在本次峰會上,似乎找尋到了云計算領(lǐng)域競爭對手均日漸成熟,而亞馬遜云科技卻能一直保持領(lǐng)先地位的原因——過去的十幾年里,亞馬遜云科技“基于客戶需求,快速進(jìn)行產(chǎn)品更新與技術(shù)迭代”的Day one理念,一直不斷地追求基礎(chǔ)架構(gòu)層面的創(chuàng)新。 企業(yè)亟需提高“用云”性價比 隨著企業(yè)數(shù)字化轉(zhuǎn)型的需求增加、市場競爭的加劇,企業(yè)需要將業(yè)務(wù)和數(shù)據(jù)遷移到云上,以實(shí)現(xiàn)更高效的生產(chǎn)和服務(wù),以適應(yīng)市場的變化。所以可以觀察到越來越多的企業(yè)開始上云,然而上云的門檻并不低,需要考慮的東西非常多,比如技術(shù)能力、安全合規(guī)風(fēng)險、成本費(fèi)用、用戶體驗(yàn)等,很多企業(yè)CTO表示,“想上云,但是有心而力不足”,大多企業(yè)目前提出了亟需降低云服務(wù)使用門檻、提高“用云”性價比的需求。 為了提高企業(yè)云服務(wù)使用的性價比,亞馬遜云科技為用戶提供全面和深入的算力支持,提供包括Intel、AMD、英偉達(dá)和自研的CPU及加速芯片產(chǎn)品,這其中最值得一提的就是亞馬遜云科技的四個自研芯片:Nitro、Graviton、Inferentia、Trainium。 Nitro是亞馬遜云科技的第一款自研芯片產(chǎn)品,Nitro主要有三個亮點(diǎn):第一,做了高度輕量化的虛擬化;第二,實(shí)現(xiàn)網(wǎng)絡(luò)層面的數(shù)據(jù)通信和存儲的隔離;第三,實(shí)現(xiàn)了硬件級別的加密。有了Nitro之后,亞馬遜云科技能夠大大增強(qiáng)EC2整個實(shí)例應(yīng)用的安全性,每個單元可以獨(dú)立發(fā)展,也確保EC2所有實(shí)例運(yùn)行的穩(wěn)定。因?yàn)镹itro的出現(xiàn),亞馬遜云科技大大降低了推出一個新EC2實(shí)例工作的復(fù)雜性,使得其保持一個非??斓脑鲩L的速度,進(jìn)一步降低客戶成本,從而幫助企業(yè)達(dá)到降本增效的目標(biāo)。最新一代Nitro V5芯片相比之前的芯片性能有大幅地提升,包括更快的轉(zhuǎn)發(fā)率,包括更低的延遲,每瓦特性能提升40%。
基于ARM架構(gòu)的通用處理器芯片Graviton自2018年起,亞馬遜云科技陸續(xù)推出三代Graviton服務(wù)器芯片,在去年的re:lnvent全球大會上,亞馬遜云科技推出了自研的、基于ARM架構(gòu)的高性能計算服務(wù)器CPU芯片Graviton3E芯片??v觀Graviton系列芯片的升級歷程,Graviton3計算性能提高25%,浮點(diǎn)性能提高2倍,加密工作負(fù)載性能加快2倍;Graviton3E特別關(guān)注向量計算的性能,跟前一代相比高35%,這個性能提升對于像HPC高性能計算這樣的應(yīng)用來說是非常重要的。 從具體案例來看,在HPL(線性代數(shù)的測量工具)上Graviton3E性能提升35%,在GROMACS(分子運(yùn)動)上性能提升12%,在金融期權(quán)定價的工作負(fù)載上性能提升30%;同時,Graviton3E和類似的X86的EC2實(shí)例相比,Graviton3E還能節(jié)省60%的能耗。 如今Graviton系列芯片的優(yōu)秀性能表現(xiàn)已經(jīng)得到了充分驗(yàn)證,在2023亞馬遜云科技中國峰會上,陳曉建講到的世界一級方程式錦標(biāo)賽(下文簡稱“F1”)案例便充分體現(xiàn)了亞馬遜云科技在算力資源、數(shù)據(jù)存儲方面的能力。F1利用Graviton3運(yùn)行空氣動力學(xué)模擬,可以用比以往快70%的速度開發(fā)新一代賽車,賽車壓力損失可以從50%降低到15%,這使超車更容易,為車迷可以帶來更多賽場的纏斗。此外,F(xiàn)1通過5000多次單車和多車模擬,收集了超過5.5億個數(shù)據(jù)點(diǎn),幫助他們進(jìn)行下一代賽車的優(yōu)化。用F1團(tuán)隊表示,“Graviton3讓系統(tǒng)性能快了40%,可以晚間運(yùn)行模擬,第二天早上就能得出結(jié)果。” 在機(jī)器學(xué)習(xí)技術(shù)探索賽道中,目前亞馬遜云科技已經(jīng)發(fā)展出三代不同的機(jī)器學(xué)習(xí)芯片。在訓(xùn)練方面,亞馬遜云科技先后推出的加速芯片Inferentia和Trainium覆蓋了訓(xùn)練和推理的場景,能為企業(yè)提供最佳的性價比。因此,許多領(lǐng)先的生成式AI初創(chuàng)公司,例如AI21 Labs、Hugging Face、Runway和Stability AI都選擇Inferentia和Trainium作為他們整個研發(fā)和應(yīng)用的平臺。 在機(jī)器學(xué)習(xí)訓(xùn)練中,最重要的指標(biāo)是訓(xùn)練效率和性價比。以HuggingFace BERT模型為例,基于加速芯片Trainium的Trn1實(shí)例的性能表現(xiàn)非常不錯,從訓(xùn)練吞吐量角度看,其與同類型GPU實(shí)例相比,在單節(jié)點(diǎn)情況下,可實(shí)現(xiàn)1.2倍吞吐量的提升;在多節(jié)點(diǎn)情況下,實(shí)現(xiàn)1.5倍吞吐量的提升;從成本角度,單節(jié)點(diǎn)實(shí)現(xiàn)了1.8倍成本降低,集群的成本降低了2.3倍。 隨著模型越來越復(fù)雜,很多時候靠一個單點(diǎn)的計算訓(xùn)練是無法滿足用戶的需求,在很多時候都需要一個分布式的訓(xùn)練,比如需要非常大規(guī)模的集群,通過Trainium便可以構(gòu)建一個超大的集群,它可以有3萬張的Trainium芯片,使企業(yè)可以獲得云上6 ExaFlops的超算級性能。這背后涉及很多創(chuàng)新,比如更快的EFA網(wǎng)絡(luò)以及PB級別的無阻塞網(wǎng)絡(luò)互聯(lián)等。 在機(jī)器學(xué)習(xí)推理中,推理往往要考慮延遲和吞吐,企業(yè)需要更高的吞吐力來帶來更優(yōu)的性價比,但是往往更高的吞吐率會帶來更高延遲,所以開發(fā)者往往要在延遲和吞吐中權(quán)衡。Inferentia2的設(shè)計就考慮到了兼顧吞吐和延遲的優(yōu)化,如果拿一個基于Inferentia2的實(shí)例做測試,以自然語言處理領(lǐng)域常見的BERT模型為例,在Inferentia2上可實(shí)現(xiàn)高達(dá)3倍的吞吐提升,8.1倍的延遲降低,4倍的成本節(jié)約,使得企業(yè)開發(fā)者二者兼而有之。 另外值得一提的是,Inferentia2在大語言模型中的表現(xiàn)也非常地突出。拿一個OPT模型來做測試,中等規(guī)模的OPT模型OPT-30B為例,相較于通用的EC2 GPU實(shí)例,Inferentia2可實(shí)現(xiàn)65%的吞吐量提升,推理成本可降低52%;660億參數(shù)級別的OPT-66B,通用GPU實(shí)例已經(jīng)顯示內(nèi)存不足的情況下,而在 Inferentia2上還可以實(shí)現(xiàn)每秒351個token數(shù)的吞吐量。