散文網(wǎng) » 科技 »學(xué)習(xí) » 破GPU算力供需失衡之困，開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)？

破GPU算力供需失衡之困，開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)？

2023-08-15 12:43 作者:孫永杰的ICT評論 0人讀過 | 我要投稿

眾所周知，AIGC時代，算力需求爆發(fā)式增長，而開放加速計算（OAI）硬件架構(gòu)正是為超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型并行計算而生，天然適用于AIGC大模型訓(xùn)練，將為AIGC提供有力的創(chuàng)新動力。而隨著日前舉行的OCP ChinaDay大會上，業(yè)界首個面向AIGC的《開放加速規(guī)范AI服務(wù)器設(shè)計指南》（以下簡稱《指南》）正式發(fā)布，勢必會有效加速算力產(chǎn)業(yè)多樣化的轉(zhuǎn)型與發(fā)展，幫助AIGC時代的AI計算產(chǎn)業(yè)跨越“創(chuàng)新”鴻溝。

?

生成式AI計算需求增長，算力多樣化轉(zhuǎn)型帶來新挑戰(zhàn)

?

隨著AI的發(fā)展，IDC預(yù)測，全球AI計算市場規(guī)模將從2022年的195.0億美元增長到2026年的346.6億美元，其中生成式AI計算市場規(guī)模將從2022年的8.2億美元增長到2026年的109.9億美元。生成式AI計算占整體AI計算市場的比例將從4.2%增長到31.7%。

?

隨之而來的是這種生成式AI算力需求的增長推動算力產(chǎn)業(yè)轉(zhuǎn)型升級，即企業(yè)需要為人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)建設(shè)全新的IT基礎(chǔ)架構(gòu)，正由CPU密集型轉(zhuǎn)向搭載GPU、FPGA、ASIC芯片的加速計算密集型，且越來越多地使用搭載GPU、FPGA、ASIC等加速卡的服務(wù)器，所以，異構(gòu)計算將成為未來計算的主流。

?

其實(shí)，Henessy和Patterson在幾年前的《計算機(jī)架構(gòu)的新黃金時代》中就引入了特定領(lǐng)域體系架構(gòu)（Domain Specific Architectures，DSAs）的概念，即隨著通用算力技術(shù)的演進(jìn)逐漸減緩，針對特定問題或領(lǐng)域定制計算架構(gòu)變得愈發(fā)重要?；贒SAs思想設(shè)計的AI計算芯片，在特定人工智能工作負(fù)載下展現(xiàn)出超越通用芯片的處理能力，這極大地推動了多元化人工智能芯片的發(fā)展，為產(chǎn)業(yè)智能化的加速提供了關(guān)鍵基礎(chǔ)和更廣泛的選擇。

?

正是在上述背景下，目前全球已有上百家公司投入新型AI加速芯片的開發(fā)，AI計算芯片多元化轉(zhuǎn)型趨勢凸顯，但同時也出現(xiàn)了新的挑戰(zhàn)。

?

主要表現(xiàn)在，單機(jī)具有更高的擴(kuò)展性、集群具有更高的加速比，對卡間互聯(lián)、網(wǎng)絡(luò)帶寬和延遲提出了更高的要求。例如加速卡間通信的數(shù)據(jù)量越來越多，僅僅通過傳統(tǒng)的PCIe P2P通信已經(jīng)無法滿足超大規(guī)模深度學(xué)習(xí)模型的要求。同時，為了提升AI加速卡的算力，單張AI加速卡的功耗逐代顯著提升。

?

為了解決這些問題，芯片公司相繼推出了各自非標(biāo)準(zhǔn)PCIe CEM形態(tài)的AI加速卡，這些新形態(tài)的AI加速卡支持更高的功耗和更強(qiáng)大的卡間互聯(lián)能力。但隨之而來的是，各廠商采用不同技術(shù)路線，產(chǎn)業(yè)面臨硬件體系孤島和生態(tài)割裂問題，即由于缺乏統(tǒng)一的業(yè)界規(guī)范，不同AI芯片廠商的新形態(tài)AI加速卡，無論在結(jié)構(gòu)上還是電氣特性上都各不相同，導(dǎo)致不同廠商AI系統(tǒng)硬件平臺方案的定制化，帶來算力產(chǎn)業(yè)發(fā)展高成本和低靈活性等問題。

?

而業(yè)內(nèi)知道，從芯片到計算系統(tǒng)，需要完成體系結(jié)構(gòu)、信號完整性、散熱、可靠性等大量系統(tǒng)性設(shè)計工作，涉及到材料、熱力學(xué)、電池技術(shù)、流體力學(xué)、化學(xué)等眾多學(xué)科隨著系統(tǒng)能耗、總線速率、電流密度等指標(biāo)隨業(yè)務(wù)需求持續(xù)攀升，給人工智能計算系統(tǒng)設(shè)計帶來嚴(yán)峻挑戰(zhàn)。

?

此外，由于AI計算系統(tǒng)的技術(shù)挑戰(zhàn)和設(shè)計復(fù)雜性，將專有AI芯片集成到系統(tǒng)中，通常既耗時，又需要不菲的系統(tǒng)開發(fā)費(fèi)用，這同樣嚴(yán)重阻礙了AI加速器的研發(fā)創(chuàng)新和應(yīng)用推廣。

?

那么問題來了，業(yè)內(nèi)何以應(yīng)對上述的新挑戰(zhàn)？

?

從OCP到OAM，開放計算架構(gòu)適合AIGC天然屬性初顯

?

眾所周知，OCP是全球基礎(chǔ)硬件技術(shù)領(lǐng)域覆蓋面最廣、最有影響力的開源組織，以其為代表的開放計算項目，創(chuàng)造出一種全新的、全球化的協(xié)作模式，通過消除技術(shù)壁壘，使得硬件創(chuàng)新的速度遠(yuǎn)超過去，加速技術(shù)創(chuàng)新迭代。

?

而面對AI的發(fā)展大勢，2019年OCP成立OAI（Open Accelerator Infrastructure）小組，對更適合超大規(guī)模深度學(xué)習(xí)訓(xùn)練的AI加速卡形態(tài)進(jìn)行了定義，以解決多元AI加速卡形態(tài)和接口不統(tǒng)一的問題，并由此開啟了我們前述AI加速卡在AIGC應(yīng)用中的挑戰(zhàn)的應(yīng)對之道。

?

需要說明的是，作為OAI項目中最核心的OAM（OCP Accelerator Module）—AI加速卡模塊，以標(biāo)準(zhǔn)化和互操作性促進(jìn)了OAI生態(tài)的建立。同年，OCP發(fā)布了AI加速卡基板 OAM-UBB SPEC設(shè)計規(guī)范，又大幅提升了各類符合OAM規(guī)范的AI加速芯片的兼容性。

?

之后的2020年，全球首個OAI基準(zhǔn)的計算系統(tǒng)—MX1發(fā)布，采用了高帶寬、雙供電等技術(shù)，尤其是兩種互聯(lián)拓?fù)涞牟捎?，有利于用戶針對不同深度學(xué)習(xí)模型，并根據(jù)芯片通信的需求靈活設(shè)計芯片互聯(lián)方案。

?

2021年，浪潮信息發(fā)布首款A(yù)ll in One開放加速計算整機(jī)NF5498A5，卡間互聯(lián)帶寬達(dá)PCIe 4.0通訊速率的9倍以上，跨節(jié)點(diǎn)高速直連帶寬448 GB/s，支持構(gòu)建千卡級大模型并行訓(xùn)練集群。

?

《指南》拾遺補(bǔ)缺，加速開放計算向產(chǎn)業(yè)落地之道

?

由模塊到基板，由系統(tǒng)到集群，從上述事實(shí)我們不難發(fā)現(xiàn)，開放加速計算的硬件架構(gòu)正是為超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型并行計算而生，天然適用于AIGC大模型訓(xùn)練。但實(shí)際的情況是，在當(dāng)前開放計算技術(shù)推向產(chǎn)業(yè)落地的過程中，依然存在大量的定制化工作以及現(xiàn)有OAI標(biāo)準(zhǔn)未能完全覆蓋的領(lǐng)域。

?

因此，浪潮信息基于豐富的開放加速計算工程實(shí)踐和產(chǎn)品歷程，面向?qū)嶋HAIGC計算場景，進(jìn)一步發(fā)展和完善了開放加速規(guī)范計算系統(tǒng)的理論體系和設(shè)計方法，提出了面向AIGC的《開放加速規(guī)范AI服務(wù)器設(shè)計指南》。

?

縱觀《指南》，我們看到，其進(jìn)一步發(fā)展和完善了開放加速規(guī)范AI服務(wù)器的設(shè)計理論和設(shè)計方法，提出了四大設(shè)計原則、全棧設(shè)計方法，包括硬件設(shè)計參考、管理接口規(guī)范和性能測試標(biāo)準(zhǔn)，旨在幫助社區(qū)成員更快更好地開發(fā)AI加速卡并適配開放加速AI服務(wù)器，應(yīng)對生成式AI的算力挑戰(zhàn)。

?

在該《指南》中，開放加速規(guī)范AI服務(wù)器設(shè)計應(yīng)遵循四大設(shè)計原則，即應(yīng)用導(dǎo)向、多元開放、綠色高效、統(tǒng)籌設(shè)計。在此基礎(chǔ)上，應(yīng)采用多維協(xié)同設(shè)計、全面系統(tǒng)測試和性能測評調(diào)優(yōu)的設(shè)計方法，以提高適配部署效率、系統(tǒng)穩(wěn)定性、系統(tǒng)可用性。

?

那么問題來了，該《指南》為何要制定這些設(shè)計原則和設(shè)計方法？

?

以設(shè)計原則中的應(yīng)用導(dǎo)向為例，無論是加速卡的設(shè)計，還是系統(tǒng)的設(shè)計，都要聚焦實(shí)際應(yīng)用場景，在充分考慮業(yè)務(wù)特點(diǎn)、模型特征、部署環(huán)境的基礎(chǔ)上，以提供“用的了”、“用的起”、“用的好”的解決方案為目標(biāo)，自上而下完成開放加速計算系統(tǒng)的設(shè)計規(guī)劃，避免過度冗余設(shè)計和一味追求性能帶來的時間、空間、資源和成本的浪費(fèi)，最終實(shí)現(xiàn)高效適配、高效部署、節(jié)省產(chǎn)業(yè)和社會總成本。浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥如此解釋。

?

又如設(shè)計原則中的綠色高效，隨著AI訓(xùn)練芯片功耗的不斷增長，用于AI訓(xùn)練的機(jī)器單機(jī)柜功率密度將大幅增加，傳統(tǒng)的風(fēng)冷模式已無法滿足制冷散熱需求和PUE指標(biāo)要求，需要加速液冷散熱、高效供配電、能效監(jiān)測、智能運(yùn)維等技術(shù)在開放加速計算節(jié)點(diǎn)和集群層面的全面布局和應(yīng)用。

?

對此，趙帥進(jìn)一步解釋稱，我們看到現(xiàn)在很多的客戶，對于新的數(shù)據(jù)中心建設(shè)都有非常高的能耗指標(biāo)要求，所以需要通過先進(jìn)的液冷，或者是其他的一些散熱技術(shù)，以使整個數(shù)據(jù)中心的PUE能到一個更高的水平，所以我們在設(shè)計原則方面更多來自于終端客戶的痛點(diǎn)和需求。

?

至于設(shè)計方法方面，趙帥告訴《班門弄斧》，主要是基于前期去跟一些OAM在做適配過程當(dāng)中發(fā)現(xiàn)的一些問題，以及在性能測試當(dāng)中我們自己積累的一些經(jīng)驗，把這些東西固化，形成了更加具體和深入的規(guī)范，幫助芯片廠商減少試錯成本，基于指南，能更快地去完成產(chǎn)品的開發(fā)和迭代。

?

以其中的全面系統(tǒng)測試為例，由于架構(gòu)復(fù)雜度高、芯片種類多、高速信號多、系統(tǒng)功耗大等特點(diǎn)導(dǎo)致異構(gòu)加速計算節(jié)點(diǎn)通常面臨故障率高的問題。因此，需要更加全面、嚴(yán)苛的測試條件才能夠最大程度降低系統(tǒng)生產(chǎn)、部署、運(yùn)行過程中的問題和故障風(fēng)險，提高系統(tǒng)穩(wěn)定性，減少斷點(diǎn)對訓(xùn)練持續(xù)性的影響。為此，《指南》對結(jié)構(gòu)、散熱、壓力、穩(wěn)定性、軟件兼容性等方面的測試要點(diǎn)進(jìn)行了全面梳理。

?

由此看，《指南》從最終客戶和AI芯片合作伙伴的角度對于現(xiàn)有的OAI標(biāo)準(zhǔn)做了拾遺補(bǔ)缺，更細(xì)化、更具體、更完善。那么接下來的問題是，《指南》未來的前景如何？

?

產(chǎn)品與解決方案筑基，開放加速生態(tài)未來可期

?

說到《指南》未來的前景，在我們看來，所謂實(shí)踐出真知，用產(chǎn)品和解決方案說話才是硬道理。

?

據(jù)我們了解，目前有燧原科技、英特爾、浪潮信息等10余家OAI小組成員已經(jīng)陸續(xù)開發(fā)了10余種符合開放加速規(guī)范的產(chǎn)品組合方案并已實(shí)現(xiàn)落地應(yīng)用，越來越多的芯片、算力系統(tǒng)企業(yè)已經(jīng)聚集在這個開放加速的生態(tài)之中。

?

例如早在2019年燧原科技發(fā)布第一代“邃思”芯片的同時發(fā)布了基于這款芯片云燧T11 PoC，這是國內(nèi)第一個OAM模組。2021年燧原科技發(fā)布第二代“邃思2.0”芯片，以及基于這款芯片打造的一組云端AI訓(xùn)練產(chǎn)品：云燧T20訓(xùn)練加速卡，云燧T21訓(xùn)練OAM模組。

?

2022年3月，浪潮信息與其聯(lián)合發(fā)布了“錢塘江”智算中心方案。該方案具有綠色低碳的獨(dú)特優(yōu)勢，創(chuàng)新研發(fā)全球首臺開放加速模組液冷計算平臺，率先實(shí)現(xiàn)單節(jié)點(diǎn)8顆400W高性能AI芯片液冷散熱，支持50℃中高溫水運(yùn)行，采用先進(jìn)變頻流量系統(tǒng)，大幅提高流量變化范圍、降低能耗，智算中心整體PUE低于1.1。單集群即可提供超過200P峰值A(chǔ)I算力（TF32），支持超強(qiáng)擴(kuò)展能力，采用高帶寬、全互聯(lián)拓?fù)浼軜?gòu)，跨節(jié)點(diǎn)互聯(lián)帶寬高達(dá)448GB/s，結(jié)合GCU-LARE 2.0多芯互聯(lián)技術(shù)，可實(shí)現(xiàn)千芯級大規(guī)模集群高速互聯(lián)，具備優(yōu)異的線性加速比，支撐超千億參數(shù)巨量模型的高效、并行訓(xùn)練。目前，該方案已在大型實(shí)驗室落地1280卡規(guī)模的全液冷AI訓(xùn)練集群。

?

同年8月，壁仞科技發(fā)布首款通用GPU芯片BR100，以及符合OCP標(biāo)準(zhǔn)的OAM模組壁礪100，同時支持最高8卡全互連，最大板級功耗可達(dá)550W。同時，壁仞科技與浪潮信息共同發(fā)布基于8個壁礪100 OAM模組打造的海玄OAM服務(wù)器，其通過全互聯(lián)的模式，可以提供高達(dá)8PFLOPS的浮點(diǎn)峰值算力，支持PCIe Gen 5的CPU，并結(jié)合CXL互連協(xié)議，將CPU-GPU的訪存和數(shù)據(jù)搬移效率做到了極致。

?

而在今年剛剛過去的7月，英特爾正式于中國市場推出第二代Gaudi深度學(xué)習(xí)加速器——Habana? Gaudi?2，并聯(lián)合浪潮信息發(fā)布面向生成式AI領(lǐng)域創(chuàng)新開發(fā)的新一代 AI 服務(wù)器 NF5698G7，其在6U空間支持8顆基于開放加速模組OAM高速互聯(lián)的Gaudi2 AI加速器，每顆Gaudi2芯片配置96GB HBM高速內(nèi)存，共提供2.1Tbps的P2P互聯(lián)帶寬，支持全互聯(lián)拓?fù)?，滿足大模型訓(xùn)練張量并行的通信需求，搭載的2顆第四代至強(qiáng)處理器，支持AMX/DSA等AI加速引擎。

?

不知業(yè)內(nèi)看到上述作何感想？我們看到的是從芯片，系統(tǒng)、集群，再到智算中心，基于OAM開放加速計算產(chǎn)品和解決方案不斷的精進(jìn)和拓展，而這勢必使得基于《指南》的開放加速計算生態(tài)未來可期，AIGC應(yīng)用可待。

?

寫在最后：不知是巧合，還是其他原因，《指南》發(fā)布之際，據(jù)相關(guān)媒體報道，百度、字節(jié)跳動、騰訊和阿里巴巴等互聯(lián)網(wǎng)企業(yè)正爭相訂購英偉達(dá)的高性能GPU芯片，即便是在加價的情況下，諸多企業(yè)也是“一芯難求”，由此看，單一GPU算力供需失衡相當(dāng)嚴(yán)重。

?

與之形成鮮明對比的是，我們又看到許多AI芯片企業(yè)，尤其是國內(nèi)AI芯片企業(yè)面臨缺乏系統(tǒng)平臺和標(biāo)準(zhǔn)支撐、導(dǎo)致適配難，開發(fā)成本高企，無法讓其創(chuàng)新產(chǎn)品更加快速、高效地部署和落地等窘境。

?

所幸的是，通過《指南》的發(fā)布，我們看到，開放加速規(guī)范的AI服務(wù)器可為AI芯片創(chuàng)新提供成熟的系統(tǒng)平臺支撐，幫助AI芯片廠商聚焦于芯片創(chuàng)新研發(fā)，實(shí)現(xiàn)更科學(xué)合理的產(chǎn)業(yè)分工，避免封閉技術(shù)生態(tài)存在的單點(diǎn)單線風(fēng)險，推動智算產(chǎn)業(yè)生態(tài)健康發(fā)展；另一方面，基于開放加速工程實(shí)踐和成熟計算平臺總結(jié)的設(shè)計指南，可加速有競爭力的AI芯片的創(chuàng)新研發(fā)和落地部署，有效縮短開發(fā)適配周期，節(jié)省研發(fā)投入，為用戶提供可以用來支撐AIGC大模型訓(xùn)練的多元算力解決方案，以多元算力之道破解當(dāng)下AI算力供需難題。

標(biāo)簽：GPU 浪潮信息開放計算 AIGC

破GPU算力供需失衡之困，開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)？的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

破GPU算力供需失衡之困，開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)？

破GPU算力供需失衡之困，開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)？的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

破GPU算力供需失衡之困，開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)？

本文作者的其他文章

破GPU算力供需失衡之困，開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)？的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

破GPU算力供需失衡之困，開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)？

破GPU算力供需失衡之困，開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)？的評論 (共條)