最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

破GPU算力供需失衡之困,開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)?

2023-08-15 12:43 作者:孫永杰的ICT評論  | 我要投稿

眾所周知,AIGC時代,算力需求爆發(fā)式增長,而開放加速計算(OAI)硬件架構(gòu)正是為超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型并行計算而生,天然適用于AIGC大模型訓(xùn)練,將為AIGC提供有力的創(chuàng)新動力。而隨著日前舉行的OCP ChinaDay大會上,業(yè)界首個面向AIGC的《開放加速規(guī)范AI服務(wù)器設(shè)計指南》(以下簡稱《指南》)正式發(fā)布,勢必會有效加速算力產(chǎn)業(yè)多樣化的轉(zhuǎn)型與發(fā)展,幫助AIGC時代的AI計算產(chǎn)業(yè)跨越“創(chuàng)新”鴻溝。

?

生成式AI計算需求增長,算力多樣化轉(zhuǎn)型帶來新挑戰(zhàn)

?

隨著AI的發(fā)展,IDC預(yù)測,全球AI計算市場規(guī)模將從2022年的195.0億美元增長到2026年的346.6億美元,其中生成式AI計算市場規(guī)模將從2022年的8.2億美元增長到2026年的109.9億美元。生成式AI計算占整體AI計算市場的比例將從4.2%增長到31.7%。

?

隨之而來的是這種生成式AI算力需求的增長推動算力產(chǎn)業(yè)轉(zhuǎn)型升級,即企業(yè)需要為人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)建設(shè)全新的IT基礎(chǔ)架構(gòu),正由CPU密集型轉(zhuǎn)向搭載GPU、FPGA、ASIC芯片的加速計算密集型,且越來越多地使用搭載GPU、FPGA、ASIC等加速卡的服務(wù)器,所以,異構(gòu)計算將成為未來計算的主流。

?

其實(shí),Henessy和Patterson在幾年前的《計算機(jī)架構(gòu)的新黃金時代》中就引入了特定領(lǐng)域體系架構(gòu)(Domain Specific Architectures,DSAs)的概念,即隨著通用算力技術(shù)的演進(jìn)逐漸減緩,針對特定問題或領(lǐng)域定制計算架構(gòu)變得愈發(fā)重要?;贒SAs思想設(shè)計的AI計算芯片,在特定人工智能工作負(fù)載下展現(xiàn)出超越通用芯片的處理能力,這極大地推動了多元化人工智能芯片的發(fā)展,為產(chǎn)業(yè)智能化的加速提供了關(guān)鍵基礎(chǔ)和更廣泛的選擇。

?

正是在上述背景下,目前全球已有上百家公司投入新型AI加速芯片的開發(fā),AI計算芯片多元化轉(zhuǎn)型趨勢凸顯,但同時也出現(xiàn)了新的挑戰(zhàn)。

?

主要表現(xiàn)在,單機(jī)具有更高的擴(kuò)展性、集群具有更高的加速比,對卡間互聯(lián)、網(wǎng)絡(luò)帶寬和延遲提出了更高的要求。例如加速卡間通信的數(shù)據(jù)量越來越多,僅僅通過傳統(tǒng)的PCIe P2P通信已經(jīng)無法滿足超大規(guī)模深度學(xué)習(xí)模型的要求。同時,為了提升AI加速卡的算力,單張AI加速卡的功耗逐代顯著提升。

?

為了解決這些問題,芯片公司相繼推出了各自非標(biāo)準(zhǔn)PCIe CEM形態(tài)的AI加速卡,這些新形態(tài)的AI加速卡支持更高的功耗和更強(qiáng)大的卡間互聯(lián)能力。但隨之而來的是,各廠商采用不同技術(shù)路線,產(chǎn)業(yè)面臨硬件體系孤島和生態(tài)割裂問題,即由于缺乏統(tǒng)一的業(yè)界規(guī)范,不同AI芯片廠商的新形態(tài)AI加速卡,無論在結(jié)構(gòu)上還是電氣特性上都各不相同,導(dǎo)致不同廠商AI系統(tǒng)硬件平臺方案的定制化,帶來算力產(chǎn)業(yè)發(fā)展高成本和低靈活性等問題。

?

而業(yè)內(nèi)知道,從芯片到計算系統(tǒng),需要完成體系結(jié)構(gòu)、信號完整性、散熱、可靠性等大量系統(tǒng)性設(shè)計工作,涉及到材料、熱力學(xué)、電池技術(shù)、流體力學(xué)、化學(xué)等眾多學(xué)科隨著系統(tǒng)能耗、總線速率、電流密度等指標(biāo)隨業(yè)務(wù)需求持續(xù)攀升,給人工智能計算系統(tǒng)設(shè)計帶來嚴(yán)峻挑戰(zhàn)。

?

此外,由于AI計算系統(tǒng)的技術(shù)挑戰(zhàn)和設(shè)計復(fù)雜性,將專有AI芯片集成到系統(tǒng)中,通常既耗時,又需要不菲的系統(tǒng)開發(fā)費(fèi)用,這同樣嚴(yán)重阻礙了AI加速器的研發(fā)創(chuàng)新和應(yīng)用推廣。

?

那么問題來了,業(yè)內(nèi)何以應(yīng)對上述的新挑戰(zhàn)?

?

從OCP到OAM,開放計算架構(gòu)適合AIGC天然屬性初顯

?

眾所周知,OCP是全球基礎(chǔ)硬件技術(shù)領(lǐng)域覆蓋面最廣、最有影響力的開源組織,以其為代表的開放計算項目,創(chuàng)造出一種全新的、全球化的協(xié)作模式,通過消除技術(shù)壁壘,使得硬件創(chuàng)新的速度遠(yuǎn)超過去,加速技術(shù)創(chuàng)新迭代。

?

而面對AI的發(fā)展大勢,2019年OCP成立OAI(Open Accelerator Infrastructure)小組,對更適合超大規(guī)模深度學(xué)習(xí)訓(xùn)練的AI加速卡形態(tài)進(jìn)行了定義,以解決多元AI加速卡形態(tài)和接口不統(tǒng)一的問題,并由此開啟了我們前述AI加速卡在AIGC應(yīng)用中的挑戰(zhàn)的應(yīng)對之道。

?

需要說明的是,作為OAI項目中最核心的OAM(OCP Accelerator Module)—AI加速卡模塊,以標(biāo)準(zhǔn)化和互操作性促進(jìn)了OAI生態(tài)的建立。同年,OCP發(fā)布了AI加速卡基板 OAM-UBB SPEC設(shè)計規(guī)范,又大幅提升了各類符合OAM規(guī)范的AI加速芯片的兼容性。

?

之后的2020年,全球首個OAI基準(zhǔn)的計算系統(tǒng)—MX1發(fā)布,采用了高帶寬、雙供電等技術(shù),尤其是兩種互聯(lián)拓?fù)涞牟捎?,有利于用戶針對不同深度學(xué)習(xí)模型,并根據(jù)芯片通信的需求靈活設(shè)計芯片互聯(lián)方案。

?

2021年,浪潮信息發(fā)布首款A(yù)ll in One開放加速計算整機(jī)NF5498A5,卡間互聯(lián)帶寬達(dá)PCIe 4.0通訊速率的9倍以上,跨節(jié)點(diǎn)高速直連帶寬448 GB/s,支持構(gòu)建千卡級大模型并行訓(xùn)練集群。

?

《指南》拾遺補(bǔ)缺,加速開放計算向產(chǎn)業(yè)落地之道

?

由模塊到基板,由系統(tǒng)到集群,從上述事實(shí)我們不難發(fā)現(xiàn),開放加速計算的硬件架構(gòu)正是為超大規(guī)模深度神經(jīng)網(wǎng)絡(luò)模型并行計算而生,天然適用于AIGC大模型訓(xùn)練。但實(shí)際的情況是,在當(dāng)前開放計算技術(shù)推向產(chǎn)業(yè)落地的過程中,依然存在大量的定制化工作以及現(xiàn)有OAI標(biāo)準(zhǔn)未能完全覆蓋的領(lǐng)域。

?

因此,浪潮信息基于豐富的開放加速計算工程實(shí)踐和產(chǎn)品歷程,面向?qū)嶋HAIGC計算場景,進(jìn)一步發(fā)展和完善了開放加速規(guī)范計算系統(tǒng)的理論體系和設(shè)計方法,提出了面向AIGC的《開放加速規(guī)范AI服務(wù)器設(shè)計指南》。

?

縱觀《指南》,我們看到,其進(jìn)一步發(fā)展和完善了開放加速規(guī)范AI服務(wù)器的設(shè)計理論和設(shè)計方法,提出了四大設(shè)計原則、全棧設(shè)計方法,包括硬件設(shè)計參考、管理接口規(guī)范和性能測試標(biāo)準(zhǔn),旨在幫助社區(qū)成員更快更好地開發(fā)AI加速卡并適配開放加速AI服務(wù)器,應(yīng)對生成式AI的算力挑戰(zhàn)。

?

在該《指南》中,開放加速規(guī)范AI服務(wù)器設(shè)計應(yīng)遵循四大設(shè)計原則,即應(yīng)用導(dǎo)向、多元開放、綠色高效、統(tǒng)籌設(shè)計。在此基礎(chǔ)上,應(yīng)采用多維協(xié)同設(shè)計、全面系統(tǒng)測試和性能測評調(diào)優(yōu)的設(shè)計方法,以提高適配部署效率、系統(tǒng)穩(wěn)定性、系統(tǒng)可用性。

?

那么問題來了,該《指南》為何要制定這些設(shè)計原則和設(shè)計方法?

?

以設(shè)計原則中的應(yīng)用導(dǎo)向為例,無論是加速卡的設(shè)計,還是系統(tǒng)的設(shè)計,都要聚焦實(shí)際應(yīng)用場景,在充分考慮業(yè)務(wù)特點(diǎn)、模型特征、部署環(huán)境的基礎(chǔ)上,以提供“用的了”、“用的起”、“用的好”的解決方案為目標(biāo),自上而下完成開放加速計算系統(tǒng)的設(shè)計規(guī)劃,避免過度冗余設(shè)計和一味追求性能帶來的時間、空間、資源和成本的浪費(fèi),最終實(shí)現(xiàn)高效適配、高效部署、節(jié)省產(chǎn)業(yè)和社會總成本。浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥如此解釋。

?

又如設(shè)計原則中的綠色高效,隨著AI訓(xùn)練芯片功耗的不斷增長,用于AI訓(xùn)練的機(jī)器單機(jī)柜功率密度將大幅增加,傳統(tǒng)的風(fēng)冷模式已無法滿足制冷散熱需求和PUE指標(biāo)要求,需要加速液冷散熱、高效供配電、能效監(jiān)測、智能運(yùn)維等技術(shù)在開放加速計算節(jié)點(diǎn)和集群層面的全面布局和應(yīng)用。

?

對此,趙帥進(jìn)一步解釋稱,我們看到現(xiàn)在很多的客戶,對于新的數(shù)據(jù)中心建設(shè)都有非常高的能耗指標(biāo)要求,所以需要通過先進(jìn)的液冷,或者是其他的一些散熱技術(shù),以使整個數(shù)據(jù)中心的PUE能到一個更高的水平,所以我們在設(shè)計原則方面更多來自于終端客戶的痛點(diǎn)和需求。

?

至于設(shè)計方法方面,趙帥告訴《班門弄斧》,主要是基于前期去跟一些OAM在做適配過程當(dāng)中發(fā)現(xiàn)的一些問題,以及在性能測試當(dāng)中我們自己積累的一些經(jīng)驗,把這些東西固化,形成了更加具體和深入的規(guī)范,幫助芯片廠商減少試錯成本,基于指南,能更快地去完成產(chǎn)品的開發(fā)和迭代。

?

以其中的全面系統(tǒng)測試為例,由于架構(gòu)復(fù)雜度高、芯片種類多、高速信號多、系統(tǒng)功耗大等特點(diǎn)導(dǎo)致異構(gòu)加速計算節(jié)點(diǎn)通常面臨故障率高的問題。因此,需要更加全面、嚴(yán)苛的測試條件才能夠最大程度降低系統(tǒng)生產(chǎn)、部署、運(yùn)行過程中的問題和故障風(fēng)險,提高系統(tǒng)穩(wěn)定性,減少斷點(diǎn)對訓(xùn)練持續(xù)性的影響。為此,《指南》對結(jié)構(gòu)、散熱、壓力、穩(wěn)定性、軟件兼容性等方面的測試要點(diǎn)進(jìn)行了全面梳理。

?

由此看,《指南》從最終客戶和AI芯片合作伙伴的角度對于現(xiàn)有的OAI標(biāo)準(zhǔn)做了拾遺補(bǔ)缺,更細(xì)化、更具體、更完善。那么接下來的問題是,《指南》未來的前景如何?

?

產(chǎn)品與解決方案筑基,開放加速生態(tài)未來可期

?

說到《指南》未來的前景,在我們看來,所謂實(shí)踐出真知,用產(chǎn)品和解決方案說話才是硬道理。

?

據(jù)我們了解,目前有燧原科技、英特爾、浪潮信息等10余家OAI小組成員已經(jīng)陸續(xù)開發(fā)了10余種符合開放加速規(guī)范的產(chǎn)品組合方案并已實(shí)現(xiàn)落地應(yīng)用,越來越多的芯片、算力系統(tǒng)企業(yè)已經(jīng)聚集在這個開放加速的生態(tài)之中。

?

例如早在2019年燧原科技發(fā)布第一代“邃思”芯片的同時發(fā)布了基于這款芯片云燧T11 PoC,這是國內(nèi)第一個OAM模組。2021年燧原科技發(fā)布第二代“邃思2.0”芯片,以及基于這款芯片打造的一組云端AI訓(xùn)練產(chǎn)品:云燧T20訓(xùn)練加速卡,云燧T21訓(xùn)練OAM模組。

?

2022年3月,浪潮信息與其聯(lián)合發(fā)布了“錢塘江”智算中心方案。該方案具有綠色低碳的獨(dú)特優(yōu)勢,創(chuàng)新研發(fā)全球首臺開放加速模組液冷計算平臺,率先實(shí)現(xiàn)單節(jié)點(diǎn)8顆400W高性能AI芯片液冷散熱,支持50℃中高溫水運(yùn)行,采用先進(jìn)變頻流量系統(tǒng),大幅提高流量變化范圍、降低能耗,智算中心整體PUE低于1.1。單集群即可提供超過200P峰值A(chǔ)I算力(TF32),支持超強(qiáng)擴(kuò)展能力,采用高帶寬、全互聯(lián)拓?fù)浼軜?gòu),跨節(jié)點(diǎn)互聯(lián)帶寬高達(dá)448GB/s,結(jié)合GCU-LARE 2.0多芯互聯(lián)技術(shù),可實(shí)現(xiàn)千芯級大規(guī)模集群高速互聯(lián),具備優(yōu)異的線性加速比,支撐超千億參數(shù)巨量模型的高效、并行訓(xùn)練。目前,該方案已在大型實(shí)驗室落地1280卡規(guī)模的全液冷AI訓(xùn)練集群。

?

同年8月,壁仞科技發(fā)布首款通用GPU芯片BR100,以及符合OCP標(biāo)準(zhǔn)的OAM模組壁礪100,同時支持最高8卡全互連,最大板級功耗可達(dá)550W。同時,壁仞科技與浪潮信息共同發(fā)布基于8個壁礪100 OAM模組打造的海玄OAM服務(wù)器,其通過全互聯(lián)的模式,可以提供高達(dá)8PFLOPS的浮點(diǎn)峰值算力,支持PCIe Gen 5的CPU,并結(jié)合CXL互連協(xié)議,將CPU-GPU的訪存和數(shù)據(jù)搬移效率做到了極致。

?

而在今年剛剛過去的7月,英特爾正式于中國市場推出第二代Gaudi深度學(xué)習(xí)加速器——Habana? Gaudi?2,并聯(lián)合浪潮信息發(fā)布面向生成式AI領(lǐng)域創(chuàng)新開發(fā)的新一代 AI 服務(wù)器 NF5698G7,其在6U空間支持8顆基于開放加速模組OAM高速互聯(lián)的Gaudi2 AI加速器,每顆Gaudi2芯片配置96GB HBM高速內(nèi)存,共提供2.1Tbps的P2P互聯(lián)帶寬,支持全互聯(lián)拓?fù)?,滿足大模型訓(xùn)練張量并行的通信需求,搭載的2顆第四代至強(qiáng)處理器,支持AMX/DSA等AI加速引擎。

?

不知業(yè)內(nèi)看到上述作何感想?我們看到的是從芯片,系統(tǒng)、集群,再到智算中心,基于OAM開放加速計算產(chǎn)品和解決方案不斷的精進(jìn)和拓展,而這勢必使得基于《指南》的開放加速計算生態(tài)未來可期,AIGC應(yīng)用可待。

?

寫在最后:不知是巧合,還是其他原因,《指南》發(fā)布之際,據(jù)相關(guān)媒體報道,百度、字節(jié)跳動、騰訊和阿里巴巴等互聯(lián)網(wǎng)企業(yè)正爭相訂購英偉達(dá)的高性能GPU芯片,即便是在加價的情況下,諸多企業(yè)也是“一芯難求”,由此看,單一GPU算力供需失衡相當(dāng)嚴(yán)重。

?

與之形成鮮明對比的是,我們又看到許多AI芯片企業(yè),尤其是國內(nèi)AI芯片企業(yè)面臨缺乏系統(tǒng)平臺和標(biāo)準(zhǔn)支撐、導(dǎo)致適配難,開發(fā)成本高企,無法讓其創(chuàng)新產(chǎn)品更加快速、高效地部署和落地等窘境。

?

所幸的是,通過《指南》的發(fā)布,我們看到,開放加速規(guī)范的AI服務(wù)器可為AI芯片創(chuàng)新提供成熟的系統(tǒng)平臺支撐,幫助AI芯片廠商聚焦于芯片創(chuàng)新研發(fā),實(shí)現(xiàn)更科學(xué)合理的產(chǎn)業(yè)分工,避免封閉技術(shù)生態(tài)存在的單點(diǎn)單線風(fēng)險,推動智算產(chǎn)業(yè)生態(tài)健康發(fā)展;另一方面,基于開放加速工程實(shí)踐和成熟計算平臺總結(jié)的設(shè)計指南,可加速有競爭力的AI芯片的創(chuàng)新研發(fā)和落地部署,有效縮短開發(fā)適配周期,節(jié)省研發(fā)投入,為用戶提供可以用來支撐AIGC大模型訓(xùn)練的多元算力解決方案,以多元算力之道破解當(dāng)下AI算力供需難題。


破GPU算力供需失衡之困,開放加速計算何以應(yīng)對AIGC算力暴增挑戰(zhàn)?的評論 (共 條)

分享到微博請遵守國家法律
嘉禾县| 海晏县| 喀什市| 东城区| 肃宁县| 通城县| 崇阳县| 靖安县| 贵南县| 邓州市| 南阳市| 邵阳市| 辛集市| 左贡县| 昌图县| 十堰市| 遵义市| 乌鲁木齐县| 顺义区| 黑山县| 柏乡县| 威海市| 永州市| 图们市| 吉木乃县| 新建县| 沙坪坝区| 翁源县| 荃湾区| 黑山县| 上栗县| 方正县| 和林格尔县| 图们市| 洛浦县| 昌平区| 曲沃县| 冷水江市| 枞阳县| 安龙县| 青川县|