華為"星河"AI發(fā)布,國(guó)內(nèi)算網(wǎng)深度受益,重視算力鏈投資機(jī)遇!
華為在2023年全連接大會(huì)聯(lián)合信通院、科大訊飛共同發(fā)布《星河AI網(wǎng)絡(luò)白皮書(shū)》,作為全球算力"第二"選擇,華為算網(wǎng)架構(gòu)意義重大。 幾大要點(diǎn):
1.高吞吐:端口帶寬升至400G,未來(lái)向800G演進(jìn)。提高網(wǎng)絡(luò)吞吐量提升訓(xùn)練效率。 2.高可靠:增加冗余鏈路,確保故障切換。加以全??梢曔\(yùn)維,實(shí)現(xiàn)亞毫秒級(jí)故障快速收斂。 3.可運(yùn)維:全??梢曔\(yùn)維,實(shí)現(xiàn)大模型訓(xùn)練網(wǎng)絡(luò)路徑、流負(fù)載實(shí)時(shí)可視,完成亞毫秒級(jí)故障快速收斂。 4.大規(guī)模:胖樹(shù)機(jī)構(gòu)下,參數(shù)大小網(wǎng)多軌網(wǎng)絡(luò)并行擴(kuò)大網(wǎng)絡(luò)規(guī)模。 5.開(kāi)放性:推崇以太網(wǎng)架構(gòu)(RoCE)多于IB,開(kāi)放性更好。 最大變化:算力運(yùn)維 —大量篇幅闡述通過(guò)算力運(yùn)維降低MTBF(無(wú)故障時(shí)間)。因?yàn)橛?xùn)推過(guò)程中故障幾乎不可避免,通過(guò)性能監(jiān)測(cè)/故障感知/定位排查等解決,可提升GPU利用率/集群訓(xùn)練穩(wěn)定性。 強(qiáng)調(diào)算網(wǎng) :多處理器并行計(jì)算,之間的協(xié)作嚴(yán)重依賴網(wǎng)絡(luò)。集群規(guī)模越大通信量/復(fù)雜度越大(千億→萬(wàn)億參數(shù),端到端時(shí)延占比20%→50%),再次重申網(wǎng)絡(luò)架構(gòu)重要性—交換機(jī)/光模塊。 重點(diǎn)推薦:算力運(yùn)維—恒為科技; 光模塊:中際旭創(chuàng)、新易盛、天孚通信、源杰科技等; 交換機(jī):紫光股份、中興通訊、銳捷網(wǎng)絡(luò)、菲菱科思等; 風(fēng)險(xiǎn)提示:AI落地進(jìn)度不及預(yù)期。