大模型時(shí)代:華為讓以太網(wǎng)進(jìn)化,打通數(shù)據(jù)運(yùn)力動(dòng)脈
超融合技術(shù) 隨著大模型時(shí)代的到來,算力需求呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)。據(jù)統(tǒng)計(jì),2012年到2019年AI訓(xùn)練算力平均每100天翻倍,而GPU單卡算力則需要2-3年增長(zhǎng)一倍。GPU卡集群成為應(yīng)對(duì)算力需求高速增長(zhǎng)的方案,隨著AI模型進(jìn)入萬億參數(shù)模型時(shí)代,GPU卡的數(shù)量也提高到萬卡規(guī)模,據(jù)了解,OpenAI使用25000張A100 GPU訓(xùn)練1.8萬億參數(shù)的GPT4。 正是在AI計(jì)算集群支撐下,超萬億參數(shù)大模型的高效訓(xùn)練成為可能,大模型加速進(jìn)入各行各業(yè)。在最近舉行的華為年度最重要的ICT盛會(huì)上,“大模型”成為最重要的關(guān)鍵詞,華為從算力、運(yùn)力、存力等多個(gè)維度全線出擊,使能百模千態(tài),賦能千行萬業(yè),加速行業(yè)智能化。 其中,華為最令人關(guān)注的重磅創(chuàng)新之一,來自數(shù)據(jù)中心網(wǎng)絡(luò),華為對(duì)以太網(wǎng)進(jìn)行進(jìn)化,研發(fā)出超融合以太技術(shù),正是這項(xiàng)創(chuàng)新,讓數(shù)據(jù)中心網(wǎng)絡(luò)釋放出最大潛力,使得上萬張AI板卡高效協(xié)同,成為萬億參數(shù)大模型時(shí)代的堅(jiān)固基石。 為數(shù)據(jù)中心網(wǎng)絡(luò)裝上智慧調(diào)度大腦 想象一下,一個(gè)超大型機(jī)場(chǎng)如果沒有調(diào)度系統(tǒng),多條跑道同時(shí)起飛降落飛機(jī)的時(shí)候會(huì)發(fā)生什么? 這樣的景象其實(shí)也發(fā)生在數(shù)據(jù)中心。隨著AI進(jìn)入大模型時(shí)代,計(jì)算也進(jìn)入分布式訓(xùn)練的時(shí)代,即計(jì)算任務(wù)以數(shù)據(jù)并行、流水線并行、張量并行等分布式并行方式分配到多臺(tái)服務(wù)器上,以加快模型訓(xùn)練速度。這個(gè)時(shí)候,多臺(tái)服務(wù)器之間就需要同步參數(shù)、梯度、中間變量,在大模型訓(xùn)練時(shí),單次參數(shù)同步量高達(dá)100MB-幾GB的量級(jí)。如何協(xié)作數(shù)萬張?zhí)幚砥?,保證不隨著算力規(guī)模的增大而效率大幅降低,避免出現(xiàn)1+1<2的效果,是一大問題。 并行計(jì)算下,網(wǎng)絡(luò)負(fù)載均衡就是其中的關(guān)鍵。無論是數(shù)據(jù)并行,還是流水線并行,或是張量并行,多機(jī)之間都需要通過多次AllReduce集合通信操作來傳遞計(jì)算結(jié)果。AllReduce集合通信的特征是多打一,流數(shù)少、單流帶寬大,同一時(shí)間均是點(diǎn)到點(diǎn)通信,其完成需要所有點(diǎn)對(duì)點(diǎn)通信都成功完成。這時(shí)候就存在“木桶效應(yīng)”,木桶中盛的水由最短的木板所決定,而AllReduce的完成時(shí)間,也由其中最慢的點(diǎn)對(duì)點(diǎn)通信時(shí)間所決定。 正是因?yàn)檫@種木桶效應(yīng),智算數(shù)據(jù)中心網(wǎng)絡(luò)會(huì)遇到網(wǎng)絡(luò)負(fù)載不均衡問題,如何進(jìn)行鏈路的負(fù)載均衡成為關(guān)鍵。在沒有實(shí)現(xiàn)全局負(fù)載均衡的網(wǎng)絡(luò)中,整體通信效率僅在30%-56%之間,這意味著有一半以上的網(wǎng)絡(luò)性能沒有被高效利用,同樣,這意味著整個(gè)AI集群的算力效率只有不到一半。因此,AI集群網(wǎng)絡(luò)的吞吐效率將直接影響整個(gè)智算中心集群的效率。