AIGC熱度不減,基于RoCE 交換機(jī)網(wǎng)絡(luò)解決方案助力業(yè)務(wù)展翅飛翔
客戶是一家AIGC領(lǐng)域的公司,他們通過構(gòu)建一套完整的內(nèi)容生產(chǎn)系統(tǒng),革新內(nèi)容創(chuàng)作過程,讓用戶以更低成本完成內(nèi)容創(chuàng)作。
客戶網(wǎng)絡(luò)需求匯總

整網(wǎng)方案設(shè)計(jì)的思路
高性能
AIGC承載網(wǎng)絡(luò)需要具備高寬帶的特性,以支持快速的數(shù)據(jù)傳輸和處理。生成內(nèi)容可能涉及大規(guī)模的文本、圖像或視頻數(shù)據(jù),因此需要具備高帶寬的網(wǎng)絡(luò)連接,以便快速傳輸數(shù)據(jù)到計(jì)算資源節(jié)點(diǎn)進(jìn)行處理;此外,AIGC承載網(wǎng)絡(luò)需要實(shí)現(xiàn)低時(shí)延的要求,以確保生成內(nèi)容的實(shí)時(shí)性和響應(yīng)性。在用戶上傳任務(wù)或請(qǐng)求后,網(wǎng)絡(luò)需要迅速響應(yīng)并進(jìn)行任務(wù)分配或資源調(diào)度。
大規(guī)模
AIGC承載網(wǎng)絡(luò)需要能夠處理大量的用戶請(qǐng)求和任務(wù),并同時(shí)支持多個(gè)用戶的并發(fā)訪問。因此,網(wǎng)絡(luò)架構(gòu)需要具備高度的可擴(kuò)展性和負(fù)載均衡能力。例如,采用分布式計(jì)算和分布式存儲(chǔ)技術(shù),使得網(wǎng)絡(luò)可以橫向擴(kuò)展,自動(dòng)調(diào)節(jié)資源分配以應(yīng)對(duì)不斷增長(zhǎng)的用戶需求。
高可用
AIGC承載網(wǎng)絡(luò)需要具備高可用性,以確保服務(wù)的連續(xù)性和穩(wěn)定性。由于AIGC是基于人工智能技術(shù)的,其生成過程可能需要較長(zhǎng)的時(shí)間和大量的計(jì)算資源。因此,網(wǎng)絡(luò)需要具備容錯(cuò)機(jī)制和故障恢復(fù)策略,以應(yīng)對(duì)硬件故障、網(wǎng)絡(luò)中斷或其他意外情況。
整體方案架構(gòu)


計(jì)算網(wǎng)絡(luò)設(shè)計(jì)方案一:整網(wǎng) 1:1 無(wú)收斂
不考慮GPU的8個(gè)接口的接入方式,8個(gè)接口接入1臺(tái)或多臺(tái)ToR

交換機(jī) 10 Leaf + 20 ToR= 30 臺(tái),提供640個(gè)接入端口(20*32=640),每臺(tái)GPU服務(wù)器8端口,可以最大可接入GPU服務(wù)器 80臺(tái)
接入側(cè)和Fabric內(nèi)部互聯(lián)均可以使用200G的AOC(含兩端的200G光模塊),其中接入側(cè)600條,F(xiàn)abric側(cè)600條,合計(jì)1200條
方案一的擴(kuò)展性

基于該架構(gòu),最多可以接入64臺(tái)ToR,最大可以擴(kuò)展到2048個(gè)200G接口接入,滿足1280接口接入的擴(kuò)展性要求
計(jì)算網(wǎng)絡(luò)設(shè)計(jì)方案二:整網(wǎng) 1:1 無(wú)收斂
考慮GPU的8個(gè)接口的接入方式,8個(gè)接口接入到8臺(tái)Leaf,每8臺(tái)Leaf作為一個(gè)分組

交換機(jī) 13 Leaf + 24 ToR = 37 臺(tái),按600個(gè)接入端口(75臺(tái)GPU服務(wù)器),每組8個(gè)ToR接入25臺(tái)GPU服務(wù)器,3組ToR接入75臺(tái)
每組ToR接入25臺(tái)GPU服務(wù)器,下行接入帶寬為200*200GE,因此,上行也需要至少是200*200GE帶寬,每臺(tái)ToR到每臺(tái)Leaf為2條200G,總上行帶寬為2*13*8*200GE,滿足1:1收斂要求
接入側(cè)和Fabric內(nèi)部互聯(lián)均可以使用200G的AOC(含兩端的200G光模塊),其中接入側(cè)600條,F(xiàn)abric側(cè)624條,合計(jì)1224條
方案二的擴(kuò)展性

基于該架構(gòu),最多可以接入8組ToR ,每組8個(gè)ToR接入32臺(tái)GPU服務(wù)器,8組ToR接入256臺(tái)
最大可以擴(kuò)展到2048個(gè)200G接口接入,滿足1280接口接入的擴(kuò)展性要求
存儲(chǔ)網(wǎng)絡(luò)設(shè)計(jì)方案:整網(wǎng) 3:1 收斂

交換機(jī) 2 Leaf + 3 ToR = 5 臺(tái),提供最大144個(gè)接入端口(滿足100個(gè)接入需求)
如果不考慮Leaf高可靠部署,也可以單Leaf接入
接入側(cè)和Fabric內(nèi)部互聯(lián)均可以使用200G的AOC(含兩端的200G光模塊),其中接入側(cè)100條,F(xiàn)abric側(cè)36條,合計(jì)136條
存儲(chǔ)網(wǎng)絡(luò)擴(kuò)展性

交換機(jī) 2 Leaf + 5 ToR = 7 臺(tái),提供最大240個(gè)接入端口(滿足240個(gè)接入的擴(kuò)展需求)
星融元方案價(jià)值與優(yōu)勢(shì)
? 超低TCO、超高性價(jià)比
相較于IB方案,大幅度降低用戶的網(wǎng)絡(luò)TCO,同時(shí)確保超高性能
? 橫向平滑擴(kuò)容、1:1收斂無(wú)阻塞
無(wú)收斂的網(wǎng)絡(luò)設(shè)計(jì)確保無(wú)阻塞的大容量網(wǎng)絡(luò),按需橫向擴(kuò)展
? 整網(wǎng)RoCEv2
基于CEE/DCB能力,提供可與IB媲美的性能和同樣無(wú)損的網(wǎng)絡(luò)服務(wù)
? 開放網(wǎng)絡(luò)操作系統(tǒng)
星融元網(wǎng)絡(luò)操作系統(tǒng)AsterNOS,SONiC企業(yè)級(jí)發(fā)行版,支持靈活的功能擴(kuò)展、在線升級(jí)
? 無(wú)縫對(duì)接云管
AsterNOS 利用簡(jiǎn)單易用的REST API,可輕松讓第三方的云平臺(tái)/控制器快速納管
? 專家級(jí)服務(wù)
專業(yè)、全面、可靠的研發(fā)、方案與服務(wù)團(tuán)隊(duì),為客戶提供小時(shí)級(jí)的快速響應(yīng)服務(wù)
關(guān)注vx公號(hào)“星融元Asterfusion”,獲取更多技術(shù)分享和最新產(chǎn)品動(dòng)態(tài)。