星融元:為簡化無損以太網(wǎng)運維的“一鍵RoCE”
甲方爸爸李工是一名存儲行業(yè)資深的網(wǎng)絡工程師,多年的工作經(jīng)驗讓他在服務器上玩得起飛,交換機方面,平時使用的多是 IB 交換機,只會插插線。自從發(fā)現(xiàn)IB交換機越用越不爽之后,轉向了RoCEv2低時延無損以太網(wǎng)解決方案。但是對接過程中李工也發(fā)現(xiàn),無損以太網(wǎng)絡香是真香,但是配置方面也真心不太懂,簡直一個大寫的懵。


星融元的“一鍵RoCE”
RoCEv2技術支持在以太網(wǎng)上承載RDMA協(xié)議,實現(xiàn)RDMA over Ethernet,但需要網(wǎng)絡側支持無損以太網(wǎng)。目前,星融元網(wǎng)絡操作系統(tǒng)AsterNOS使用標準的PFC+ECN來實現(xiàn)無損以太網(wǎng)。在以太網(wǎng)交換機上配置PFC、ECN功能,需要用戶熟悉QoS機制、配置邏輯和相關命令行。
對此,星融元針對RoCEv2場景的配置需求進行設計規(guī)劃,推出一鍵RoCE,實現(xiàn)了業(yè)務級的命令行封裝,以達到RoCEv2場景下最佳的可維護性和可用性。
繼提供高性價比低時延交換機產(chǎn)品替代方案后,在產(chǎn)品的使用和運維上,星融元進行了網(wǎng)絡部署的升級,降低工程師們的運維復雜度,讓用戶聚焦于業(yè)務。
1. 一鍵啟用PFC和ECN,完成無損網(wǎng)絡配置
沒有一鍵RoCE配置命令行時,一線實施和運維工程師配置無損網(wǎng)絡或者取消配置,需要分別修改PFC和ECN的配置。通常情況下,要配置PFC和ECN,需要工程師理解QoS的配置邏輯和步驟,這對工程師有著一定的網(wǎng)絡知識要求。
有了一鍵RoCE配置命令行后,工程師可以通過一條命令行完成無損網(wǎng)絡配置,不需要再使用原子級的命令行,對PFC和ECN進行配置。
2. 無損網(wǎng)絡的配置和運行狀態(tài),集中展示
在以前運維無損網(wǎng)絡時,如果想要進行網(wǎng)絡異常定位或者運行狀態(tài)檢查,通常需要到不同命令行視圖下進行執(zhí)行多次show命令,以確定當前的隊列映射關系、Buffer使用情況、PFC和ECN在哪個隊列中被啟用、各種門限的數(shù)值、PFC和ECN所在隊列的吞吐量、Pasue和CNP報文的觸發(fā)次數(shù)等信息。
現(xiàn)在工程師可以通過show roce命令打印全局的RoCE信息、端口的RoCE信息和計數(shù),以及對RoCE相關計數(shù)進行統(tǒng)一清零。
3. 不同業(yè)務場景下的參數(shù)調優(yōu)
通過一鍵RoCE命令行,可以快速配置無損網(wǎng)絡,當業(yè)務場景不滿足于設備提供的默認模板配置時,工程師仍然可以通過qos命令行精細化地調試PFC和ECN的各項參數(shù),讓當前業(yè)務場景的性能達到最優(yōu)。
一鍵RoCE的可應用場景
1、簡化高性能計算和存儲網(wǎng)絡的部署
一鍵RoCE的使用對于需要高性能網(wǎng)絡傳輸?shù)膽贸绦蚍浅S袔椭?,如高性能計算、存儲、大?shù)據(jù)分析和人工智能、云計算等領域。它可以提供比傳統(tǒng)以太網(wǎng)更高的吞吐量和更低的延遲,從而為這些領域的應用程序提供更高的性能和效率。
高性能計算和存儲業(yè)務場景中,工程師通常對業(yè)務非常熟悉,集中精力在服務器側的配置調優(yōu),對于網(wǎng)絡,通常提出的要求是“需要一張高可用、高性能的無損網(wǎng)絡”。針對這種情況,高性能計算和存儲工程師可以通過一鍵RoCE命令行,快速完成無損網(wǎng)絡配置部署。
這種業(yè)務級命令行的封裝,將多個原子級命令行進行組合,簡化配置流程,節(jié)省工程師的時間和精力去完成更有價值的業(yè)務側優(yōu)化。
2、定位無損網(wǎng)絡的瓶頸和故障
show roce業(yè)務級命令行將多個原子級命令行組合成一個語義完整的業(yè)務命令,將多個命令的輸出信息整合在一起。
在排查網(wǎng)絡故障時,可以使用show roce一次性查詢和無損網(wǎng)絡相關的所有配置信息、運行狀態(tài),而不需要逐個查詢原子級命令行。從而簡化故障排除流程,提高故障排除效率。

未來,隨著云計算、大數(shù)據(jù)和AIGC行業(yè)的不斷發(fā)展,對高性能網(wǎng)絡傳輸技術的需求將會越來越大。一鍵RoCE作為一種快速部署RDMA網(wǎng)絡的解決方案,將會在未來得到更廣泛的應用。
關注vx公號“星融元Asterfusion”,獲取更多技術分享和最新產(chǎn)品動態(tài)。