最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

InfiniBand技術(shù)和協(xié)議架構(gòu)分析(一文解決~)

2022-09-20 20:35 作者:補(bǔ)給站Linux內(nèi)核  | 我要投稿

Infiniband開放標(biāo)準(zhǔn)技術(shù)簡化并加速了服務(wù)器之間的連接,同時(shí)支持服務(wù)器與遠(yuǎn)程存儲和網(wǎng)絡(luò)設(shè)備的連接。

IB技術(shù)的發(fā)展

1999年開始起草規(guī)格及標(biāo)準(zhǔn)規(guī)范,2000年正式發(fā)表,但發(fā)展速度不及Rapid I/O、PCI-X、PCI-E和FC,加上Ethernet從1Gbps進(jìn)展至10Gbps。所以直到2005年之后,InfiniBand Architecture(IBA)才在集群式超級計(jì)算機(jī)上廣泛應(yīng)用。全球Top 500大效能的超級計(jì)算機(jī)中有相當(dāng)多套系統(tǒng)都使用上IBA。

隨著越來越多的大廠商正在加入或者重返到它的陣營中來,包括Cisco、IBM、HP、Sun、NEC、Intel、LSI等。InfiniBand已經(jīng)成為目前主流的高性能計(jì)算機(jī)互連技術(shù)之一。為了滿足HPC、企業(yè)數(shù)據(jù)中心和云計(jì)算環(huán)境中的高I/O吞吐需求,新一代高速率56Gbps的FDR (Fourteen Data Rate) 和EDR InfiniBand技術(shù)已經(jīng)出現(xiàn)。

IB技術(shù)的優(yōu)勢

Infiniband大量用于FC/IP SAN、NAS和服務(wù)器之間的連接,作為iSCSI RDMA的存儲協(xié)議iSER已被IETF標(biāo)準(zhǔn)化。目前EMC全系產(chǎn)品已經(jīng)切換到Infiniband組網(wǎng),IBM/TMS的FlashSystem系列,IBM的存儲系統(tǒng)XIV Gen3,DDN的SFA系列都采用Infiniband網(wǎng)絡(luò)。

相比FC的優(yōu)勢主要體現(xiàn)在性能是FC的3.5倍,Infiniband交換機(jī)的延遲是FC交換機(jī)的1/10,支持SAN和NAS。

存儲系統(tǒng)已不能滿足于傳統(tǒng)的FC SAN所提供的服務(wù)器與裸存儲的網(wǎng)絡(luò)連接架構(gòu)。HP SFS和IBM GPFS 是在Infiniband fabric連接起來的服務(wù)器和iSER Infiniband存儲構(gòu)建的并行文件系統(tǒng),完全突破系統(tǒng)的性能瓶頸。

Infiniband采用PCI串行高速帶寬鏈接,從SDR、DDR、QDR、FDR到EDR HCA連接,可以做到1微妙、甚至納米級別極低的時(shí)延,基于鏈路層的流控機(jī)制實(shí)現(xiàn)先進(jìn)的擁塞控制。

InfiniBand采用虛通道(VL即Virtual Lanes)方式來實(shí)現(xiàn)QoS,虛通道是一些共享一條物理鏈接的相互分立的邏輯通信鏈路,每條物理鏈接可支持多達(dá)15條的標(biāo)準(zhǔn)虛通道和一條管理通道(VL15)。

RDMA技術(shù)實(shí)現(xiàn)內(nèi)核旁路,可以提供遠(yuǎn)程節(jié)點(diǎn)間RDMA讀寫訪問,完全卸載CPU工作負(fù)載,基于硬件傳出協(xié)議實(shí)現(xiàn)可靠傳輸和更高性能。

相比TCP/IP網(wǎng)絡(luò)協(xié)議,IB使用基于信任的、流控制的機(jī)制來確保連接的完整性,數(shù)據(jù)包極少丟失,接受方在數(shù)據(jù)傳輸完畢之后,返回信號來標(biāo)示緩存空間的可用性,所以IB協(xié)議消除了由于原數(shù)據(jù)包丟失而帶來的重發(fā)延遲,從而提升了效率和整體性能。

TCP/IP具有轉(zhuǎn)發(fā)損失的數(shù)據(jù)包的能力,但是由于要不斷地確認(rèn)與重發(fā),基于這些協(xié)議的通信也會因此變慢,極大地影響了性能。


【文章福利】小編推薦自己的Linux內(nèi)核技術(shù)交流群:【891587639】整理了一些個(gè)人覺得比較好的學(xué)習(xí)書籍、視頻資料共享在群文件里面,有需要的可以自行添加哦?。。。ê曨l教程、電子書、實(shí)戰(zhàn)項(xiàng)目及代碼)??

IB基本概念

IB是以通道為基礎(chǔ)的雙向、串行式傳輸,在連接拓樸中是采用交換、切換式結(jié)構(gòu)(Switched Fabric),在線路不夠長時(shí)可用IBA中繼器(Repeater)進(jìn)行延伸。每一個(gè)IBA網(wǎng)絡(luò)稱為子網(wǎng)(Subnet),每個(gè)子網(wǎng)內(nèi)最高可有65,536個(gè)節(jié)點(diǎn)(Node),IBA Switch、IBARepeater僅適用于Subnet范疇,若要通跨多個(gè)IBASubnet就需要用到IBA路由器(Router)或IBA網(wǎng)關(guān)器(Gateway)。

每個(gè)節(jié)點(diǎn)(Node) 必須透過配接器(Adapter)與IBA Subnet連接,節(jié)點(diǎn)CPU、內(nèi)存要透過HCA(Host Channel Adapter)連接到子網(wǎng);節(jié)點(diǎn)硬盤、I/O則要透過TCA(TargetChannel Adapter)連接到子網(wǎng),這樣的一個(gè)拓?fù)浣Y(jié)構(gòu)就構(gòu)成了一個(gè)完整的IBA。

IB的傳輸方式和介質(zhì)相當(dāng)靈活,在設(shè)備機(jī)內(nèi)可用印刷電路板的銅質(zhì)線箔傳遞(Backplane背板),在機(jī)外可用銅質(zhì)纜線或支持更遠(yuǎn)光纖介質(zhì)。若用銅箔、銅纜最遠(yuǎn)可至17m,而光纖則可至10km,同時(shí)IBA也支持熱插拔,及具有自動(dòng)偵測、自我調(diào)適的Active Cable活化智能性連接機(jī)制。

IB協(xié)議簡介

InfiniBand也是一種分層協(xié)議(類似TCP/IP協(xié)議),每層負(fù)責(zé)不同的功能,下層為上層服務(wù),不同層次相互獨(dú)立。 IB采用IPv6的報(bào)頭格式。其數(shù)據(jù)包報(bào)頭包括本地路由標(biāo)識符LRH,全局路由標(biāo)示符GRH,基本傳輸標(biāo)識符BTH等。

1、物理層

物理層定義了電氣特性和機(jī)械特性,包括光纖和銅媒介的電纜和插座、底板連接器、熱交換特性等。定義了背板、電纜、光纜三種物理端口。

并定義了用于形成幀的符號(包的開始和結(jié)束)、數(shù)據(jù)符號(DataSymbols)、和數(shù)據(jù)包直接的填充(Idles)。詳細(xì)說明了構(gòu)建有效包的信令協(xié)議,如碼元編碼、成幀標(biāo)志排列、開始和結(jié)束定界符間的無效或非數(shù)據(jù)符號、非奇偶性錯(cuò)誤、同步方法等。

2、 鏈路層

鏈路層描述了數(shù)據(jù)包的格式和數(shù)據(jù)包操作的協(xié)議,如流量控制和子網(wǎng)內(nèi)數(shù)據(jù)包的路由。鏈路層有鏈路管理數(shù)據(jù)包和數(shù)據(jù)包兩種類型的數(shù)據(jù)包。

3、 網(wǎng)絡(luò)層

網(wǎng)絡(luò)層是子網(wǎng)間轉(zhuǎn)發(fā)數(shù)據(jù)包的協(xié)議,類似于IP網(wǎng)絡(luò)中的網(wǎng)絡(luò)層。實(shí)現(xiàn)子網(wǎng)間的數(shù)據(jù)路由,數(shù)據(jù)在子網(wǎng)內(nèi)傳輸時(shí)不需網(wǎng)絡(luò)層的參與。

數(shù)據(jù)包中包含全局路由頭GRH,用于子網(wǎng)間數(shù)據(jù)包路由轉(zhuǎn)發(fā)。全局路由頭部指明了使用IPv6地址格式的全局標(biāo)識符(GID)的源端口和目的端口,路由器基于GRH進(jìn)行數(shù)據(jù)包轉(zhuǎn)發(fā)。GRH采用IPv6報(bào)頭格式。GID由每個(gè)子網(wǎng)唯一的子網(wǎng) 標(biāo)示符和端口GUID捆綁而成。

4、 傳輸層

傳輸層負(fù)責(zé)報(bào)文的分發(fā)、通道多路復(fù)用、基本傳輸服務(wù)和處理報(bào)文分段的發(fā)送、接收和重組。傳輸層的功能是將數(shù)據(jù)包傳送到各個(gè)指定的隊(duì)列(QP)中,并指示隊(duì)列如何處理該數(shù)據(jù)包。當(dāng)消息的數(shù)據(jù)路徑負(fù)載大于路徑的最大傳輸單元(MTU)時(shí),傳輸層負(fù)責(zé)將消息分割成多個(gè)數(shù)據(jù)包。

接收端的隊(duì)列負(fù)責(zé)將數(shù)據(jù)重組到指定的數(shù)據(jù)緩沖區(qū)中。除了原始數(shù)據(jù)報(bào)外,所有的數(shù)據(jù)包都包含BTH,BTH指定目的隊(duì)列并指明操作類型、數(shù)據(jù)包序列號和分區(qū)信息。

5、上層協(xié)議

InfiniBand為不同類型的用戶提供了不同的上層協(xié)議,并為某些管理功能定義了消息和協(xié)議。InfiniBand主要支持SDP、SRP、iSER、RDS、IPoIB和uDAPL等上層協(xié)議。

  • SDP(SocketsDirect Protocol)是InfiniBand Trade Association (IBTA)制定的基于infiniband的一種協(xié)議,它允許用戶已有的使用TCP/IP協(xié)議的程序運(yùn)行在高速的infiniband之上。

  • SRP(SCSIRDMA Protocol)是InfiniBand中的一種通信協(xié)議,在InfiniBand中將SCSI命令進(jìn)行打包,允許SCSI命令通過RDMA(遠(yuǎn)程直接內(nèi)存訪問)在不同的系統(tǒng)之間進(jìn)行通信,實(shí)現(xiàn)存儲設(shè)備共享和RDMA通信服務(wù)。

  • iSER(iSCSIRDMA Protocol)類似于SRP(SCSI RDMA protocol)協(xié)議,是IB SAN的一種協(xié)議 ,其主要作用是把iSCSI協(xié)議的命令和數(shù)據(jù)通過RDMA的方式跑到例如Infiniband這種網(wǎng)絡(luò)上,作為iSCSI RDMA的存儲協(xié)議iSER已被IETF所標(biāo)準(zhǔn)化。

  • RDS(ReliableDatagram Sockets)協(xié)議與UDP 類似,設(shè)計(jì)用于在Infiniband 上使用套接字來發(fā)送和接收數(shù)據(jù)。實(shí)際是由Oracle公司研發(fā)的運(yùn)行在infiniband之上,直接基于IPC的協(xié)議。

  • IPoIB(IP-over-IB)是為了實(shí)現(xiàn)INFINIBAND網(wǎng)絡(luò)與TCP/IP網(wǎng)絡(luò)兼容而制定的協(xié)議,基于TCP/IP協(xié)議,對于用戶應(yīng)用程序是透明的,并且可以提供更大的帶寬,也就是原先使用TCP/IP協(xié)議棧的應(yīng)用不需要任何修改就能使用IPoIB。

  • uDAPL(UserDirect Access Programming Library)用戶直接訪問編程庫是標(biāo)準(zhǔn)的API,通過遠(yuǎn)程直接內(nèi)存訪問 RDMA功能的互連(如InfiniBand)來提高數(shù)據(jù)中心應(yīng)用程序數(shù)據(jù)消息傳送性能、伸縮性和可靠性。

IB應(yīng)用場景

Infiniband靈活支持直連及交換機(jī)多種組網(wǎng)方式,主要用于HPC高性能計(jì)算場景,大型數(shù)據(jù)中心高性能存儲等場景,HPC應(yīng)用的共同訴求是低時(shí)延(<10微秒)、低CPU占有率(<10%)和高帶寬(主流56或100Gbps)

一方面Infiniband在主機(jī)側(cè)采用RDMA技術(shù)釋放CPU負(fù)載,可以把主機(jī)內(nèi)數(shù)據(jù)處理的時(shí)延從幾十微秒降低到1微秒;另一方面InfiniBand網(wǎng)絡(luò)的高帶寬(40G、56G和100G)、低時(shí)延(幾百納秒)和無丟包特性吸取了FC網(wǎng)絡(luò)的可靠性和以太網(wǎng)的靈活擴(kuò)展能力。

這兩天了解了一些 parallel file system 比如 PVFS2/OrangeFS, Lustre,它們都聲稱支持 InfiniBand 網(wǎng)絡(luò)連接技術(shù),好奇之下查了下,發(fā)現(xiàn)這個(gè)技術(shù)規(guī)范很牛逼,另外也因此知道了 RDMA 技術(shù),指不通過 OS 內(nèi)核以及 TCP/IP 協(xié)議棧在網(wǎng)絡(luò)上傳輸數(shù)據(jù),因此延遲非常低,CPU 消耗非常少。

看起來 InfiniBand, FibreChannel, 10Gbps Ethernet 競爭的硝煙還有一陣日子可看。

RDMA 技術(shù)有好幾種規(guī)范來達(dá)到:

  • InfiniBand: 這是正統(tǒng),InfiniBand 設(shè)計(jì)之初就考慮了 RDMA,InfiniBand 從硬件級別保證可靠傳輸;

  • iWARP: 基于 TCP or SCTP 做 RDMA,利用 TCP or SCTP 達(dá)到可靠傳輸,對網(wǎng)絡(luò)設(shè)備的要求比較少;

  • RoCE: 基于 Ethernet 做 RDMA,消耗的資源比 iWARP 少,支持的特性比 iWARP 多,需要FCoE做可靠傳輸。從wikipedia的評價(jià)看 RoCE 還是比正統(tǒng)的 InfiniBand 差點(diǎn)。

上面三種實(shí)現(xiàn)都是需要硬件支持的,IB 需要支持 IB 規(guī)范的網(wǎng)卡和交換機(jī),iWARP 和 RoCE 都可以使用普通的以太網(wǎng)交換機(jī),但是需要支持 iWARP 或者 RoCE 的網(wǎng)卡。軟件上 Solaris、Linux、Windows 都有支持,在 API 層面這篇文章有個(gè)入門的介紹:Introduction to Remote Direct Memory Access (RDMA) ,可以使用http://www.openfabrics.org/提供的 libibverbs 庫(Debian Linux 有提供),這個(gè)庫似乎也支持 Windows 上的原聲 RDMA API "Network Direct"。另外也有一些其它 API 規(guī)范,比如 DAT 組織制定的 kDAPL(讓 kernel driver 可以訪問 RDMA 功能) 和 uDAPL(讓 user space 進(jìn)程可以訪問 RDMA 功能), OpenGroup 制定的 IT-API 和 RNICPI:

  • https://software.intel.com/en-us/articles/access-to-infiniband-from-linux

  • http://www.zurich.ibm.com/sys/rdma/interfaces.html

  • http://rdma.sourceforge.net/

另外 IETF 制定了 iSCSI Extensions for RDMA(iSER) 和 SDP(Sockets Direct Protocol, 基于 RDMA 替換 TCP 的流式傳輸層協(xié)議, RDMA 本身提供了可靠傳輸機(jī)制) 兩個(gè)協(xié)議。Java 7 引入了對 SDP 的支持: https://docs.oracle.com/javase/tutorial/sdp/sockets/index.html,Apache Qpid 消息隊(duì)列也支持 RDMA:https://packages.debian.org/sid/librdmawrap2 .





InfiniBand技術(shù)和協(xié)議架構(gòu)分析(一文解決~)的評論 (共 條)

分享到微博請遵守國家法律
岳阳县| 通渭县| 鄂托克旗| 峨眉山市| 邢台县| 邹平县| 巴塘县| 牡丹江市| 武冈市| 隆德县| 曲沃县| 吉安县| 洪江市| 苗栗县| 龙井市| 黔西县| 阿克苏市| 南和县| 深泽县| 公主岭市| 新郑市| 进贤县| 金门县| 东乡县| 瑞金市| 海伦市| 长治市| SHOW| 平安县| 永宁县| 玉溪市| 黄冈市| 松阳县| 读书| 富源县| 海阳市| 哈尔滨市| 青州市| 平乡县| 高雄县| 绵阳市|