最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

一文讀懂Docker網(wǎng)絡(luò)基礎(chǔ)-虛擬網(wǎng)絡(luò)設(shè)備對(veth)原理

2022-05-22 10:49 作者:補(bǔ)給站Linux內(nèi)核  | 我要投稿
  • 在容器化大行其道的今天,Docker 可謂是容器界的寵兒。比起笨重的虛擬機(jī),Docker 可謂是身輕如燕。當(dāng)然,本文不是介紹虛擬機(jī)與 Docker 之間的優(yōu)缺點,而是介紹 Docker 網(wǎng)絡(luò)中重要的組成部分之一:

虛擬網(wǎng)絡(luò)設(shè)備對:veth

  • 在介紹 veth 前,我們先來介紹一下 網(wǎng)絡(luò)命名空間(network namespace)。

網(wǎng)絡(luò)命名空間

  • 網(wǎng)絡(luò)命名空間 是 Linux 內(nèi)核用來隔離不同容器間的網(wǎng)絡(luò)資源(每個 Docker 容器都擁有一個獨立的網(wǎng)絡(luò)命名空間),網(wǎng)絡(luò)命名空間主要隔離的資源包括:

  1. iptables規(guī)則表

  2. 路由規(guī)則表

  3. 網(wǎng)絡(luò)設(shè)備列表

  • 如下圖所示,當(dāng)系統(tǒng)中擁有 3 個網(wǎng)絡(luò)命名空間:


  • 由于不同的網(wǎng)絡(luò)命名空間之間是相互隔離的,所以不同的網(wǎng)絡(luò)命名空間之間并不能直接通信。比如在 網(wǎng)絡(luò)命名空間A 配置了一個 IP 地址為 172.17.42.1 的設(shè)備,但在 網(wǎng)絡(luò)命名空間B 里卻不能訪問,如下圖所示:


  • 就好比兩臺電腦,如果沒有任何網(wǎng)線連接,它們之間是不能通信的。所以,Linux 內(nèi)核提供了 虛擬網(wǎng)絡(luò)設(shè)備對(veth) 這個功能,用于解決不同網(wǎng)絡(luò)命名空間之間的通信。

【文章福利】小編推薦自己的Linux內(nèi)核技術(shù)交流群:【891587639】整理了一些個人覺得比較好的學(xué)習(xí)書籍、視頻資料共享在群文件里面,有需要的可以自行添加哦?。?!前100名進(jìn)群領(lǐng)取,額外贈送一份價值699的內(nèi)核資料包(含視頻教程、電子書、實戰(zhàn)項目及代碼)? ??

?

虛擬網(wǎng)絡(luò)設(shè)備對(veth)

  • 虛擬網(wǎng)絡(luò)設(shè)備對 用于解決不同網(wǎng)絡(luò)命名空間之間的通信,可以將其看成是兩塊有網(wǎng)線連接的網(wǎng)卡。只要將其中一塊網(wǎng)卡放置到網(wǎng)絡(luò)命名空間A,另外一塊網(wǎng)卡放置到網(wǎng)絡(luò)命名空間B,那么兩個不同的網(wǎng)絡(luò)命名空間就能夠通信,如下圖所示:


  • 如上圖所示,veth0 與 veth1 組成一個虛擬網(wǎng)絡(luò)設(shè)備對。虛擬網(wǎng)絡(luò)設(shè)備對 就像管道一樣,只要向其中一端發(fā)送數(shù)據(jù),就可以從另外一端接收到數(shù)據(jù)。

  • Docker 就是使用 虛擬網(wǎng)絡(luò)設(shè)備對 來實現(xiàn)不同容器之間的通信,其原理如下圖:


  • 從上圖可以看出,每個容器之間并不是直接通過 虛擬網(wǎng)絡(luò)設(shè)備對 來進(jìn)行連接的,而是在主機(jī)上創(chuàng)建一個名為 docker0 的 網(wǎng)橋,然后通過 虛擬網(wǎng)絡(luò)設(shè)備對 來將各個容器連接到 網(wǎng)橋 上。網(wǎng)橋 有將多個 網(wǎng)絡(luò)設(shè)備 連接起來的能力,就如現(xiàn)實中的 交換機(jī) 一樣。

虛擬網(wǎng)絡(luò)設(shè)備對實現(xiàn)

  • 在 Linux 內(nèi)核中,使用 net_device 對象來表示一個網(wǎng)絡(luò)設(shè)備。由于 veth 提供雙向通信的功能,所以需要使用兩個 net_device 對象來實現(xiàn)。由于 net_device 對象比較龐大,所以這里只列出本文相關(guān)的字段:

struct net_device
{
 ? ?char name[IFNAMSIZ];
 ? ?...
 ? ?const struct net_device_ops *netdev_ops;
 ? ?...
}
  • 下面介紹一下這兩個字段的作用:

  1. name:用來存儲設(shè)備的名稱,如 eth0。

  2. netdev_ops:設(shè)備相關(guān)的操作接口列表,如初始化設(shè)備的接口、關(guān)閉設(shè)備的接口和發(fā)送數(shù)據(jù)的接口等。

  • 由于 veth 由兩個 net_device 對象組成的,所以這兩個 net_device 對象應(yīng)該有指向?qū)Ψ降闹羔?。但通過查閱代碼,并沒發(fā)現(xiàn)有指向?qū)Ψ降闹羔?,那么?nèi)核是怎么實現(xiàn) veth 的呢?

  • 雖然 Linux 內(nèi)核使用 net_device 對象來表示一個網(wǎng)絡(luò)設(shè)備,但由于不同廠商的網(wǎng)絡(luò)設(shè)備可能存在各種差異,所以為了讓 Linux 內(nèi)核能夠適應(yīng)各種網(wǎng)絡(luò)設(shè)備,故為不同的網(wǎng)絡(luò)設(shè)備提供私有數(shù)據(jù)的存儲空間。

  • 也就是說,一個網(wǎng)絡(luò)設(shè)備除了擁有 net_device 部分外,還有其私有數(shù)據(jù)部分。不同的網(wǎng)絡(luò)設(shè)備其私有數(shù)據(jù)部分不同,而網(wǎng)絡(luò)設(shè)備的私有數(shù)據(jù)部分存一般放在 net_device 對象的結(jié)束位置,如下圖所示:


  • 上圖展示了 PCMCIA網(wǎng)卡 和 RTL-8139網(wǎng)卡 對應(yīng)的私有數(shù)據(jù)部分存儲的位置,PCMCIA網(wǎng)卡 的私有數(shù)據(jù)部分對應(yīng)的是 pcnet_dev_t 結(jié)構(gòu),而 RTL-8139網(wǎng)卡 的私有數(shù)據(jù)部分對應(yīng)的是 rtl8139_private 結(jié)構(gòu)。

  • 回到我們的主題,虛擬網(wǎng)絡(luò)設(shè)備對 的私有數(shù)據(jù)部分由 veth_priv 結(jié)構(gòu)表示,其定義如下:

struct veth_priv {
 ? ?struct net_device *peer;
 ? ?struct veth_net_stats *stats;
 ? ?...
};
  • 下面介紹一下 veth_priv 結(jié)構(gòu)各個字段的作用:

  1. peer:由于 虛擬網(wǎng)絡(luò)設(shè)備對 是由一對網(wǎng)絡(luò)設(shè)備組成,所以此字段用于指向設(shè)備對的另外一個設(shè)備。

  2. stats:用于保存統(tǒng)計信息。

  • 從 veth_priv 結(jié)構(gòu)可以看出,虛擬網(wǎng)絡(luò)設(shè)備對 所屬的兩個設(shè)備對象是由 peer 字段來關(guān)聯(lián)起來的,如下圖所示:


1. 創(chuàng)建虛擬網(wǎng)絡(luò)設(shè)備對

  • 當(dāng)使用 ip 命令創(chuàng)建一對 虛擬網(wǎng)絡(luò)設(shè)備對 時,會觸發(fā)調(diào)用 veth_newlink 函數(shù)來完成創(chuàng)建工作,其實現(xiàn)如下:

static int
veth_newlink(struct net_device *dev, struct nlattr *tb[], struct nlattr *data[])
{
 ? ?int err;
 ? ?struct net_device *peer;
 ? ?struct veth_priv *priv;
 ? ?char ifname[IFNAMSIZ];
 ? ?...

 ? ?// 由于虛擬網(wǎng)絡(luò)設(shè)備對是由兩個網(wǎng)絡(luò)設(shè)備組成,
 ? ?// dev 是虛擬網(wǎng)絡(luò)設(shè)備對的其中一個網(wǎng)絡(luò)設(shè)備,
 ? ?// 所以需要調(diào)用 rtnl_create_link() 函數(shù)創(chuàng)建的另外一個網(wǎng)絡(luò)設(shè)備并保存到 peer 變量中.
 ? ?peer = rtnl_create_link(dev_net(dev), ifname, &veth_link_ops, tbp);
 ? ?...

 ? ?priv = netdev_priv(dev); ?// 獲取 dev 的私有數(shù)據(jù)部分
 ? ?priv->peer = peer; ? ? ? ?// 將其 peer 字段指向 peer

 ? ?priv = netdev_priv(peer); // 獲取 peer 的私有數(shù)據(jù)部分
 ? ?priv->peer = dev; ? ? ? ? // 將其 peer 字段指向 dev

 ? ?return 0;
}
  • 上面代碼經(jīng)過精簡后,保留了主要邏輯,所以 veth_newlink 主要完成以下工作:

  1. 由于虛擬網(wǎng)絡(luò)設(shè)備對是由兩個網(wǎng)絡(luò)設(shè)備組成,而 dev 是虛擬網(wǎng)絡(luò)設(shè)備對的其中一個網(wǎng)絡(luò)設(shè)備,所以需要調(diào)用 rtnl_create_link 函數(shù)創(chuàng)建的另外一個網(wǎng)絡(luò)設(shè)備,并保存到 peer 變量中。

  2. 將其 dev 設(shè)備對象的 peer 字段指向 peer 設(shè)備對象。

  3. 將其 peer 設(shè)備對象的 peer 字段指向 dev 設(shè)備對象。

  • 就這樣,一對 虛擬網(wǎng)絡(luò)設(shè)備對 的創(chuàng)建就完成了。

2. 初始化虛擬網(wǎng)絡(luò)設(shè)備對

  • 當(dāng)然,在創(chuàng)建 虛擬網(wǎng)絡(luò)設(shè)備對 時還需要對其進(jìn)行初始化,初始化過程由 veth_setup 函數(shù)完成,其實現(xiàn)如下:

static const struct net_device_ops veth_netdev_ops = {
 ? ?...
 ? ?.ndo_start_xmit = veth_xmit,
 ? ?...
};

static void veth_setup(struct net_device *dev)
{
 ? ?...
 ? ?dev->netdev_ops = &veth_netdev_ops;
 ? ?...
}
  • 在初始化 虛擬網(wǎng)絡(luò)設(shè)備對 時,最重要的是設(shè)置其操作函數(shù)集。而 net_device_ops 結(jié)構(gòu)是網(wǎng)絡(luò)設(shè)備的操作函數(shù)集結(jié)構(gòu),當(dāng)向設(shè)備發(fā)送數(shù)據(jù)時,將會觸發(fā)調(diào)用設(shè)備操作函數(shù)集的 ndo_start_xmit 方法。

  • 而 veth_setup 函數(shù)將此方法設(shè)置為 veth_xmit,也就是說,當(dāng)向 虛擬網(wǎng)絡(luò)設(shè)備對 的其中一端發(fā)送數(shù)據(jù)時,將會調(diào)用 veth_xmit 函數(shù)來發(fā)送數(shù)據(jù)。

3. 向虛擬網(wǎng)絡(luò)設(shè)備對發(fā)送數(shù)據(jù)

  • 當(dāng)向 虛擬網(wǎng)絡(luò)設(shè)備對 的其中一端發(fā)送數(shù)據(jù)時,將會調(diào)用 veth_xmit 函數(shù)來完成發(fā)送過程,其實現(xiàn)如下:

static netdev_tx_t veth_xmit(struct sk_buff *skb, struct net_device *dev)
{
 ? ?struct net_device *rcv = NULL;
 ? ?struct veth_priv *priv, *rcv_priv;
 ? ?...

 ? ?// 獲取發(fā)送數(shù)據(jù)設(shè)備的對端設(shè)備
 ? ?priv = netdev_priv(dev); 
 ? ?rcv = priv->peer;
 ? ?...

 ? ?skb->tstamp.tv64 = 0;
 ? ?skb->pkt_type = PACKET_HOST;
 ? ?// 將數(shù)據(jù)包的接收設(shè)備設(shè)置為對端設(shè)備
 ? ?skb->protocol = eth_type_trans(skb, rcv);
 ? ?...

 ? ?// 將數(shù)據(jù)包上送給內(nèi)核協(xié)議棧
 ? ?netif_rx(skb);

 ? ?return NETDEV_TX_OK;
}
  • 我們先來介紹一下 veth_xmit 函數(shù)各個參數(shù)的意義:

  1. skb:要發(fā)送的數(shù)據(jù)包對象。

  2. dev:發(fā)送數(shù)據(jù)的設(shè)備。

  • veth_xmit 函數(shù)的實現(xiàn)比較簡單,主要完成以下工作:

  1. 獲取發(fā)送數(shù)據(jù)設(shè)備的對端設(shè)備。

  2. 將數(shù)據(jù)包的接收設(shè)備設(shè)置為對端設(shè)備。

  3. 將數(shù)據(jù)包上送給內(nèi)核協(xié)議棧。

  • 我們通過下圖來展示發(fā)送數(shù)據(jù)的過程:


  • 如上圖所示,當(dāng)一個數(shù)據(jù)包從 虛擬網(wǎng)絡(luò)設(shè)備對 的一端發(fā)送出去,會從其另外一端被接收,并上送到內(nèi)核協(xié)議棧處理。

總結(jié)

由于 虛擬網(wǎng)絡(luò)設(shè)備對 的出現(xiàn),解決了容器間的通信問題。而本文主要分析了 虛擬網(wǎng)絡(luò)設(shè)備對 的實現(xiàn)原理.




一文讀懂Docker網(wǎng)絡(luò)基礎(chǔ)-虛擬網(wǎng)絡(luò)設(shè)備對(veth)原理的評論 (共 條)

分享到微博請遵守國家法律
临洮县| 台南县| 桓台县| 抚松县| 轮台县| 武定县| 吉安市| 尼玛县| 东港市| 海阳市| 宜兴市| 凤冈县| 偃师市| 读书| 永胜县| 探索| 利津县| 班戈县| 六枝特区| 康平县| 花莲县| 岑溪市| 淮滨县| 吴旗县| 通山县| 临澧县| 昌都县| 湛江市| 印江| 香港| 庄河市| 同江市| 金川县| 西宁市| 宾川县| 枣强县| 会理县| 屏东市| 松溪县| 温泉县| 南京市|