動手實驗+源碼分析,徹底弄懂 Linux 網(wǎng)絡(luò)命名空間
在 Linux 上通過 veth 我們可以創(chuàng)建出許多的虛擬設(shè)備。通過 Bridge 模擬以太網(wǎng)交換機(jī)的方式可以讓這些網(wǎng)絡(luò)設(shè)備之間進(jìn)行通信。不過虛擬化中還有很重要的一步,那就是隔離。借用 Docker 的概念來說,那就是不能讓 A 容器用到 B 容器的設(shè)備,甚至連看一眼都不可以。只有這樣才能保證不同的容器之間復(fù)用硬件資源的同時,還不會影響其它容器的正常運行。
在 Linux 上實現(xiàn)隔離的技術(shù)手段就是 namespace。通過 namespace 可以隔離容器的進(jìn)程 PID、文件系統(tǒng)掛載點、主機(jī)名等多種資源。不過我們今天重點要介紹的是網(wǎng)絡(luò) namespace,簡稱 netns。它可以為不同的命名空間從邏輯上提供獨立的網(wǎng)絡(luò)協(xié)議棧,具體包括網(wǎng)絡(luò)設(shè)備、路由表、arp表、iptables、以及套接字(socket)等。使得不同的網(wǎng)絡(luò)空間就都好像運行在獨立的網(wǎng)絡(luò)中一樣。

你是不是也很好奇 Linux 底層到底是如何實現(xiàn)網(wǎng)絡(luò)隔離的?我們今天來好好挖一挖 netns 的內(nèi)部實現(xiàn)。
一、如何使用 netns
由于我們平時的開發(fā)工作很少涉及網(wǎng)絡(luò)空間,所以我們先來看一下網(wǎng)絡(luò)空間是如何使用的吧。我們來創(chuàng)建一個新的命名空間net1。再創(chuàng)建一對兒 veth,將 veth 的一頭放到 net1 中。分別查看一下母機(jī)和 net1 空間內(nèi)的 iptable、設(shè)備等。最后讓兩個命名空間之間進(jìn)行通信。

下面是詳細(xì)的使用過程。首先我們先來創(chuàng)建一個新的網(wǎng)絡(luò)命名空間 - net1。
來查看一下它的 iptable、路由表、以及網(wǎng)絡(luò)設(shè)備
由于是新創(chuàng)建的 netns,所以上述的輸出中路由表、iptable規(guī)則都是空的。不過這個命名空間中初始的情況下就存在一個 lo 本地環(huán)回設(shè)備,只不過默認(rèn)是 DOWN(未啟動)狀態(tài)。
接下來我們創(chuàng)建一對兒 veth,并把 veth 的一頭添加給它。
在母機(jī)上查看一下當(dāng)前的設(shè)備,發(fā)現(xiàn)已經(jīng)看不到 veth1 這個網(wǎng)卡設(shè)備了,只能看到 veth1_p。
這個新設(shè)備已經(jīng)跑到 net1 這個網(wǎng)絡(luò)空間里了。
把這對兒 veth 分別配置上 ip,并把它們啟動起來
在母機(jī)和 net1 中分別執(zhí)行 ifconfig 查看當(dāng)前啟動的網(wǎng)絡(luò)設(shè)備。
我們來讓它和母機(jī)通信一下試試。
好了,現(xiàn)在一個新網(wǎng)絡(luò)命名空間創(chuàng)建實驗就結(jié)束了。在這個空間里,網(wǎng)絡(luò)設(shè)備、路由表、arp表、iptables都是獨立的,不會和母機(jī)上的沖突,也不會和其它空間里的產(chǎn)生干擾。而且還可以通過 veth 來和其它空間下的網(wǎng)絡(luò)進(jìn)行通信。
【文章福利】小編推薦自己的Linux內(nèi)核技術(shù)交流群:【891587639】整理了一些個人覺得比較好的學(xué)習(xí)書籍、視頻資料共享在群文件里面,有需要的可以自行添加哦?。。。ê曨l教程、電子書、實戰(zhàn)項目及代碼)? ??


二、內(nèi)核中 namespace 的定義
在內(nèi)核中,很多組件都是和 namespace 有關(guān)系的,我們先來看看這個關(guān)聯(lián)關(guān)系是如何定義的。后面我們再看下 namespace 本身的詳細(xì)結(jié)構(gòu)。
2.1 歸屬到 namespace 的東東
在 Linux 中,很多我們平常熟悉的概念都是歸屬到某一個特定的網(wǎng)絡(luò) namespace 中的,比如進(jìn)程、網(wǎng)卡設(shè)備、socket 等等。
Linux 中每個進(jìn)程(線程)都是用 task_struct 來表示的。每個 task_struct 都要關(guān)聯(lián)到一個 namespace 對象 nsproxy,而 nsproxy 又包含了 netns。對于網(wǎng)卡設(shè)備和 socket 來說,通過自己的成員來直接表明自己的歸屬。

拿網(wǎng)絡(luò)設(shè)備來舉例,只有歸屬到當(dāng)前 netns 下的時候才能夠通過 ifconfig 看到,否則是不可見的。我們詳細(xì)來看看這幾個數(shù)據(jù)結(jié)構(gòu)的定義,先來看進(jìn)程。
命名空間的核心數(shù)據(jù)結(jié)構(gòu)是上面的這個 struct nsproxy。所有類型的 namespace(包括 pid、文件系統(tǒng)掛載點、網(wǎng)絡(luò)棧等等)都是在這里定義的。
其中 struct net *net_ns 就是今天我們要討論的網(wǎng)絡(luò)命名空間。它的詳細(xì)定義我們待會再說。我們接著再看表示網(wǎng)絡(luò)設(shè)備的 struct net_device,它也是要歸屬到某一個網(wǎng)絡(luò)空間下的。
所有的網(wǎng)絡(luò)設(shè)備剛創(chuàng)建出來都是在宿主機(jī)默認(rèn)網(wǎng)絡(luò)空間下的??梢酝ㄟ^ip link set 設(shè)備名 netns 網(wǎng)絡(luò)空間名將設(shè)備移動到另外一個空間里去。前面的實驗里,當(dāng) veth 1 移動到 net1 下的時候,該設(shè)備在宿主機(jī)下“消失”了,在 net1 下就能看到了。
還有我們經(jīng)常用的 socket,也是歸屬在某一個網(wǎng)絡(luò)命名空間下的。
2.2 網(wǎng)絡(luò) namespace 定義
本小節(jié)中,我們來看網(wǎng)絡(luò) namespace 的主要數(shù)據(jù)結(jié)構(gòu) struct net 的定義。

可見每個 net 下都包含了自己的路由表、iptable 以及內(nèi)核參數(shù)配置等等。我們來看具體的代碼。
由上述定義可見,每一個 netns 中都有一個 loopback_dev,這就是為什么我們在第一節(jié)中看到剛創(chuàng)建出來的空間里就能看到一個 lo 設(shè)備的底層原因。
網(wǎng)絡(luò) netspace 中最核心的數(shù)據(jù)結(jié)構(gòu)是 struct netns_ipv4 ipv4。在這個數(shù)據(jù)結(jié)構(gòu)里,定義了每一個網(wǎng)絡(luò)空間專屬的路由表、ipfilter 以及各種內(nèi)核參數(shù)。
三、網(wǎng)絡(luò) namespace 的創(chuàng)建
回顧第一小節(jié)中,我們實驗步驟主要是創(chuàng)建了一個 netns,為其添加了一個 veth 設(shè)備。在這節(jié)中我們來窺探一下剛才的實驗步驟內(nèi)部到底是如何運行的。
3.1 進(jìn)程與網(wǎng)絡(luò)命名空間
Linux 上存在一個默認(rèn)的網(wǎng)絡(luò)命名空間,Linux 中的 1 號進(jìn)程初始使用該默認(rèn)空間。Linux 上其它所有進(jìn)程都是由 1 號進(jìn)程派生出來的,在派生 clone 的時候如果沒有額外特別指定,所有的進(jìn)程都將共享這個默認(rèn)網(wǎng)絡(luò)空間。

在 clone 里可以指定創(chuàng)建新進(jìn)程時的 flag,都是 CLONE_ 開頭的。和 namespace 有的的標(biāo)志位有 CLONE_NEWIPC、CLONE_NEWNET、CLONE_NEWNS、CLONE_NEWPID 等等。如果在創(chuàng)建進(jìn)程時指定了 CLONE_NEWNET 標(biāo)記位,那么該進(jìn)程將會創(chuàng)建并使用新的 netns。
其實內(nèi)核提供了三種操作命名空間的方式,分別是 clone、setns 和 unshare。本文中我們只用 clone 來舉例,ip netns add 使用的是 unshare,原理和 clone 是類似的。

我們先來看下默認(rèn)的網(wǎng)絡(luò)命名空間的初始化過程。
上面的代碼是在初始化第 1 號進(jìn)程??梢?nsproxy 是已經(jīng)創(chuàng)建好的 init_nsproxy。再看 init_nsproxy 是如何創(chuàng)建的。
初始的 init_nsproxy 里將多個命名空間都進(jìn)行了初始化,其中我們關(guān)注的網(wǎng)絡(luò)命名空間,用的是默認(rèn)網(wǎng)絡(luò)空間 init_net。它是系統(tǒng)初始化的時候就創(chuàng)建好的。
上面的 setup_net 方法中對這個默認(rèn)網(wǎng)絡(luò)命名空間進(jìn)行初始化。
看到這里我們清楚了 1 號進(jìn)程的命名空間初始化過程。Linux 中所有的進(jìn)程都是由這個 1 號進(jìn)程創(chuàng)建的。如果創(chuàng)建子進(jìn)程過程中沒有指定 CLONE_NEWNET 這個 flag 的話,就直接還使用這個默認(rèn)的網(wǎng)絡(luò)空間。
如果創(chuàng)建進(jìn)程過程中指定了 CLONE_NEWNET,那么就會重新申請一個網(wǎng)絡(luò)命名空間出來。見如下的關(guān)鍵函數(shù) copy_net_ns(它的調(diào)用鏈?zhǔn)?do_fork => copy_process => copy_namespaces => create_new_namespaces => copy_net_ns)。
記住 setup_net 是初始化網(wǎng)絡(luò)命名空間的,這個函數(shù)接下來我們還會提到。
3.2 命名空間內(nèi)的網(wǎng)絡(luò)子系統(tǒng)初始化
命名空間內(nèi)的各個組件都是在 setup_net 時初始化的,包括路由表、tcp 的 proc 偽文件系統(tǒng)、iptable 規(guī)則讀取等等,所以這個小節(jié)也是蠻重要的。
由于內(nèi)核網(wǎng)絡(luò)模塊的復(fù)雜性,在內(nèi)核中將網(wǎng)絡(luò)模塊劃分成了各個子系統(tǒng)。每個子系統(tǒng)都定義了一個
各個子系統(tǒng)通過調(diào)用 register_pernet_subsys 或 register_pernet_device 將其初始化函數(shù)注冊到網(wǎng)絡(luò)命名空間系統(tǒng)的全局鏈表 pernet_list 中。你在源碼目錄下用這兩個函數(shù)搜索的話,會看到各個子系統(tǒng)的注冊過程。

拿 register_pernet_subsys 來舉例,我們來簡單看下它是如何將子系統(tǒng)都注冊到 pernet_list 中的。
register_pernet_operations 又會調(diào)用 __register_pernet_operations。
在上面 list_add_tail 這一行,完成了將子系統(tǒng)傳入的 struct pernet_operations *ops 鏈入到 pernet_list 中。并注意一下,for_each_net 是遍歷了所有的網(wǎng)絡(luò)命名空間,然后在這個空間內(nèi)執(zhí)行了 ops_init 初始化。
這個初始化是網(wǎng)絡(luò)子系統(tǒng)在注冊的時候調(diào)用的。同樣當(dāng)新的命名空間創(chuàng)建時,會遍歷該全局變量 pernet_list,執(zhí)行每個子模塊注冊上來的初始化函數(shù)。再回到我們 3.1.1 里提到的 setup_net 函數(shù)。
在創(chuàng)建新命名空間調(diào)用到 setup_net 時,會通過 pernet_list 找到所有的網(wǎng)絡(luò)子系統(tǒng),把它們都 init 一遍。
我們拿路由表來舉例,路由表子系統(tǒng)通過 register_pernet_subsys 將 fib_net_ops 注冊進(jìn)來了。
這樣每當(dāng)創(chuàng)建一個新的命名空間的時候,就會調(diào)用 fib_net_init 來創(chuàng)建一套獨立的路由規(guī)則。
再比如拿 iptable 中的 nat 表來說,也是一樣。每當(dāng)創(chuàng)建新命名空間的時候,就會調(diào)用 iptable_nat_net_init 創(chuàng)建一套新的表。
3.3 添加設(shè)備
在一個設(shè)備剛剛創(chuàng)建出來的時候,它是屬于默認(rèn)網(wǎng)絡(luò)命名空間 init_net 的,包括 veth 設(shè)備。不過可以在創(chuàng)建完后修改設(shè)備到新的網(wǎng)絡(luò)命名空間。

拿 veth 設(shè)備來舉例,它是在創(chuàng)建時的源碼 alloc_netdev_mqs 中設(shè)置到 init_net 上的。(執(zhí)行代碼路徑:veth_newlink => rtnl_create_link => alloc_netdev_mqs)
在執(zhí)行 修改設(shè)備所屬的 namespace 的時候,會將 dev->nd_net 再指向新的 netns。對于 veth 來說,它包含了兩個設(shè)備。這兩個設(shè)備可以放在不同的 namespace 中。這就是 Docker 容器和其母機(jī)或者其它容器通信的基礎(chǔ)。
四、在 namespace 下的網(wǎng)絡(luò)收發(fā)
在前面一節(jié)中,我們知道了內(nèi)核是如何創(chuàng)建 netns 出來,也了解了網(wǎng)絡(luò)設(shè)備是如何添加到其它命名空間里的。在這一小節(jié),我們聊聊,當(dāng)考慮到網(wǎng)絡(luò)命名空間的時候,網(wǎng)絡(luò)包的收發(fā)又是怎么樣的呢?
4.1 socket 與網(wǎng)絡(luò)命名空間
首先來考慮的就是我們熟悉的 socket。其實每個 socket 都是歸屬于某一個網(wǎng)絡(luò)命名空間的,這個關(guān)聯(lián)關(guān)系在上面的 2.1 小節(jié)提到過。
到底歸屬那個 netns,這是由創(chuàng)建這個 socket 的進(jìn)程所屬的 netns 來決定。當(dāng)在某個進(jìn)程里創(chuàng)建 socket 的時候,內(nèi)核就會把當(dāng)前進(jìn)程的 nsproxy->net_ns 找出來,并把它賦值給 socket 上的網(wǎng)絡(luò)命名空間成員 skc_net。
在默認(rèn)下,我們創(chuàng)建的 socket 都屬于默認(rèn)的網(wǎng)絡(luò)命名空間 init_net

我們來展開看下 socket 是如何被放到某個網(wǎng)絡(luò)命名空間中的。在 socket 中,用來保存和網(wǎng)絡(luò)命名空間歸屬關(guān)系的變量是 skc_net,如下。
接下來就是 socket 創(chuàng)建的時候,內(nèi)核中可以通過 current->nsproxy->net_ns 把當(dāng)前進(jìn)程所屬的 netns 找出來,最終把 socket 中的 sk_net 成員和該命名空間建立好了聯(lián)系。
在 socket_create 中,看到 current->nsproxy->net_ns 了吧,它獲取到了進(jìn)程的 netns。再依次經(jīng)過__sock_create => inet_create => sk_alloc,調(diào)用到 sock_net_set 的時候,成功設(shè)置了新 socket 和 netns 的關(guān)聯(lián)關(guān)系。
4.2 網(wǎng)絡(luò)包的收發(fā)過程
網(wǎng)絡(luò)包的接收我們在這篇文章里詳細(xì)介紹過,圖解Linux網(wǎng)絡(luò)包接收過程
本小節(jié)的不再重復(fù)贅述這個收發(fā)過程,我們就以網(wǎng)絡(luò)包發(fā)送過程中的路由功能為例,來看一下網(wǎng)絡(luò)在傳輸?shù)臅r候是如何使用到 netns 的。其它收發(fā)過程中的各個步驟也都是類似的。

大致的原理就是 socket 上記錄了其歸屬的網(wǎng)絡(luò)命名空間。需要查找路由表之前先找到該命名空間,再找到命名空間里的路由表,然后再開始執(zhí)行查找。這樣,各個命名空間中的路由過程就都隔離開了。
我們來看詳細(xì)的路由查找源碼。
注意上面的 sock_net(sk) 這一步,在這里將 socket 上記錄的命名空間 struct net *sk_net 給找了出來。
找到命名空間以后,就會將它(以 struct net * 指針的形式)一路透傳到后面的各個函數(shù)中。路由查找最后會執(zhí)行到 fib_lookup,我們來看下這個函數(shù)的源碼。
路由查找的調(diào)用鏈條有點長,是 ip_route_output_ports => ->ip_route_output_flow => __ip_route_output_key() => ip_route_output_key_hash => ip_route_output_key_hash_rcu)
由上述代碼可見,在路由過程中是根據(jù)前面步驟中確定好的命名空間 struct net *net 來查找路由項的。不同的命名空間有不同的 net 變量,所以不同的 netns 中自然也就可以配置不同的路由表了。
網(wǎng)絡(luò)收發(fā)過程中其它步驟也是類似的,涉及到需要隔離的地方,都是通過命名空間( struct net *) 去查找的。
五、結(jié)論
Linux 的網(wǎng)絡(luò) namespace 實現(xiàn)了獨立協(xié)議棧的隔離。這個說法其實不是很準(zhǔn)確,內(nèi)核網(wǎng)絡(luò)代碼只有一套,并沒有隔離。
它是通過為不同空間創(chuàng)建不同的 struct net 對象。每個 struct net 中都有獨立的路由表、iptable 等數(shù)據(jù)結(jié)構(gòu)。每個設(shè)備、每個 socket 上也都有指針指明自己歸屬那個 netns。通過這種方法從邏輯上看起來好像是真的有多個協(xié)議棧一樣。

這樣,就為一臺物理上創(chuàng)建出多個邏輯上的協(xié)議棧,為 Docker 容器的誕生提供了可能。

在上面的示例中,Docker1 和 Docker2 都可以分別擁有自己獨立的網(wǎng)卡設(shè)備,配置自己的路由規(guī)則、iptable。從而使得他們的網(wǎng)絡(luò)功能不會相互影響。
怎么樣,今天是不是對網(wǎng)絡(luò) namespace 理解更深了呢?轉(zhuǎn)發(fā) 給你的朋友們也一起來學(xué)學(xué)吧~~~
