超長干貨丨Kubernetes網(wǎng)絡快速入門完全指南

Kubernetes網(wǎng)絡一直是一個非常復雜的主題。本文將介紹Kubernetes實際如何創(chuàng)建網(wǎng)絡以及如何為Kubernetes集群設置網(wǎng)絡。
本文不包括如何設置Kubernetes集群。這篇文章中的所有例子都將使用Rancher 2.0集群(其他平臺也同樣適用)。即使你打算使用其他的公有云管理Kubernetes服務,也希望你對Kubernetes網(wǎng)絡的工作原理有更好的了解。
如何使用Kubernetes網(wǎng)絡
許多Kubernetes部署指南中包含了在K8S部署中部署Kubernetes網(wǎng)絡CNI的說明。但是如果你的K8S集群已經(jīng)運行,并且尚未部署任何網(wǎng)絡,那么部署網(wǎng)絡就像在K8S上運行其提供的配置文件一樣簡單(對于大多數(shù)網(wǎng)絡和基本用例而言)。例如,要部署flannel:

這樣,從網(wǎng)絡的角度來看,K8S已經(jīng)可以使用。為了測試一切是否正常,我們創(chuàng)建了兩個Pod。

這將創(chuàng)建兩個pod,它們正在使用我們的驅(qū)動器。查看其中一個容器,我們發(fā)現(xiàn)網(wǎng)絡的IP地址范圍為10.42.0.0/24。

在另一個Pod進行的快速ping測試表明,網(wǎng)絡運行正常。

與Docker網(wǎng)絡相比,Kubernetes網(wǎng)絡如何工作?
Kubernetes通過Docker之上的CNI管理網(wǎng)絡,并將設備附加到Docker。盡管有Docker Swarm的Docker也具有自己的聯(lián)網(wǎng)功能(例如overlay、macvlan、bridging等),但CNI也提供了類似類型的功能。
還有一點十分重要,K8S并不使用docker0(這是Docker的默認網(wǎng)橋),而是創(chuàng)建自己的網(wǎng)橋,名為cbr0,該網(wǎng)橋需要與docker0區(qū)分開來。
為什么我們需要Overlay網(wǎng)絡?
諸如vxlan或ipsec之類的overlay網(wǎng)絡可以將數(shù)據(jù)包封裝到另一個數(shù)據(jù)包中。這使得實體在另一臺計算機的范圍之外依舊可以尋址。Overlay網(wǎng)絡的替代方案包括如macvtap(lan)之類的L3解決方案,甚至包括ivtap(lan)之類的L2解決方案,但是這些方案具有一定的局限性。
L2或L3上的任何解決方案都可以讓pod在網(wǎng)絡上尋址。這意味著pod不僅在Docker網(wǎng)絡內(nèi)部訪問,還能直接從Docker網(wǎng)絡外部訪問。這些是公共IP地址或私有IP地址。
然而,在L2上進行通信比較麻煩,并且你的經(jīng)驗會因為網(wǎng)絡設備而異。某些交換機需要一些時間來注冊你的Mac地址,然后才能將其實際連接到網(wǎng)絡的其余部分。你還可能會遇到一些麻煩,因為系統(tǒng)中其他主機的neighbor(ARP) table仍在過時的緩存上運行,并且始終需要使用dhcp運行而不是host-local,這樣可以避免主機之間的ip沖突。Mac地址和neighbor table問題是諸如ipvlan之類的解決方案存在的原因。這些解決方案不會注冊新的mac地址,而是在現(xiàn)有地址上路由流量(盡管它們也有自己的問題)。
因此,我的建議是,對于大多數(shù)用戶而言,將overlay網(wǎng)絡作為默認解決方案應該足夠了。但是,一旦工作負載變得更加高級并提出了更具體的要求,你將需要考慮其他的解決方案,如BGP和直接路由。
Kubernetes網(wǎng)絡如何工作?
在Kubernetes中首先要了解的是,pod實際上并不等同于容器,而是容器的集合。在同一集合的容器中共享一個網(wǎng)絡堆棧。Kubernetes通過在暫停容器上設置網(wǎng)絡來進行管理,你可以在你所創(chuàng)建的每個pod中找到這些暫停容器。所有其他pod都連接到暫停容器的網(wǎng)絡,該容器本身除了提供網(wǎng)絡外不執(zhí)行任何操作。因此,也可以使一個容器通過localhost與不同容器中的服務進行通信,此時該容器具有相同pod的相同定義。
除了本地通信之外,pod之間的通信看起來與Docker網(wǎng)絡中的container-to-container通信幾乎相同。
Kubernetes流量路由
我將以兩種場景為例,詳細地說明如何在Pod之間路由流量。
1、 在同一主機上路由流量:
在兩種情況下,流量不會離開主機。一是當調(diào)用的服務在同一節(jié)點上運行,一是單個pod中的同一個容器集合。
如果從第一個pod中的容器1調(diào)用localhost:80并在容器2中運行服務,則流量將通過網(wǎng)絡設備并將數(shù)據(jù)包轉發(fā)到其他目的地。在這種情況下,路由流量的路線很短。
如果我們想要與其他pod進行通信,時間會更長一些。首先,流量將傳遞到cbr0,接下來cbr0將會注意到我們在同一個子網(wǎng)通信,因此它會將流量轉發(fā)到目標Pod,過程如下圖所示:

2、 跨主機路由流量:
當我們離開節(jié)點時,這將變得更加復雜?,F(xiàn)在,cbr0會將流量傳遞到下一個節(jié)點,該節(jié)點的配置由CNI管理。這些基本上只是以目標主機為網(wǎng)關的子網(wǎng)路由。然后,目標主機可以繼續(xù)使用自己的cbr0并將流量轉發(fā)到目標容器,如下所示:

究竟什么是CNI?
CNI是Container Networking Interface(容器網(wǎng)絡接口)的縮寫,基本上是一個具有定義明確的外部接口,Kubernetes可以調(diào)用它來提供網(wǎng)絡功能。
你可以在以下鏈接中找到維護的參考插件,其中包括容器網(wǎng)絡官方repo中的大多數(shù)重要插件:
https://github.com/containernetworking/plugins
CNI 3.1版不是很復雜。它包含三個必需的功能,ADD、DEL和VERSION,這些功能可以盡其所能管理網(wǎng)絡。有關每個函數(shù)應返回和傳遞的內(nèi)容的更詳細說明,您可以在此處閱讀規(guī)范:
https://github.com/containernetworking/cni/blob/master/SPEC.md
CNI之間的區(qū)別
以下我們將介紹一些最受歡迎的CNI:
Flannel
Flannel是一個簡單的網(wǎng)絡,并且是overlay網(wǎng)絡最簡單的設置選項。它的功能包括原生網(wǎng)絡,但在多個網(wǎng)絡中使用時會受到限制。對于大多數(shù)用戶來說,F(xiàn)lannel是Canal下面的默認網(wǎng)絡,部署起來非常簡單,甚至還有本地網(wǎng)絡功能,如主機網(wǎng)關。但是Flannel有一些限制,包括缺乏對網(wǎng)絡安全策略的支持以及沒有多網(wǎng)絡的功能。
Calico
Calico與Flannel采用不同的方法,從技術的角度來說,它不是overlay網(wǎng)絡,而是在所有相關系統(tǒng)之間配置路由的系統(tǒng)。為此,Calico利用邊界網(wǎng)關協(xié)議(BGP),它在名為peering的過程中用于Internet。其中每方peering交換流量并參與BGP網(wǎng)絡。BGP協(xié)議本身會在其ASN下傳播路由,不同之處在于它們是私有的,不需要再RIPE中注冊它們。
但是,在某些情況下,Calico可與overlay網(wǎng)絡配合使用,如IPINIP。當節(jié)點位于不同網(wǎng)絡上時使用,以便啟動兩個主機之間的流量交換。
Canal
Canal基于Flannel,但有一些Calico自己的組件,例如felix(主機代理),它可以利用網(wǎng)絡安全策略。這些通常在Flannel中不存在。因此,它基本上通過添加安全策略來擴展Flannel。
Multus
Multus是一個CNI,但實際上它本身并不是網(wǎng)絡接口。只是它編排了多個接口,并且沒有配置實際的網(wǎng)絡,因而Pod無法單獨與Multus通信。實際上,Multus是多設備和多子網(wǎng)網(wǎng)絡的推動者。下圖顯示了它是如何工作的,Multus本身基本上調(diào)用了真正的CNI而不是kubelet,并將結果傳遞回kubelet。

Kube-Router
同樣值得一提的是kube-router,與Calico一樣,它可以與BGP和路由而不是overlay網(wǎng)絡一起使用。就像Calico一樣,它在必要的時候可以使用IPINIP。它還能利用ipvs進行負載均衡。
設置多網(wǎng)絡K8S集群
如果您需要使用多個網(wǎng)絡,則可能需要Multus。
設置Multus
我們需要做的第一件事是設置Multus。我們使用的幾乎是Multus倉庫示例中的配置,但進行了一些重要的調(diào)整。請參閱下面的示例。
首先是調(diào)整configmap。因為我們計劃使用Flannel創(chuàng)建默認網(wǎng)絡,所以我們在Multus配置的delegates數(shù)組中定義配置。這里用紅色標記的一些重要設置是“ masterplugin”:true,用于定義Flannel網(wǎng)絡本身的網(wǎng)橋。你將在接下來的步驟中了解為什么我們需要這樣做。除此之外,還需要添加配置映射的安裝定義,其他則不需要調(diào)整,因為由于某些原因,此示例未完成。
關于此configmap的另一件重要事情是,這一configmap中定義的所有內(nèi)容都是默認網(wǎng)絡,這些默認網(wǎng)絡會自動安裝到容器,而無需進一步說明。另外,如果要編輯此文件,請注意,你要么需要終止并重新運行守護進程的容器,要么重新啟動節(jié)點才能使更改生效。
示例yaml文件:


設置主要的Flannel Overlay網(wǎng)絡
對于主要的Flannel網(wǎng)絡,設置非常簡單。我們可以從Multus倉庫中獲取示例,然后進行部署。此處所做的調(diào)整是CNI安裝、容差的調(diào)整以及對Flannel的CNI設置所做的一些調(diào)整。例如,添加“ forceAddress”:true并刪除“ hairpinMode”:true。
這已在使用RKE設置的集群上進行了測試,但是只要您從主機正確安裝CNI(在本例中為/ opt / cni / bin),它就可以在其他集群上工作。
Multus本身并沒有太大的改變。他們只注釋了initcontainer配置,你可以刪除它。之所以如此,是因為Multus將建立其delegates,并充當主要的“ CNI”。
這是修改后的Flannel daemonset:


部署了這些樣本之后,我們已經(jīng)完成了很多工作,現(xiàn)在應該為pod分配一個IP地址。讓我們測試一下:



如你所見,我們已經(jīng)成功部署了Pod,并在eth0接口(默認接口)上為其分配了IP 10.42.2.43。所有其他接口都將顯示為netX,即net1。
設置輔助網(wǎng)絡
輔助網(wǎng)絡還需要進行一些調(diào)整,這些調(diào)整的前提是假設你要部署vxlan。為了實際服務于輔助overlay,我們需要更改VXLAN標識符“ VIN”,默認情況下將其設置為1,并且我們的第一個overlay網(wǎng)絡現(xiàn)在已經(jīng)使用了它。因此,我們可以通過在etcd服務器上配置網(wǎng)絡來更改此設置。我們使用自己的集群etcd,此處標記為綠色(并且假設job在運行etcd客戶端的主機上運行),然后從本地主機(在我們的情況下,將其存儲在本地主機)中裝入密鑰(此處標記為紅色),存儲在/ etc / kubernetes / ssl文件夾中。
完整的YAML文件示例:

接下來,我們可以實際部署輔助網(wǎng)絡。此設置幾乎與主要網(wǎng)絡設置相同,但有一些關鍵區(qū)別。最明顯的是,我們更改了子網(wǎng),但是我們還需要更改其他一些內(nèi)容。
首先,我們需要設置一個不同的dataDir,即/ var / lib / cni / flannel2,以及一個不同的subnetFile,即/run/flannel/flannel2.env。這十分必要,因為它們已經(jīng)被我們的主要網(wǎng)絡占用。接下來,我們需要調(diào)整網(wǎng)橋,因為主要的Flannel overlay網(wǎng)絡已經(jīng)使用了kbr0。
其余還需更改的配置包括將其更改為實際針對我們之前配置的etcd服務器。在主網(wǎng)絡中,這是通過–kube-subnet-mgr flag直接連接到K8S API來完成的。但是我們不能這樣做,因為我們還需要修改要讀取的前綴。你可以在下面看到橙色標記的內(nèi)容,而集群etcd連接的設置則顯示為紅色。最后一個設置是再次指定子網(wǎng)文件,在示例中以綠色標記。最后一點是,我們添加了一個網(wǎng)絡定義。其余部分與我們的主要網(wǎng)絡配置相同。
有關上述步驟,請參見示例配置文件:


完成此操作后,我們便準備好了輔助網(wǎng)絡。
分配額外的網(wǎng)絡
既然我們已經(jīng)準備好輔助網(wǎng)絡,那么我們現(xiàn)在需要分配他。為此,我們需要先定義一個NetworkAttachmentDefinition,之后我們可以使用它將網(wǎng)絡分配給容器?;旧?,這是在初始化Multus之前,我們設置的configmap的動態(tài)替代方案。這樣,我們可以按需安裝所需的網(wǎng)絡。在此定義中,我們需要指定網(wǎng)絡類型(本例中是Flannel)以及必要的配置。這包括前面提到的subnetFile、dataDir和網(wǎng)橋名稱。
我們需要確定的最后一件事是網(wǎng)絡的名稱,我們將其命名為flannel2。

現(xiàn)在,我們終于可以使用輔助網(wǎng)絡生成第一個pod。

成功啦,輔助網(wǎng)絡分配10.5.22.4作為其IP地址。
Troubleshooting
如果該示例沒有正常工作,你需要查看kubelet的日志。
一個常見的問題的是缺少CNI。我第一次測試的時候,遺漏了CNI網(wǎng)橋,因為RKE沒有部署它。但是這個問題十分容易解決。
外部連接和負載均衡
現(xiàn)在我們已經(jīng)建立并運行網(wǎng)絡,接下來我們要做的是使我們的應用程序可以訪問并將其配置為高可用和可擴展。高可用性和可伸縮性不僅可以通過負載均衡來實現(xiàn),它還我們需要具備的關鍵組件。
Kubernetes有四個概念,可以使應用程序在外部可用。
使用負載均衡器
Ingress
Ingress基本上就是具有Layer7功能的負載均衡器,特別是HTTP(s)。最常用的ingress controller是NGINX ingress。但這主要取決于你的需求以及你的使用場景。例如,你還可以選擇traefik或HA Proxy。
配置一個ingress十分簡單。在以下例子中,你將了解一個鏈接服務的例子。藍色標注的是指向服務的基本配置。綠色標注的是鏈接SSL證書所需的配置(需要在此之前安裝這一證書)。最后,你會看到調(diào)整了NGINX ingress的一些詳細設置。

Layer 4 負載均衡器
在Kubernetes中,使用type: LoadBalancer定義Layer 4 負載均衡器,這是一個依賴于負載均衡解決方案的服務提供程序。對于本地計算機,大概率會使用HA代理或一個路由解決方案。云提供商會使用自己的解決方案以及專用硬件,也可以使用HA代理或路由解決方案。
最大的區(qū)別是第4層負載平衡器不了解高級應用程序協(xié)議(layer 7),并且僅能夠轉發(fā)流量。此級別上的大多數(shù)負載均衡器還支持SSL終止。這通常需要通過注釋進行配置,并且尚未標準化。
使用 {host,node} 端口
{host,node} Port基本上等同于docker -p port:port,尤其是hostPort。與hostPort不同,nodePort在所有節(jié)點上可用,而不是僅在運行pod的節(jié)點上可用。對于nodePort,Kubernetes首先創(chuàng)建一個clusterIP,然后通過該端口負載均衡流量。nodePort本身只是將端口上的流量轉發(fā)到clusterIP的iptable規(guī)則。
除了快速測試外,很少使用nodePort,只有在你希望每個節(jié)點公開端口(即用于監(jiān)視)時才會在生產(chǎn)中使用nodePort。大多數(shù)時候,你需要使用Layer 4負載均衡器。hostPort僅用于測試,或者少數(shù)時候,將pod粘貼到特定節(jié)點并在指向該節(jié)點的特定IP地址下發(fā)布。
例如,在容器規(guī)范中定義了hostPort,如下所示:
什么是ClusterIP ?
clusterIP是Kubernetes集群及其中所有服務的內(nèi)部可訪問IP。該IP本身將負載均衡流量到與其selector規(guī)則匹配的所有Pod。在很多情況下,例如在指定類型:LoadBalancer服務或設置nodePort時,也會自動生成clusterIP。其背后的原因是所有負載均衡都是通過clusterIP進行的。
clusterIP作為一個概念是為了解決多個可尋址主機以及這些主機的有效更新的問題。具有不變的單個IP比始終通過服務發(fā)現(xiàn)針對服務的所有性質(zhì)重新獲取數(shù)據(jù)要容易得多。盡管有時在某些情況下更適合使用服務發(fā)現(xiàn),但如果你想要explicit control,那么還是建議使用clusterIP,如在某些微服務環(huán)境中。
常見的故障
如果您使用公有云環(huán)境并手動設置主機,則您的集群可能缺少防火墻規(guī)則。例如,在AWS中,您將需要調(diào)整安全組,以允許集群間通信以及ingress和egress。如果不這樣做,將導致集群無法運行。確保始終打開主節(jié)點和worker節(jié)點之間的必要端口。直接在主機上打開的端口(即hostPort或nodePort)也是如此。
網(wǎng)絡安全
既然我們已經(jīng)設置了所有Kubernetes網(wǎng)絡,我們還需要確保它們具備一定的安全性。保證安全性的最低原則是為應用程序提供其運行所需的最少訪問量。這可以在一定程度上確保即使在發(fā)生安全漏洞的情況下,攻擊者也將難以深入挖掘你的網(wǎng)絡。雖然它不能完全確保你的安全,但無疑會使攻擊者進行攻擊時變得更加困難和耗時。這很重要,因為它會使你有更多的時間做出反應并防止進一步的破壞。這里有一個典型的例子,不同應用程序的不同exploits/漏洞的組合,這使得攻擊者只有從多個維度(例如,網(wǎng)絡、容器、主機)到達任何攻擊面的情況下,才能進行攻擊。
這里的選擇要么是利用網(wǎng)絡策略,要么是尋求第三方安全解決方案以實現(xiàn)容器網(wǎng)絡安全。有了網(wǎng)絡策略,我們有堅實的基礎來確保流量僅在流量應流的地方進行,但這僅適用于少數(shù)幾個CNI。例如,它們可與Calico和Kube-router一起使用。Flannel不支持它,但是幸運的是,你可以移至Canal,這使得Flannel可以使用Calico的網(wǎng)絡策略功能。對于大多數(shù)其他CNI,則沒有支持,目前尚未有支持的計劃。
但這不是唯一的問題。問題在于,網(wǎng)絡策略規(guī)則只是針對特定端口的防火墻規(guī)則,它十分簡單。這意味著你無法應用任何高級設置。例如,如果你發(fā)現(xiàn)某個容器可疑,就不能按需阻止它。進一步來說,網(wǎng)絡規(guī)則無法理解流量,因此你不知道流量的流向,并且僅限于在第3層和第4層上創(chuàng)建規(guī)則。最后,它還無法檢測到基于網(wǎng)絡的威脅或攻擊,例如DDoS,DNS,SQL注入以及即使在受信任的IP地址和端口上也可能發(fā)生的其他破壞性網(wǎng)絡攻擊。
因此,我們需要專用的容器網(wǎng)絡安全解決方案,它可為關鍵應用程序(例如財務或合規(guī)性驅(qū)動的應用程序)提供所需的安全性。我個人喜歡NeuVector。它具有我曾在Arvato / Bertelsmann進行部署的容器防火墻解決方案,并提供了我們所需的Layer7可見性和保護。
應該注意的是,任何網(wǎng)絡安全解決方案都必須是云原生的,并且可以自動擴展和調(diào)整。部署新應用程序或擴展Pod時,你無需檢查iptable規(guī)則或更新任何內(nèi)容。也許對于幾個節(jié)點上的簡單應用程序堆棧,你可以手動進行管理,但是對于任何企業(yè)而言,部署安全不能減慢CI / CD流水線的速度。
除了安全性和可見性之外,我還發(fā)現(xiàn)擁有連接和數(shù)據(jù)包級容器網(wǎng)絡工具有助于在測試和staging期間調(diào)試應用程序。借助Kubernetes網(wǎng)絡,除非您能看到流量,否則您將永遠無法真正確定所有數(shù)據(jù)包的去向以及將哪些Pod路由到其中。
選擇網(wǎng)絡CNI的一些建議
現(xiàn)在已經(jīng)介紹了Kubernetes網(wǎng)絡和CNI,始終會出現(xiàn)一個大問題:應該選擇哪種CNI解決方案?我將嘗試提供一些有關如何做出此決定的建議。
首先,定義問題
每個項目的第一件事是盡可能詳細地定義你需要首先解決的問題。你也許想知道要部署哪種應用程序以及它們將產(chǎn)生什么樣的負載。你可能會問自己的一些問題:
我的應用程序:
網(wǎng)絡是否繁忙?
是否對延遲敏感?
是單體架構嗎?
還是微服務架構服務?
需要在多個網(wǎng)絡上嗎?
我可以承受宕機時間嗎,甚至是最小的宕機時間?
這是一個十分重要的問題,因為你需要事先決定。如果你現(xiàn)在選擇一種解決方案,以后再進行切換,則需要重新設置網(wǎng)絡并重新部署所有容器。除非你已經(jīng)擁有Multus之類的東西并且可以使用多個網(wǎng)絡,否則這將意味著您的服務會停機。在大多數(shù)情況下,如果你有計劃的維護時段,那么事情會沒那么嚴重,但是隨著應用程序的不斷迭代,零停機時間變得更加重要!
我的應用程序在多個網(wǎng)絡上
這一情況在本地安裝中十分常見,實際上,如果你只想將通過專用網(wǎng)絡和公用網(wǎng)絡的流量分開,那么這需要你設置多個網(wǎng)絡或者有智能的路由。
我是否需要CNI中的某些特定功能?
影響你做決定的另一件事是,你需要一些特定的功能,在某些CNI中可用,而其他CNI中不可用。例如,你想使用Weave或希望通過ipvs進行更為成熟的負載均衡。
需要什么網(wǎng)絡性能?
如果你的應用程序?qū)ρ舆t敏感或網(wǎng)絡繁忙,那么你需要避免使用任何overlay網(wǎng)絡。Overlay在性能上并不劃算,規(guī)模上也是如此。這這種情況下,提高網(wǎng)絡性能的唯一方法是避免overlay并改用路由之類的網(wǎng)絡實用程序。尋找網(wǎng)絡性能時,你有幾種選擇,例如:
Ipvlan:它有良好的性能,但需要注意,你不能在同一主機上同時使用macv{tap,lan}。
Calico:這個CNI不是對用戶最友好的,但于vxlan相比,它可以為你提供更好的性能,并且可以進行擴展而無需擔心。
Kube-Router:它通過使用BGP和路由,以及支持LVS/IPVS,來提供更好的性能(這與Calico類似)。但Calico比它更為成熟。
云提供商解決方案:一些云提供商提供了自己的網(wǎng)絡解決方案,這些方案的好壞需要根據(jù)具體情況來確定,這里無法一概而論。值得一提的是,Rancher的一個開源項目Submariner。它支持多個Kubernetes集群之間的跨集群網(wǎng)絡連接,并且創(chuàng)建了必要的隧道和路徑,能為部署在需要相互通信的多個Kubernetes集群中的微服務提供網(wǎng)絡連接。
我只是想要一些可行的方法!
在這樣的情況下,推薦使用canal或帶有vxlan的flannel,因為它們十分容易且有效。但是正如我之前所提到的,vxlan速度很慢,隨著應用程序的不斷發(fā)展,它將耗費大量資源。但是對于剛剛起步的項目而言,這絕對是最簡單的方法。
做出決定
這實際上是做出決定而不是根本不做出決定的問題。如果你沒有特定的功能要求,則可以從Flannel和vxlan開始。如果您已部署到生產(chǎn)環(huán)境,稍后需要一些工作以進行遷移,但是從長遠來看,做出錯誤的決定總比完全不做出決定要好。
有了所有這些信息,我希望您對Kubernetes網(wǎng)絡的工作方式有一些相關的背景和更好的了解。

原文鏈接:
https://dzone.com/articles/how-to-understand-and-setup-kubernetes-networking