K8S集群入門(mén):運(yùn)行一個(gè)應(yīng)用程序究竟需要多少集群?

如果你使用Kubernetes作為應(yīng)用程序的操作平臺(tái),那么你應(yīng)該會(huì)遇到一些有關(guān)使用集群的方式的基本問(wèn)題:
你應(yīng)該有多少集群?
它們應(yīng)該多大?
它們應(yīng)該包含什么?
本文將深入討論這些問(wèn)題,并分析你所擁有的一些選擇的利弊。

問(wèn)題所在
作為一個(gè)軟件創(chuàng)建者,你應(yīng)該開(kāi)發(fā)并運(yùn)行了多個(gè)應(yīng)用程序。而且,你應(yīng)該在不同的環(huán)境中運(yùn)行這些應(yīng)用程序的多個(gè)實(shí)例——例如,你應(yīng)該有開(kāi)發(fā)、測(cè)試以及生產(chǎn)環(huán)境。那么,不同的環(huán)境和應(yīng)用程序的組合,我們可以得到一個(gè)“矩陣”:

在以上例子中,有3個(gè)應(yīng)用程序和3個(gè)環(huán)境,兩兩組合為9個(gè)應(yīng)用程序?qū)嵗?。每個(gè)應(yīng)用程序?qū)嵗且粋€(gè)獨(dú)立的部署單位,可以獨(dú)立運(yùn)行。
請(qǐng)注意,一個(gè)應(yīng)用程序?qū)嵗赡苡啥鄠€(gè)組件組成,如前端、后端、數(shù)據(jù)庫(kù)等。在一個(gè)微服務(wù)應(yīng)用程序中,一個(gè)應(yīng)用程序?qū)嵗龑⒂伤形⒎?wù)構(gòu)成。
那么作為一個(gè)Kubernetes用戶(hù),此時(shí)會(huì)遇到一些問(wèn)題:
應(yīng)該在一個(gè)集群中運(yùn)行所有應(yīng)用程序?qū)嵗龁幔?/p>
或者每個(gè)應(yīng)用程序?qū)嵗紤?yīng)該有一個(gè)單獨(dú)的集群?jiǎn)幔?/p>
或者應(yīng)該以上兩者相結(jié)合?
以上這些都是行之有效的方法——Kubernetes是一個(gè)靈活的系統(tǒng),它并不會(huì)直接告訴你某一條指定的使用方法。
關(guān)于集群的搭配你有以下選擇:
一個(gè)大型的共享集群
許多小型的一次性集群
每個(gè)應(yīng)用程序有一個(gè)集群
每個(gè)環(huán)境中有一個(gè)集群
前兩種方法分別是大型集群和小型集群的極端,其規(guī)模大小關(guān)系如下:
總而言之,如果一個(gè)集群包含了大量的節(jié)點(diǎn)和Pod,那么它就可以被定義為大于另一個(gè)集群。例如,一個(gè)有10個(gè)節(jié)點(diǎn)和100Pod的集群大于有1個(gè)節(jié)點(diǎn)和10個(gè)Pod的集群。
厘清了概念和選項(xiàng),那么我們現(xiàn)在開(kāi)始吧!
一個(gè)大型共享集群
這個(gè)方法是指將你所有的工作負(fù)載都運(yùn)行在一個(gè)集群中:

通過(guò)這種方法,我們可以像通用基礎(chǔ)架構(gòu)平臺(tái)一樣使用該集群——無(wú)論你需要運(yùn)行什么,都可將其部署到現(xiàn)有的Kubernetes集群中。
Kubernetes中有一個(gè)命名空間的概念,可以 在邏輯上將集群的各個(gè)部分彼此分開(kāi)。在上述情況下,你可以為每個(gè)應(yīng)用程序?qū)嵗齽?chuàng)建單獨(dú)的命名空間。
接下來(lái),我們來(lái)看看這個(gè)方法的優(yōu)劣勢(shì)。
?? 高效的資源使用
如果你只有一個(gè)Kubernetes集群,那么你只需要擁有運(yùn)行和管理Kubernetes集群所需的所有資源的一個(gè)副本。這包含了master節(jié)點(diǎn)——一個(gè)Kubernetes集群通常有3個(gè)master節(jié)點(diǎn)。如果你只擁有一個(gè)集群,你一共只需要3個(gè)master節(jié)點(diǎn)(比起擁有10個(gè)集群,需要30個(gè)master節(jié)點(diǎn)來(lái)說(shuō)輕松不少)。
當(dāng)然了,肯定不止master節(jié)點(diǎn),還包括其他集群范圍的服務(wù),例如負(fù)載均衡器、Ingress controller、身份驗(yàn)證、日志和監(jiān)控。如果你只有一個(gè)集群,你可以為所有工作負(fù)載重復(fù)使用這些服務(wù),并且不需要擁有多個(gè)副本。
?? 便宜
由于上述原因,較少的集群通常更便宜,因?yàn)榧簲?shù)量較大,意味著資源更多,因此會(huì)花費(fèi)更多的費(fèi)用。對(duì)于主節(jié)點(diǎn)來(lái)說(shuō)尤其如此,這可能會(huì)用掉你大量的費(fèi)用——無(wú)論你的集群是在本地還是在云中。
有一些Kubernetes托管服務(wù)會(huì)提供免費(fèi)的控制平面,如Google Kubernetes Engine(GKE)或Azure Kubernetes Service(AKS),在這種情況下成本也許就不是問(wèn)題。然而,有些托管的Kubernetes服務(wù)會(huì)為運(yùn)行一個(gè)Kubernetes集群收取固定的費(fèi)用,如Amazon Elastic Kubernetes Service(EKS)。
?? 高效管理
管理一個(gè)集群總比管理多個(gè)集群簡(jiǎn)單很多。管理集群可能包含以下任務(wù):
升級(jí)Kubernetes版本
設(shè)置CI/CD流水線(xiàn)
安裝一個(gè)CNI插件
設(shè)置用戶(hù)身份驗(yàn)證系統(tǒng)
安裝一個(gè)admission controller
等等……
如果你只有一個(gè)集群,這一切你只需要完成一次即可。如果你有許多集群,那么你需要將以上任務(wù)執(zhí)行很多次,這需要你開(kāi)發(fā)一些自動(dòng)化流程以及工具,使其能夠在所有集群中同步。
現(xiàn)在來(lái)說(shuō)說(shuō)缺點(diǎn)
??“雞蛋都放在一個(gè)籃子里”
如果你只有一個(gè)集群,如果這個(gè)集群恰好崩潰了,那么你的所有工作負(fù)載都會(huì)宕機(jī)。
有很多方式可能會(huì)導(dǎo)致出錯(cuò):
Kubernetes升級(jí)過(guò)程中產(chǎn)生的“副作用”
集群范圍的組件(如CNI 插件)無(wú)法正常運(yùn)行
對(duì)集群的其中一個(gè)組件進(jìn)行了錯(cuò)誤的配置
底層基礎(chǔ)架構(gòu)發(fā)生故障
如果只有一個(gè)共享集群,那么只要類(lèi)似的事情發(fā)生可能會(huì)對(duì)所有工作負(fù)載造成重大損害。
??沒(méi)有嚴(yán)格的安全隔離
如果有多個(gè)app運(yùn)行在同一個(gè)Kubernetes集群中,這意味著這些應(yīng)用程序在集群的節(jié)點(diǎn)上共享硬件、網(wǎng)絡(luò)和操作系統(tǒng)。具體而言,在同一節(jié)點(diǎn)上運(yùn)行的兩個(gè)不同的應(yīng)用程序的兩個(gè)容器是在相同硬件和操作系統(tǒng)內(nèi)核上運(yùn)行的兩個(gè)進(jìn)程。
Linux容器提供了一些隔離的形式,但這種隔離不如虛擬機(jī)所提供的隔離強(qiáng)。在后臺(tái),容器中的進(jìn)程仍然只是在主機(jī)操作系統(tǒng)上運(yùn)行的進(jìn)程。
從安全角度來(lái)看,這的確是一個(gè)問(wèn)題。從理論上講,它允許不相關(guān)的應(yīng)用程序(有意地和無(wú)意地)彼此交互。而且,在一個(gè)Kubernetes集群中的所有工作負(fù)載共享某些集群范圍的服務(wù),如DNS——它可以允許應(yīng)用程序發(fā)現(xiàn)集群內(nèi)的其他APP的服務(wù)。
以上所提到的這些也許會(huì)成為一個(gè)問(wèn)題,也許不會(huì),這取決于應(yīng)用程序?qū)Π踩缘囊蟆?/p>
Kubernetes本身提供了各種方法來(lái)防止安全漏洞,如PodSecurityPolicies以及NetworkPolicies。但是,要完全正確地使用這些工具需要一些經(jīng)驗(yàn),并且它們也無(wú)法防止所有的安全漏洞。
請(qǐng)牢記一點(diǎn),Kubernetes是為共享而設(shè)計(jì)的,而不是隔離和安全。
??沒(méi)有嚴(yán)格的多租戶(hù)
既然在Kubernetes集群中有許多共享資源,那么許多不同的應(yīng)用程序就可以通過(guò)各種方式互相擠占資源。例如,一個(gè)app可能獨(dú)占了某些共享資源,如CPU或內(nèi)存,因此導(dǎo)致同一節(jié)點(diǎn)上運(yùn)行的其他應(yīng)用沒(méi)有資源可用。
Kubernetes提供各種方法來(lái)控制這一行為,如resource requests and limits、ResourceQuota以及LimitRanges。但是,同樣地,要正確使用這些工具并非易事,而且它們也無(wú)法防止所有不必要的副作用。
??許多用戶(hù)可以訪(fǎng)問(wèn)同一集群
如果你只有一個(gè)集群,那么在企業(yè)內(nèi)部會(huì)有許多人必須得訪(fǎng)問(wèn)這一集群。越多的人訪(fǎng)問(wèn),破壞的風(fēng)險(xiǎn)就會(huì)越高。
在集群內(nèi)部,你可以控制哪些人可以使用基于角色的訪(fǎng)問(wèn)控制(RBAC)進(jìn)行操作。但是,這仍然不能防止用戶(hù)在授權(quán)范圍內(nèi)進(jìn)行破壞。
??集群不能無(wú)限擴(kuò)大
如果你給所有的工作負(fù)載使用一個(gè)集群,這個(gè)集群規(guī)模大概率已經(jīng)很大了(從節(jié)點(diǎn)和Pod的角度來(lái)說(shuō))。然而,Kubernetes集群無(wú)法無(wú)限擴(kuò)大。理論上,集群的大小是有上限的,在Kubernetes中的定義大概事5000節(jié)點(diǎn)、150,000Pod以及300,000個(gè)容器。
然而,實(shí)際上,比上述規(guī)模更小的集群已經(jīng)會(huì)開(kāi)始面臨諸多挑戰(zhàn),例如500節(jié)點(diǎn)。原因是較大的集群對(duì)Kubernetes控制平面造成了更大的壓力,這需要仔細(xì)計(jì)劃以保持集群的功能和效率。
接下來(lái),我們來(lái)看看第二個(gè)選項(xiàng)——許多小型集群
許多小型一次性集群
使用這種方法,你可以為每個(gè)部署單元使用單獨(dú)的Kubernetes集群:

在本文中,一個(gè)部署單元即為一個(gè)應(yīng)用程序?qū)嵗缫粋€(gè)應(yīng)用程序的開(kāi)發(fā)版本。
通過(guò)這種策略,Kubernetes就可以像用于各個(gè)應(yīng)用程序?qū)嵗膶?zhuān)用應(yīng)用程序運(yùn)行時(shí)一樣使用。
接下來(lái),我們看看這種方法的優(yōu)勢(shì)和劣勢(shì)。
??宕機(jī)規(guī)模減小
如果一個(gè)集群出現(xiàn)故障,那么僅會(huì)損害運(yùn)行在該集群上的工作負(fù)載,并不是所有工作負(fù)載都會(huì)受到影響。
??更好地隔離
各個(gè)集群中運(yùn)行的工作負(fù)載不會(huì)共享資源,如CPU、內(nèi)存、操作系統(tǒng)、網(wǎng)絡(luò)以及其他服務(wù)。這樣可以在不相關(guān)的應(yīng)用程序之間提供強(qiáng)大的隔離,對(duì)于提升應(yīng)用程序安全性十分有效。
??少量用戶(hù)訪(fǎng)問(wèn)同一集群
如果每個(gè)集群僅運(yùn)行一小組工作負(fù)載,那么就只需要更少的人訪(fǎng)問(wèn)這一集群。越少的人訪(fǎng)問(wèn)集群,集群出現(xiàn)故障的概率就越低。
接下來(lái)看一下這一方法的缺點(diǎn)。
??低效的資源利用率
正如之前所提及的,每個(gè)Kubernetes集群需要一組管理資源,如master節(jié)點(diǎn)、控制平面組件、監(jiān)控和日志解決方案等。如果你有許多小型集群,那么你只能為這些管理功能犧牲資源使用的百分比。
??高昂的成本
低效的資源利用自然就會(huì)導(dǎo)致更高的成本。例如,如果你必須運(yùn)行30個(gè)master節(jié)點(diǎn),而不是3個(gè)才能獲得相同的計(jì)算機(jī)功能,你看看每月的賬單就能體會(huì)到這一點(diǎn)。
??復(fù)雜的管理流程
同時(shí)管理許多Kubernetes集群比管理單個(gè)集群要復(fù)雜得多。例如,你需要為每個(gè)集群設(shè)置身份驗(yàn)證和授權(quán);如果你想升級(jí)Kubernetes版本,你需要執(zhí)行這一操作很多次。你可能需要開(kāi)發(fā)一些自動(dòng)化流程,這樣會(huì)使這些操作更高效。
接下來(lái),我們看一下其他場(chǎng)景的集群。
每個(gè)應(yīng)用程序有一個(gè)集群
使用這種方法,對(duì)于特定應(yīng)用程序的所有實(shí)例,你都有一個(gè)單獨(dú)的集群:

你可以將其視為每個(gè)團(tuán)隊(duì)單獨(dú)擁有自己的集群,因?yàn)橥ǔR粋€(gè)團(tuán)隊(duì)會(huì)開(kāi)發(fā)一個(gè)或多個(gè)應(yīng)用程序。
接下來(lái),我們看看這個(gè)方法的優(yōu)劣。
??可以為應(yīng)用程序定制集群
如果一個(gè)應(yīng)用程序有特定的需求,這些需求可以在它的集群內(nèi)安裝,而無(wú)需影響其他集群。這樣的要求可能包括GUI worker節(jié)點(diǎn)、一個(gè)特定的CNI插件、一個(gè)服務(wù)網(wǎng)格或其他服務(wù)。如此以來(lái),每個(gè)集群都可以完全配備相應(yīng)應(yīng)用程序所需的配置——不多也不少。
??在同一個(gè)集群中包含不同的環(huán)境
這個(gè)方法的一個(gè)不足時(shí)來(lái)自不同環(huán)境的應(yīng)用程序?qū)嵗\(yùn)行在同一個(gè)集群中。例如,應(yīng)用程序的生產(chǎn)版本和開(kāi)發(fā)版本都運(yùn)行在同一個(gè)集群中,這意味著開(kāi)發(fā)人員需要在生產(chǎn)版本應(yīng)用程序運(yùn)行的相同集群中工作。
所以,如果開(kāi)發(fā)人員或一個(gè)有bug的開(kāi)發(fā)版本在集群中造成了某些損害,那么生產(chǎn)版本絕對(duì)會(huì)因此受到影響——這是一個(gè)巨大的不足。
每個(gè)環(huán)境有一個(gè)集群
使用這種方法,你可以為每個(gè)環(huán)境創(chuàng)建一個(gè)單獨(dú)的集群:

例如,你可以分別有一個(gè)開(kāi)發(fā)、測(cè)試和生產(chǎn)集群,你可以在其中運(yùn)行特定環(huán)境中的所有應(yīng)用程序?qū)嵗?/p>
??對(duì)生產(chǎn)環(huán)境的隔離
通常情況下,這個(gè)方法會(huì)使得所有環(huán)境彼此隔離,而這對(duì)生產(chǎn)環(huán)境而言十分重要。生產(chǎn)版本的應(yīng)用程序現(xiàn)在不會(huì)受到其他集群以及應(yīng)用程序環(huán)境的任何影響。所以,如果某些錯(cuò)誤配置在你的開(kāi)發(fā)集群中造成破壞,你的生產(chǎn)版本的app依舊可以持續(xù)運(yùn)行,仿佛什么也沒(méi)發(fā)生。
??為環(huán)境定制集群
你可以為環(huán)境優(yōu)化每個(gè)集群,例如:
安裝開(kāi)發(fā)和調(diào)試工具在開(kāi)發(fā)集群中
安裝測(cè)試框架和工具在測(cè)試集群中
給生產(chǎn)集群使用性能更好的硬件和網(wǎng)絡(luò)
這樣能夠同時(shí)提升app的開(kāi)發(fā)和運(yùn)維效率。
??鎖定對(duì)生產(chǎn)集群的訪(fǎng)問(wèn)
沒(méi)有人真的需要在生產(chǎn)集群內(nèi)工作,所以你可以限制訪(fǎng)問(wèn)它。你甚至可以根本不向任何人授予生產(chǎn)集群的訪(fǎng)問(wèn)權(quán)限——可以通過(guò)自動(dòng)化CI/CD工具對(duì)該集群進(jìn)行部署。這將極大降低生產(chǎn)集群中人為錯(cuò)誤的風(fēng)險(xiǎn),這十分重要!
現(xiàn)在,來(lái)看看缺點(diǎn)。
??缺少應(yīng)用程序之間的隔離
這一方法的主要不足是應(yīng)用程序之間缺少硬件和資源的隔離。不相關(guān)的應(yīng)用程序共享集群資源,例如操作洗頭膏內(nèi)核、CPU、內(nèi)存和其他服務(wù)。如上文所述,這可能是一個(gè)安全問(wèn)題。
??滿(mǎn)足應(yīng)用程序要求的成本增加
如果一個(gè)app有特殊的要求,這些要求則必須在所有集群中得到滿(mǎn)足。例如,如果一個(gè)應(yīng)用程序需要一個(gè)GPU,那么每個(gè)集群至少必須得有一個(gè)GPU worker節(jié)點(diǎn)——即便只有一個(gè)應(yīng)用程序使用它。這會(huì)導(dǎo)致更高的成本和更低效的資源利用。
結(jié)? 論
總而言之,如果你有給定的一組應(yīng)用程序,你可以將它們運(yùn)行在幾個(gè)大型集群上或多個(gè)小型集群上。本文討論了從幾個(gè)大型集群到多個(gè)小型集群的各種方法的優(yōu)缺點(diǎn):
一個(gè)大型的共享集群
許多小型的一次性集群
每個(gè)應(yīng)用程序有一個(gè)集群
每個(gè)環(huán)境中有一個(gè)集群
以下一張表格,總結(jié)了不同方法的優(yōu)劣勢(shì):

所以你應(yīng)該選擇哪種方法呢?
通常情況下,這取決于你的實(shí)際用例——你必須權(quán)衡不同方法的優(yōu)缺點(diǎn),才能找到最合適你的解決方案。但是,選擇不僅限于上述示例,也可以是它們的任意組合。例如,您可能考慮為每個(gè)團(tuán)隊(duì)建立兩個(gè)集群:一個(gè)開(kāi)發(fā)集群(用于開(kāi)發(fā)和測(cè)試環(huán)境)和一個(gè)生產(chǎn)集群(用于生產(chǎn)環(huán)境)。
通過(guò)了解以上示例方案,您可以相應(yīng)地結(jié)合特定方案的利弊。
作者:
Daniel Weibel
原文鏈接:
https://learnk8s.io/how-many-clusters