馬士老師Linux云計(jì)算SRE工程師
什么是 SRE(站點(diǎn)可靠性工程)?
SRE 執(zhí)行的任務(wù)以前通常由運(yùn)維團(tuán)隊(duì)手動(dòng)執(zhí)行,或者交給使用軟件和自動(dòng)化來解決問題和管理生產(chǎn)系統(tǒng)的工程師或運(yùn)維團(tuán)隊(duì)執(zhí)行。?
在創(chuàng)建可擴(kuò)展和高度可靠的軟件系統(tǒng)時(shí),SRE 是寶貴的實(shí)踐。它可幫助您通過代碼管理大型系統(tǒng),對(duì)于管理成千上萬臺(tái)機(jī)器的系統(tǒng)管理員(sysadmin)來說,代碼更具可擴(kuò)展性和可持續(xù)性。?
站點(diǎn)可靠性工程的概念由 Google 工程團(tuán)隊(duì)的 Ben Treynor Sloss 第一個(gè)提出。?
SRE 可以幫助團(tuán)隊(duì)在發(fā)布新功能和確保用戶可靠性之間找到平衡。
在這種背景下,標(biāo)準(zhǔn)化和自動(dòng)化是 SRE 模型的兩大重要部分。在這里,站點(diǎn)可靠性工程師尋求增強(qiáng)和自動(dòng)化運(yùn)維任務(wù)。
通過這些方式,SRE 有助于提高當(dāng)今的系統(tǒng)可靠性,并且隨著時(shí)間的推移不斷提高。?
SRE 支持團(tuán)隊(duì)從傳統(tǒng) IT 運(yùn)維方案遷移至云原生方案。
站點(diǎn)可靠性工程師的工作是什么?
站點(diǎn)可靠性工程師是一個(gè)獨(dú)特的崗位,要么必須具有系統(tǒng)管理員背景、或有運(yùn)維經(jīng)驗(yàn)的軟件開發(fā)人員;要么必須是有軟件開發(fā)技能的 IT 運(yùn)維人員。?
SRE 團(tuán)隊(duì)負(fù)責(zé)部署、配置和監(jiān)控代碼,以及生產(chǎn)服務(wù)的可用性、延遲、變更管理、應(yīng)急響應(yīng)和容量管理。
SRE 團(tuán)隊(duì)根據(jù)服務(wù)水平協(xié)議(SLA)確定新功能的推出,并利用服務(wù)水平指標(biāo)(SLI)和服務(wù)水平目標(biāo)(SLO)定義系統(tǒng)所需的可靠性。?
SLI 測量所提供服務(wù)水平的特定方面。關(guān)鍵 SLI 包括請(qǐng)求延遲性、可用性、錯(cuò)誤率和系統(tǒng)吞吐量。SLO 基于根據(jù) SLI 而指定的服務(wù)水平的目標(biāo)值或范圍。