最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

直擊運維痛點,大數(shù)據(jù)計算引擎 EasyMR 的監(jiān)控告警設(shè)計優(yōu)化之路

2023-08-02 16:05 作者:袋鼠云  | 我要投稿

當(dāng)企業(yè)的業(yè)務(wù)發(fā)展到一定的階段時,在系統(tǒng)中引入監(jiān)控告警系統(tǒng)來對系統(tǒng)/業(yè)務(wù)進行監(jiān)控是必備的流程。沒有監(jiān)控或者沒有一個好的監(jiān)控,會導(dǎo)致開發(fā)人員無法快速判斷系統(tǒng)是否健康;告警的實質(zhì)則是“把人當(dāng)服務(wù)用”,用告警通知人的方式去干預(yù)系統(tǒng)達到修正的目的。

監(jiān)控告警在企業(yè)保障系統(tǒng)的穩(wěn)定性和事故快速恢復(fù)的全周期鏈路中都是至關(guān)重要的一環(huán)。在新版本的 EasyMR 中袋鼠云開發(fā)團隊也對監(jiān)控告警功能進行了全新的優(yōu)化,通過本文和大家分享一下監(jiān)控告警功能的設(shè)計思路以及碰到各類問題痛點的解決方法。

EasyMR 監(jiān)控告警設(shè)計

對于 EasyMR 的監(jiān)控告警設(shè)計思路,考慮到 Zabbix 后端數(shù)據(jù)庫使用 MySQL 對監(jiān)控數(shù)據(jù)進行存儲,無法滿足多維度化的告警。而 openfalcon 整體架構(gòu)上吸取了 Zabbix 的經(jīng)驗,解決了 Zabbix 的不足之處,但是社區(qū)活躍度不高。

所以我們選擇了集成 Prometheus+Grafana 的解決方案搭建 EasyMR 的監(jiān)控系統(tǒng),這套解決方案是目前主流的方案,使用的人群較多,在推廣使用上會降低門檻而且容易維護,也適合袋鼠云平臺的容器化部署。整體架構(gòu)圖如下:

首先我們在這套平臺的基礎(chǔ)上增加了一個 dt-alert 組件用來對接第三方的告警發(fā)送的處理,其次我們對 Grafana 進行了少量的二次開發(fā)。開發(fā)的內(nèi)容主要在于打通 EasyMR 平臺的告警通道和 Grafana 上的通道的對接,平臺接入好主機和部署好服務(wù)后 Prometheus 就能通過服務(wù)發(fā)現(xiàn)的方式完成目標(biāo)抓取作業(yè)的生成獲取監(jiān)控數(shù)據(jù)。

Grafana 從 Prometheus 中獲取指標(biāo)數(shù)據(jù)進行展示,同時觸發(fā)告警時將告警內(nèi)容發(fā)到 dt-alert 組件中,dt-alert 組件將告警信息發(fā)往第三方平臺上。

EasyMR 監(jiān)控告警痛點

基于上述告警監(jiān)控的解決方案是否就是一個非常完美的方案呢,答案當(dāng)然是否定的,接下來我們就討論一下在使用此方案的過程中遇到的問題和痛點:

● 低版本 Grafana 漏洞頻發(fā)

低版本 Grafana 漏洞頻發(fā),導(dǎo)致平臺安全問題受到很大的挑戰(zhàn)。漏洞是指計算機系統(tǒng)安全方面的缺陷,會使得系統(tǒng)或其應(yīng)用數(shù)據(jù)的保密性、完整性、可用性、訪問控制等方面面臨威脅。由于早期版本的 EasyMR 是基于 Grafana5.3 版本做的二次開發(fā),所以被掃描出來的漏洞非常多,遇到相應(yīng)漏洞時只能想辦法規(guī)避。

● 缺少分級告警

缺少分級告警,無法區(qū)分不同嚴重程度的告警。對于運維人員來說,監(jiān)控告警是用來發(fā)現(xiàn)故障用的,但是存在一個問題,如果一個系統(tǒng)中所有的告警都是同一個級別,那么出現(xiàn)問題時,可能會同時出現(xiàn)很多的告警,告警沒有分級不光會造成告警過多,還會讓開發(fā)人員無法區(qū)分優(yōu)先級,導(dǎo)致無法優(yōu)先處理更緊急的問題。

● 無法對同一個儀表盤設(shè)置多條告警規(guī)則

由于我們是使用 Grafana 來設(shè)置告警規(guī)則,在老版本中同一個 panel 只能設(shè)置一條告警規(guī)則,如果我們想針對同一個監(jiān)控指標(biāo)設(shè)置多個告警規(guī)則的話只能新建一個相同指標(biāo)的 panel 再設(shè)置新的告警規(guī)則,這在使用上來說是非常不便利的。

EasyMR 監(jiān)控告警優(yōu)化解決方案

基于以上三點痛點,袋鼠云開發(fā)團隊在新版本的 EasyMR 中,將 Grafana 版本從 5.3.x 升級到了 8.5.x,新版本可以非常順利地解決上述問題?;谛掳姹镜亩_前后端為了將 Grafana 很好的嵌入 EasyMR 產(chǎn)品頁面中,做了很多的優(yōu)化工作,包括但不限于隱藏側(cè)邊欄、隱藏 Grafana 一級菜單、取消 title 點擊事件隱藏相關(guān)信息等等。

● 優(yōu)化前

● 優(yōu)化后

如何配置 EasyMR 新版本告警規(guī)則

接下來給大家詳細介紹一下如何配置新版本 EasyMR 的告警規(guī)則。

● 選中儀表盤

選擇儀表盤,以 cpu_usage 告警為例,選中 Host_Overview。

● 選中面板

在 System->cpu_usage 面板中點擊下拉菜單,選中 Edit 選項。

● 創(chuàng)建告警

選中 Alert 項,點擊創(chuàng)建告警規(guī)則。

編輯告警規(guī)則,告警參數(shù)參考如下模板,參數(shù)確認無誤后點擊保存。

● 自定義告警模板

以 Redis 告警為例,在 Prometheus 查詢的值為:

自定義模板可以引用標(biāo)簽和值變量:

釘釘告警示例如下:

《數(shù)據(jù)治理行業(yè)實踐白皮書》下載地址:https://fs80.cn/l134d5?

《數(shù)棧V6.0產(chǎn)品白皮書》下載地址:https://fs80.cn/cw0iw1

想了解或咨詢更多有關(guān)袋鼠云大數(shù)據(jù)產(chǎn)品、行業(yè)解決方案、客戶案例的朋友,瀏覽袋鼠云官網(wǎng):https://www.dtstack.com/?src=szbzhan

同時,歡迎對大數(shù)據(jù)開源項目有興趣的同學(xué)加入「袋鼠云開源框架釘釘技術(shù) qun」,交流最新開源技術(shù)信息,qun 號碼:30537511,項目地址:https://github.com/DTStack


直擊運維痛點,大數(shù)據(jù)計算引擎 EasyMR 的監(jiān)控告警設(shè)計優(yōu)化之路的評論 (共 條)

分享到微博請遵守國家法律
郯城县| 军事| 青浦区| 阿勒泰市| 蕉岭县| 仁布县| 砀山县| 勃利县| 凤山市| 资兴市| 绥化市| 阆中市| 巴南区| 新龙县| 临湘市| 磐石市| 灌阳县| 迁西县| 樟树市| 盐源县| 肥乡县| 神木县| 绥棱县| 宁远县| 丰顺县| 屏南县| 盐源县| 察哈| 屏山县| 阿克| 德昌县| 洛浦县| 临夏市| 东台市| 南部县| 浦江县| 长汀县| 武定县| 偏关县| 民和| 鹰潭市|