運維監(jiān)控談:Prometheus和Zabbix的對比選型

[9:4]
監(jiān)控的深度
1.可用性監(jiān)控
2.性能監(jiān)控
3.日志監(jiān)控
4.自定義監(jiān)控
[13:7]
[17:15]
zabbix架構
[19:17]
prometheus架構
exporter相當于zabbix的agent
[20:20]
zabbix高級特性
低級別發(fā)現 & 自動發(fā)現
全棧級監(jiān)控(所有東西都可以被監(jiān)控)
可定制,有開放的API可以和devops集成
[22:27]
分組
[26:58]
告警
[29:41]
jenkins和zabbix的關聯
[30:50]
zabbix對硬件的監(jiān)控
[32:30]
如何選擇監(jiān)控平臺
純容器化的環(huán)境,建議使用prometheus
純服務器的環(huán)境,建議使用zabbix
硬件監(jiān)控,是很難通過prometheus來實現。
[33:55]
使用zabbix的收益
簡單易用
專業(yè)展現
團隊協(xié)作
zabbix可以覆蓋80%的監(jiān)控需求
[39:10]
prometheus架構
[42:15]
prometheus高可用
[45:10]
prometheus后端存儲
原生prometheus默認只存儲180天監(jiān)控數據
[50:0]
prometheus監(jiān)控redis
負責數據匯報的程序,就是exporter。
不同的exporter,負責不同的業(yè)務。
[1:8:20]
grafana整合zabbix和prometheus
條件需要,zabbix和prometheus可以同時存在。
[1:10:12]
grafana整合zabbix——安裝插件
grafana如果要展示zabbix數據,需要安裝zabbix插件
獲取可用插件列表:
grafana-cli plugins list-remote
插件安裝:
grafana-cli plugins install
alexanderzobnin-zabbix-app
加載插件
grafana整合zabbix——添加數據源
數據源的添加,最好使用zabbix api,不要使用直接連接zabbix數據庫(因為升級zabbix版本后,可能會有問題,比如需要同步更新)
[1:14:45]
grafana整合prometheus
[1:18:22]
zabbix/prometheus的短板
3000~5000個節(jié)點的規(guī)模沒有問題。
[1:23:40]
歷史存儲和對存儲數據的分析
[1:28:17]
告警誤報其實是配置規(guī)則、參數本身有問題。
大量使用模板降低誤報的可能性,還是盡可能減少人為操作。
告警風暴,zabbix有1個特性,依賴項
機器宕機,可能會報警很多項,把這些依賴項都連起來。
告警風暴,在prometheus可以通過靜默告警、加入維護組,或者做聚合,把同類告警進行合并。測試環(huán)境的告警,可以完全忽略。
[1:35:59]
智能監(jiān)控、自動治愈,有方案,但由于多方面因素要考慮,很難實施。
[1:44:12]
dashboard設計
[1:51:16]
容器化選擇prometheus
多種場景選擇zabbix
也可以都用
[1:54:55]
prometheus更加適合容器
新版zabbix已經支持prometheus原生的exporter
我們真正需要關注的點,才需要我們的監(jiān)控。
主機、網絡,通過zabbix監(jiān)控;服務、容器,通過prometheus監(jiān)控。
基礎監(jiān)控可以由zabbix來做,容器監(jiān)控交給prometheus
即便業(yè)務環(huán)境都是在云上,容器化率已經超過95%,也可以仍然使用zabbix
容器里的服務,service、pod,由prometheus來做;但是,node節(jié)點、ECS本身的監(jiān)控、網絡質量的監(jiān)控還是可以交給基礎監(jiān)控zabbix
[2:1:15]
zabbix和prometheus可以同時存在,并不沖突。
[2:4:24]
分布式鏈路監(jiān)控不建議使用zabbix、prometheus
沒有一個技術??梢越鉀Q所有問題
zabbix/prometheus還是偏向于服務端的監(jiān)控
基于云原生,發(fā)展比較火熱的微服務,各個服務之間的調用鏈路治理的監(jiān)控需求,也不能通過zabbix/prometheus解決。
[2:8:32]
zabbix的性能瓶頸主要在數據庫