監(jiān)控易:網(wǎng)絡(luò)設(shè)備統(tǒng)一運維之告警的配置與發(fā)送
?監(jiān)控易告警中心是用于告警發(fā)送和配置的功能模塊。我們將通過以下兩個點來介紹告警中心的使用:
告警中心配置:我們將詳細介紹如何設(shè)置告警規(guī)則和條件,并將這些規(guī)則與設(shè)備的監(jiān)控數(shù)據(jù)進行關(guān)聯(lián)。
告警方式:我們將介紹不同的告警方式,如短信、郵件、電話等,并詳細介紹如何配置和管理這些告警方式。
此外,我們還將討論告警的優(yōu)先級設(shè)置和處理方式,以便更好地應(yīng)對不同級別的告警事件,并及時采取相應(yīng)的措施進行處理。
希望大家能更深入地了解一體化監(jiān)控平臺的功能和使用方法,以便更好地應(yīng)對和管理監(jiān)控和告警事務(wù)。
告警中心是一種集中推送告警信息的平臺,以下是對告警中心的介紹:
管理對象:管理對象是指IT平臺中的軟件或硬件實體,如服務(wù)器、操作系統(tǒng)、網(wǎng)絡(luò)、數(shù)據(jù)庫、中間件等。這些管理對象是需要進行監(jiān)管和監(jiān)控的對象。
監(jiān)測點:監(jiān)測點是指管理對象下的特定監(jiān)測點,它包含了有關(guān)CPU、內(nèi)存、磁盤等監(jiān)測項內(nèi)容。監(jiān)測點用于提供監(jiān)測對象的具體信息。
監(jiān)測指標(biāo):監(jiān)測指標(biāo)是指監(jiān)測點內(nèi)的詳細信息,用于細化監(jiān)測點的狀態(tài)。例如,對于監(jiān)測點"CPU",監(jiān)測指標(biāo)可以包括CPU使用率、CPU溫度等。
組:組類似于Windows中的文件夾,用于管理和組織設(shè)備和監(jiān)測對象。用戶可以在組中添加設(shè)備和監(jiān)測點。
監(jiān)測點依賴:監(jiān)測點依賴是一種規(guī)則或策略,用于控制告警信息的展示,避免告警信息泛濫。用戶可以設(shè)置告警依賴規(guī)則,使得只有關(guān)聯(lián)的監(jiān)測點異常時才會觸發(fā)告警。
通過綜合監(jiān)控設(shè)備納管的位置功能信息,用戶可以實現(xiàn)對管理對象的監(jiān)管和監(jiān)控,同時利用告警中心的功能來推送準(zhǔn)確且及時的告警信息,以保障系統(tǒng)的正常運行和安全性。
故障狀態(tài):指設(shè)備或監(jiān)測點出現(xiàn)故障或異常的狀態(tài)。
依賴監(jiān)測:根據(jù)故障狀態(tài)去檢測所依賴的點,如果滿足設(shè)定的依賴條件,則觸發(fā)自動停止禁止的狀態(tài)。?
告警:監(jiān)控平臺根據(jù)設(shè)定的告警條件觸發(fā)告警信息,并通過相應(yīng)的告警方式向用戶發(fā)送告警信息。
計劃任務(wù):監(jiān)控平臺內(nèi)的時間安排,用于輪詢監(jiān)測和告警的執(zhí)行時間??梢酝ㄟ^后臺配置設(shè)置任務(wù)時間,例如每周7天2次。
禁止:通過手動或計劃任務(wù)的方式,在監(jiān)控平臺內(nèi)對組、監(jiān)測對象和監(jiān)測點進行禁止操作。禁止后,設(shè)備或監(jiān)測點呈現(xiàn)黑色狀態(tài),并停止監(jiān)測。
允許:在設(shè)備禁止?fàn)顟B(tài)下,通過操作按鈕點擊允許,使設(shè)備恢復(fù)監(jiān)測狀態(tài)。狀態(tài)也會根據(jù)允許后的監(jiān)測返回數(shù)據(jù)進行變化,恢復(fù)到正常狀態(tài)。
綜上所述,我們的平臺內(nèi)共有6種監(jiān)測狀態(tài),分別為未知、正常、警告、故障、禁止等狀態(tài)。每種狀態(tài)對應(yīng)的顏色如下:
?
未知狀態(tài):灰色
正常狀態(tài):綠色
警告狀態(tài):黃色
故障狀態(tài):紅色
禁止?fàn)顟B(tài):黑色
在告警事件中,我們會推送日志消息,并提供告警事件的詳細信息,包括告警錯誤重試次數(shù)。我們提供了設(shè)置告警重試次數(shù)的功能,可以根據(jù)網(wǎng)絡(luò)抖動或不穩(wěn)定的情況來避免因不穩(wěn)定導(dǎo)致的故障推送和顯示。告警錯誤重試頻率默認為監(jiān)測頻率的5秒。如果需要調(diào)整監(jiān)測頻率的時間間隔,可以通過設(shè)置錯誤頻率來觸發(fā)相應(yīng)的錯誤重試輪詢時間間隔。
在添加設(shè)備或監(jiān)測對象時,可以設(shè)置設(shè)備的標(biāo)識性名稱作為標(biāo)題。閾值是通過配置設(shè)備和添加監(jiān)測點來設(shè)置的,用于確定危險或故障的閾值。當(dāng)前設(shè)備的狀態(tài)會根據(jù)匹配的危險或故障閾值進行判斷。
網(wǎng)絡(luò)設(shè)備故障告警
在告警設(shè)置中,我們還可以進行以下操作:
1. 告警頻率控制:可以設(shè)置一段時間內(nèi)的最大告警次數(shù),防止告警風(fēng)暴的發(fā)生。
2. 告警通知跳過:可以設(shè)置某些特殊情況下的告警跳過發(fā)送,以避免無用的告警信息。
3. 告警恢復(fù)通知:可以設(shè)置在故障處理完成后發(fā)送一個恢復(fù)通知,以及通知的接收人和發(fā)送方式。
4. 告警提醒模板:可以設(shè)置不同級別的告警對應(yīng)的提醒模板,包括郵件模板、微信模板等。
5. 告警日志記錄:系統(tǒng)會記錄每一次告警,包括告警類型、級別、發(fā)送時間等,方便查閱和分析。
6. 告警策略管理:可以對已配置的告警策略進行修改、刪除或添加新的策略。
?
通過上述的設(shè)置和配置,我們可以靈活地管理告警發(fā)送,包括設(shè)置告警級別、告警頻率控制、告警通知方式、告警恢復(fù)通知等,確保及時準(zhǔn)確地將故障或危險情況通知到相關(guān)人員,同時避免告警風(fēng)暴的發(fā)生。
收件和發(fā)件信息的策略,可以在告警策略中進行配置。在我們的平臺內(nèi),有一個告警中心,您可以在其中查看和處理所有告警信息。這個告警中心提供了一個直觀的視圖展示,您可以清楚地看到是否有告警發(fā)生,以及告警的原因是什么。您可以在這里配置收發(fā)策略,并且對告警進行查看、處理和忽略等操作。
在告警中心中,您可以查看發(fā)送歷史和當(dāng)前的告警情況。如果有告警發(fā)生,您可以快速了解到相關(guān)情況,并采取相應(yīng)的措施。同時,我們的平臺還提供了故障定位功能,可以幫助您找到設(shè)備故障的原因,進一步進行排查和修復(fù)。
以上就是關(guān)于告警中心和告警信息的一些內(nèi)容和功能介紹。如果您對這兩個功能有任何問題或需要進一步了解,歡迎您聯(lián)系監(jiān)控易官網(wǎng),我們一起討論。