最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

IT運(yùn)維中遇到的事件、故障排查處理思路

2022-11-16 17:25 作者:網(wǎng)強(qiáng)智能運(yùn)維平臺(tái)  | 我要投稿

故障場(chǎng)景

先以呼叫中心做例子,業(yè)務(wù)人員反映呼叫中心系統(tǒng)運(yùn)行緩慢,部分電話(huà)在自助語(yǔ)言環(huán)節(jié)系統(tǒng)處理超時(shí),話(huà)務(wù)轉(zhuǎn)人工座席,人工座席出現(xiàn)爆線(xiàn)情況。


運(yùn)維人員開(kāi)始忙活了,查資源使用情況、查服務(wù)是否正常、查日志是否報(bào)錯(cuò)、查交易量還有沒(méi)有……時(shí)間不知不覺(jué)的在敲鍵盤(pán)、敲鍵盤(pán)、敲鍵盤(pán)中過(guò)去,但是原因還未定位。


經(jīng)理過(guò)來(lái)了解情況:“系統(tǒng)恢復(fù)了嗎?”、“故障影響是什么?”、“交易中斷了嗎?”……


運(yùn)維人員趕緊敲鍵盤(pán),寫(xiě)sql,看交易量;敲鍵盤(pán),寫(xiě)命令,看系統(tǒng)資源、情況……


最終,定位到問(wèn)題原因是其中一個(gè)功能沒(méi)有控制返回?cái)?shù)量,導(dǎo)致內(nèi)存泄露。


針對(duì)這個(gè)故障,業(yè)務(wù)希望運(yùn)維能否更快的解決故障的恢復(fù),經(jīng)理希望制定優(yōu)化呼叫中心故障處理流程,做了以下幾件事:

1、優(yōu)先故障處理過(guò)程的時(shí)間——“能通過(guò)鼠標(biāo)完成的工作,不要用鍵盤(pán)”
2、提前發(fā)現(xiàn)故障,加強(qiáng)監(jiān)控——“技術(shù)早于業(yè)務(wù)發(fā)現(xiàn)問(wèn)題,監(jiān)控不僅是報(bào)警,還要協(xié)助故障定位”
3、完善故障應(yīng)急方案——“應(yīng)急方案是最新的、準(zhǔn)確的、簡(jiǎn)單明了的”
4、長(zhǎng)遠(yuǎn)目標(biāo):故障自愈——“能固化的操作自動(dòng)化,能機(jī)器做的讓機(jī)器做”


下面將從故障常見(jiàn)的處理方法開(kāi)始介紹,再?gòu)墓收锨暗臏?zhǔn)備工作(完善監(jiān)控等方式)來(lái)解決經(jīng)理提出的問(wèn)題,并提出未來(lái)解決故障的想法。

解決方法

1、確定故障現(xiàn)象并初判問(wèn)題影響

在處理故障前,運(yùn)維人員首先要知道故障現(xiàn)象,故障現(xiàn)象直接決定故障應(yīng)急方案的制定,這依賴(lài)于運(yùn)維人員需要對(duì)應(yīng)用系統(tǒng)的整體功能有一定的熟悉程度。

確認(rèn)了故障現(xiàn)象后,才能指導(dǎo)運(yùn)維人員初判斷故障影響。

2、應(yīng)急恢復(fù)

運(yùn)維最基本的指標(biāo)就是系統(tǒng)可用性,應(yīng)急恢復(fù)的時(shí)效性是系統(tǒng)可用性的關(guān)鍵指標(biāo)。

有了上述故障現(xiàn)象與影響的判斷后,就可以制定故障應(yīng)急操作,故障應(yīng)急有很多,比如:

服務(wù)整體性能下降或異常,可以考慮重啟服務(wù);應(yīng)用做過(guò)變更,可以考慮是否需要回切變更;資源不足,可以考慮應(yīng)急擴(kuò)容;應(yīng)用性能問(wèn)題,可以考慮調(diào)整應(yīng)用參數(shù)、日志參數(shù);
數(shù)據(jù)庫(kù)繁忙,可以考慮通過(guò)數(shù)據(jù)庫(kù)快照分析,優(yōu)化SQL;應(yīng)用功能設(shè)計(jì)有誤,可以考慮緊急關(guān)閉功能菜單;另外,需要補(bǔ)充的是,在故障應(yīng)急前,在有條件的情況需要保存當(dāng)前系統(tǒng)場(chǎng)景,比如在殺進(jìn)程前,可以先抓個(gè)CORE文件或數(shù)據(jù)庫(kù)快照文件。

3、快速定位故障原因

是否為偶發(fā)性、是否可重現(xiàn)

故障現(xiàn)象是否可以重現(xiàn),對(duì)于快速解決問(wèn)題很重要,能重現(xiàn)說(shuō)明總會(huì)有辦法或工具幫助我們定位到問(wèn)題原因,而且能重現(xiàn)的故障往往可能是服務(wù)異常、變更等工作導(dǎo)致的問(wèn)題。

但是,如果故障是偶發(fā)性的,是有極小概率出現(xiàn)的,則比較難排查,這依賴(lài)于系統(tǒng)是否有足夠的故障期間的現(xiàn)場(chǎng)信息來(lái)決定是否可以定位到總的原因。


是否進(jìn)行過(guò)相關(guān)變更

大部份故障是由于變更導(dǎo)致,確定故障現(xiàn)象后,如果有應(yīng)的變更,有助于從變更角度出現(xiàn)分析是否是變更引起,進(jìn)而快速定位故障并準(zhǔn)備好回切等應(yīng)急方案。


是否可縮小范圍

一方面應(yīng)用系統(tǒng)提倡解耦,一支交易會(huì)流經(jīng)不同的應(yīng)用系統(tǒng)及模塊;另一方面,故障可能由于應(yīng)用、系統(tǒng)軟件、硬件、網(wǎng)絡(luò)等環(huán)節(jié)的問(wèn)題。在排查故障原因時(shí)應(yīng)該避免全面性的排查,建議先把問(wèn)題范圍縮小到一定程序后再開(kāi)始協(xié)調(diào)關(guān)聯(lián)團(tuán)隊(duì)排查。


關(guān)聯(lián)方配合分析問(wèn)題

與第3點(diǎn)避免同時(shí)各關(guān)聯(lián)團(tuán)隊(duì)同時(shí)無(wú)頭緒的排查的同時(shí),對(duì)于牽頭方在縮小范圍后需要開(kāi)放的態(tài)度去請(qǐng)求關(guān)聯(lián)方配合定位,而對(duì)于關(guān)聯(lián)方則需要有積極配合的工作態(tài)度。


是否有足夠的日志

定位故障原因,最常用的方法就是分析應(yīng)用日志,對(duì)運(yùn)維人員不僅需要知道業(yè)務(wù)功能對(duì)應(yīng)哪個(gè)服務(wù)進(jìn)程,還要知道這個(gè)服務(wù)進(jìn)程對(duì)應(yīng)的哪些應(yīng)用日志,并具備一些簡(jiǎn)單的應(yīng)用日志異常錯(cuò)誤的判斷能力。


完善監(jiān)控

1、從監(jiān)控可視化上完善

完善的監(jiān)控策略需要有統(tǒng)一的可視化操作界面,在制定完善的監(jiān)控策略后,故障處理人員需要能夠快速的看到相應(yīng)的運(yùn)行數(shù)據(jù),比如:能夠看到一段時(shí)間的趨勢(shì)、故障期間的數(shù)據(jù)表現(xiàn)、性能分析的情況等等數(shù)據(jù),且這些數(shù)據(jù)可以提前制定好策略直接推出分析結(jié)果給故障處理人員,這樣就大大提高了故障的處理效率。

2、從監(jiān)控面上完善

監(jiān)控最基本的工作就是實(shí)現(xiàn)對(duì)負(fù)載均衡設(shè)備、網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲(chǔ)設(shè)備、安全設(shè)備、數(shù)據(jù)庫(kù)、中間件及應(yīng)用軟件等IT資源的全面監(jiān)控管理。在應(yīng)用軟件類(lèi)的監(jiān)控工作中,不僅需要有服務(wù)進(jìn)程、端口等監(jiān)控,還需要有業(yè)務(wù)、交易層的監(jiān)控。

全面性的應(yīng)用監(jiān)控可以讓故障提前預(yù)警,并保存了影響應(yīng)用運(yùn)行環(huán)境的數(shù)據(jù),以縮短故障處理時(shí)間。

3、從監(jiān)控告警上完善

完善的監(jiān)控策略需要有清晰的監(jiān)控告警提示,值班人員要以根據(jù)監(jiān)控告警即可作出簡(jiǎn)單的問(wèn)題定位與應(yīng)急處理方案。

4、從監(jiān)控分析上完善

完善的監(jiān)控策略不僅需要有實(shí)時(shí)的數(shù)據(jù)告警,也要有匯總數(shù)據(jù)的分析告警,實(shí)時(shí)數(shù)據(jù)分析的告警的重要性不用多說(shuō),對(duì)于匯總分析的數(shù)據(jù)則能發(fā)現(xiàn)潛在風(fēng)險(xiǎn),同時(shí)也為分析疑難雜癥提供幫忙。

5、從監(jiān)控主動(dòng)性上完善

監(jiān)控不僅僅是報(bào)警,它還可以做得更多,只要我們想辦法賦予它主動(dòng)解決事件的規(guī)則,它便有為管理員處理故障的能力。


在數(shù)字化轉(zhuǎn)型“深水區(qū)”,業(yè)務(wù)、技術(shù)體系和平臺(tái)架構(gòu)的日益復(fù)雜化和多元化,催生了智能化的運(yùn)維服務(wù)需求。這一點(diǎn)從網(wǎng)強(qiáng)適應(yīng)市場(chǎng)的不斷變遷中可以得到印證。

智能化運(yùn)維管理系統(tǒng)

網(wǎng)強(qiáng)專(zhuān)注于為客戶(hù)提供卓越的全面IT網(wǎng)絡(luò)運(yùn)維整合服務(wù)。集網(wǎng)絡(luò)設(shè)備、服務(wù)器、數(shù)據(jù)庫(kù)、中間件、服務(wù)、安全設(shè)備、ORACLE數(shù)據(jù)庫(kù)集群、虛擬機(jī)集群、存儲(chǔ)運(yùn)維管理、無(wú)線(xiàn)運(yùn)維管理、視頻設(shè)備運(yùn)維管理 、機(jī)房動(dòng)力環(huán)境管理、業(yè)務(wù)管理、可視化大屏展示、云平臺(tái)等各種軟硬件實(shí)現(xiàn)一體化IT網(wǎng)絡(luò)運(yùn)維監(jiān)控方案,打造IT網(wǎng)管軟件產(chǎn)品的智能化運(yùn)維管理、自動(dòng)化管理的網(wǎng)管需求,遵循用戶(hù)實(shí)際使用習(xí)慣,以管理概念為導(dǎo)向,為您提供全方面多緯度的IT網(wǎng)絡(luò)運(yùn)維管理平臺(tái)整合服務(wù)。

IT運(yùn)維中遇到的事件、故障排查處理思路的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
焦作市| 乌拉特中旗| 封开县| 东方市| 十堰市| 盱眙县| 马关县| 耒阳市| 弋阳县| 息烽县| 繁峙县| 蒙城县| 兰溪市| 金华市| 惠州市| 两当县| 扶余县| 都匀市| 南充市| 苍梧县| 兴和县| 淳化县| 宁海县| 鄂尔多斯市| 图木舒克市| 江西省| 馆陶县| 庐江县| 新巴尔虎右旗| 临桂县| 晋城| 辛集市| 高淳县| 甘肃省| 乐都县| 平昌县| 南汇区| 额尔古纳市| 清新县| 神农架林区| 进贤县|