云吶AIOps|IT運(yùn)維管理系統(tǒng)自動(dòng)將數(shù)據(jù)進(jìn)行業(yè)務(wù)上的整合
隨著云計(jì)算、大數(shù)據(jù)等全新一代IT技術(shù)的發(fā)展趨勢(shì),企業(yè)信息化的運(yùn)用變得越來越得心應(yīng)手,然而,IT運(yùn)維管理的壓力似乎并未減輕,而是面臨著更大的挑戰(zhàn)。對(duì)IT運(yùn)維管理人員而言,一次IT重大事件的發(fā)生,不僅會(huì)令部門員工士氣低落,更容易讓高層領(lǐng)導(dǎo)對(duì)IT部門的領(lǐng)導(dǎo)能力和執(zhí)行力產(chǎn)生懷疑。因此,對(duì)于IT故障管理,更多希望改善自身?xiàng)l件的IT部門選擇了主動(dòng)提前管理模式,而不是被動(dòng)地彌補(bǔ)。
操作失誤頻繁
IT很多時(shí)候都會(huì)?起到?幕后英雄的作用,可是如今職場(chǎng)的生存環(huán)境,對(duì)于心力交瘁的運(yùn)維管理人員來說卻是一場(chǎng)噩夢(mèng)。
可以完全消除IT故障嗎?回答是不。在IT資產(chǎn)生命周期的任一時(shí)間內(nèi),任何系統(tǒng)都會(huì)發(fā)生故障,包括硬件、軟件和不可抗拒的自然因素。為了達(dá)到這一目的,企業(yè)必須為自己確定一個(gè)可接受的故障管理目標(biāo),將IT基礎(chǔ)設(shè)施故障對(duì)業(yè)務(wù)的影響降至最低,并防止與這些錯(cuò)誤有關(guān)的事故再次發(fā)生。
過去,核心系統(tǒng)主要采用被動(dòng)運(yùn)維和維護(hù)模式,即故障后的定位和處理。隨著業(yè)務(wù)的不斷發(fā)展,核心系統(tǒng)也面臨著網(wǎng)絡(luò)流量和業(yè)務(wù)快速啟動(dòng)的影響。為了應(yīng)對(duì)多重影響,從被動(dòng)運(yùn)維和維護(hù)轉(zhuǎn)向主動(dòng)運(yùn)維和維護(hù);
假如僅僅是為了進(jìn)行故障管理,人們會(huì)在改進(jìn)或糾正這種狀況之前,尋找引起事故的原因。”這一實(shí)踐確實(shí)沒有錯(cuò),但是它并不適用于IT運(yùn)維管理最佳過程。
失效處理過程包括被動(dòng)與主動(dòng)兩個(gè)方面。消極方面是指對(duì)一起或多起事故的反應(yīng)來解決問題,而主動(dòng)“故障管理”意味著識(shí)別并解決問題和在事故發(fā)生之前已知的錯(cuò)誤。因此,無(wú)論有多忙,都應(yīng)該考慮并立即采取行動(dòng),因?yàn)檫@種工作狀態(tài)不僅不能改變IT部門,而且會(huì)陷入惡性循環(huán)。
當(dāng)今的企業(yè)IT體系結(jié)構(gòu)由許多新興技術(shù)轉(zhuǎn)變,并融入業(yè)務(wù)的深度。這樣就造成了極其復(fù)雜的管理機(jī)制和錯(cuò)誤發(fā)生的可能性,迫使IT部門無(wú)法滿足于傳統(tǒng)的故障識(shí)別與修復(fù)工作,而是要走在問題的前面。
但是要從哪里著手呢?
步驟一:基礎(chǔ)設(shè)施檢測(cè)的“泛化”
過去,由于網(wǎng)絡(luò)的巨大和隨后的積累,您可能無(wú)法知道IT系統(tǒng)中的每個(gè)關(guān)鍵托管設(shè)備在哪里,甚至連接到哪個(gè)端口。此時(shí)對(duì)IT運(yùn)維管理就等于“盲人摸象”,甚至不可能達(dá)到最基本的“救火”。因此,在這一階段,需要使用具有人工或自動(dòng)發(fā)現(xiàn)功能的運(yùn)維工具,快速查詢整個(gè)網(wǎng)絡(luò)中的所有連接點(diǎn),完成整個(gè)網(wǎng)絡(luò)的真實(shí)物理系統(tǒng)架構(gòu)圖,并實(shí)時(shí)反映整個(gè)網(wǎng)絡(luò)的運(yùn)行狀態(tài)。
值得注意的是,在云計(jì)算或虛擬化運(yùn)行環(huán)境中,傳統(tǒng)的運(yùn)維工具已經(jīng)無(wú)法支持這一目標(biāo)。在這一點(diǎn)上,用戶可以使用具有自動(dòng)感知虛擬和物理環(huán)境的全新一代運(yùn)維平臺(tái),把虛擬交換機(jī)和虛擬機(jī)作為“實(shí)體連接”在監(jiān)控場(chǎng)景中,完成了對(duì)數(shù)據(jù)的自動(dòng)跟蹤,并完成對(duì)虛擬機(jī)漂移的自動(dòng)跟蹤。
步驟二:經(jīng)營(yíng)管理“透明”
一組業(yè)務(wù)系統(tǒng)的可用性依賴于每一個(gè)基礎(chǔ)架構(gòu)對(duì)象之間的協(xié)同與穩(wěn)定,但是先前的基礎(chǔ)監(jiān)控?cái)?shù)據(jù)對(duì)整個(gè)業(yè)務(wù)系統(tǒng)有何幫助?
當(dāng)完成了全網(wǎng)監(jiān)控的目標(biāo)之后,用戶可利用云喊網(wǎng)管軟件自動(dòng)將監(jiān)控?cái)?shù)據(jù)進(jìn)行業(yè)務(wù)上的整合,讓所有關(guān)鍵業(yè)務(wù)參數(shù)都顯眼地投影到業(yè)務(wù)架構(gòu)上,實(shí)時(shí)反映業(yè)務(wù)運(yùn)行狀況。商務(wù)視圖的建立,可以對(duì)外的業(yè)務(wù)部門,對(duì)內(nèi)對(duì)自己的管理提供透明的管理,能很清楚地反映企業(yè)系統(tǒng)的健康指標(biāo)。并且監(jiān)控系統(tǒng)運(yùn)行后,可以事先發(fā)現(xiàn)可能造成系統(tǒng)停機(jī)或存取質(zhì)量不能保證的問題,將可能出現(xiàn)故障的隱患排除在萌芽狀態(tài)。
IT運(yùn)維要為創(chuàng)新“留出時(shí)間”
主動(dòng)權(quán)運(yùn)維、先期運(yùn)維,這些具體工作實(shí)際上是圍繞“預(yù)防性檢查(PM)”展開的,目的是提高系統(tǒng)的可用性、穩(wěn)定性。
云吶統(tǒng)一運(yùn)維管理平臺(tái),通過對(duì)網(wǎng)絡(luò)設(shè)備管理、資產(chǎn)管理、服務(wù)器管理、存儲(chǔ)設(shè)備管理、業(yè)務(wù)應(yīng)用管理、無(wú)線管理、日志分析、辦公設(shè)備/聯(lián)網(wǎng)設(shè)備、動(dòng)環(huán)系統(tǒng)等本地和異地網(wǎng)絡(luò)的實(shí)時(shí)監(jiān)控、自動(dòng)巡檢,精準(zhǔn)采集、分析故障信息,判斷重要數(shù)據(jù)性能指標(biāo),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)中心的集中統(tǒng)一管理。