如何將圖數(shù)據(jù)庫應用于企業(yè)智能運維

導讀
隨著數(shù)字化轉(zhuǎn)型的加劇,數(shù)據(jù)資源的規(guī)模及復雜度也呈指數(shù)級增長,同時在不斷擴大的網(wǎng)絡規(guī)模和虛擬化趨勢的推動下,運維發(fā)展也從CMDB的自動化階段朝著智能運維階段過渡。智能運維(AIOps)階段是最理想化、最高效的運維方式,其將大數(shù)據(jù)、人工智能等技術(shù)融入運維領(lǐng)域,實現(xiàn)智能故障預測、故障定位、故障自愈等。
但在實際場景中,AIOps卻存在廣泛痛點導致目標無法高效實行。例如金融行業(yè),運維系統(tǒng)影響業(yè)務系統(tǒng),造成業(yè)務處理周期長,使大量客戶流失。解決其落地的關(guān)鍵在于智能運維圖譜的建立,智能運維圖譜位于運維數(shù)據(jù)中臺內(nèi),管理對象層存儲有靜態(tài)數(shù)據(jù),各對象調(diào)用時產(chǎn)生數(shù)據(jù)依賴關(guān)系、動態(tài)數(shù)據(jù),各對象數(shù)據(jù)更新時產(chǎn)生流程數(shù)據(jù)。系統(tǒng)運行時,圖譜將調(diào)用下游接口,對數(shù)據(jù)進行整合和關(guān)系提取,從而構(gòu)建多層次的運維關(guān)系網(wǎng)絡,并針對不同的服務場景產(chǎn)出不同的關(guān)聯(lián)關(guān)系圖譜,從而實現(xiàn)對場景中各類服務的能力支持。
基于此背景,運維人員需要將運維對象的動態(tài)關(guān)系(服務調(diào)用關(guān)系、設備網(wǎng)絡關(guān)系、作業(yè)依賴關(guān)系)和靜態(tài)運行狀態(tài)(數(shù)據(jù)庫運行狀態(tài)、應用運行狀態(tài)、服務器運行狀態(tài))數(shù)據(jù)關(guān)聯(lián)起來,構(gòu)建全局視角下的智能運維圖譜,從而保障企業(yè)服務正常運行。
以Galaxybase圖數(shù)據(jù)庫進行運維管理的方法原理圖如下。

創(chuàng)建模型
構(gòu)建設備網(wǎng)絡之間的關(guān)聯(lián)關(guān)系,可以根據(jù)運維對象的實際情況展開,將物理實體、虛擬化設備、網(wǎng)絡應用設置為點,各實體間調(diào)度關(guān)系設置為邊。接下來使用Galaxybase圖數(shù)據(jù)庫來創(chuàng)建數(shù)據(jù)模型,點類型和點屬性如下表所示。

邊類型、起始點類型、終止點類型如下表所示。

智能運維圖譜模型如下圖所示。

更多圖模型構(gòu)建方式請參考圖構(gòu)建(https://www.modb.pro/db/171708)。
智能運維 - 故障定位
在運維管理中,運維人員發(fā)現(xiàn)某個站點無法顯示網(wǎng)頁信息,需要排查站點背后服務器、數(shù)據(jù)庫等設備間的調(diào)度關(guān)系,定位故障所在。舉例,在上文所建圖模型中,我們將尋找“站點02”無法顯示的問題可能出現(xiàn)在哪里,查詢的流程圖如下所示。

查詢語句
// 以p代指路徑,查詢站點“URL02”4度網(wǎng)絡內(nèi)所有調(diào)度關(guān)系?
MATCH p = (n:站點{站點編號:'URL02'})-[r*1..4]->(m)?
// 返回路徑p,在畫布查看站點“URL02”4度網(wǎng)絡內(nèi)所有調(diào)度關(guān)系?
RETURN p
查詢結(jié)果
如下圖所示,畫布顯示站點“URL02”背后所有的設備調(diào)度關(guān)系,包括數(shù)據(jù)庫虛擬機“DBVM04”、設備虛擬機“WEBVM02”、服務器“SERVER02”及儲存區(qū)域網(wǎng)絡“SAN01”等,在站點“URL02”的故障關(guān)系網(wǎng)內(nèi),運維人員對可能存在故障的設備進行逐一排查,精確定位故障所在。

智能運維 - 影響分析
在運維管理中,設備間的調(diào)度關(guān)系十分復雜,我們對設備資產(chǎn)進行優(yōu)化時,需要快速追溯基礎架構(gòu)內(nèi)所有設備和關(guān)系,依此進行影響分析,確定優(yōu)化方案。舉例,在上文所建圖模型中,我們將分析服務器“Server05”故障帶來的影響范圍,查詢的流程圖如下所示。

查詢語句
// 以p代指路徑,查詢依賴于服務器“Server05”的所有設備信息?
MATCH p=(n3:存儲區(qū)域網(wǎng)絡)<-[r3]-(n2:服務器{服務器編號:"Server05"})<-[r2]-(n:服務器)<-[r]-(m)<-[r1]-(n1:站點)?
?WITH p,m?
// 找到設備信息后,查詢受影響的數(shù)據(jù)庫虛擬機和客戶管理系統(tǒng)?
OPTIONAL MATCH q=(m)<-[r4]-(n4:客戶管理系統(tǒng))?
?// 返回服務器“Server05”出現(xiàn)故障后,受影響的關(guān)系網(wǎng)絡?
RETURN p,q
查詢結(jié)果
如下圖所示,可以看到和“服務器05”存在調(diào)度關(guān)系的的所有服務器、設備虛擬機、數(shù)據(jù)庫虛擬機、站點和客戶管理系統(tǒng),如“服務器05”、站點“URL02”、客戶管理系統(tǒng)“CRM01”等。當“服務器05”出現(xiàn)故障時,這些服務也可能會受到相應的影響,運維人員應對這些服務進行重點關(guān)注。

結(jié)語
以上僅為智能運維圖譜的簡單展示,通過上述兩個例子,可以看到圖數(shù)據(jù)庫能夠抽取下游數(shù)據(jù),將應用服務、基礎設施、批次作業(yè)等之間的依賴關(guān)系以全局統(tǒng)一視角進行整合,打破運維人員之間的信息繭房問題,實現(xiàn)跨應用的精準故障定位和業(yè)務影響范圍分析,實現(xiàn)智能運維。
后續(xù),我們會在【創(chuàng)鄰科技Galaxybase】微信公眾號及官網(wǎng)發(fā)布更多圖數(shù)據(jù)庫熱點應用場景和前沿資訊,歡迎對圖數(shù)據(jù)庫感興趣的同學關(guān)注。