【大咖秀】博睿數(shù)據(jù)眼中的AIOps,選擇正確的賽道正確的人
風(fēng)口總是偏向那些找對(duì)方向的人。
2021年創(chuàng)投的風(fēng)向標(biāo)便吹向了IT運(yùn)維這個(gè)賽道。根據(jù)IT桔子的不完全統(tǒng)計(jì),2021年IT運(yùn)維行業(yè)相關(guān)融資事件共有24起,融資金額約54.7億元。
據(jù)艾瑞咨詢的數(shù)據(jù)顯示,2021年中國(guó)IT服務(wù)突破萬億大關(guān),其中IT運(yùn)維市場(chǎng)規(guī)模達(dá)到2941.2億元。預(yù)計(jì)2023 年將達(dá)到3236.4 億元,2020-2023 年的年復(fù)合增長(zhǎng)率為 11.7%。就智能運(yùn)維賽道而言,全球智能運(yùn)維的市場(chǎng)規(guī)模年復(fù)合成長(zhǎng)率預(yù)計(jì)為30.6%,2027年達(dá)到400億美元的規(guī)模。
毋庸置疑,IT運(yùn)維正在成為繼SaaS之外又一個(gè)被送上風(fēng)口的賽道。在這個(gè)巨大的角斗場(chǎng)中,資本、企業(yè)、技術(shù)正在塑造行業(yè)發(fā)展的新邏輯。
選擇正確的賽道和正確的人
在過去的數(shù)十年間,運(yùn)維發(fā)展經(jīng)歷了數(shù)個(gè)階段。從早期的手工運(yùn)維到標(biāo)準(zhǔn)化運(yùn)維、自動(dòng)化運(yùn)維,再到DevOps、AIOps,追溯整個(gè)歷程不難發(fā)現(xiàn),運(yùn)維方式隨著技術(shù)的不斷發(fā)展,逐漸邁向智能化。
從2016年AIOps(智能運(yùn)維)概念被提出,到2017、2018年全球市場(chǎng)出現(xiàn)商業(yè)化產(chǎn)品,在國(guó)內(nèi)市場(chǎng),2020年是AIOps的元年。博睿數(shù)據(jù)也是在2020年開始重兵投入智能運(yùn)維賽道。
根據(jù)第三方評(píng)估機(jī)構(gòu)預(yù)測(cè),到2022年,40%的大中型企業(yè)將部署AIOps平臺(tái)。不難猜測(cè),智能運(yùn)維將在很長(zhǎng)一段時(shí)間成為IT運(yùn)維的重點(diǎn)賽道。
博睿數(shù)據(jù)作為國(guó)內(nèi)智能運(yùn)維領(lǐng)域的排頭兵,自然也不例外。2008年博睿數(shù)據(jù)以監(jiān)控起家,經(jīng)過多年的打磨,成為了IT運(yùn)維行業(yè)的領(lǐng)軍企業(yè);2020年博睿數(shù)據(jù)憑借強(qiáng)大APM背景和強(qiáng)大數(shù)據(jù)分析/AI(人工智能)能力成為國(guó)內(nèi)A股市場(chǎng)上的“APM監(jiān)測(cè)第一股”;同年,博睿數(shù)據(jù)憑借獨(dú)到的市場(chǎng)眼光錨定智能運(yùn)維賽道,有理由相信,博睿數(shù)據(jù)在今后的智能運(yùn)維賽道中也將行穩(wěn)致遠(yuǎn)。也正是基于博睿數(shù)據(jù)每一次的正確選擇,吸引了那些緊跟賽道和風(fēng)口的優(yōu)秀人才的目光。
現(xiàn)任博睿數(shù)據(jù)首席架構(gòu)師李驊宸與博睿數(shù)據(jù)AIOps首席專家賀安輝便是其中的佼佼者。

李驊宸,此前在螞蟻集團(tuán)負(fù)責(zé)數(shù)據(jù)服務(wù)穩(wěn)定性,從事數(shù)據(jù)服務(wù)、系統(tǒng)穩(wěn)定性、AIOps智能監(jiān)控告警平臺(tái)等研發(fā)工作,曾賦能支付寶關(guān)鍵業(yè)務(wù)和系統(tǒng)指標(biāo)秒級(jí)態(tài)勢(shì)診斷和應(yīng)急決策。

賀安輝,之前在螞蟻集團(tuán)負(fù)責(zé)可觀測(cè)性平臺(tái) AntMonitor 產(chǎn)品集的產(chǎn)品規(guī)劃和設(shè)計(jì)工作, 對(duì)于AIOps的產(chǎn)品、算法、場(chǎng)景有豐富的實(shí)踐經(jīng)驗(yàn)。
近日,我們采訪了兩位經(jīng)驗(yàn)豐富的大咖,試圖從博睿數(shù)據(jù)的視角窺探AIOps 的全貌。
關(guān)于AIOps 產(chǎn)品本身

就博睿數(shù)據(jù)而言,博睿數(shù)據(jù)的AIOps的核心是“數(shù)據(jù)+AI+產(chǎn)品+場(chǎng)景”四合一的綜合解決方案。在一體化運(yùn)維、告警管理、故障定位、應(yīng)急快恢等高頻運(yùn)維場(chǎng)景中幫助用戶更高效、更準(zhǔn)確的達(dá)成業(yè)務(wù)目標(biāo)。
就其優(yōu)勢(shì)而言,主要有5個(gè)方面:
門檻低:博睿數(shù)據(jù)的AI接入簡(jiǎn)單,開箱即用,算法支持可視化和自解釋;
性能高:同等性能條件下資源消耗較少,1臺(tái)4C8G機(jī)器可處理每分鐘6.6萬指標(biāo)量,3臺(tái)8C16G機(jī)器可處理每分鐘48萬指標(biāo)量;
數(shù)據(jù)全:APM深耕多年,數(shù)據(jù)多而全,比如Trace核心基礎(chǔ)能力,博睿數(shù)據(jù)支持多語言、多框架,也能和日志深度關(guān)聯(lián)。這對(duì)AIOps做多模態(tài)數(shù)據(jù)聯(lián)邦分析和挖掘有優(yōu)勢(shì);
范圍廣:算法通用性強(qiáng),適應(yīng)范圍廣泛,針對(duì)不同行業(yè)進(jìn)行了模型優(yōu)化;
分析強(qiáng):可觀測(cè)數(shù)據(jù)、流程工單數(shù)據(jù)、配置管理數(shù)據(jù)匯總到數(shù)據(jù)中臺(tái),提供流批一體的在離線數(shù)據(jù)查詢聚合能力,為任意指標(biāo)、實(shí)體的關(guān)聯(lián)分析提供獨(dú)到見解支撐。
目前,博睿數(shù)據(jù)基于自研的大數(shù)據(jù)實(shí)時(shí)處理和分析平臺(tái) Zeus做數(shù)據(jù)挖掘,在異常檢測(cè)、趨勢(shì)預(yù)測(cè)、告警收斂、事件分析等應(yīng)用場(chǎng)景方面已實(shí)現(xiàn)產(chǎn)品化落地。
具體來說,異常檢測(cè),主要應(yīng)用于運(yùn)維數(shù)據(jù)的無監(jiān)督異常發(fā)現(xiàn)環(huán)節(jié),不需要運(yùn)維人員手工設(shè)置閾值即可做到異常的自主發(fā)現(xiàn),大幅節(jié)省了人力投入;
趨勢(shì)預(yù)測(cè),主要應(yīng)用于業(yè)務(wù)特性運(yùn)維數(shù)據(jù)的預(yù)測(cè)場(chǎng)景,比如容量預(yù)測(cè)、訪問量預(yù)測(cè)、硬件缺陷預(yù)測(cè)等等,對(duì)于運(yùn)維人員的預(yù)算編制、業(yè)務(wù)規(guī)劃和提前介入處置起到很大的參考作用;
告警收斂,主要應(yīng)用于統(tǒng)一告警平臺(tái)的事件管理場(chǎng)景,運(yùn)維人員不再需要面對(duì)大量的無效告警,只需要關(guān)注收斂后的少量故障,應(yīng)急處置的效率和精準(zhǔn)度有了大幅提升;
事件分析,主要應(yīng)用于一體化運(yùn)維平臺(tái)的問題管理場(chǎng)景,AI將指標(biāo)、Trace、事件的異常信息匯聚到問題,從問題查找根因,從根因聯(lián)動(dòng)通知、自動(dòng)化等處置步驟,問題分析的效率和精準(zhǔn)度得到大幅改善。
在AIOps實(shí)踐方面,博睿數(shù)據(jù)依托多年APM行業(yè)積累,已具備豐富的數(shù)據(jù)集合。依托IT運(yùn)維監(jiān)控能力,利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)持續(xù)構(gòu)建智能運(yùn)維監(jiān)控能力。
2021年,博睿數(shù)據(jù)在國(guó)內(nèi)首次提出了“服務(wù)可達(dá)的數(shù)據(jù)鏈DNA”技術(shù)理念,D代表DEM(數(shù)字體驗(yàn)管理),N代表NPM(網(wǎng)絡(luò)性能管理),A代表APM(應(yīng)用性能管理),從而打通從代碼到用戶訪問的全過程,進(jìn)一步釋放企業(yè)IT運(yùn)維監(jiān)控管理所有分支領(lǐng)域DEM、APM、ITIM、NPM和智能運(yùn)維管理的能力。

目前,博睿數(shù)據(jù)算法中臺(tái) SwiftAI已賦能到新一代APM的Server產(chǎn)品、新一代的智能運(yùn)維大數(shù)據(jù)平臺(tái)DataView、“雙模一體”智能應(yīng)急中心OneAlert等,與博睿數(shù)據(jù)統(tǒng)一聯(lián)邦數(shù)據(jù)中臺(tái) Zeus相輔相成,不斷落地智能異常檢測(cè)、趨勢(shì)預(yù)測(cè)、智能告警、事件分析等場(chǎng)景,助力云原生時(shí)代服務(wù)可達(dá)。
2022年5月20日,博睿數(shù)據(jù)正式推出了一體化智能可觀測(cè)平臺(tái)ONE,該平臺(tái)旨在建立一體化、智能化、面向業(yè)務(wù)與用戶體驗(yàn)的統(tǒng)一運(yùn)維平臺(tái),助力企業(yè)提高數(shù)字化體驗(yàn),降低運(yùn)維成本,提升工作效率,為數(shù)字化轉(zhuǎn)型賦能升級(jí)。同時(shí),這也是業(yè)界第一個(gè)將所有運(yùn)維監(jiān)控需求“All in ONE”的統(tǒng)一平臺(tái)。博睿數(shù)據(jù)的AI 能力,比如告警收斂、根因分析、多維分析、影響分析等,也將在ONE 平臺(tái)的觀測(cè)洞察、應(yīng)急管理等模塊中逐步落地。

談及博睿數(shù)據(jù)AIOps未來的發(fā)展,賀安輝表示:“未來,博睿數(shù)據(jù)在AIOps 方面將在根因定位、影響分析、NLP、算法實(shí)驗(yàn)室四個(gè)方面發(fā)力?!?/p>
同時(shí),未來博睿數(shù)據(jù)也將繼續(xù)發(fā)展多模態(tài)數(shù)據(jù)聯(lián)邦“底座”和AI算法的廣度和深度,支持全程服務(wù)可觀測(cè)。
AIOps 未來已來
雖然AI技術(shù)給運(yùn)維工作帶來的價(jià)值顯而易見,但需要明確的是AIOps 不是一個(gè)一蹴而就的實(shí)踐,而是一個(gè)長(zhǎng)期演進(jìn)的過程,需要不斷創(chuàng)新發(fā)展。
就當(dāng)前國(guó)內(nèi)智能運(yùn)維的環(huán)境而言,李驊宸認(rèn)為AIOps還存在以下幾方面的挑戰(zhàn):
普適性:在不同的客戶業(yè)務(wù)場(chǎng)景中,如何減少定制化和實(shí)施成本,又能更好的解決業(yè)務(wù)問題。
可解釋:AI的結(jié)果如何自解釋,如何驗(yàn)證。
效率:高度自動(dòng)化地減少人工干預(yù)。
資源:在私有化或POC時(shí),極致的技術(shù)應(yīng)用到資源和性能優(yōu)化中,以最小資源成就最大價(jià)值。
穩(wěn)定:AI算法高度智能化和自動(dòng)化。
在他看來,博睿數(shù)據(jù)今后要在智能運(yùn)維方面持續(xù)發(fā)力。
首先,要打破數(shù)據(jù)孤島,做DNA 數(shù)據(jù)的最大化融合,建立數(shù)據(jù)資產(chǎn)的統(tǒng)一管理倉(cāng)庫(kù),產(chǎn)生聯(lián)邦數(shù)據(jù)的次生價(jià)值。以博睿數(shù)據(jù)提出的數(shù)據(jù)鏈DNA 概念為例,AIOps是DNA中重要的一環(huán),可助力APM產(chǎn)品和數(shù)據(jù)實(shí)現(xiàn)端到端打通,讓DNA更加自動(dòng)化和智能化。同時(shí),DNA數(shù)據(jù)鏈也給AI提供場(chǎng)景和數(shù)據(jù)土壤,讓AI通過信息整合、特征關(guān)聯(lián)真正的跑出優(yōu)質(zhì)算法模型。
其次,要加強(qiáng)數(shù)據(jù)分析和數(shù)據(jù)挖掘,擴(kuò)展AI產(chǎn)品能力,夯實(shí)算法基礎(chǔ)能力,讓AI支持輕量級(jí)的模塊化和產(chǎn)品化。在算法可解釋性和評(píng)價(jià)體系方面建立一套標(biāo)準(zhǔn),引入不同的數(shù)據(jù)集進(jìn)行數(shù)據(jù)加工分析,用真實(shí)故障注入的方式來不斷錘煉AIOps能力,在商業(yè)化輸出時(shí)能夠以近乎開箱即用、極低適配成本的方式實(shí)現(xiàn)價(jià)值的最大化輸出。
更為重要的是,AIOps本就是基于已有的運(yùn)維數(shù)據(jù),并通過機(jī)器學(xué)習(xí)的方式來進(jìn)一步解決自動(dòng)化運(yùn)維沒辦法解決的問題。企業(yè)實(shí)現(xiàn)AIOps的前提是建立起全面獲取IT數(shù)據(jù)的能力,這里的數(shù)據(jù)主要包括但不限于日志、指標(biāo)和事件等。將這些數(shù)據(jù)輸送給AIOps平臺(tái),為AIOps提供數(shù)據(jù)資產(chǎn),以進(jìn)行整合的更高級(jí)別的分析和洞察。如果沒有這些大數(shù)據(jù)的支持,AIOps則是無源之水。所以對(duì)于企業(yè)來說,大數(shù)據(jù)采集工作至關(guān)重要。
兩位大咖對(duì)AIOps的未來發(fā)展充滿信心??傮w而言,中國(guó)市場(chǎng)足夠大,數(shù)據(jù)也足夠豐富,而在國(guó)家戰(zhàn)略和政策的支持下,傳統(tǒng)制造業(yè)正向智能創(chuàng)造逐步發(fā)展,發(fā)展的過程中必然會(huì)涉及大量數(shù)據(jù)處理,而這也是AI技術(shù)的強(qiáng)項(xiàng),當(dāng)前在運(yùn)維領(lǐng)域,AI技術(shù)的應(yīng)用還是剛剛起步,慢慢成熟,在未來的3-5年內(nèi),AI技術(shù)會(huì)廣泛應(yīng)用到運(yùn)維場(chǎng)景中,向自助式服務(wù)方向發(fā)展。
寫在最后
每一個(gè)產(chǎn)品最需要的是被市場(chǎng)認(rèn)可。
在標(biāo)準(zhǔn)制定方面,2021年博睿數(shù)據(jù)獲信通院首批AIOps評(píng)估的異常檢測(cè)全面級(jí),同年博睿數(shù)據(jù)作為信通院組織的AIOps標(biāo)準(zhǔn)工作小組成員,多項(xiàng)建議納入到規(guī)范標(biāo)準(zhǔn)。
在產(chǎn)學(xué)研方面,博睿數(shù)據(jù)也跟廈門大學(xué)成立聯(lián)合實(shí)驗(yàn)室,開展機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方面的合作。
在行業(yè)應(yīng)用落地方面,博睿數(shù)據(jù)的AIOps解決方案已經(jīng)落地到銀行、保險(xiǎn)、證券、教育、航空等行業(yè)中,如異常檢測(cè)場(chǎng)景、告警收斂場(chǎng)景、趨勢(shì)預(yù)測(cè)場(chǎng)景等,為客戶的數(shù)字化轉(zhuǎn)型加速賦能。