最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

百煉成鋼 —— 聲網(wǎng)實(shí)時網(wǎng)絡(luò)的自動運(yùn)維丨Dev for Dev 專欄

2022-08-11 16:16 作者:聲網(wǎng)RTE開發(fā)者社區(qū)  | 我要投稿

原創(chuàng)?黃南薰?聲網(wǎng)開發(fā)者

本文為「Dev for Dev 專欄」系列內(nèi)容,作者為聲網(wǎng)大數(shù)據(jù)算法工程師黃南薰。


01?自動運(yùn)維介紹




2016 年,Gartner 創(chuàng)新性地提出了 AIOps 的概念[1],開創(chuàng)了人工智能輔助運(yùn)維決策的新篇章。


AIOps 的全稱為 Artificial Intelligence for IT Operations,即為 IT 運(yùn)維服務(wù)的人工智能。傳統(tǒng)的運(yùn)維方式往往依賴數(shù)個具備專業(yè)知識的運(yùn)維人員對某個特定場景下的服務(wù)進(jìn)行監(jiān)控與決策。隨著公司體量的成長,業(yè)務(wù)場景及數(shù)量指數(shù)型增長,傳統(tǒng)運(yùn)維將面臨著決策時間長、決策難度大、人力成本高等問題,一旦出現(xiàn)重大決策失誤,就可能造成巨大的商業(yè)損失。然而,海量的數(shù)據(jù)正好是機(jī)器學(xué)習(xí)的擅長領(lǐng)域。


一套成熟的機(jī)器學(xué)習(xí)算法能夠從運(yùn)維操作中積累判斷經(jīng)驗(yàn),不眠不休地持續(xù)對數(shù)據(jù)進(jìn)行監(jiān)控和分析,為運(yùn)維決策提供有價值的信息。


02?SD-RTN??場景下的自動運(yùn)維


1、場景介紹


SD-RTN?,全稱為 Software Defined Real-time Network,是聲網(wǎng)專為雙向?qū)崟r音視頻互動而設(shè)計(jì)的軟件定義實(shí)時網(wǎng)。


它實(shí)現(xiàn)的核心是由遍布全球的機(jī)房搭建起的音視頻傳輸網(wǎng)絡(luò),每個機(jī)房在信息傳遞的過程中都承擔(dān)著發(fā)送和接受的工作。所有經(jīng)過這些機(jī)房的音視頻質(zhì)量會通過一定的方式進(jìn)行指標(biāo)采集和上報(bào),用于實(shí)時質(zhì)量監(jiān)控。而一旦這些指標(biāo)反映出經(jīng)過某個機(jī)房的通話出現(xiàn)了不可接受的問題,則需要對機(jī)房進(jìn)行對應(yīng)的運(yùn)維操作,以保障用戶的優(yōu)質(zhì)音視頻體驗(yàn)。


傳統(tǒng)的運(yùn)維方法使用絕對水位或邏輯條件的方式進(jìn)行機(jī)房質(zhì)量監(jiān)控,這種監(jiān)控雖然能夠識別一些質(zhì)量異常,但存在著漏警誤警嚴(yán)重、維度單一等問題,針對靠近閾值的報(bào)警缺少辨別能力,對于非常規(guī)質(zhì)量異常的傳輸質(zhì)量指標(biāo)曲線也缺乏識別能力。


在業(yè)務(wù)、算法、數(shù)據(jù)、運(yùn)維各團(tuán)隊(duì)的協(xié)力合作下,聲網(wǎng)打造了一套專屬的?SD-RTN??AIOps 框架,以機(jī)器學(xué)習(xí)的方式逐步替代了人工運(yùn)維,打造了迅捷和可靠的自動化運(yùn)維流程



2、全鏈路展示





AIOps 現(xiàn)流程如圖所示。大規(guī)模的機(jī)房數(shù)據(jù)通過數(shù)據(jù)上報(bào)的方式由數(shù)據(jù)中臺處理存儲,大數(shù)據(jù)算法平臺流式讀取數(shù)據(jù),實(shí)現(xiàn)機(jī)房級、區(qū)域級數(shù)據(jù)實(shí)時異常監(jiān)控,發(fā)現(xiàn)異常后將信息流傳遞到運(yùn)維側(cè),同時開啟質(zhì)量恢復(fù)檢測以監(jiān)測異常機(jī)房質(zhì)量是否恢復(fù)。自動禁用與恢復(fù)的數(shù)據(jù)會存放在算法平臺,作為抽樣數(shù)據(jù)以檢測算法效果,并為算法后續(xù)訓(xùn)練提供持續(xù)數(shù)據(jù)源。


目前算法已經(jīng)實(shí)現(xiàn)秒級粒度和分鐘級粒度的優(yōu)質(zhì)傳輸率質(zhì)量檢測,機(jī)房間鏈路檢測及機(jī)房內(nèi)存溢出風(fēng)險檢測,從多個維度實(shí)現(xiàn)對海量機(jī)房的全面監(jiān)控。


一旦機(jī)房質(zhì)量發(fā)生較大程度的異常,算法能夠保證全鏈路在數(shù)十秒內(nèi)及時響應(yīng),對機(jī)房進(jìn)行自動運(yùn)維操作,并能根據(jù)質(zhì)量恢復(fù)情況及時對機(jī)房進(jìn)行自動恢復(fù)操作。目前算法平均每天執(zhí)行 50 至 100 次的自動運(yùn)維操作,基本完全代替了人工操作,有感知的機(jī)房異常準(zhǔn)確召回均超過 97%,在故障恢復(fù)后十分鐘內(nèi)完全實(shí)現(xiàn)流量重新接入,達(dá)到了精細(xì)化運(yùn)維的水準(zhǔn)。


全鏈路的優(yōu)化也在本年度持續(xù)進(jìn)行中,算法團(tuán)隊(duì)致力于實(shí)現(xiàn)算法的自動部署和自動運(yùn)維,加快算法模型的更新迭代,提高算法故障自恢復(fù)能力,便于運(yùn)維團(tuán)隊(duì)操作維護(hù);數(shù)據(jù)平臺將打造高可用的數(shù)據(jù)中心,實(shí)現(xiàn)數(shù)據(jù)源全年高可用保障;運(yùn)維平臺將打造可編程運(yùn)維平臺,實(shí)現(xiàn)運(yùn)維操作收口;算法判斷結(jié)果將以信息流的方式傳遞,從而實(shí)現(xiàn)每一條報(bào)警的全鏈路可追蹤,打造高性能、高魯棒性的自動化運(yùn)維產(chǎn)品。



3、算法介紹




算法團(tuán)隊(duì)和業(yè)務(wù)方協(xié)力,通過算法團(tuán)隊(duì)開發(fā)的算法標(biāo)注平臺對大量機(jī)房異常數(shù)據(jù)進(jìn)行標(biāo)注、挖掘,對表現(xiàn)出異常的質(zhì)量曲線按照特征進(jìn)行分類,并針對每個類型開發(fā)了一套特定的識別方案。


一旦識別出異常,算法還將進(jìn)一步地基于曲線形態(tài)等特征計(jì)算各廠商分量對總體質(zhì)量曲線影響的概率,避免由于單個占有量過大的廠商對整體曲線影響較大而造成誤判。


同時,算法還會將視野下鉆至區(qū)域級別,一旦出現(xiàn)某個區(qū)域的用戶連接特定機(jī)房質(zhì)量大面積異常,會觸發(fā)特殊的告警機(jī)制進(jìn)行后續(xù)處理。



機(jī)房間鏈路檢測以包的形式探測、以從一個機(jī)房出發(fā)及到達(dá)該機(jī)房的所有包的健康狀況來表示該機(jī)房的健康程度。


算法團(tuán)隊(duì)開發(fā)了異常狀態(tài)基線來判斷機(jī)房質(zhì)量。如果傳入、傳出機(jī)房的包出現(xiàn)大規(guī)模整體異?;蛐∫?guī)模大幅度異常,將會疊加異常值;如果完全平穩(wěn)則會降低異常值;當(dāng)異常值突破系統(tǒng)基線則會觸發(fā)報(bào)警進(jìn)而引發(fā)自動運(yùn)維操作。



機(jī)房內(nèi)存檢測運(yùn)用了多種濾波、平滑手段,結(jié)合業(yè)務(wù)邏輯尋找內(nèi)存變化曲線的斷點(diǎn),從斷點(diǎn)處進(jìn)行未來內(nèi)存容量的預(yù)測,識別將要內(nèi)存溢出的機(jī)器并進(jìn)行報(bào)警通知。


03?RTSC 場景下的自動運(yùn)維



1、場景介紹


實(shí)時媒體流處理 Real Time Streaming Center(RTSC)是針對實(shí)時媒體流進(jìn)行云端處理并發(fā)布到不同平臺的服務(wù)??梢曰?RTC 媒體流進(jìn)行處理,構(gòu)建云端錄制、旁路直播、云端合流、云端截圖、輸入在線媒體流等多種技術(shù)場景。


同時可支持外部媒體源輸入和處理。RTSC 的推流和云錄制等服務(wù)主要依賴機(jī)器間信息傳輸?shù)馁|(zhì)量與機(jī)器本身的質(zhì)量,如果機(jī)器發(fā)生故障就會對整個鏈路上的媒體流服務(wù)造成影響。


2、算法介紹


推流服務(wù)機(jī)器質(zhì)量異常檢測的思路與大網(wǎng)傳輸質(zhì)量檢測基本一致。業(yè)務(wù)上推流服務(wù)位于大網(wǎng)傳輸?shù)哪┒耍跀?shù)據(jù)處理上,篩選出 RTSC 相關(guān)的業(yè)務(wù)場景,將關(guān)注對象從發(fā)送端轉(zhuǎn)移到接收端,我們就獲得了海量的 RTSC 機(jī)房傳輸質(zhì)量數(shù)據(jù)從而支持算法進(jìn)行異常檢測。



云錄制服務(wù)中涉及從網(wǎng)關(guān)(Gateway)到邊緣節(jié)點(diǎn)(Edge)的連接,而這些鏈接一旦發(fā)生大面積錯誤,往往意味著某些網(wǎng)關(guān)或邊緣節(jié)點(diǎn)的機(jī)房或機(jī)器不可用,如果不及時禁用機(jī)房或機(jī)器,會影響云錄制服務(wù)的質(zhì)量。


云錄制服務(wù)的質(zhì)量主要體現(xiàn)在網(wǎng)關(guān)到邊緣節(jié)點(diǎn)的錯誤連接數(shù),在業(yè)務(wù)上有著相對明確的閾值,可以按照傳統(tǒng)的閾值方法來控制報(bào)警。但傳統(tǒng)方法由于異常時間和規(guī)模的偶然性,可能會出現(xiàn)無法及時響應(yīng)或無法準(zhǔn)確定位錯誤源的問題。


算法團(tuán)隊(duì)和業(yè)務(wù)方協(xié)力,打造了 RTSC-AIOps 流程。該流程以圖算法為核心,結(jié)合業(yè)務(wù)邏輯,能夠?qū)崿F(xiàn)快速定位異常機(jī)房機(jī)器,目前已經(jīng)完全接管了云錄制邊緣節(jié)點(diǎn)的禁/啟用流程,實(shí)現(xiàn)了一分鐘內(nèi)快速發(fā)現(xiàn)和處理完異常,準(zhǔn)確率達(dá)到 95% 以上,節(jié)省了一半以上的人力,有效提升 RTSC 業(yè)務(wù)運(yùn)維效率,保障了業(yè)務(wù)穩(wěn)定運(yùn)行。


04?結(jié)語

本文介紹了聲網(wǎng)大數(shù)據(jù)算法團(tuán)隊(duì)通過與各個團(tuán)隊(duì)緊密合作,打造的由AI驅(qū)動、大數(shù)據(jù)支撐、業(yè)務(wù)需求為指導(dǎo)的快速精準(zhǔn)化自動運(yùn)維服務(wù)。


在智能化時代,信息的爆炸式增長導(dǎo)致傳統(tǒng)的運(yùn)維、決策、分析、服務(wù)已經(jīng)無法與環(huán)境契合,而算法正是為了解決這些問題而存在的。算法的訓(xùn)練依賴高水平的信息提供者,是一種經(jīng)驗(yàn)的總結(jié)與延伸,是“站在上帝視角”縱觀全局。


隨著算法落地場景的不斷增加,聲網(wǎng)也會有更多的精力投入到向未知領(lǐng)域的探索,利用AI與人力的相輔相成,為開發(fā)者和用戶提供更穩(wěn)定、更高質(zhì)量的產(chǎn)品和服務(wù)。


[1]"Gartner says Algorithmic IT Operations Drives Digital Business" https://www.gartner.com/en/newsroom/press-releases/2017-04-11-gartner-says-algorithmic-it-operations-drives-digital-business



(正文完)


百煉成鋼 —— 聲網(wǎng)實(shí)時網(wǎng)絡(luò)的自動運(yùn)維丨Dev for Dev 專欄的評論 (共 條)

分享到微博請遵守國家法律
南和县| 通辽市| 平原县| 新野县| 大理市| 贵德县| 南华县| 当阳市| 泸西县| 永顺县| 休宁县| 张家川| 江达县| 卫辉市| 滕州市| 临漳县| 平武县| 塔河县| 奎屯市| 巴东县| 枣庄市| 乐业县| 盐亭县| 波密县| 龙南县| 尖扎县| 宁德市| 兴海县| 洛浦县| 烟台市| 铅山县| 延安市| 乡宁县| 湘阴县| 阜新市| 青州市| 来宾市| 颍上县| 韶山市| 南皮县| 乌拉特中旗|