8K 超高清電視播出系統(tǒng)中組播流 智能管控平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
當(dāng)前,播出系統(tǒng)已經(jīng)開始從基帶架構(gòu)向IP 架構(gòu) 發(fā)展。面對(duì)大規(guī)模、高性能的組播流網(wǎng)絡(luò)監(jiān)控 需求,需要一種新的監(jiān)控方式。本文探討了在 播出系統(tǒng)組網(wǎng)環(huán)境中進(jìn)行組播數(shù)據(jù)監(jiān)測的方法 和發(fā)展趨勢,為智能運(yùn)維系統(tǒng)的建設(shè)提供參考。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?摘要
隨著網(wǎng)絡(luò)設(shè)備的種類和應(yīng)用越來越多,網(wǎng)絡(luò)管理 和運(yùn)維的難度也在增加。在廣電播出系統(tǒng)中,播出系 統(tǒng)架構(gòu)由傳統(tǒng)基帶轉(zhuǎn)變?yōu)镮P 化后對(duì)視音頻組播信號(hào) 的監(jiān)控便顯得尤為重要。Gartner 在AIOps(Artificial Intelligence for IT Operations 即智能化運(yùn)維)的研究報(bào) 告中指出,智能運(yùn)維平臺(tái)應(yīng)由監(jiān)測(Observe)、處理 (Engage)和行動(dòng)(Act)三部分結(jié)合大數(shù)據(jù)和機(jī)器學(xué) 習(xí)組成一個(gè)閉環(huán)結(jié)構(gòu),其中監(jiān)測是觸發(fā)整個(gè)閉環(huán)反饋 的基礎(chǔ)和關(guān)鍵,缺乏高質(zhì)量的監(jiān)測,難以形成智能化 的處理和相應(yīng)的主動(dòng)運(yùn)維行為。SNMP、CLI 和日志 等傳統(tǒng)網(wǎng)絡(luò)監(jiān)控技術(shù)因效率低下已很難滿足復(fù)雜網(wǎng)絡(luò) 系統(tǒng)日益增長的監(jiān)控需求,在此次8K 超高清播出系 統(tǒng)的建設(shè)過程中,需要一種更加實(shí)時(shí)、高效的技術(shù)以 應(yīng)對(duì)監(jiān)控業(yè)務(wù)的發(fā)展。
一 項(xiàng)目背景——8K 超高清播出系統(tǒng)介紹
中央廣播電視總臺(tái)播出系統(tǒng)緊密圍繞總臺(tái) “5G+4K/8K+AI”的戰(zhàn)略布局,深入探索推進(jìn)8K 超 高清電視播出技術(shù)的應(yīng)用,建設(shè)8K 超高清電視播出 系統(tǒng),圖1 為8K 超高清電視播出系統(tǒng)全景圖。系統(tǒng) 采用IP 技術(shù)的主、備雙核心信號(hào)調(diào)度矩陣架構(gòu)設(shè)計(jì), 根據(jù)設(shè)備類型將視音頻系統(tǒng)資源池化,涵蓋外來信號(hào) 資源池、服務(wù)器資源池、切換&NAT 資源池、介質(zhì)播 放資源池等不同業(yè)務(wù)資源池共計(jì)8 個(gè)。各資源池間通 過核心調(diào)度矩陣實(shí)現(xiàn)信號(hào)交互與調(diào)度,同時(shí)配置末級(jí) 切換設(shè)備,實(shí)現(xiàn)對(duì)送給下游傳輸系統(tǒng)的8K 末級(jí)信號(hào) 的控制與調(diào)度。

全網(wǎng)絡(luò)化架構(gòu)模式的形成使播出系統(tǒng)從過去廣電 設(shè)備為主,網(wǎng)絡(luò)設(shè)備為輔的形態(tài)轉(zhuǎn)變,目前已形成廣 電設(shè)備和網(wǎng)絡(luò)設(shè)備并駕齊驅(qū),相互協(xié)同的播出環(huán)境, 設(shè)備、網(wǎng)絡(luò)和信號(hào)的狀態(tài)都對(duì)安全播出起到至關(guān)重要 的影響。建設(shè)一套智能管控系統(tǒng)實(shí)時(shí)監(jiān)控組播質(zhì)量, 形成異態(tài)報(bào)警機(jī)制,對(duì)核心調(diào)度矩陣狀態(tài)和端口流量 進(jìn)行監(jiān)管等需求刻不容緩,高效的管控能力將輔助值 班人員完成必要的應(yīng)急切換操作。
二 系統(tǒng)架構(gòu)設(shè)計(jì)
為了實(shí)現(xiàn)對(duì)組播流的高效監(jiān)管,本系統(tǒng)定制開發(fā) 一款智能管控軟件平臺(tái),通過與各類設(shè)備及控制器的 數(shù)據(jù)和命令交互,實(shí)現(xiàn)視音頻域內(nèi)的全局?jǐn)?shù)據(jù)監(jiān)控。 兼顧后期可擴(kuò)展性,平臺(tái)采用軟件定義網(wǎng)絡(luò)技術(shù),將 網(wǎng)絡(luò)設(shè)備中的控制功能和數(shù)據(jù)處理功能解耦,通過軟 件配置的方式完成對(duì)全網(wǎng)設(shè)備的配置和管理,基礎(chǔ)設(shè) 施層網(wǎng)絡(luò)設(shè)備只保留數(shù)據(jù)包轉(zhuǎn)發(fā)和狀態(tài)收集能力。這 種分離的網(wǎng)絡(luò)架構(gòu)具備配置和管理的高度靈活性,在 降低了設(shè)備部署和后期運(yùn)維成本的同時(shí),提高了網(wǎng)絡(luò) 設(shè)備的運(yùn)行效率和生命周期,也有助于設(shè)備二次開發(fā) 功能的實(shí)現(xiàn)。
1. 系統(tǒng)架構(gòu)
系統(tǒng)總體開發(fā)框架如圖2 所示,由前端展示層、 業(yè)務(wù)層、數(shù)據(jù)層、數(shù)據(jù)庫和基礎(chǔ)運(yùn)行環(huán)境組成。?

前端展示層實(shí)現(xiàn)對(duì)告警信息和資源性能監(jiān)控?cái)?shù)據(jù) 的多維度可視化展示,從資源和業(yè)務(wù)兩個(gè)維度提供資 源使用信息查詢功能,操作人員可在此層對(duì)歷史數(shù)據(jù) 和實(shí)時(shí)數(shù)據(jù)進(jìn)行查看。業(yè)務(wù)層制定整體業(yè)務(wù)邏輯,包 含設(shè)備管理、告警管理、拓?fù)涔芾?、PTP 管理和信號(hào) 定義等模塊,通過算法功能進(jìn)行實(shí)現(xiàn)。數(shù)據(jù)層將服務(wù) 層進(jìn)行整合,通過輕量級(jí)開發(fā)框架Spring 框架的兩大 核心能力IOC 和AOP 管理服務(wù)層與數(shù)據(jù)層的創(chuàng)建對(duì) 象和邏輯編寫操作。系統(tǒng)日志和權(quán)限管理等與業(yè)務(wù)運(yùn) 行弱相關(guān)模塊,因存在多個(gè)模塊共同調(diào)用的業(yè)務(wù)場景, 于封裝后統(tǒng)一調(diào)用。在數(shù)據(jù)庫設(shè)計(jì)中使用Ehcache 作 為Mybatis 的二級(jí)緩存,選擇Redis 作為用戶session、 頁面及接口數(shù)據(jù)的臨時(shí)存儲(chǔ),MySQL 作為數(shù)據(jù)存儲(chǔ)庫, 主庫為增刪改庫,備庫為查詢庫。南向接口設(shè)計(jì)可通 過Netconf、Telemetry 和CLI 等3 種通信協(xié)議進(jìn)行對(duì)接, 采用讀(查詢)接口流量統(tǒng)計(jì)、CPU 或內(nèi)存數(shù)據(jù)等信 息和寫(配置)兩種方式實(shí)現(xiàn)設(shè)備控制。
平臺(tái)采用虛擬化技術(shù)搭建運(yùn)行環(huán)境,前端通過兩 臺(tái)Nginx 主機(jī)提供負(fù)載均衡和反向代理能力,對(duì)訪問 流量進(jìn)行分流,減少主機(jī)壓力。通過Keepalived 實(shí)現(xiàn) Nginx、MySQL 的雙機(jī)熱備,后端控制器服務(wù)由3 臺(tái) 主機(jī)集群化部署。Redis 集群通過Cluster 模式搭建三 主三從節(jié)點(diǎn)實(shí)現(xiàn)高可用性。
2. 網(wǎng)絡(luò)監(jiān)控技術(shù)
傳統(tǒng)播出系統(tǒng)因?yàn)榫W(wǎng)絡(luò)環(huán)境簡單,網(wǎng)絡(luò)設(shè)備部署 量小,在過去的監(jiān)控系統(tǒng)設(shè)計(jì)過程中通常使用SNMP get 和CLI 等技術(shù)就可滿足日常監(jiān)控需求。但伴隨超 高清技術(shù)發(fā)展的同時(shí)是傳輸帶寬指數(shù)級(jí)的增長,視音 頻系統(tǒng)由SDI 徹底轉(zhuǎn)向IP 化后,大量網(wǎng)絡(luò)設(shè)備的部 署需要更精確、實(shí)時(shí)的監(jiān)控技術(shù)。
Telemetry 是一項(xiàng)遠(yuǎn)程從物理設(shè)備或虛擬設(shè)備上 高速采集數(shù)據(jù)的技術(shù),設(shè)備通過“網(wǎng)管定制—設(shè)備實(shí) 時(shí)推送”的推模式(Push Mode)主動(dòng)向采集器上送 設(shè)備的接口流量統(tǒng)計(jì)、CPU 或內(nèi)存數(shù)據(jù)等信息。如表 1 所示,SNMP get 和CLI 等傳統(tǒng)網(wǎng)絡(luò)監(jiān)控技術(shù)多數(shù)采 用拉模式(Pull Mode)獲取監(jiān)控?cái)?shù)據(jù),采樣精度只達(dá) 到分鐘級(jí)別,想要獲得數(shù)據(jù)的準(zhǔn)確性只能加大查詢頻 率,易造成節(jié)點(diǎn)CPU 利用率過高從而影響設(shè)備運(yùn)行 的情況,同時(shí)網(wǎng)絡(luò)傳輸時(shí)延也會(huì)導(dǎo)致監(jiān)控到的數(shù)據(jù)不 準(zhǔn)確,因此并不適合監(jiān)控大量網(wǎng)絡(luò)節(jié)點(diǎn)環(huán)境。SNMP Trap 和SYSLOG 雖然是推模式的,但是其推送的數(shù) 據(jù)范圍有限,僅是告警或者事件,對(duì)于類似接口流量 等數(shù)據(jù)不能采集上送。
誠然Telemetry在獲取數(shù)據(jù)效果上存在一定優(yōu)勢, 但仍需根據(jù)不同廠家不同型號(hào)設(shè)備的實(shí)際情況選擇合 適的監(jiān)控手段,或者采用多種方式相配合的形式滿足 業(yè)務(wù)的需求。
三 系統(tǒng)功能介紹
組播智能管控平臺(tái)從人、機(jī)、信號(hào)多維度進(jìn)行管 理,具備機(jī)房管理、設(shè)備管理、信號(hào)定義、報(bào)警管理、 日志管理和智能巡檢等豐富功能,報(bào)警日志將全報(bào)警 信息進(jìn)行分類和策略制定,對(duì)于端口狀態(tài)和PTP 狀態(tài) 等高級(jí)別告警信息采用count 計(jì)數(shù)形式,運(yùn)維人員可 直觀了解到設(shè)備或交換機(jī)端口狀態(tài),對(duì)高頻報(bào)警環(huán)節(jié) 展開預(yù)防行為和針對(duì)性性能測試,做到盡早發(fā)現(xiàn)盡快 處理。對(duì)重點(diǎn)設(shè)備如核心交換機(jī)采取自動(dòng)定時(shí)巡檢, 上報(bào)巡檢日志,化被動(dòng)應(yīng)急為主動(dòng)防范,實(shí)現(xiàn)由人工 運(yùn)維到自動(dòng)運(yùn)維的轉(zhuǎn)變。接下來就適配播出域內(nèi)業(yè)務(wù) 需求的4 個(gè)功能模塊進(jìn)行闡述。
1. 網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)監(jiān)控
基于Telemetry 協(xié)議收集設(shè)備、Buffer、光模塊等 網(wǎng)絡(luò)全景KPI 數(shù)據(jù),實(shí)現(xiàn)網(wǎng)絡(luò)狀態(tài)實(shí)時(shí)感知。各項(xiàng)采 集數(shù)據(jù)通過采集器以PUSH+gRPC 方式將經(jīng)過編碼格 式封裝的數(shù)據(jù)進(jìn)行接收和存儲(chǔ),通過分析實(shí)現(xiàn)全流量 數(shù)據(jù)可視和隨流的路徑、質(zhì)量監(jiān)測。界面上可展示實(shí) 時(shí)CPU 使用率、內(nèi)存使用率、溫度值、電壓值、端 口流量、丟包率等信息,通過制定策略在鼠標(biāo)懸浮于 設(shè)備報(bào)警標(biāo)識(shí)符之上時(shí),自動(dòng)展示最近5 條報(bào)警信息, 同時(shí)實(shí)現(xiàn)通過設(shè)備名稱和組播名的查詢形式獲取組播 路徑的反向查詢功能。如圖3 所示,選擇主路末級(jí)信 號(hào)組播流,可查詢到當(dāng)前調(diào)用此組播流的設(shè)備包括末 級(jí)網(wǎng)關(guān)、信號(hào)比對(duì)服務(wù)器、畫分、監(jiān)看設(shè)備等,實(shí)現(xiàn) 業(yè)務(wù)端到端的網(wǎng)絡(luò)流量可視化,提升了網(wǎng)絡(luò)監(jiān)控?cái)?shù)據(jù) 的直觀性、實(shí)時(shí)性和精確度。
2. 域內(nèi)PTP 狀態(tài)監(jiān)控
視音頻設(shè)備對(duì)PTP 信號(hào)質(zhì)量敏感度高,大于 5000ns 的抖動(dòng)就可能對(duì)設(shè)備造成影響,從而導(dǎo)致播出 信號(hào)異常,出現(xiàn)閃屏、靜幀等現(xiàn)象,因此需要對(duì)域內(nèi) PTP 狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控。此次播出系統(tǒng)接收總控送來 的兩路PTP 信號(hào),通過域內(nèi)兩臺(tái)同步機(jī)對(duì)其進(jìn)行時(shí)鐘 隔離,并統(tǒng)一域內(nèi)PTP 基準(zhǔn)。域內(nèi)兩臺(tái)調(diào)度核心交換 機(jī)分別與兩臺(tái)同步機(jī)對(duì)接,并在調(diào)度核心間做PTP 聚 合,確保全域鎖定在同一個(gè)PTP 母鐘下形成完備的冗 余機(jī)制,保證跨域PTP 信號(hào)的穩(wěn)定性。
平臺(tái)基于Telemetry 技術(shù)獲取PTP 接口列表, 實(shí)現(xiàn)開機(jī)自動(dòng)讀取PTP 拓?fù)淠芰???刂破魍ㄟ^制 定定時(shí)策略周期性地收集交換機(jī)PTP 狀態(tài)信息包 括grandmaster clock ID、parent clock IP、grandmaster offset、grandmaster class、grandmaster priority 等, 通過 終端設(shè)備開放的北向API 接口獲取其端口PTP 狀態(tài)信 息,進(jìn)而計(jì)算并推演出整個(gè)拓?fù)浣Y(jié)構(gòu),并對(duì)以上信息 于大屏進(jìn)行可視化展示。在PTP 信號(hào)出現(xiàn)異常導(dǎo)致路 徑變化時(shí)準(zhǔn)確實(shí)時(shí)做出反應(yīng),進(jìn)行告警提示,協(xié)助值 班員完成對(duì)PTP 網(wǎng)絡(luò)環(huán)境的實(shí)時(shí)感知和應(yīng)急操作。

3. 組播流量監(jiān)管
IP 技術(shù)的出現(xiàn)展示了調(diào)度的靈活性。同時(shí)組播流 安全傳輸問題也隨之而來,混入第三方數(shù)據(jù)或者流量 突變將會(huì)造成下游設(shè)備信號(hào)處理異常,對(duì)播出質(zhì)量產(chǎn) 生極大的影響。為避免上述情況的發(fā)生,結(jié)合IP 播 出系統(tǒng)業(yè)務(wù)流量均為組播流且相對(duì)單一的特性,采用 QoS 技術(shù)確保傳輸?shù)陌踩浴?/p>
系統(tǒng)內(nèi)現(xiàn)使用的信號(hào)類型包括無壓縮信號(hào)和壓縮 信號(hào),符合SMPTE ST 2110 的無壓縮信流由視頻流、 音頻流和輔助數(shù)據(jù)流組成。以流量的實(shí)際值為依據(jù), 設(shè)定無壓縮視頻數(shù)據(jù)、代理視頻數(shù)據(jù)、音頻數(shù)據(jù)、輔 助數(shù)據(jù)分別具有9Gbps、3Gbps、20Mbps、64Kbps 的 數(shù)據(jù)交換能力,QoS 基于訪問控制列表ACL 的源地 址、目的地址、端口號(hào)等特定指示條件,形成白名單 策略,對(duì)允許通過的組播流進(jìn)行如上限速方案,其余 則拒絕。流量控制的過程通過CAR 令牌桶形式體現(xiàn)。 如圖4 所示,依據(jù)預(yù)先設(shè)定好的速度向桶中放置令牌, 直到桶中令牌數(shù)量達(dá)到預(yù)先設(shè)定好的容器容量,令牌 不再增加。桶中的令牌數(shù)表示可借貸的數(shù)據(jù)量,桶中 有令牌時(shí)可發(fā)送報(bào)文;桶中的令牌少到不能發(fā)送報(bào)文 時(shí),報(bào)文則被丟棄。等桶中生成新的令牌,報(bào)文再次 準(zhǔn)許被發(fā)送,這就限制報(bào)文流量只能小于等于令牌生 成速度,達(dá)到了限制流量的目的。
4. 末級(jí)網(wǎng)關(guān)應(yīng)急
根據(jù)8K 超高清電視播出系統(tǒng)建設(shè)方案,在各關(guān) 鍵節(jié)點(diǎn)均配備主備冗余架構(gòu)模式。服務(wù)器前端信源的 選擇基于播出控制機(jī)的節(jié) 目編排單,通過網(wǎng)絡(luò)控制 的形式進(jìn)行信源選切,向 下游系統(tǒng)輸出的末級(jí)信號(hào) 則通過終端IGMP 切換形 式保證信號(hào)的正常輸出。 當(dāng)通道信號(hào)出現(xiàn)異常,可 由末級(jí)切換網(wǎng)關(guān)進(jìn)行自動(dòng) 或值班員手動(dòng)的快速應(yīng) 急,選切預(yù)存信源配置恢 復(fù)播出,末級(jí)網(wǎng)關(guān)應(yīng)急業(yè) 務(wù)流程如圖5 所示。
平臺(tái)針對(duì)末級(jí)切換網(wǎng)關(guān)異常的情況進(jìn)行“一鍵替 換”操作。播出域內(nèi)另配置一臺(tái)末級(jí)切換網(wǎng)關(guān)用于備 份,平臺(tái)通過手動(dòng)獲取和通過比對(duì)服務(wù)器發(fā)送接口信 息自動(dòng)獲取兩種方式獲得在播3 臺(tái)末級(jí)網(wǎng)關(guān)的狀態(tài)信 息和配置信息。當(dāng)在播末級(jí)切換網(wǎng)關(guān)設(shè)備配置完成組 播地址、端口及相關(guān)參數(shù)的索引信息后,平臺(tái)通過獲 取以上索引信息并以可視化形式進(jìn)行界面展示,同時(shí) 獲取到網(wǎng)關(guān)config 配置信息,可直接保存或手動(dòng)編輯 后保存至數(shù)據(jù)庫。當(dāng)其中一臺(tái)末級(jí)切換網(wǎng)關(guān)設(shè)備故障, 將故障設(shè)備的配置信息通過API 接口的方式下發(fā)至備 份設(shè)備,同時(shí)關(guān)閉故障設(shè)備的交換機(jī)端口,開啟備份 網(wǎng)關(guān)對(duì)應(yīng)的交換機(jī)端口,備份設(shè)備輸出末級(jí)信號(hào)流, 由此達(dá)到應(yīng)急替換故障網(wǎng)關(guān)的功能?!耙砸惶嫒钡?理念不僅節(jié)約了購置設(shè)備的空間和資金成本,“一鍵 替換”的操作更是節(jié)省了故障發(fā)生時(shí)手動(dòng)配置設(shè)備的 時(shí)間成本,大幅提高了信號(hào)恢復(fù)時(shí)間。

四 總結(jié)
對(duì)視音頻域內(nèi)的組播網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)監(jiān)控對(duì)于播出 信號(hào)的安全起著關(guān)鍵性作用,為值班人員采取異常情 況的主動(dòng)應(yīng)急操作提供了必要手段,為運(yùn)維人員預(yù)判 網(wǎng)絡(luò)問題及時(shí)處理提供了有效依據(jù),大大提升了運(yùn)維 的效率。由于域內(nèi)設(shè)備種類繁多,并存在擴(kuò)展空間, 監(jiān)控系統(tǒng)的完善需要各設(shè)備端進(jìn)行積極配合有效適 配,通過接口等形式將設(shè)備納管進(jìn)平臺(tái)。同時(shí)平臺(tái)也 存在巨大優(yōu)化空間,目前對(duì)交換機(jī)設(shè)備的告警關(guān)注點(diǎn) 主要存在于網(wǎng)絡(luò)側(cè)是否存在異常,后續(xù)針對(duì)制播網(wǎng)中 關(guān)注的內(nèi)容側(cè)可進(jìn)行部分優(yōu)化,例如基于時(shí)間的資源 管理、沖突判斷以及定時(shí)切換流程,對(duì)告警策略及告 警收納規(guī)則的完善,通過反饋、限制、映射和臨界點(diǎn) 機(jī)制的優(yōu)化提高人機(jī)交互能力等。
基于軟件定義網(wǎng)絡(luò)的智能監(jiān)控系統(tǒng)克服了傳統(tǒng)網(wǎng) 絡(luò)監(jiān)控技術(shù)成本高、帶寬低和更新困難等缺點(diǎn),可以 滿足播出系統(tǒng)網(wǎng)絡(luò)日益增長的帶寬需求,是一種低成 本、靈活高效的廣電制播域網(wǎng)絡(luò)監(jiān)控解決方案。
參考文獻(xiàn):
[1] 魏航. 數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維的帶內(nèi)遙測技術(shù)[J]. 數(shù)字通信 世界,2021(09):135-136.
[2] 劉洪波. 基于SDN 的企業(yè)網(wǎng)絡(luò)監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 上海交通大學(xué),2019.