云網(wǎng)融合趨勢下,視覺云如何顛覆媒體體驗?
21世紀是視頻媒體的時代。和視頻相關的應用,逐漸成為我們工作和生活不可或缺的組成部分。
除了傳統(tǒng)視頻業(yè)務之外,最近幾年,隨著新興技術的不斷出現(xiàn),越來越多的新型視覺體驗服務來到我們的身邊,例如4K/8K超高清視頻、VR/AR沉浸式體驗、AI人臉識別、AI自動換臉等等。

毫無疑問,我們的視覺體驗,正在朝平臺多樣化、內(nèi)容豐富化、交互智能化、沉浸式互動的方向發(fā)展。
更豐富多樣的業(yè)務,意味著對系統(tǒng)及網(wǎng)絡性能有更苛刻的要求。視頻相關的核心處理流程,例如解碼、推理、渲染和編碼,都是“吃配置”的大戶。如果視頻處理平臺缺乏靈活性、擴展性,不具備支撐高工作負荷的能力,將無法進行高效的視覺業(yè)務服務交付。
簡單來說,性能不夠,就會影響用戶的業(yè)務體驗,進而影響企業(yè)業(yè)務的進一步拓展。
于是,越來越多的企業(yè),將自己的用戶視覺體驗業(yè)務遷移到云端,借助云平臺,為業(yè)務提供充足動力和安全保障。視覺云,也就隨之誕生了。

視覺云,包含一套面向遠程消費內(nèi)容和服務的功能,這些功能圍繞高效提供直播型和文件型視覺體驗,以及可將智能添加到視頻內(nèi)容中和利用機器學習及其它人工智能方面(例如物體識別)的應用。
我們常見的視覺云業(yè)務,包括媒體處理與交付、媒體分析、沉浸式媒體、云圖形、云游戲、云VR/AR等。
那么,在目前云網(wǎng)深度融合的趨勢下,視覺體驗服務商該如何構建最適合自己的平臺架構?面對媒體轉(zhuǎn)型帶來的巨大流量增長,服務商又該如何應對壓力和挑戰(zhàn)?如何進一步提升平臺架構的效能,降低無效成本?
2020年10月12-16日,英特爾在線上舉辦的“5G云網(wǎng)融合線上論壇”。其中的“視覺云,變革媒體體驗”分論壇,來自行業(yè)的4位頂級專家,分享了各自企業(yè)在上述問題方面的心得體會和實踐經(jīng)驗。

Part 1
英特爾網(wǎng)絡平臺事業(yè)部市場開拓總監(jiān)李進文表示,視覺云業(yè)務各自有不同的特性,開發(fā)部門各自有不同的考慮點,所以,沒有一刀切的解決方案。
李進文首先對視覺云各個典型服務的發(fā)展趨勢進行了預測。
他認為,視覺云中最關鍵的應用媒體分析,將達到130億美金的市場。超高清IP視頻流將在2025年達到接近整體IP視頻流的21%,這意味著4K、8K超高清內(nèi)容將會成為趨勢。增長幅度最快的是直播業(yè)務,擁有15倍的爆發(fā)性增長表現(xiàn)。近些年崛起的VR/AR業(yè)務也將創(chuàng)造950億美金的市場,這同樣是超高清IP視頻流持續(xù)增長的原因之一。
面對機遇和挑戰(zhàn),擁有一個強大的平臺刻不容緩。采用基于數(shù)據(jù)中心的基礎設施架構來傳輸存儲和處理,是必然的選擇。
這類型的計算體系結(jié)構使大規(guī)模的視頻交互變得更容易,且具有明顯的成本優(yōu)勢,可以應對視覺云不斷變化的需求。
提供視覺云服務需要廣泛的軟硬件架構,針對不同的應用快速提供創(chuàng)新服務,還需要一個廣泛的生態(tài)系統(tǒng)提供完善的端到端解決方案。這些都是英特爾的強項,英特爾擁有廣泛的軟硬件平臺和生態(tài)系統(tǒng)加速視覺云服務商的開發(fā)和創(chuàng)新。
李進文所在的視覺基礎設施部門,可以提供完整的軟硬件解決方案。在最底層,英特爾提供了廣泛硬件,比如通用的英特爾?至強?可擴展處理器, Intel? Server GPU、FPGA、網(wǎng)卡等。軟件方面,英特爾的策略是優(yōu)先軟件,目的在于提供完整的解決方案來加速客戶的開發(fā)周期。

兩個月前,英特爾發(fā)布了用于數(shù)據(jù)中心的獨立圖形處理單元,Intel? Server GPU,它最適合用于高密度的手游、云游和媒體傳流,支持廣泛的編解碼功能,可以提供低成本高性價比的解決方案,同時也降低了安卓云游戲行業(yè)的入門門檻,從而使更多的游戲企業(yè)趁著5G的浪潮邁入云游戲行業(yè)。

李進文表示,廣泛的視覺體驗正在云端和邊緣爆發(fā)性增長,企業(yè)和服務提供商需要更具有可伸縮性的基礎架構,以及一系列軟硬件和開源工具。基于英特爾的解決方案,是平衡的產(chǎn)品組合,提供更佳的體驗和TCO。
Part 2
來自北京華興宏視技術發(fā)展有限公司的技術總監(jiān)武宇文,重點分享了華興宏視基于英特爾硬件架構的視頻AI分析系統(tǒng)——PONTUS。
該系統(tǒng)將視頻編碼技術和視頻AI分析技術相結(jié)合,能夠?qū)崿F(xiàn)多路高清視頻的實時智能分析,對視頻內(nèi)容中出現(xiàn)的異常事件進行實時的分析報警以及場景的保存。
系統(tǒng)的AI能力是通過調(diào)用英特爾openVINOTM軟件平臺來實現(xiàn)的。底層硬件采用英特爾的Scalable高性能處理器以及VCAC-A高性能視頻AI卡。軟件能力能夠提供視頻圖片的編解碼與AI Inference同步進行,每秒提供5~10幀的視頻AI實時分析,能夠確保視頻中不遺失關鍵信息。同時平臺還支持視頻流以及離線文件的接入實時分析。

在應用案例方面,武宇文重點介紹了鐵塔高點視頻監(jiān)控(垃圾檢測、渣土車檢測)、實時視頻車牌自動識別和視頻智能分析。
以鐵塔高點視頻監(jiān)控為例?;阼F塔頂端的高清攝像設備,可以部署高點監(jiān)控系統(tǒng),實現(xiàn)“危險場景的視頻實時鑒別”,實現(xiàn)本地分析,實時響應。采用邊緣處理的方式,不僅可以提升響應速度,還可以大幅節(jié)省帶寬。

通過對問題內(nèi)容的實時抓取,系統(tǒng)可以實現(xiàn)實時的報警功能,快速控制危險情況。例如非法排放、森林防火、秸稈焚燒、河道檢測、管道檢測、海防監(jiān)控等。

這一方案將非常有利于生態(tài)環(huán)境綜合治理及國土資源安全保護。
Part 3
前面我們提到,超高清VR直播目前正處于業(yè)務快速增長的狀態(tài)。越來越多的VR應用場景出現(xiàn),大量超高清VR內(nèi)容的生產(chǎn),進一步刺激VR產(chǎn)業(yè)的發(fā)展。
不過,超高清VR直播目前也存在一些問題。例如運營商網(wǎng)絡流量費用高,終端下行帶寬有限,限制了終端設備能夠接收到的VR視頻的碼率,進而影響用戶體驗。再例如,終端設備的硬件解碼能力有限,不同設備之間的解碼能力參差不齊,即便是將高質(zhì)量的碼流傳輸?shù)搅私K端,也不一定能夠?qū)崿F(xiàn)完美的解碼和渲染,等等。
對于這些問題,來自北京博雅睿視科技有限公司的研發(fā)經(jīng)理魏建超表示,需要從VR直播的各個環(huán)節(jié)考慮,緊密配合,提供端到端的解決方案,才能真正提高用戶的體驗。這些環(huán)節(jié)包括:VR視頻的采集、拼接,到后期的制作,網(wǎng)絡傳輸,以及終端的解碼渲染等。
博雅睿視的端到端解決方案,輸入部分支持視頻文件用于VR點播的需求,支持廣電接口SDI,支持VR相機接入,配備拼接服務器用于實時拼接,預覽和后處理。這樣的話,可以支持更多的應用場景,并從源端保證視頻的質(zhì)量。

另外,VR視頻的映射格式方面,方案采用CubeMap立方體映射格式,取代傳統(tǒng)的ERP經(jīng)緯圖映射格式,從源端節(jié)省VR視頻的數(shù)據(jù)量。
轉(zhuǎn)碼服務器基于英特爾的SVT技術,利用SVT-HEVC高并行化編碼器,進行獨立的編碼,為基于FoV的VR視頻傳輸提供了支持。
分發(fā)服務器,可以最大限度的利用現(xiàn)存網(wǎng)絡的基礎設施,實現(xiàn)用戶基于FoV的內(nèi)容拉流,大大降低下行的流量。終端用戶根據(jù)視角拉取對應的segments,下行帶寬和解碼壓力都大大降低。
總結(jié)起來,高效的視頻映射格式加上基于視角的傳輸,就得到了帶寬的節(jié)省和用戶體驗的提升。
Part 4
最后,來自騰訊多媒體實驗室的高級工程師許桂森重點介紹了騰訊云的SVT-AVS3編碼器。
AVS3是AVS工作組制定的我國擁有自主知識產(chǎn)權的第三代音視頻編解碼技術標準,也是中國音視頻產(chǎn)業(yè)核心技術標準。該標準重點面向8K及5G產(chǎn)業(yè)應用,技術先進,專利清晰,受到行業(yè)的廣泛關注。
根據(jù)參考軟件的測試表明,AVS3視頻基準檔次的性能比上一代標準AVS2和HEVC提升了約30%。通過加入AI技術,主打智能編碼,AVS3的編碼效率將比國際最新的視頻編碼標準H.266/VVC提升20%。該標準的全面普及,將引領未來5年到10年8K超高清和VR視頻產(chǎn)業(yè)的發(fā)展,進而領跑國際市場。
SVT-AVS3超高清視頻實時軟件編解碼系統(tǒng),基于AVS3視頻編碼標準和英特爾SVT(可擴展視頻技術)實現(xiàn),能夠提供性能、延遲和視頻質(zhì)量之間的完美平衡。
騰訊SVT-AVS3的編碼框架,是基于英特爾SVT編碼框架經(jīng)過發(fā)展優(yōu)化而來的。框架主要分為幾大塊,第一部分是圖像預處理相關的模塊,第二部分是用原始像素進行Motion Estimation的模塊,第三部分是碼率控制相關的模塊,第四部分是MD和重建模塊,第五部分是環(huán)路濾波模塊。

SVT-AVS3編碼器支持視頻預分析處理,通過對編碼流程各個模塊的充分解耦,在多核處理器中可以實現(xiàn)更好的幀級或段級的高度并行編碼。在并行化處理的基礎上,SVT-AVS3通過對編碼算法的參數(shù)化處理,實現(xiàn)了編碼過程中速度與質(zhì)量權衡過程中的無縫切換。在更高效利用處理器與內(nèi)存資源的同時,更好地實現(xiàn)了速度與質(zhì)量的權衡。
在編碼時,SVT-AVS3還支持對圖像塊級的分類分析。在使用低復雜度編碼邏輯時,通過引入極少量視覺效果,在大幅提升編碼速度的同時,可以保證圖像主觀上的視覺質(zhì)量。這一點恰好能夠滿足現(xiàn)在短視頻快速增長對編碼速度及用戶體驗的要求。
許桂森表示,SVT-AVS3目前已經(jīng)適用于視頻點播和實時編碼/轉(zhuǎn)碼應用。騰訊多媒體實驗室深度優(yōu)化SVT架構的 AVS3 編碼器,大幅提升 SVT-AVS3 的編碼效率,現(xiàn)已集成到騰訊云,將其它標準碼流轉(zhuǎn)換成AVS3碼流,為相關服務提供支撐。
?結(jié) 語
根據(jù)數(shù)據(jù)顯示,2022年,預計全球82%的網(wǎng)絡流量將是視頻流。毫無疑問,這背后蘊藏著巨大的市場價值和商業(yè)機會。
英特爾推出的多種支持視覺云的解決方案,包括全套可擴展硬件、軟件以及經(jīng)優(yōu)化的軟硬件組成的精選解決方案,能夠幫助云服務提供商、通信服務商及企業(yè)滿足不斷變化的需求。