散文網(wǎng) » 科技 »學習 » 云網(wǎng)融合趨勢下，視覺云如何顛覆媒體體驗？

云網(wǎng)融合趨勢下，視覺云如何顛覆媒體體驗？

2020-10-28 11:25 作者:鮮棗課堂 0人讀過 | 我要投稿

21世紀是視頻媒體的時代。和視頻相關的應用，逐漸成為我們工作和生活不可或缺的組成部分。

除了傳統(tǒng)視頻業(yè)務之外，最近幾年，隨著新興技術的不斷出現(xiàn)，越來越多的新型視覺體驗服務來到我們的身邊，例如4K/8K超高清視頻、VR/AR沉浸式體驗、AI人臉識別、AI自動換臉等等。

毫無疑問，我們的視覺體驗，正在朝平臺多樣化、內(nèi)容豐富化、交互智能化、沉浸式互動的方向發(fā)展。

更豐富多樣的業(yè)務，意味著對系統(tǒng)及網(wǎng)絡性能有更苛刻的要求。視頻相關的核心處理流程，例如解碼、推理、渲染和編碼，都是“吃配置”的大戶。如果視頻處理平臺缺乏靈活性、擴展性，不具備支撐高工作負荷的能力，將無法進行高效的視覺業(yè)務服務交付。

簡單來說，性能不夠，就會影響用戶的業(yè)務體驗，進而影響企業(yè)業(yè)務的進一步拓展。

于是，越來越多的企業(yè)，將自己的用戶視覺體驗業(yè)務遷移到云端，借助云平臺，為業(yè)務提供充足動力和安全保障。視覺云，也就隨之誕生了。

視覺云，包含一套面向遠程消費內(nèi)容和服務的功能，這些功能圍繞高效提供直播型和文件型視覺體驗，以及可將智能添加到視頻內(nèi)容中和利用機器學習及其它人工智能方面（例如物體識別）的應用。

我們常見的視覺云業(yè)務，包括媒體處理與交付、媒體分析、沉浸式媒體、云圖形、云游戲、云VR/AR等。

那么，在目前云網(wǎng)深度融合的趨勢下，視覺體驗服務商該如何構建最適合自己的平臺架構？面對媒體轉(zhuǎn)型帶來的巨大流量增長，服務商又該如何應對壓力和挑戰(zhàn)？如何進一步提升平臺架構的效能，降低無效成本？

2020年10月12-16日，英特爾在線上舉辦的“5G云網(wǎng)融合線上論壇”。其中的“視覺云，變革媒體體驗”分論壇，來自行業(yè)的4位頂級專家，分享了各自企業(yè)在上述問題方面的心得體會和實踐經(jīng)驗。

Part 1

英特爾網(wǎng)絡平臺事業(yè)部市場開拓總監(jiān)李進文表示，視覺云業(yè)務各自有不同的特性，開發(fā)部門各自有不同的考慮點，所以，沒有一刀切的解決方案。

李進文首先對視覺云各個典型服務的發(fā)展趨勢進行了預測。

他認為，視覺云中最關鍵的應用媒體分析，將達到130億美金的市場。超高清IP視頻流將在2025年達到接近整體IP視頻流的21%，這意味著4K、8K超高清內(nèi)容將會成為趨勢。增長幅度最快的是直播業(yè)務，擁有15倍的爆發(fā)性增長表現(xiàn)。近些年崛起的VR/AR業(yè)務也將創(chuàng)造950億美金的市場，這同樣是超高清IP視頻流持續(xù)增長的原因之一。

面對機遇和挑戰(zhàn)，擁有一個強大的平臺刻不容緩。采用基于數(shù)據(jù)中心的基礎設施架構來傳輸存儲和處理，是必然的選擇。

這類型的計算體系結(jié)構使大規(guī)模的視頻交互變得更容易，且具有明顯的成本優(yōu)勢，可以應對視覺云不斷變化的需求。

提供視覺云服務需要廣泛的軟硬件架構，針對不同的應用快速提供創(chuàng)新服務，還需要一個廣泛的生態(tài)系統(tǒng)提供完善的端到端解決方案。這些都是英特爾的強項，英特爾擁有廣泛的軟硬件平臺和生態(tài)系統(tǒng)加速視覺云服務商的開發(fā)和創(chuàng)新。

李進文所在的視覺基礎設施部門，可以提供完整的軟硬件解決方案。在最底層，英特爾提供了廣泛硬件，比如通用的英特爾?至強?可擴展處理器， Intel? Server GPU、FPGA、網(wǎng)卡等。軟件方面，英特爾的策略是優(yōu)先軟件，目的在于提供完整的解決方案來加速客戶的開發(fā)周期。

兩個月前，英特爾發(fā)布了用于數(shù)據(jù)中心的獨立圖形處理單元，Intel? Server GPU，它最適合用于高密度的手游、云游和媒體傳流，支持廣泛的編解碼功能，可以提供低成本高性價比的解決方案，同時也降低了安卓云游戲行業(yè)的入門門檻，從而使更多的游戲企業(yè)趁著5G的浪潮邁入云游戲行業(yè)。

李進文表示，廣泛的視覺體驗正在云端和邊緣爆發(fā)性增長，企業(yè)和服務提供商需要更具有可伸縮性的基礎架構，以及一系列軟硬件和開源工具。基于英特爾的解決方案，是平衡的產(chǎn)品組合，提供更佳的體驗和TCO。

Part 2

來自北京華興宏視技術發(fā)展有限公司的技術總監(jiān)武宇文，重點分享了華興宏視基于英特爾硬件架構的視頻AI分析系統(tǒng)——PONTUS。

該系統(tǒng)將視頻編碼技術和視頻AI分析技術相結(jié)合，能夠?qū)崿F(xiàn)多路高清視頻的實時智能分析，對視頻內(nèi)容中出現(xiàn)的異常事件進行實時的分析報警以及場景的保存。

系統(tǒng)的AI能力是通過調(diào)用英特爾openVINOTM軟件平臺來實現(xiàn)的。底層硬件采用英特爾的Scalable高性能處理器以及VCAC-A高性能視頻AI卡。軟件能力能夠提供視頻圖片的編解碼與AI Inference同步進行，每秒提供5~10幀的視頻AI實時分析，能夠確保視頻中不遺失關鍵信息。同時平臺還支持視頻流以及離線文件的接入實時分析。

在應用案例方面，武宇文重點介紹了鐵塔高點視頻監(jiān)控（垃圾檢測、渣土車檢測）、實時視頻車牌自動識別和視頻智能分析。

以鐵塔高點視頻監(jiān)控為例?；阼F塔頂端的高清攝像設備，可以部署高點監(jiān)控系統(tǒng)，實現(xiàn)“危險場景的視頻實時鑒別”，實現(xiàn)本地分析，實時響應。采用邊緣處理的方式，不僅可以提升響應速度，還可以大幅節(jié)省帶寬。

通過對問題內(nèi)容的實時抓取，系統(tǒng)可以實現(xiàn)實時的報警功能，快速控制危險情況。例如非法排放、森林防火、秸稈焚燒、河道檢測、管道檢測、海防監(jiān)控等。

這一方案將非常有利于生態(tài)環(huán)境綜合治理及國土資源安全保護。

Part 3

前面我們提到，超高清VR直播目前正處于業(yè)務快速增長的狀態(tài)。越來越多的VR應用場景出現(xiàn)，大量超高清VR內(nèi)容的生產(chǎn)，進一步刺激VR產(chǎn)業(yè)的發(fā)展。

不過，超高清VR直播目前也存在一些問題。例如運營商網(wǎng)絡流量費用高，終端下行帶寬有限，限制了終端設備能夠接收到的VR視頻的碼率，進而影響用戶體驗。再例如，終端設備的硬件解碼能力有限，不同設備之間的解碼能力參差不齊，即便是將高質(zhì)量的碼流傳輸?shù)搅私K端，也不一定能夠?qū)崿F(xiàn)完美的解碼和渲染，等等。

對于這些問題，來自北京博雅睿視科技有限公司的研發(fā)經(jīng)理魏建超表示，需要從VR直播的各個環(huán)節(jié)考慮，緊密配合，提供端到端的解決方案，才能真正提高用戶的體驗。這些環(huán)節(jié)包括：VR視頻的采集、拼接，到后期的制作，網(wǎng)絡傳輸，以及終端的解碼渲染等。

博雅睿視的端到端解決方案，輸入部分支持視頻文件用于VR點播的需求，支持廣電接口SDI，支持VR相機接入，配備拼接服務器用于實時拼接，預覽和后處理。這樣的話，可以支持更多的應用場景，并從源端保證視頻的質(zhì)量。

另外，VR視頻的映射格式方面，方案采用CubeMap立方體映射格式，取代傳統(tǒng)的ERP經(jīng)緯圖映射格式，從源端節(jié)省VR視頻的數(shù)據(jù)量。

轉(zhuǎn)碼服務器基于英特爾的SVT技術，利用SVT-HEVC高并行化編碼器，進行獨立的編碼，為基于FoV的VR視頻傳輸提供了支持。

分發(fā)服務器，可以最大限度的利用現(xiàn)存網(wǎng)絡的基礎設施，實現(xiàn)用戶基于FoV的內(nèi)容拉流，大大降低下行的流量。終端用戶根據(jù)視角拉取對應的segments，下行帶寬和解碼壓力都大大降低。

總結(jié)起來，高效的視頻映射格式加上基于視角的傳輸，就得到了帶寬的節(jié)省和用戶體驗的提升。

Part 4

最后，來自騰訊多媒體實驗室的高級工程師許桂森重點介紹了騰訊云的SVT-AVS3編碼器。

AVS3是AVS工作組制定的我國擁有自主知識產(chǎn)權的第三代音視頻編解碼技術標準，也是中國音視頻產(chǎn)業(yè)核心技術標準。該標準重點面向8K及5G產(chǎn)業(yè)應用，技術先進，專利清晰，受到行業(yè)的廣泛關注。

根據(jù)參考軟件的測試表明，AVS3視頻基準檔次的性能比上一代標準AVS2和HEVC提升了約30%。通過加入AI技術，主打智能編碼，AVS3的編碼效率將比國際最新的視頻編碼標準H.266/VVC提升20%。該標準的全面普及，將引領未來5年到10年8K超高清和VR視頻產(chǎn)業(yè)的發(fā)展，進而領跑國際市場。

SVT-AVS3超高清視頻實時軟件編解碼系統(tǒng)，基于AVS3視頻編碼標準和英特爾SVT（可擴展視頻技術）實現(xiàn)，能夠提供性能、延遲和視頻質(zhì)量之間的完美平衡。

騰訊SVT-AVS3的編碼框架，是基于英特爾SVT編碼框架經(jīng)過發(fā)展優(yōu)化而來的。框架主要分為幾大塊，第一部分是圖像預處理相關的模塊，第二部分是用原始像素進行Motion Estimation的模塊，第三部分是碼率控制相關的模塊，第四部分是MD和重建模塊，第五部分是環(huán)路濾波模塊。

SVT-AVS3編碼器支持視頻預分析處理，通過對編碼流程各個模塊的充分解耦，在多核處理器中可以實現(xiàn)更好的幀級或段級的高度并行編碼。在并行化處理的基礎上，SVT-AVS3通過對編碼算法的參數(shù)化處理，實現(xiàn)了編碼過程中速度與質(zhì)量權衡過程中的無縫切換。在更高效利用處理器與內(nèi)存資源的同時，更好地實現(xiàn)了速度與質(zhì)量的權衡。

在編碼時，SVT-AVS3還支持對圖像塊級的分類分析。在使用低復雜度編碼邏輯時，通過引入極少量視覺效果，在大幅提升編碼速度的同時，可以保證圖像主觀上的視覺質(zhì)量。這一點恰好能夠滿足現(xiàn)在短視頻快速增長對編碼速度及用戶體驗的要求。

許桂森表示，SVT-AVS3目前已經(jīng)適用于視頻點播和實時編碼/轉(zhuǎn)碼應用。騰訊多媒體實驗室深度優(yōu)化SVT架構的 AVS3 編碼器，大幅提升 SVT-AVS3 的編碼效率，現(xiàn)已集成到騰訊云，將其它標準碼流轉(zhuǎn)換成AVS3碼流，為相關服務提供支撐。

?結(jié) 語

根據(jù)數(shù)據(jù)顯示，2022年，預計全球82%的網(wǎng)絡流量將是視頻流。毫無疑問，這背后蘊藏著巨大的市場價值和商業(yè)機會。

英特爾推出的多種支持視覺云的解決方案，包括全套可擴展硬件、軟件以及經(jīng)優(yōu)化的軟硬件組成的精選解決方案，能夠幫助云服務提供商、通信服務商及企業(yè)滿足不斷變化的需求。

標簽：