我們?nèi)绾谓⒁惶谉o參考視頻質(zhì)量評價體系?


在實時互動無處不在的今天,視頻質(zhì)量是反映終端用戶體驗的重要指標(biāo)。單純依賴人工實施大規(guī)模的實時評估是不現(xiàn)實的,因此視頻質(zhì)量自動化評估體系的搭建與推廣是大勢所趨。
然而如何評價視頻質(zhì)量?不同的關(guān)注點可能會帶來不同的答案。對于各類直播的終端用戶來說,關(guān)注的側(cè)重點是實時的質(zhì)量監(jiān)控;對于提供視頻技術(shù)服務(wù)的從業(yè)人員來說,關(guān)注的則是視頻算法版本之間細(xì)粒度的提升或回退。因此,我們需要一套“評價主觀視頻質(zhì)量體驗”的客觀指標(biāo),一方面作為客戶端的體驗評價或故障檢測,另一方面作為從業(yè)人員的算法優(yōu)化性能參考。我們把這一評價體系叫做 VQA(Video Quality Assessment)。
這個問題的難點,一是如何收集數(shù)據(jù),即如何量化人對視頻質(zhì)量的主觀評價,二是如何建立模型,使該模型能夠取代人工評分。
在接下來的內(nèi)容中,會先梳理業(yè)界一般的評估方法,再介紹聲網(wǎng)的 Agora-VQA 模型建立過程,最后總結(jié)未來的改進(jìn)方向。
業(yè)界如何實現(xiàn)視頻質(zhì)量評估?
與深度學(xué)習(xí)領(lǐng)域其他算法一樣,建立視頻質(zhì)量評估模型也可以分為兩步:收集 VQA 數(shù)據(jù)、訓(xùn)練 VQA 模型。整個 VQA 訓(xùn)練的過程通過客觀模型對主觀標(biāo)注的模擬來實現(xiàn),擬合效果的好壞由一致性評價指標(biāo)來定義。主觀的 VQA 標(biāo)注以分級評分的方式收集終端用戶反饋,旨在量化真實用戶的視頻體驗;客觀VQA則提供了模仿主觀質(zhì)量分級的數(shù)學(xué)模型。
主觀:VQA 數(shù)據(jù)收集
主觀評價由觀察者對視頻質(zhì)量進(jìn)行主觀評分, 可以分為 MOS(Mean Opinion Score)和 DMOS(Differential Mean Opinion Score)兩種。MOS 描述的是視頻的絕對評價,屬于無參考場景,直接量化海量 UGC 視頻的質(zhì)量。DMOS 則表示視頻的相對評價,屬于有參考場景,一般是在相同內(nèi)容下比較視頻之間的差異。
本文我們主要介紹 MOS,ITU-T Rec BT.500 給出的操作范例保證了主觀實驗的信度和效度。將主觀的視頻感受投射到[1,5]的區(qū)間內(nèi),描述如下:

分?jǐn)?shù)體驗描述5Excellent體驗很好4Good可感知,但不影響(體驗)3Fair輕微的影響2Poor有影響1Bad非常影響
這里需要詳細(xì)解釋兩個問題:
1、如何形成 MOS?
ITU-T Rec BT.500 給出的建議是“成立≥15人的非專家組”,得到評分員對視頻的標(biāo)注后,先計算每個人和總體均值的相關(guān)性,剔除相關(guān)性較低的評分員后,再對剩余評分員的評價求均值。當(dāng)參與評分的人數(shù)大于15時,足以將實驗隨機(jī)誤差控制在可接受范圍內(nèi)。
2、如何解讀 MOS?MOS 能在多大程度上代表“我”的意見?
雖然不同的評分員對于“好”和“壞”的絕對區(qū)間定義,或者是對畫質(zhì)損傷的敏感程度都不盡相同。但是對“較好”和“較差”的判斷還是趨同的。事實上,在例如 Waterloo QoE Database 等公開數(shù)據(jù)庫中,std 均值可達(dá)到 0.7,說明不同的評分員的主觀感受可以相差近 1 個檔位。
客觀:VQA 模型建立
VQA 工具的分類方法有非常多,按照原始參考視頻提供信息的多少,可以將 VQA 工具分為三大類:
Full Reference 全參考
依賴于完整的原始視頻序列作為參考標(biāo)準(zhǔn),基于逐像素的PSNR 和 SSIM就是最原始的比較方法,缺點是和主觀的擬合程度有限,Netflix 推出的 VMAF 指標(biāo)也在此列。
Reduced Reference 半?yún)⒖?/strong>
比較的對象是(原始視頻序列和接收端視頻序列的)某些對應(yīng)特征,適用于完整的原始視頻序列不可得的情況,這類方法介于 Full Reference 和 No Reference 之間。
No Reference 無參考
No Reference(以下簡稱“NR”)的方法進(jìn)一步解除了對附加信息的依賴,更加“就事論事”地評價當(dāng)前視頻。受到線上數(shù)據(jù)監(jiān)控方式的限制,實際場景下參考視頻通常是無法獲取的。常見的 NR 指標(biāo)有 DIIVINE、BRISQUE、BLIINDS 和 NIQE 等,由于參考視頻的缺失,這些方法的精度與全參考、半?yún)⒖枷啾韧赃d一籌。
主客觀一致性評價指標(biāo)
前文說到,基于像素的 PSNR 和 SSIM 方法和主觀的擬合程度有限,那么我們是如何判定各類 VQA 工具好壞的呢?
業(yè)內(nèi)通常從客觀模型的預(yù)測精度和預(yù)測單調(diào)性給出定義。預(yù)測精度描述了客觀模型對主觀評價的線性預(yù)測能力,相關(guān)的指標(biāo)是 PLCC(Pearson Linear Correlation Coefficient)和 RMSE(Root Mean Square Error)。預(yù)測單調(diào)性描述了評分相對等級的一致性,衡量的指標(biāo)是 SROCC(Spearman Rank Correlation Coefficient)。
Agora-VQA 如何實現(xiàn)視頻質(zhì)量評估?
不過,多數(shù)公開數(shù)據(jù)集從數(shù)據(jù)量大小、視頻內(nèi)容豐富度來看都還不足以反映真實線上情況。所以為了更貼近真實的數(shù)據(jù)特征,覆蓋不同 RTE(實時互動)場景,我們建立了 Agora-VQA Dataset,并在此基礎(chǔ)上訓(xùn)練了 Agora-VQA Model。這是業(yè)內(nèi)首個可運行于移動設(shè)備端的基于深度學(xué)習(xí)的視頻主觀體驗 MOS 評估模型。它利用深度學(xué)習(xí)算法實現(xiàn)對 RTE(實時互動)場景接收端視頻畫質(zhì)主觀體驗 MOS 分的估計,解除了傳統(tǒng)主觀畫質(zhì)評估對人力的高度依賴,從而極大提高視頻畫質(zhì)評估的效率,使線上視頻質(zhì)量的實時評估成為可能。
主觀:Agora-VQA Dataset
我們建立了一個畫質(zhì)主觀評估數(shù)據(jù)庫,并參照 ITU 標(biāo)準(zhǔn)搭建了一套打分系統(tǒng)收集主觀打分,然后進(jìn)行數(shù)據(jù)清洗,最后得到視頻的主觀體驗得分 MOS,總體流程如下圖所示:

在視頻整理階段,首先我們考慮在同一批的打分素材中做到視頻內(nèi)容本身的來源豐富,避免評分員的視覺疲勞;其次,在畫質(zhì)區(qū)間上盡量分布均衡,下圖為某一期視頻收集到的打分分布:

在主觀打分階段,我們搭建了一個打分 app,每條視頻長度在 4-8s,每批次收集 100 條視頻打分,對于每一個評分員來說,觀看總時長控制在 30min 以內(nèi),避免疲勞。
最后,在數(shù)據(jù)清洗階段,有兩種可選方案。其一依照 ITU 標(biāo)準(zhǔn):先計算每個人和總體均值的相關(guān)性,剔除相關(guān)性較低的評分員后,再對剩余評分員的評價求均值。其二是通過計算每個樣本的 95% 置信區(qū)間,選擇打分一致性最高的視頻作為金標(biāo)準(zhǔn),篩選掉在這些樣本上打分偏差較大的參與者。
客觀:Agora-VQA Model
一方面為了更貼近用戶的實際主觀感受,另一方面是由于在視頻直播及其類似場景中參考視頻是無法獲取的,因此我們的方案是將客觀 VQA 定義為接收端的解碼分辨率上的無參考評價工具,用深度學(xué)習(xí)的方法監(jiān)控解碼端視頻質(zhì)量。
訓(xùn)練深度學(xué)習(xí)模型可以分為端到端與非端到端。在端到端的訓(xùn)練方式中,由于視頻的時空分辨率不同,要采樣到統(tǒng)一大小進(jìn)行端到端的訓(xùn)練;對于非端到端,首先通過一個預(yù)訓(xùn)練的網(wǎng)絡(luò)提取特征,然后對視頻特征進(jìn)行回歸訓(xùn)練擬合 MOS。

在特征提取部分,對原始視頻有不同的采樣方式,下圖(引用論文[1]中插圖)顯示的是不同的采樣方式與主觀的相關(guān)性,可以看出視頻空間上的采樣對性能的影響最大,而進(jìn)行時域上的采樣與原視頻的MOS相關(guān)性最高。

影響畫質(zhì)體驗的不光是空域的特征,時域上的失真也會有影響,其中有一個時域滯后效應(yīng)(參考論文[2])。該效應(yīng)對應(yīng)著兩個行為:一是視頻畫質(zhì)下降時主觀體驗立即降低,二是視頻畫質(zhì)提升時觀看者體驗的緩慢提升。我們在建模時也考慮了這種現(xiàn)象。

與其它 VQA 工具的性能比較
最后來看不同畫質(zhì)評估算法在 KonViD-1k 和 LIVE-VQC 上的相關(guān)性表現(xiàn):

模型的參數(shù)量和運算量對比:

可以看出 Agora-VQA 相對于學(xué)術(shù)界基于深度學(xué)習(xí)的大模型有著很大的運算優(yōu)勢,而這種優(yōu)勢賦予了我們在端上直接評估視頻通訊服務(wù)體驗的可能性,在提供一定準(zhǔn)確率保障情況下,大大提升了運算資源的節(jié)省。
展望
最后,距離達(dá)到最終的 QoE(Quality of Experience),即刻畫用戶主觀體驗的目標(biāo),Agora-VQA 還有很長的路要走:
1)從解碼分辨率到渲染分辨率
解碼分辨率的概念是相對于渲染分辨率的,已知視頻在不同的設(shè)備播放,或者在同一設(shè)備上、以不同的窗口尺寸拉伸都會造成主觀體驗的差異。當(dāng)前 Agora-VQA 評估的是解碼端視頻流的質(zhì)量,在下一階段我們計劃支持不同的設(shè)備和不同的拉伸尺寸,更加貼近終端用戶感知質(zhì)量,實現(xiàn)“所看即所得”。
2)從視頻片段到整段通話
用于模型訓(xùn)練的 VQA 數(shù)據(jù)集,多由時長為 4~10s 不等的視頻片段組成,而實際通話中需考慮近因效應(yīng),僅通過對視頻片段線性追蹤、打點上報的方式,或許無法準(zhǔn)確擬合用戶的主觀感受,下一步我們計劃綜合考慮清晰度、流暢度、互動延時、音畫同步等,形成時變的體驗評價方法。
?
3)從體驗得分到故障分類
當(dāng)前 Agora-VQA 能夠?qū)崿F(xiàn)在區(qū)間[1,5]內(nèi),精確到 0.1 的視頻質(zhì)量預(yù)測,而當(dāng)視頻質(zhì)量較差時,自動定位故障原因也是實現(xiàn)線上質(zhì)量普查的重要環(huán)節(jié),因此我們計劃在現(xiàn)有模型基礎(chǔ)上支持故障檢測功能。
4)從實時評估到行業(yè)標(biāo)準(zhǔn)化
目前Agora-VQA已在內(nèi)部系統(tǒng)迭代打磨中,后續(xù)將逐漸開放,未來計劃同步在SDK集成在線評估功能,并發(fā)布離線測評工具。
以上是我們在 VQA 方面的研究與實踐,歡迎大家到開發(fā)者社區(qū)發(fā)帖與我們交流。
參考文獻(xiàn)
[1] Z. Ying, M. Mandal, D. Ghadiyaram and A. Bovik, "Patch-VQ: ‘Patching Up’ the Video Quality Problem," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2021, pp. 14014-14024.
[2] K. Seshadrinathan and A. C. Bovik, "Temporal hysteresis model of time varying subjective video quality," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, Czech Republic, 2011, pp. 1153-1156.
Dev for Dev專欄介紹
Dev for Dev(Developer for Developer)是聲網(wǎng)Agora 與 RTC 開發(fā)者社區(qū)共同發(fā)起的開發(fā)者互動創(chuàng)新實踐活動。透過工程師視角的技術(shù)分享、交流碰撞、項目共建等多種形式,匯聚開發(fā)者的力量,挖掘和傳遞最具價值的技術(shù)內(nèi)容和項目,全面釋放技術(shù)的創(chuàng)造力。