Meta專利分享Quest用機器學習實現(xiàn)低分辨率編碼傳輸,高分辨率解碼顯示
查看引用/信息源請點擊:映維網(wǎng)
視頻流
(映維網(wǎng)?2021年12月28日)由于渲染圖像和傳輸圖像地成本與圖像分辨率息息相關,所以為了節(jié)省成本,諸如Meta,蘋果和微軟等廠商已經(jīng)進行過一系列的探索。日前,美國專利商標局又公布了一份與所述主題相關的Meta專利申請。其中,名為“Enhancing the resolution of a video stream”的發(fā)明主要介紹了一種的優(yōu)化視頻傳輸分辨率的方法。更具體地說,在向用戶顯示圖像之前,可以利用機器學習模型以較低分辨率處理圖像并進行傳輸,然后再upsample至較高分辨率。
在一個實施例中,計算設備可以訪問對應于視頻幀的第一分辨率圖像。計算設備可以基于視頻中第一幀的第一分辨率圖像和視頻中第二幀的第一分辨率圖像來計算第一運動矢量,其中第一幀在視頻中第二幀之前。
計算設備可以通過使用第一運動向量來扭曲與第一幀相關聯(lián)的第二分辨率重建圖像,以生成與第二幀相關聯(lián)的第二分辨率扭曲圖像,其中第二分辨率可以高于第一分辨率。
接下來,計算設備可以基于與第二幀相關聯(lián)的第一分辨率圖像生成與第二幀相關聯(lián)的第二分辨率中間圖像。為了生成與第二幀相關聯(lián)的第二分辨率中間圖像,計算設備可以將與第二幀相關聯(lián)的第一分辨率圖像的像素均勻地放置到用于第二分辨率中間圖像的第二分辨率圖像平面中,并使得多個像素留空。計算設備可以用非空相鄰像素的插值來填充第二分辨率圖像平面中的多個空白像素。
然后,計算設備可以使用機器學習模型處理與第二幀相關聯(lián)的第一分辨率圖像和與第二幀相關聯(lián)的第二分辨率扭曲圖像,并計算調整參數(shù)。計算設備可以基于調整參數(shù)調整與第二幀相關聯(lián)的第二分辨率中間圖像的像素,以重建與第二幀相關聯(lián)的第二分辨率重建圖像。
在一個實施例中,訓練可由另一計算設備執(zhí)行。在機器學習模型的訓練過程中,可以調整機器學習模型的可訓練變量以計算使預定損失函數(shù)最小化的調整參數(shù)??捎柧氉兞靠赡馨C器學習模型中的權重和偏差。
計算設備可以測量與第二幀相關聯(lián)的第二分辨率重建圖像和與第二幀相關聯(lián)的第二分辨率ground truth值圖像之間的差異。計算設備可以基于與第二幀相關聯(lián)的第二分辨率重建圖像和與第二幀相關聯(lián)的第二分辨率ground truth值圖像之間的測量差來計算機器學習模型的可訓練變量的梯度。計算設備可通過梯度下降反向傳播程序更新可訓練變量。
在特定實施例中,計算設備可測量與第三幀相關聯(lián)的第二分辨率扭曲圖像中的選定像素,以及與和第三幀相關聯(lián)的第二分辨率ground truth值圖像中的選定像素之間的差異。其中,第二幀可位于視頻的幀序列中的第三幀之前。為了生成與第三幀相關聯(lián)的第二分辨率扭曲圖像,計算設備可以基于與第二幀相關聯(lián)的第二分辨率ground truth值圖像和與第三幀相關聯(lián)的第二分辨率ground truth值圖像來計算第二運動矢量。
然后,計算設備可以通過使用第二運動矢量來扭曲與第二幀相關聯(lián)的第二分辨率重建圖像,從而生成與第三幀相關聯(lián)的第二分辨率扭曲圖像。通過比較與第二幀相關聯(lián)的第二分辨率ground truth值圖像和與第三幀相關聯(lián)的第二分辨率ground truth值圖像中的像素,可以將所選像素識別為具有強光流對應性的像素。
計算設備可以基于與第三幀相關聯(lián)的第二分辨率扭曲圖像中的所選像素,以及與和第三幀相關聯(lián)的第二分辨率ground truth值圖像中的所選像素之間的測量差異,從而計算機器學習模型的可訓練變量的梯度。所述計算設備可以使用所述計算梯度中的任一個或使用所述計算梯度中的兩個來訓練所述機器學習模型。
通過這種方式,系統(tǒng)可以將以較低分辨率處理并傳輸?shù)膱D像upsample到較高分辨率并向用戶顯示。

如圖所示,計算設備103可以從第三方設備接收視頻流,并通過頭顯101將接收到的視頻流呈現(xiàn)給用戶105。從第三方設備到計算設備103的業(yè)務所需帶寬可以取決于視頻流的分辨率。如果第三方設備和計算設備103之間的通信路徑包括無線鏈路,則可限制可用帶寬。如果計算設備103能夠以合理的計算成本提高視頻流的分辨率,計算設備103可以在向用戶顯示視頻之前以較低的分辨率接收視頻流并在后續(xù)增強視頻的分辨率,從而降低與網(wǎng)絡帶寬相關聯(lián)的成本。另外,渲染高分辨率圖像的成本可能十分昂貴。如果與呈現(xiàn)高分辨率圖像相關聯(lián)的成本大于呈現(xiàn)視頻低分辨率圖像+使用機器學習模型增強圖像分辨率相關聯(lián)的組合成本,計算設備103可以以低分辨率渲染圖像,并使用機器學習模型來增強圖像的分辨率,從而降低成本。
在特定實施例中,計算設備103可以訪問對應于視頻幀的第一分辨率圖像。計算設備103可以基于視頻中第一幀的第一分辨率圖像和視頻中第二幀的第一分辨率圖像來計算第一運動矢量,其中第一幀在視頻中的第二幀之前。

圖2示出了用于使用機器學習模型增強視頻圖像的分辨率的示例過程。如圖2所示,計算設備103可以訪問原始分辨率的視頻流。計算設備103可以以目標分辨率向關聯(lián)用戶呈現(xiàn)視頻流,其中目標分辨率高于原始分辨率。為了以目標分辨率向關聯(lián)用戶呈現(xiàn)視頻流,計算設備103可以使用機器學習模型210增強視頻流的分辨率。在特定實施例中,計算設備103可與頭顯101組合。計算設備103可以從第三方設備接收視頻流。從第三方設備到計算設備103的通信鏈路可以為無線。
在圖2所示的示例中,計算設備103正在增強與視頻流的幀t對應的圖像分辨率。計算設備103可以訪問對應于幀t-1 201a的原始分辨率圖像和對應于幀t 201b的原始分辨率圖像。計算設備103可以基于對應于幀t-1 201a的原始分辨率圖像和對應于幀t 201b的原始分辨率圖像來計算運動矢量。在特定實施例中,運動矢量可以是光流203。
在特定實施例中,計算設備103可通過使用第一運動矢量來扭曲與第一幀相關聯(lián)的第二分辨率重建圖像,從而生成與第二幀相關聯(lián)的第二分辨率扭曲圖像。第二分辨率可能高于第一分辨率。繼續(xù)圖2中所示的先前示例,計算設備103可以訪問對應于幀t-1 205的目標分辨率重建圖像。對應于幀t-1 205的目標分辨率重建圖像可以是在增強對應于幀t-1的圖像的分辨率的過程中生成。計算設備103可以通過使用從幀t-1到幀t的計算光流203來扭曲對應于幀t-1 205的目標分辨率重建圖像,從而生成對應于幀t 207的目標分辨率扭曲圖像。
在特定實施例中,計算設備103可以基于與第二幀相關聯(lián)的第一分辨率圖像生成與第二幀相關聯(lián)的第二分辨率中間圖像。繼續(xù)圖2中所示的先前示例,計算設備103可以基于對應于幀t201b的原始分辨率圖像生成對應于幀t221的目標分辨率中間圖像。在特定實施例中,計算設備103可以使用基于插值的上采樣方法來生成對應于幀t 221的目標分辨率中間圖像。
在特定實施例中,計算設備103生成與第二幀相關聯(lián)的第二分辨率中間圖像,可以將與第二幀相關聯(lián)的第一分辨率圖像的像素均勻地放置到用于第二分辨率中間圖像的第二分辨率圖像平面中,并使得多個像素留空。計算設備103可以用非空相鄰像素的插值來填充第二分辨率圖像平面中的多個空白像素。

圖3示出了用于從原始分辨率圖像生成目標分辨率中間圖像的示例處理。如圖3所示,計算設備103可以訪問原始分辨率圖像310。為了生成目標分辨率中間圖像,計算設備310準備目標分辨率圖像平面320,其中目標分辨率高于原始分辨率。目標分辨率圖像平面可以是與計算設備103相關聯(lián)的存儲器空間。
然后,計算設備103可以將原始分辨率圖像310的像素均勻地放置到目標分辨率圖像平面320a中,使得該階段的目標分辨率圖像平面320a可以包括多個空白像素。計算設備103可以用非空相鄰像素的插值填充多個空白像素,以生成目標分辨率中間圖像320b。
計算設備103可以使用最近鄰插值、雙線性插值、雙立方插值或任何合適的插值技術來填充多個空白像素。

在特定實施例中,計算設備103可以通過使用機器學習模型處理與第二幀相關聯(lián)的第一分辨率圖像和與第二幀相關聯(lián)的第二分辨率扭曲圖像來計算調整參數(shù)。在特定實施例中,機器學習模型可以是卷積神經(jīng)網(wǎng)絡(CNN)模型。在特定實施例中,機器學習模型可以是生成性對抗網(wǎng)絡(GAN)模型。繼續(xù)圖2中所示的先前示例,計算設備103可以向機器學習模型210提供對應于幀t201b的原始分辨率圖像和對應于幀t207的目標分辨率扭曲圖像。機器學習模型210可產(chǎn)生參數(shù)223的調整。在特定實施例中,可以在計算設備103上執(zhí)行機器學習模型210。在特定實施例中,可以在第三方設備上執(zhí)行機器學習模型210。
在特定實施例中,計算設備103可以基于調整參數(shù)調整與第二幀相關聯(lián)的第二分辨率中間圖像的像素,以重建與第二幀相關聯(lián)的第二分辨率重建圖像。繼續(xù)圖2中所示的先前示例,計算設備103可以通過將計算出的調整參數(shù)223應用于對應于幀t221的目標分辨率中間圖像來生成對應于幀t225的目標分辨率重建圖像。計算設備103可以向相關聯(lián)的用戶呈現(xiàn)對應于幀t225的目標分辨率重建圖像。

在特定實施例中,可以訓練機器學習模型。在機器學習模型的訓練過程中,可以調整機器學習模型的可訓練變量以計算使預定損失函數(shù)最小化的調整參數(shù)??捎柧氉兞靠赡馨C器學習模型中的權重和偏差。作為非限制性示例,計算設備可以使用收集的訓練數(shù)據(jù)訓練機器學習模型。
訓練數(shù)據(jù)可以包括原始分辨率視頻流和相應的目標分辨率視頻流。計算設備可以基于目標分辨率重建圖像和相應的目標分辨率ground truth圖像之間的差異來計算損失。計算設備可以基于損失計算機器學習模型的可訓練變量的梯度。計算設備可通過梯度下降反向傳播程序更新可訓練變量。計算設備可以重復過程,直到達到訓練的目標。
在特定實施例中,計算設備可測量與第二幀相關聯(lián)的第二分辨率重建圖像,以及與和第二幀相關聯(lián)的第二分辨率ground truth圖像之間的差異。

圖5示出了用于增強視頻流的分辨率的示例方法500。所述方法可以從步驟510開始,其中計算設備可以訪問對應于視頻幀的第一分辨率圖像。在步驟520,計算設備可以基于視頻中第一幀的第一分辨率圖像和視頻中第二幀的第一分辨率圖像來計算運動矢量。在步驟530,計算設備可以通過使用運動矢量扭曲與第一幀相關聯(lián)的第二分辨率重建圖像,從而生成與第二幀相關聯(lián)的第二分辨率扭曲圖像。
在步驟540,計算設備可以基于與第二幀相關聯(lián)的第一分辨率圖像生成與第二幀相關聯(lián)的第二分辨率中間圖像。在步驟550,計算設備可以通過使用機器學習模型處理與第二幀相關聯(lián)的第一分辨率圖像和與第二幀相關聯(lián)的第二分辨率扭曲圖像來計算調整參數(shù)。在步驟560,計算設備可以基于調整參數(shù)調整與第二幀相關聯(lián)的第二分辨率中間圖像的像素,以重建與第二幀相關聯(lián)的第二分辨率重建圖像。在適當?shù)那闆r下,特定實施例可以重復圖5的方法的一個或多個步驟。
相關專利:Facebook Patent | Enhancing the resolution of a video stream
名為“Enhancing the resolution of a video stream”的Meta專利申請最初在2020年6月提交,并在日前由美國專利商標局公布。
---
原文鏈接:https://news.nweon.com/92957