蘋果專利為AR、VR、電腦、手機等研究360度全景視頻編碼傳輸
查看引用/信息源請點擊:映維網(wǎng)
帶寬壓縮,并用于處理2D視頻數(shù)據(jù)
(映維網(wǎng)?2021年11月10日)360度視頻通常是指同時記錄全方向視圖的片段記錄,并可以使用全向攝像頭和包含多個攝像頭的裝置來進行捕獲。日前,美國專利商標局公布了一份與所述主題相關的蘋果專利專利申請“Sphere projected motion estimation/compensation and mode decision”。
這項發(fā)明主要涉及360度編碼,更具體來說,主要是用于處理2D視頻數(shù)據(jù)并幫助視頻實現(xiàn)帶寬壓縮。
蘋果解釋道,盡管360度視頻是360度,但視頻數(shù)據(jù)本身通常由2D格式的圖像數(shù)據(jù)表示。圖像數(shù)據(jù)由排列在2D中的預定空間位置(x、y位置)的像素陣列表示。并且,盡管視場內不同深度的對象將在圖像數(shù)據(jù)中表示,圖像數(shù)據(jù)的大小不僅對應于對象的物理大小,而且對應于其與攝像頭的距離,但表示對象的像素數(shù)據(jù)不隨深度改變像素位置。
3D空間的2D表示可能導致不同位置的圖像數(shù)據(jù)失真。例如,3D空間中的直線在2D圖像數(shù)據(jù)中可能不會顯示為直線。另外,當不同對象在360度視場內移動時,它們的大小和形狀可能會發(fā)生扭曲。
這種失真可能導致視頻編碼出現(xiàn)問題。視頻編碼器通常通過利用圖像數(shù)據(jù)中的空間和時間冗余來減少圖像信號的帶寬。然而,由于幀與幀之間可能產(chǎn)生的失真,對3D圖像的2D表示進行操作的視頻編碼器并不總能檢測到這種冗余。
所以,蘋果希望提供一種能夠更好地識別2D表示中的冗余的視頻編碼系統(tǒng)。
在“Sphere projected motion estimation/compensation and mode decision”這份發(fā)明中,蘋果描述的技術基于從要編碼的輸入圖片和作為預測候選的參考圖片的球形域投影作出預測,從而預測性地編碼視頻數(shù)據(jù)。
在一個實施例中,可以生成輸入圖片和候選參考圖片的球形投影。然后,可以搜索要編碼的像素塊的球面域表示與參考圖片的球面域表示之間的匹配。在匹配時,可以確定像素塊的球面域表示與球面域表示中參考圖片的匹配部分之間的偏移。可以將球面域偏移轉換為輸入圖片的源域表示中的運動矢量,并且可以參考參考圖片的匹配部分的源域表示對像素塊進行預測性編碼。

圖1是可采用發(fā)明實施例的系統(tǒng)100。系統(tǒng)100可包括經(jīng)由網(wǎng)絡130互連的至少兩個終端110-120。第一終端110可以具有360度拍攝的攝像頭系統(tǒng)112。第一終端110同時可以包括編碼系統(tǒng)和傳輸系統(tǒng)(未示出),以傳輸360度的編碼表示。第二終端120可以顯示360度視頻。
圖1同時示出了適用于360度單向傳輸?shù)慕M件。在特定應用中,可以適當?shù)靥峁┮曨l數(shù)據(jù)的雙向交換,在這種情況下,第二終端120可以包括其自己的攝像頭系統(tǒng)、視頻編碼器和發(fā)射機(未示出),并且第一終端100可以包括其自己的接收機和顯示器(未示出)。如果需要360度交換。
在圖1中,第二終端120是計算機顯示器,但實際應用不限于此。本發(fā)明的實施例適用于筆記本電腦、平板電腦、智能手機、服務器、媒體播放器、VR頭顯、AR頭顯、全息圖顯示器和/或專用視頻會議設備。網(wǎng)絡130表示在終端110-120之間傳送編碼視頻數(shù)據(jù)的任意數(shù)量的網(wǎng)絡,包括例如有線和/或無線通信網(wǎng)絡。。
圖2是根據(jù)本發(fā)明實施例的編碼系統(tǒng)200的功能框圖。系統(tǒng)200可以包括攝像頭系統(tǒng)210、圖像處理系統(tǒng)220、視頻編碼器230、視頻解碼器240、參考圖片存儲器250、預測器260和一對球面變換單元270、280。攝像頭系統(tǒng)210可以生成表示局部環(huán)境的圖像數(shù)據(jù),亦即所謂的“360度圖像”。圖像處理系統(tǒng)220可根據(jù)需要轉換來自攝像頭系統(tǒng)210的圖像數(shù)據(jù)以適配視頻編碼器230的要求。視頻編碼器230通常通過利用圖像數(shù)據(jù)中的空間和/或時間冗余來生成其輸入圖像數(shù)據(jù)的編碼表示。視頻編碼器230可以輸出輸入數(shù)據(jù)的編碼表示,其在發(fā)送和/或存儲時消耗的帶寬小于輸入數(shù)據(jù)。
視頻解碼器240可反轉由視頻編碼器230執(zhí)行的編碼操作,以從編碼視頻數(shù)據(jù)獲得重構圖像。通常,由視頻編碼器230應用的編碼處理是有損處理,其使得重構圖片在與原始圖片相比時具有各種錯誤。視頻解碼器240可以重構指定為“參考圖片”的所選編碼圖片的圖片,并將解碼的參考圖片存儲在參考圖片存儲250中。在沒有傳輸錯誤的情況下,解碼的參考圖片將復制由解碼器(未示出)獲得的解碼參考圖片。
預測器260可以在編碼新輸入圖片時為其選擇預測參考。對于正在編碼的輸入圖片的每一部分,預測器260可以選擇編碼模式并識別參考圖片的一部分,所述參考圖片可以用作正在編碼的像素block的預測參考搜索。編碼模式可以是幀內編碼模式,在這種情況下,可以從正在編碼的圖片的先前編碼(和解碼)部分提取預測參考?;蛘撸幋a模式可以是幀間編碼模式,在這種情況下,可以從另一個先前編碼和解碼的圖片中提取預測參考。在一個實施例中,預測器260可以搜索對輸入圖片和已轉換為球形投影表示的參考圖片進行編碼的圖片的預測參考。球面變換單元270、280可以將輸入圖片和參考圖片變換為球面投影表示。
當識別出適當?shù)念A測參考時,預測器260可以以視頻編碼器230接受的表示向視頻編碼器230提供預測數(shù)據(jù)。通常,存儲在參考圖片存儲器中的參考圖片將采用視頻編碼器接受的格式。
視頻編碼器230輸出的編碼視頻數(shù)據(jù)在傳輸和/或存儲時消耗的帶寬應小于輸入數(shù)據(jù)。編碼系統(tǒng)200可以將編碼視頻數(shù)據(jù)輸出到輸出設備290,例如可以通過通信網(wǎng)絡130(圖1)傳輸編碼視頻數(shù)據(jù)的發(fā)射機(未示出)或者存儲設備(也未示出)。

圖3是圖2中的球形變換單元270、280的執(zhí)行示例性變換。在本實施例中,攝像頭系統(tǒng)110(圖2)可以執(zhí)行360度旋轉。捕獲操作310并輸出尺寸為M×N像素的等矩形圖片320。圖4則是球形變換單元270、280的執(zhí)行示例性變換。在本實施例中,攝像頭系統(tǒng)110(圖2)可以執(zhí)行360度旋轉。捕獲操作410并輸出具有尺寸M×N像素的圖片420,其中圖像內容根據(jù)立方體映射排列。
球面變換單元270可以根據(jù)從立方體映射中的每個子圖像導出的變換,將立方體映射圖片420內的位置(x,y)處的像素數(shù)據(jù)沿球面投影330變換為位置(.θ,.phi.)。圖像捕獲的每個子圖像對應于球形投影430的表面的預定角度區(qū)域。所以,正面412的圖像數(shù)據(jù)可以投影到球面投影表面的預定部分,并且左、右、后、頂和底子圖像的圖像數(shù)據(jù)可以投影到球面投影表面的相應部分。
當應用變換時,立方體貼圖圖片420中的像素位置可以映射到球形投影430中的唯一位置。在所述區(qū)域中,球形投影430中的每個位置可以分配來自立方體映射圖片420的相應位置的像素值。在其他位置,特別是朝向各個子圖像的邊緣,球形投影單元270可以將圖像數(shù)據(jù)從立方體地圖圖片420中的多個源位置映射到球形投影430中的公共位置。在這種情況下,球形投影單元270可以從立方體地圖圖片420中的對應像素值的混合導出球形投影430中的位置的像素值。
相關專利:Apple Patent | Sphere projected motion estimation/compensation and mode decision
名為“Sphere projected motion estimation/compensation and mode decision”的蘋果專利最初在2021年3月提交,并在日前由美國專利商標局公布。
---
原文鏈接:https://news.nweon.com/91415