最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

一種用于360度全景視頻超分的單幀多幀聯(lián)合網(wǎng)絡(luò)

2020-11-30 20:56 作者:3D視覺(jué)工坊  | 我要投稿

來(lái)源:公眾號(hào)3D視覺(jué)工坊

作者:wangsy

「3D視覺(jué)工坊」技術(shù)交流群已經(jīng)成立,目前大約有12000人,方向主要涉及3D視覺(jué)、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、CV入門(mén)、三維測(cè)量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測(cè)、行人重識(shí)別、目標(biāo)跟蹤、視覺(jué)產(chǎn)品落地、視覺(jué)競(jìng)賽、車(chē)牌識(shí)別、硬件選型、學(xué)術(shù)交流、求職交流、ORB-SLAM系列源碼交流、深度估計(jì)等。工坊致力于干貨輸出,不做搬運(yùn)工,為計(jì)算機(jī)視覺(jué)領(lǐng)域貢獻(xiàn)自己的力量!歡迎大家一起交流成長(zhǎng)~

添加小助手微信:CV_LAB,備注學(xué)校/公司+姓名+研究方向即可加入工坊一起學(xué)習(xí)進(jìn)步。


一種用于360度全景視頻超分的單幀多幀聯(lián)合網(wǎng)絡(luò)

論文、代碼地址:在公眾號(hào)「3D視覺(jué)工坊」,后臺(tái)回復(fù)「全景視頻超分」,即可直接下載。

摘要和簡(jiǎn)介

球形視頻,也稱360度(全景)視頻,它的捕獲、存儲(chǔ)和傳輸非常昂貴。且根據(jù)最近的研究,觀眾在虛擬環(huán)境中要想獲得較高的沉浸感,捕捉到的全景視頻的分辨率應(yīng)為21600×10800。然而,目前無(wú)論是用戶捕獲系統(tǒng)還是網(wǎng)絡(luò)帶寬都難以實(shí)時(shí)處理和傳輸如此大規(guī)模的視頻。解決上述問(wèn)題的一種有效方法是先捕獲低分辨率視頻,然后將其超分辨率分解為高分辨率視頻。為此。我們的主要貢獻(xiàn)歸納為:

1. 首次利用深度學(xué)習(xí)對(duì)360°全景視頻的超分進(jìn)行了探索,并提出了一種新穎的全景視頻超分辨率模型。

2. 我們?cè)O(shè)計(jì)了單幀多幀聯(lián)合網(wǎng)絡(luò)(SMFN),并提供了加權(quán)損失函數(shù),使網(wǎng)絡(luò)更加注重赤道地區(qū)的恢復(fù)。

3. 我們?yōu)?60°全景視頻的超分構(gòu)建了第一個(gè)數(shù)據(jù)集。我們希望我們的新見(jiàn)解能夠加深對(duì)全景視頻超分研究的認(rèn)識(shí)。


方法

網(wǎng)絡(luò)架構(gòu)

該方法由單幀超分網(wǎng)絡(luò)、多幀超分網(wǎng)絡(luò)、對(duì)偶網(wǎng)絡(luò)和融合模塊構(gòu)成。建立該框架的目的是將單幀和多幀超分方法的優(yōu)點(diǎn)結(jié)合起來(lái),這兩種方法分別擅長(zhǎng)于空間信息的恢復(fù)和時(shí)間信息的探索。利用對(duì)偶網(wǎng)絡(luò)來(lái)約束解空間。首先,特征提取模塊將目標(biāo)幀及其相鄰幀作為輸入,生成相應(yīng)的特征圖。然后通過(guò)對(duì)準(zhǔn)模塊將相鄰幀的特征與目標(biāo)幀的特征進(jìn)行對(duì)齊。將對(duì)齊后的特征輸入重建模塊,得到高分辨率圖像。單幀網(wǎng)絡(luò)直接對(duì)目標(biāo)幀進(jìn)行單幀圖像超分辨率處理。為了進(jìn)一步提高恢復(fù)的視頻的質(zhì)量,我們還設(shè)計(jì)了一個(gè)融合模塊,對(duì)重建模塊和單幀網(wǎng)絡(luò)的結(jié)果進(jìn)行處理。最后將上采樣的LR目標(biāo)幀加入到網(wǎng)絡(luò)輸出中,得到最終的超分辨率結(jié)果。對(duì)于對(duì)偶網(wǎng)絡(luò),它只在訓(xùn)練階段將SR圖像傳輸回LR空間。我們使用正則化損失使對(duì)偶網(wǎng)絡(luò)的輸出與原始LR輸入一致。


單幀超分網(wǎng)絡(luò)

采用單幀超分的目的是用來(lái)恢復(fù)空間信息。在我們提出的方法中,單幀超分模塊由多個(gè)卷積層構(gòu)成,每個(gè)卷積層后面都有一個(gè)ReLU激活層。它直接以LR目標(biāo)幀為輸入,生成初步的SR圖像。過(guò)程如下


多幀超分網(wǎng)絡(luò)

在SMFN架構(gòu)中,多幀網(wǎng)絡(luò)是視頻超分的主要網(wǎng)絡(luò),它利用多個(gè)輸入幀進(jìn)行特征學(xué)習(xí)和信息恢復(fù)。主要包括特征提取、對(duì)齊、重建和融合等模塊。

1. 淺層特征提取:特征提取模塊接收連續(xù)的(2N+1)LR幀作為輸入,并為每個(gè)輸入幀生成特征圖。該模塊建立在殘差塊的基礎(chǔ)上,其中殘差塊由Conv-ReLU-Conv組成。特征提取模塊的整個(gè)過(guò)程可以表述為


2. 對(duì)齊模塊:我們采用可變形卷積網(wǎng)絡(luò)來(lái)執(zhí)行幀之間的對(duì)齊操作。本文以目標(biāo)特征和相鄰特征為輸入,通過(guò)可變形卷積模塊,學(xué)習(xí)目標(biāo)特征與相鄰特征之間的偏移,然后通過(guò)學(xué)習(xí)偏移進(jìn)行卷積運(yùn)算,實(shí)現(xiàn)目標(biāo)對(duì)準(zhǔn)。


3. 重構(gòu)模塊:重構(gòu)模塊由三個(gè)部分組成:深度特征提取與融合、混合的注意力機(jī)制 和 上采樣模塊。

深度特征提取與融合:我們采用了一個(gè)殘差密集塊(RDB)作為深度特征提取與融合的基本塊。為了更好地融合對(duì)齊的特征,獲得更精細(xì)的特征,我們采用該模塊進(jìn)行更精細(xì)的特征提取和融合。在我們的方法中,每個(gè)RDB由5個(gè)3×3卷積+ReLU和一個(gè)1x1過(guò)渡層組成。


混合注意力機(jī)制:我們采用注意機(jī)制來(lái)進(jìn)一步增強(qiáng)所提出網(wǎng)絡(luò)的能力。具體來(lái)說(shuō),我們將通道注意(CA)和空間注意(SA)結(jié)合起來(lái),稱之為混合注意。CA模塊旨在過(guò)濾掉通道間的冗余信息,突出重要信息。同樣,SA模塊的目的是濾除空間中的冗余信息,并聚焦于重要區(qū)域。該方法將輸入特征分別輸入CA模塊和SA模塊,得到相應(yīng)的通道和空間注意圖。然后將CA圖與SA圖相加,從而得到混合注意力圖。最后的輸出是混合注意圖和初始輸入特征的乘積。

上采樣模塊:在LR空間提取并融合特征后,采用具有s^2C輸出通道數(shù)的 3×3卷積后接亞像素卷積層。亞像素卷積層將H×W×s^2C的LR圖像轉(zhuǎn)換成相應(yīng)的sH×sW×C的HR圖像,然后用3×3的卷積層重建SR殘差圖像,再將重建圖像送入融合模塊進(jìn)行融合操作。

融合模塊

為了進(jìn)一步提高視頻超分辨率網(wǎng)絡(luò)的性能,我們?cè)O(shè)計(jì)了這個(gè)模塊,它融合了單幀網(wǎng)絡(luò)和多幀網(wǎng)絡(luò)的空間特征。融合模塊由3個(gè)尺寸為3×3的卷積層組成。它以重構(gòu)模塊和單幀網(wǎng)絡(luò)的輸出為輸入,產(chǎn)生融合輸出。在融合模塊完成后,將其與雙線性上采樣LR目標(biāo)幀相加,即可得到該方法的最終輸出。

對(duì)偶網(wǎng)絡(luò)

在訓(xùn)練階段,設(shè)計(jì)對(duì)偶網(wǎng)絡(luò)來(lái)約束解空間。首先,對(duì)偶網(wǎng)絡(luò)將SR圖像轉(zhuǎn)換成LR空間。通過(guò)計(jì)算原始LR圖像與對(duì)偶網(wǎng)絡(luò)輸出圖像之間的加權(quán)均方誤差,定義了一個(gè)額外的損失函數(shù)。利用這個(gè)損失函數(shù),可以有效地約束解空間,從而找到更優(yōu)的解。在我們的實(shí)驗(yàn)中,我們采用兩個(gè)3×3的卷積層作為我們的對(duì)偶網(wǎng)絡(luò)。


損失函數(shù)

對(duì)于ERP格式的全景視頻,其重要內(nèi)容一般顯示在赤道地區(qū)。因此,在我們的方法中,通過(guò)給不同的像素賦予不同的權(quán)重值來(lái)達(dá)到這個(gè)目的。低緯度的像素可以得到更大的權(quán)重。我們采用了一種新的損失函數(shù),即加權(quán)均方誤差(WMSE),定義如下


實(shí)驗(yàn)

數(shù)據(jù)集

全景照片沒(méi)有公開(kāi)的資料。因此,我們收集并編輯了一個(gè)名為MiG全景視頻的數(shù)據(jù)集。它共包含204個(gè)全景視頻,是目前應(yīng)用最廣泛的全景內(nèi)容投影方案之一,每段視頻包含100幀分辨率在4096×2048到1440×720之間。從室外到室內(nèi),從白天到晚上,場(chǎng)景各不相同。然后選取4個(gè)有代表性的視頻作為測(cè)試集,其余的作為訓(xùn)練集??紤]到計(jì)算資源的限制,以雙三次插值算法為基礎(chǔ),對(duì)每段視頻進(jìn)行降采樣,使其分辨率從2048×1024降到720×360。然后降采樣4倍獲取對(duì)應(yīng)的LR視頻。我們的數(shù)據(jù)集公開(kāi)發(fā)布,供研究人員進(jìn)一步研究全景視頻的超分。采用WS-PSNR和WS-SSIM作為評(píng)價(jià)指標(biāo),我們也報(bào)告了所有算法的PSNR和SSIM結(jié)果。訓(xùn)練設(shè)置

在單幀網(wǎng)絡(luò)中,我們使用32層卷積層。特征提取模塊采用3個(gè)殘差塊,每個(gè)殘差塊的通道大小為64。在重建模塊中,采用5個(gè)RDB。每個(gè)RDB中的通道大小設(shè)置為64,增長(zhǎng)率為32。實(shí)驗(yàn)中,首先將RGB視頻轉(zhuǎn)換為YCbCr空間,然后利用Y通道作為網(wǎng)絡(luò)的輸入。除非另有規(guī)定,否則網(wǎng)絡(luò)將三個(gè)連續(xù)幀(即N=1)作為輸入。訓(xùn)練階段,我們使用32×32的patch作為輸入,批次大小設(shè)置為16。此外,我們主要使用幾何增強(qiáng)技術(shù),包括反射、隨機(jī)裁剪和旋轉(zhuǎn)。對(duì)于主網(wǎng)絡(luò),采用β1=0.9、β2=0.999的Adam優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。初始學(xué)習(xí)率設(shè)置為1×10^{-4}。然后,我們將學(xué)習(xí)率在每20個(gè)epochs后衰減到一半。對(duì)偶網(wǎng)絡(luò)的配置與單幀和多幀網(wǎng)絡(luò)的配置相同。損失函數(shù)中參數(shù)λ的值設(shè)置為0.1。使用2個(gè)NVIDIA Titan Xp GPU對(duì)它們進(jìn)行訓(xùn)練。

消融實(shí)驗(yàn)


量化評(píng)估


本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。


一種用于360度全景視頻超分的單幀多幀聯(lián)合網(wǎng)絡(luò)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
呼图壁县| 策勒县| 闽侯县| 新乐市| 肃宁县| 望城县| 滕州市| 彭阳县| 罗源县| 黔南| 密云县| 万全县| 海淀区| 伊宁县| 江永县| 永春县| 天门市| 南京市| 双柏县| 什邡市| 微山县| 东丽区| 永济市| 铜川市| 光山县| 朝阳市| 志丹县| 湘潭市| 乐亭县| 普定县| 偃师市| 讷河市| 多伦县| 凤冈县| 庆阳市| 都昌县| 沈阳市| 揭阳市| 高尔夫| 淄博市| 扶余县|