最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

國防科大提出基于可變形三維卷積的視頻超分辨,代碼已開源

2020-09-02 18:12 作者:極市平臺  | 我要投稿

視頻是具有時間連續(xù)性的圖像集合,其中每幀圖像的上下文信息(空域信息)與不同幀之間的互補信息(時域信息)都有助于提升視頻超分辨的性能。近日,來自國防科技大學的學者提出基于可變形三維卷積的視頻超分辨網(wǎng)絡(luò)(D3Dnet),通過將可變形卷積(Deformable Convolution)和三維卷積(3D Convolution)有機結(jié)合,同時實現(xiàn)高效時空信息建模與靈活幀間運動補償。實驗表明,該網(wǎng)絡(luò)生成視頻的清晰度、流暢度與網(wǎng)絡(luò)的運行效率均處于領(lǐng)域先進水平。論文信息如下:


論文鏈接:https://arxiv.org/pdf/2004.02803.pdf代碼鏈接:https://github.com/XinyiYing/D3Dnet

引言(Introduction)?

隨著當前高分辨率視頻的需求增多,視頻超分辨技術(shù)被廣泛應(yīng)用于視頻監(jiān)控與高清影音設(shè)備中。相較于單幅圖像超分辨,視頻超分辨的核心與難點在于充分利用時域互補信息。然而,視頻的幀間運動給該任務(wù)帶來了較大的挑戰(zhàn)?,F(xiàn)有的視頻超分辨算法大多是兩階段的(two-stage),即先在空域進行特征提取,然后在時域進行幀間運動補償。此類框架無法充分結(jié)合視頻序列內(nèi)的時空信息,從而限制了超分辨性能,降低了輸出視頻序列的流暢性。針對以上問題,該文提出可變形三維卷積網(wǎng)絡(luò)(D3Dnet)實現(xiàn)單階段(one-stage)的視頻超分辨,即使用可變形三維卷積(D3D)對時空信息進行漸進式融合,并自適應(yīng)地完成幀間運動補償。該文在公開數(shù)據(jù)集Vid4,Vimeo-90K,SPMC-11上對所提算法進行了測試評估,實驗結(jié)果表明,相比于領(lǐng)域內(nèi)其他先進算法,D3Dnet能夠重建出精度更高且更加流暢的視頻序列,同時具有合理的參數(shù)量與較高的運行效率。


方法(Method)?

1、可變形三維卷積(D3D)

圖1 可變形三維卷積(D3D)結(jié)構(gòu)示意圖如圖1所示,D3D將可變形二維卷積(Deformable Convolution, DCN)與三維卷積(3D Convolution, C3D)進行結(jié)合,輸入特征中的淺橙色立方體代表3×3×3的C3D卷積核,深橙色立方體代表3×3×3的D3D卷積核。其中,D3D卷積核的偏移量(offset)由偏移量生成器(3×3×3的C3D卷積)產(chǎn)生。如圖1上方部分所示,位于偏移空間(offset field)的特征的通道維度為2N(此處N為27),代表對應(yīng)3×3×3卷積核在高度H和寬度W上的偏移量。

2、可變形三維卷積網(wǎng)絡(luò)(D3Dnet)




圖2 D3Dnet結(jié)構(gòu)圖基于D3D,該文構(gòu)建了D3Dnet,如圖2所示。首先,將7幀視頻序列送入C3D進行初始特征提取。隨后,將提取的特征輸入5個級聯(lián)的殘差D3D模塊(ResD3D),同時實現(xiàn)時空信息進行提取與幀間運動補償。而后,采用瓶頸層(bottleneck)將運動補償后的視頻特征進行融合,并將融合后的特征送入6個級聯(lián)的殘差塊(Resblock)進行重建。最后,將重建后的特征依次輸入1×1卷積層,pixel-shuffle層,1×1卷積層,得到高分辨率參考幀圖像。

實驗(Experiments)

1、消融學習(Ablation Study)

實驗部分首先通過消融學習對網(wǎng)絡(luò)中不同模塊和方案的有效性進行驗證。

1)雙階段方法(two-stage)和單階段方法(C3D,D3D)。




圖3 雙階段方法(two-stage)和單階段方法(C3D, D3D)性能對比,橫坐標代表模型中的殘差模塊的數(shù)量。圖3實驗表明,相較于two-stage 算法,one-stage算法能夠更加充分地利用視頻中的時空信息,以較少的參數(shù)獲得更好的性能;相較于C3D,D3D能夠靈活地提取時空信息,有效對幀間運動進行補償,獲得質(zhì)量更高的超分辨視頻序列。



2)輸入視頻的幀數(shù)。



表1 不同視頻輸入幀數(shù)的性能對比表1實驗表明,輸入視頻幀數(shù)的增加引入了更多的時域信息,從而提升了超分辨性能。2、算法對比(Comparison to the State-of-the-arts)該文在表2所示的3個公開數(shù)據(jù)集上將D3Dnet與單幀超分辨算法DBPN(CVPR18)、RCAN(ECCV18)以及視頻超分辨算法VSRnet(TCI16),VESPCN(CVPR17),SOF-VSR(TIP20),以及TDAN(CVPR20)進行了比較。此外,該文還采用了雙三次插值的結(jié)果作為基準對照組。算法對比的結(jié)果如下。

1)數(shù)值結(jié)果




表2 不同超分辨方法數(shù)值結(jié)果比較(PSNR/SSIM)

2)視覺效果




圖4 不同超分辨算法視覺效果比較


3)流暢度與運行效率




表3 不同超分辨方法生成的視頻流暢度和運行效率比較與單幀超分辨算法DBPN(CVPR18)、RCAN(ECCV18)相比,D3Dnet具有優(yōu)異的性能和運行效率。與視頻超分辨算法TDAN(CVPR20)、SOF-VSR(TIP20)相比,D3Dnet通過合理增加計算成本進一步提升了視頻超分辨的性能(更高的PSNR/SSIM指標、更好的視覺效果、更優(yōu)的視頻流暢度)。



結(jié)論(Conclusion)?

該文提出基于可變形三維卷積的視頻超分辨網(wǎng)絡(luò)(D3Dnet),通過將可變形卷積與三維卷積相結(jié)合,設(shè)計了可變形三維卷積(D3D)以同時進行時空信息提取與幀間運動補償。D3Dnet結(jié)構(gòu)簡單、設(shè)計精巧,相比于領(lǐng)域內(nèi)其他先進算法,在不大幅度增加計算開銷的前提下,顯著提升了視頻超分辨的性能。得益于較好的時空建模與幀間運動補償能力,D3Dnet輸出的視頻具有更高的流暢度。


國防科大提出基于可變形三維卷積的視頻超分辨,代碼已開源的評論 (共 條)

分享到微博請遵守國家法律
黑龙江省| 商城县| 晴隆县| 古蔺县| 乐都县| 闽清县| 宽甸| 通海县| 泽库县| 伊宁市| 万全县| 肇州县| 潍坊市| 巴南区| 镇巴县| 会东县| 东台市| 巴东县| 焦作市| 汉阴县| 习水县| 龙州县| 平武县| 安吉县| 滕州市| 长沙市| 三河市| 岳池县| 石泉县| 柞水县| 山丹县| 文山县| 台东市| 抚州市| 镇江市| 乡宁县| 乳山市| 许昌市| 江门市| 南部县| 墨玉县|