論文解讀|使用深度卷積網(wǎng)絡(luò)的圖像超分辨率
原創(chuàng) | 文 BFT機(jī)器人

論文標(biāo)題:Image Super-Resolution Using Deep Convolutional Networks
網(wǎng)址:https://arxiv.org/abs/1501.00092
代碼:https://github.com/Edwardlzy/SRCNN?
01
摘要
提出了一種單幅圖像超分辨率(SR)的深度學(xué)習(xí)方法。該方法通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò) (CNN)學(xué)習(xí)低分辨率圖像到高分辨率圖像的端到端映射,輸入是低分辨率圖像,輸出是高分辨率圖像。
該方法通過(guò)聯(lián)合優(yōu)化所有層實(shí)現(xiàn)了更好的性能,使得其在恢復(fù)質(zhì)量方面表現(xiàn)卓越,同時(shí)具有輕量級(jí)的結(jié)構(gòu),適用于快速在線應(yīng)用。研究還探討了不同的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置,以及平衡性能和速度之間的關(guān)系。另外,方法還擴(kuò)展了網(wǎng)絡(luò),能夠同時(shí)處理三個(gè)顏色通道,并在整體重建質(zhì)量上表現(xiàn)更出色。
02
介紹
此論文通過(guò)在非線性映射層中引入更大的濾波器尺寸來(lái)改進(jìn)SRCNN,并通過(guò)增加非線性映射層來(lái)探索更深層次的結(jié)構(gòu)。其次,擴(kuò)展SRCNN以同時(shí)處理三個(gè)顏色通道(在YCbCr或RGB顏色空間中)。
實(shí)驗(yàn)表明,與單通道網(wǎng)絡(luò)相比,該網(wǎng)絡(luò)的性能可以得到改善。最后,在初始結(jié)果的基礎(chǔ)上增加了大量新的分析和直觀的解釋。作者們還將原始實(shí)驗(yàn)從Set5和Set14測(cè)試圖像擴(kuò)展到BSD200(200張測(cè)試圖像)
此研究的主要貢獻(xiàn)包括以下三個(gè)方面:
1)提出了一種全卷積神經(jīng)網(wǎng)絡(luò)用于圖像超分辨率。該網(wǎng)絡(luò)直接學(xué)習(xí)低分辨率和高分辨率圖像之間的端到端映射,幾乎無(wú)需額外的預(yù)處理或后處理即可進(jìn)行優(yōu)化。
2)建立了基于深度學(xué)習(xí)的超分辨率方法與傳統(tǒng)的基于稀疏編碼的方法之間的關(guān)系,為網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)提供了指導(dǎo)。
3)證明了深度學(xué)習(xí)在經(jīng)典的超分辨率計(jì)算機(jī)視覺(jué)問(wèn)題中的實(shí)用性,能夠?qū)崿F(xiàn)優(yōu)秀的質(zhì)量和速度。

03
相關(guān)工作
3.1 Image Super-Resolution
根據(jù)圖像可知,單圖像超分辨率算法可分為四種類型:預(yù)測(cè)模型、基于邊緣的方法、圖像統(tǒng)計(jì)方法和基于補(bǔ)?。ɑ?qū)嵗┑姆椒?。?nèi)部基于實(shí)例的方法利用自相似特性生成示例補(bǔ)丁,通過(guò)改進(jìn)的變體來(lái)提高效率。
外部基于實(shí)例的方法從外部數(shù)據(jù)集學(xué)習(xí)低/高分辨率補(bǔ)丁之間的映射,涉及學(xué)習(xí)緊湊字典或流形空間來(lái)關(guān)聯(lián)補(bǔ)丁,并在這些空間中執(zhí)行表示。這些方法包括直接使用最近鄰對(duì)進(jìn)行重建、流形嵌入技術(shù)、稀疏編碼公式等。
進(jìn)一步的改進(jìn)方法包括核回歸、簡(jiǎn)單函數(shù)、隨機(jī)森林和錨定鄰域回歸?;谙∈杈幋a的方法及其改進(jìn)是當(dāng)今最先進(jìn)的超分辨率方法之一,其重點(diǎn)在于斑塊的優(yōu)化,而patch提取和聚合被視為預(yù)處理和后處理步驟。
04
用于超分辨率的卷積神經(jīng)網(wǎng)絡(luò)
4.1 Formulation
在處理單個(gè)低分辨率圖像時(shí),我們采用雙三次插值將其調(diào)整到所需尺寸,這是唯一的預(yù)處理步驟。我們將插值后的圖像記為Y。我們的目標(biāo)是從Y中恢復(fù)出與真實(shí)高分辨率圖像x盡可能相似的圖像F(Y)。盡管插值后的圖像Y與x大小相同,我們?nèi)苑Q之為“低分辨率”圖像。我們希望學(xué)習(xí)一個(gè)映射F,它由以下三個(gè)操作組成:
斑塊提取和表示:從低分辨率圖像Y中提?。ㄖ丿B)補(bǔ)丁,并將每個(gè)補(bǔ)丁表示為高維向量。這些向量由一組特征映射組成,映射的數(shù)量等于向量的維數(shù)。

非線性映射:將每個(gè)高維向量進(jìn)行非線性映射,得到另一個(gè)高維向量。這些映射向量在概念上代表高分辨率補(bǔ)丁。

重建:將上述高分辨率補(bǔ)丁表示聚合,生成最終的高分辨率圖像。這個(gè)圖像預(yù)計(jì)與真實(shí)高分辨率圖像X相似。如下圖所示


4.2 Relationship to Sparse-Coding-Based Methods
基于稀疏編碼的方法可以看作是一種卷積神經(jīng)網(wǎng)絡(luò),但在構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)時(shí)需要優(yōu)化更多操作。
在基于稀疏編碼的方法中,首先從輸入圖像中提取低分辨率補(bǔ)丁f1,然后通過(guò)稀疏編碼求解器將其投影到低分辨率字典上,相當(dāng)于應(yīng)用n1個(gè)線性過(guò)濾器;稀疏編碼求解器迭代處理n1個(gè)系數(shù),輸出n2個(gè)系數(shù),這些系數(shù)表示高分辨率斑塊的特征;稀疏編碼求解器在下圖的中間部分表示為非線性映射算子,但從卷積神經(jīng)網(wǎng)絡(luò)的角度來(lái)看,它是基于稀疏編碼的方法;ReLU可以等效地視為第二個(gè)操作的一部分,而第一個(gè)操作變?yōu)榧兙€性卷積;基于稀疏編碼的方法中的稀疏編碼求解器是迭代的,而我們的非線性算子是完全前饋的,更有效;上述系數(shù)經(jīng)過(guò)稀疏編碼投影到高分辨率字典,然后進(jìn)行重建和平均,相當(dāng)于在特征映射上的線性卷積。

05
結(jié)論
提出的SRCNN方法通過(guò)學(xué)習(xí)低分辨率圖像到高分辨率圖像的端到端映射,減少了額外的預(yù)處理和后處理步驟。SRCNN采用了輕量化的結(jié)構(gòu),在性能方面超過(guò)了最先進(jìn)的方法。研究者認(rèn)為,通過(guò)進(jìn)一步研究不同的濾波器和訓(xùn)練策略,可以進(jìn)一步提升性能。
此外,所提出的方法具有簡(jiǎn)單和魯棒性的特點(diǎn),適用于其他低級(jí)視覺(jué)問(wèn)題,如圖像去模糊或同步超分辨率和去噪。還可以研究適用于不同升級(jí)因素的網(wǎng)絡(luò)結(jié)構(gòu)。
作者?| 淳豪
排版 |?居居手
更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問(wèn),請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。