【事半功倍讀論文】解讀深度學習超分領(lǐng)域前沿論文Real-ESRGAN

像素損失:HR和輸出的像素值差異
感知損失:
1、SRGAN:把HR和重構(gòu)圖同時放入訓練好的權(quán)重固定的VGG網(wǎng)絡,取vgg網(wǎng)絡某一個卷積層的輸出feature map,同時比較HR和重構(gòu)圖在feature map的差異
2、ESRGAN(2018):提出RRDB網(wǎng)絡框架
3、realSR(cvpr 2020冠軍):模擬HR到LR退化過程,模擬成一個卷積核加噪聲的形式
本文分兩部分:1、數(shù)據(jù)處理部分 2、訓練和測試部分
1、數(shù)據(jù)處理:構(gòu)建training data和test data數(shù)據(jù)對,構(gòu)建同一場景LR和HR圖像
HR到LR不只是下采樣這么簡單,還有一系列壓縮,直接下采樣不足以模擬現(xiàn)實生活從HR到LR的變化
本文training pairs的產(chǎn)生過程:
1、用不同的相機拍同一場景(iPhone3和iPhone13),一個畫質(zhì)低一個畫質(zhì)高,這樣就形成了training pairs(費事)
2、cyclegan:用unpaired data生成paired data(效果不好)
3、blur kernels和noise patches組合,將高清圖片生成對應低清圖片(本文方法)
數(shù)據(jù)對構(gòu)建部分
只用一個公式描述退化過程不夠,不精確

二階退化過程:描述HR到LR退化

現(xiàn)實生活中的噪聲和偽影

模型部分
fig 4為生成器,fig 6為判別器

生成器講解
1、pixel unshuffle 操作:圖像的長和寬減小,同時增加通道數(shù)
2、第一個卷積的輸出和RRDB后一個卷積的輸出進行相加形成一個殘差操作
3、上采樣
鑒別器部分:輸出不是0和1,而是和輸入一樣尺寸的分布

兩方面改進
1、UNet:不僅要區(qū)別全局信息,還要獲得局部紋理,Unet能更好保留局部紋理,Unet的下采樣和上采樣操作之間有連接,UNet的輸出是每個像素的真實值,是一個和原圖一樣大的圖,途中每個像素點值代表真實性的值,所以每一個pixel都能給一個很好的反饋
2、譜歸一化
好處有兩個:(1)增加訓練的穩(wěn)定性(2)減輕或銳化偽影
訓練分為兩階段:先訓練一個小網(wǎng)絡,用這個網(wǎng)絡權(quán)重作為整個大網(wǎng)絡生成器(G)的初始化權(quán)重,然后再來訓練整個大網(wǎng)絡
(1)訓練一個PSNR-oriented模型 使用L1損失(2)然后用PSNR-oriented模型作為生成器的初始化
real-esrgan+
在real-esrgan基礎(chǔ)上加了一個訓練技巧,把ground-truth銳化,可以增加輸出圖像的銳度,同時不引入額外偽影