Single Image SR Using Lightweight Networks Based on Swin Transfo
Single Image Super-Resolution Using LightweightNetworks Based on Swin Transformer(2022,Image and Video Processing (eess.IV))
文章主要問題
減少圖片超分模型復(fù)雜度
結(jié)論
Innovation
提出兩個網(wǎng)絡(luò):MSwinSR(SwinIR結(jié)構(gòu)+用MSTB代替RSTB)和UGSwinSR(U-net+GAN with swin Transformer)
MSTB:Multi-size swin Transformer Block
RSTB:Residural swin T燃燒former Block
MSwinSR:用了不同的四個并行注意力窗口,減少了MLP數(shù)量,并且通過增加網(wǎng)絡(luò)寬度來減少網(wǎng)絡(luò)深度(定量指標PSNR,SSIM更好)
UGSwinSR:用U-net減少計算量(感知指標LPIPS更好),通過下采樣提取圖片深層特征,破壞原始圖像信息,用Bicubic來得到HR
Network Architecture
SwinIR

復(fù)雜度計算
W-MSA復(fù)雜度計算:?(=W ?MSA) = 4hwC2 + 2M 2hwC
LR(h x w x Cin)→【淺層特征提取】→Feature Map(通道數(shù)=C)
省略了softmax和bias
RSTB復(fù)雜度計算

MSwinSR(SwinIR結(jié)構(gòu)+用MSTB取代RSTB)
All

[x,z,y]表示第1stage個中有x個MSTB+Conv+Residual;第2stage個中有z個MSTB+Conv+Residual;第3stage個中有y個MSTB+Conv+Residual
[2,2,2],其depth=MSTB數(shù)量(s表示圖片放大比例)

MSTB

四種W-MSA

loss:L1

UGSwinSR include:G+D+U-net
Depth=下采樣次數(shù)
下采樣過程會使得feature map參數(shù)量上升,而參數(shù)量與之密切相關(guān)?:通過pooling 或 conv strides=2 下采樣了以后,輸出的長寬變小了,為了防止特征信息丟失,輸出通道數(shù)要加倍。

G:下采樣+上采樣→減少計算量
D:下采樣→從生成圖和真圖中挖掘深層特征
U-net:減少卷積層,減輕計算負擔
U-net網(wǎng)絡(luò)一共有四層,分別對圖片進行了4次下采樣和4次上采樣https://blog.csdn.net/qq_33924470/article/details/106891015

下采樣每一層=【兩次卷積來提取圖像特征】→【池化下采樣:把圖片減小一半】
第一層=input:572×572×1→【64個3×3的卷積】→64個570×570×1→【ReLU】→570×570×64→【64個3×3的卷積】→【ReLU】→568×568×64→【2×2的池化】→284×284×64
每下一層,卷積核數(shù)目增加一倍,即第一層為64個卷積核,第二層為128個卷積核,以此類推
上采樣每一層=【兩次卷積來提取特征】→【反卷積上采樣把圖片擴大一倍】
28x28x1024→【512個2×2反卷積】→56x56x512→【把左邊下采樣時的圖片裁剪成相同大小后直接拼過來的方法增加特征層(左半邊白色部分的512個特征通道)】→56×56×1024→【512個3x3卷積】→【ReLU】→54×54×512→【512個3x3卷積】→【ReLU】→52×52×512→【256個2×2反卷積】→104x104x256
每上一層,卷積核數(shù)目減少一半,
由于每一次valid卷積(3x3)都會使得結(jié)果變小一圈,因此每次拼接之前都需要先把左邊下采樣過程中的圖片進行裁剪成相同大小后直接拼過來的方法增加特征層
perceptual loss
loss
L1與L2比較:L2對差異較大的像素值的loss更大,更適合于差異較小的像素值,會導(dǎo)致過于平滑
L1:Mean-Absolute Error,MAE
Experiment
Dataset
CelebA:202599張178x218HR人臉→圖像中心裁剪,大小變?yōu)?78x178→【雙立方插值】→256x256→【雙立方下采樣】→64x64LR
training:10000
validation dataset:100
Setup
Epoch=100
Batch=20
Adam優(yōu)化器
Learning Rate=0.0002,指數(shù)衰減率為0.5和0.999
Embedding Layer后通道數(shù)C=60
Result
LPIPS:Learned Perceptual Image Patch Similarity→用于度量兩張圖之間的差距,也稱為Perceptual Loss
與SwinIR相比,MSwinSR增加了0.07dB的PSNR,參數(shù)的數(shù)量減少30.68%,計算成本可以減少9.936%。UGSwinSR與SwinIR相比可以減少90.92%的計算量。


UGSwinSR的性能隨著網(wǎng)絡(luò)深度上升而下降的原因
可能是由于訓練圖像尺寸小,過度下采樣忽略了圖像的整體連續(xù)性,而過于關(guān)注局部細節(jié)
other
SwinIR的優(yōu)缺點
優(yōu)點:參數(shù)少,重建圖像的客觀質(zhì)量高
缺點:
- (1)由于捕捉注意力機制是通過源圖像的全局信息來實現(xiàn)的,所以整體重建圖像比較平滑,而一些局部細節(jié)很難被檢測到。這對分辨率較高的圖像影響不大,但會大大降低小尺寸圖像的感性質(zhì)量。
- (2) 除了Swin Transformer塊,SwinIR還使用了大量的卷積層,這將增加網(wǎng)絡(luò)中的運算量。如果刪除這些卷積層,圖像的重建質(zhì)量將大大降低。
- (3) 為了解決SR的特殊問題,SwinIR取消了Swin Transformer中的降采樣操作。這雖然可以減少參數(shù)的數(shù)量,但也會增加模型的計算量,難以提取圖像的深層特征。
- MSwinSR V.S. SwinIR
- SwinIR中每個MSA之后有一個MLP塊,而MSwinSR中的MLP是在四個平行MSA之后,因此MSwinSR中的MLP塊和參數(shù)都比較少。
- MSwinSR確保了網(wǎng)絡(luò)可以利用不同注意力窗口的平行MSA塊所提取的多個特征,而不是單一的MSA。
- 即使其中一些MSA塊不能提取有用的特征,MLP塊也可以減少權(quán)重以防止網(wǎng)絡(luò)效率低下