經(jīng)典的視頻超分辨率方法EDVR講解-不聽就虧了

一、整體架構(gòu)

1、PCD作用:幀對齊
2、TSA作用:施加Attention,并實現(xiàn)特征聚合
3、reconstruction:特征重構(gòu)
EDVR vs RNN:RNN多幀輸入多幀輸出
EDVR多幀輸入單針輸出,
潛在影響:運行效率低一點
二、EDVR核心模塊:deformable conv

deformable conv放置目的:i幀和t幀對齊
input特征圖:假設(shè)通道數(shù)N,放到卷積中得到2N特征圖表示,為甚2N?相當于讓特征圖上每一個像素學(xué)習(xí)到(Δx,Δy)的分量,2*特征通道數(shù)N=2N
每個特征圖上每個pixels都能學(xué)到,當卷積到特征圖綠色區(qū)域中心點(紅色所示),看相鄰點到底便宜到哪里

以前的卷積核是一個連續(xù)的近鄰區(qū)域

對齊兩針
正常卷積:卷積核尺度有限,無法捕獲兩個小人共同區(qū)域,沒辦法計算
deformable卷積:知道小人位置在哪,直接對齊到那個位置

光流法:對齊后的T+i幀與真正意義上的T+i幀,物體位置大致一樣
deformable:通過偏移量實現(xiàn)幀對齊
光流法vs deformable
1、光溜的可解釋性更強,光流明確描述了兩者運動,通過光流算法or網(wǎng)絡(luò),可以明確提取到光流特征;deformable是自適應(yīng)學(xué)到的offset表示,offset未必描述運動體,可能描述其他東西
2、deformable靈活性高
3、deformable是local的方式,而光流法是global的

下圖這種方式不能很好地學(xué)到offset,因為我雖然看到了T+i幀中的物體,但是我不能這個物體在T幀中哪個位置,也就是說感受野不夠大,所以這種情況下offset對應(yīng)不準,這是由于基層卷積帶來的感受野的局限導(dǎo)致的

金字塔結(jié)構(gòu)用了一個多尺度信息,有一個下采樣操作,卷積核還是那么大,特征圖變小了,感受野變大了,就能捕獲到offset對應(yīng)關(guān)系

雖然用金字塔結(jié)構(gòu),但是還是有些東西捕獲不到(有極限),所以是local的;而光流網(wǎng)絡(luò)很深,同時也采用層級話的結(jié)構(gòu),網(wǎng)絡(luò)很深,感受野很大,基本上可以cover全圖的運動
三、TSA融合
1、t,t+1幀:通過卷積學(xué)到embedding
2、dot product作用:相似度計算,t+1幀在空間上和t幀有多相似
3、根據(jù)相似度對不同的域施加attention,然后fushion

四、上采樣

五、創(chuàng)新(怎么改)
數(shù)量級非常大,權(quán)重很多,冗余
該:減東西,模型壓縮、模型蒸餾

basicVSR也指出這一問題

沒有進行對比實驗


可以考慮對特征圖上的點進行操作

訓(xùn)練階段two-stages
