SENet 自用論文筆記
SENet
CVPR 2018 Squeeze-and-Excitation Networks
Abstract
In thiswork, we focus on the channel relationship and proposea novel architectural unit, which we term the “Squeeze-and-Excitation” (SE) block, that adaptively recalibrateschannel-wise feature responses by explicitly modelling interdependencies between channels.
這個階段的CNN架構可以說是越來越水了,什么squeezeNet,ResNeXt等等,簡直是水到不能再水了。這篇文章還是有一點創(chuàng)新點的,那就是引入了類似于attention的機制,賦予每個channel一個權重,這就是標題中所說的Excitation。
Model

大致結構分為GAP和一個sigmoid激活函數(shù),分別包含在Fsq操作和Fex操作中,同時作者指出這類操作是一個簡單的計算單元,可以非常簡單遷移到幾乎所有其他CNN架構上。
Squeeze: Global Information Embedding
We opt for the simplest, global average pool-ing, noting that more sophisticated aggregation strategiescould be employed here as well.
這里使用了最簡單的方法去做壓縮Squeeze:對所有的channel取一個平均值。比如224*224*100的特征圖,就將其變?yōu)橐粋€1*1*100的向量。文章也提到這里可以使用更sophisticated的方法去取值。

The activations act as channel weightsadapted to the input-specific descriptor z. In this regard,SE blocks intrinsically introduce dynamics conditioned onthe input, helping to boost feature discriminability.
上述輸出的1x1x100的向量數(shù)據(jù)再經(jīng)過兩級全連接(Fex操作,作者稱為Excitation過程)其中第一個FC層起到降維的作用,降維系數(shù)為r是個超參數(shù),然后采用ReLU激活。最后的FC層恢復原始的維度,最后再用sigmoid限制到[0,1]的范圍,把這個值作為權重系數(shù)乘到U的C個通道上, 作為下一級的輸入數(shù)據(jù)。其實整個操作可以看成學習到了各個channel的權重系數(shù),原特征圖與權重系數(shù)相乘后,把重要的特征增強,不重要的特征減弱,從而讓提取的特征指向性更強。

應用:SE-ResNet
之前說了這個idea可以和其他經(jīng)典CNN結合,這里作者舉了兩個例子,我們以ResNet為例。
?

可以看到SE模塊是作用于最后一個輸出channel的,也可以很好的和殘差連接結合起來使用,并無沖突。
?
總結:
SENet贏得了最后一屆ImageNet 2017競賽分類任務的冠軍,終于這個榜也是被刷到了超越人類識別能力的水準之上。SENet重要的一點是使用了Attention的機制,思路很簡單,很容易擴展在已有網(wǎng)絡結構中。