CV論文閱讀筆記-驗(yàn)證attention是否在圖像分類問(wèn)題上起決定性作用
來(lái)源:投稿?作者:摩卡?
編輯:學(xué)姐帶你玩AI 公眾號(hào)
# Motivation
現(xiàn)階段出現(xiàn)了大量的Transformer-style圖像分類模型,并且這些模型在ImageNet上取得了不俗的成績(jī),這些Transformer-style模型將取得高性能的功勞歸功于Multi-head attention注意力機(jī)制,但是是否由于attention而取得好效果目前還不明確。故本文為了驗(yàn)證該想法Is the attention necessary? 進(jìn)行了研究。
# Method
為了驗(yàn)證attention是否在圖像分類問(wèn)題上起決定性作用,本文使用Feed-Forward Network (single-layer MLP)替換Multi-head attention,模型圖如下所示:

然后選取了當(dāng)下流行的ViT(2020年提出的純Transformer的圖像分類網(wǎng)絡(luò))和DeepViT(2021年提出,在幾乎不擴(kuò)充ViT占用內(nèi)存的情況下提升ViT性能的圖像分類模型)作為baseline,將ViT/DeepViT中的Transformer模塊替換為上圖所示的類Transformer的Feed-Forward模塊,在保證任何參數(shù)都與baseline相同的情況下進(jìn)行實(shí)驗(yàn)。
# Result
實(shí)驗(yàn)結(jié)果如下圖所示:

由上表可知,在Base的參數(shù)設(shè)置下FFN-only模型在使用0.72%ViT/DeepViT參數(shù)的情況下,效果達(dá)到了74.9%。而在Large的參數(shù)設(shè)置下FFN-only模型在使用0.67ViT/DeepViT參數(shù)的情況下效果與ViT不相上下。
作者還驗(yàn)證了Attention-only模型的效果(即將Transformer模塊中的FFN替換為Multi-head attention),使用ViT-BASE的設(shè)置,在ImageNet上的效果僅僅為28.2%。
# Conclusion
上述結(jié)果表明,雖然FFN-only模型沒(méi)有刷新ImageNet的指標(biāo),但是相比較于Attention-only模型已經(jīng)是質(zhì)的飛躍,由此引發(fā)研究者的思考:到底是哪一部分使得Transformer-style模型的性能提升?
作者認(rèn)為是patch-embedding和train procedure。因?yàn)閜atch-embedding對(duì)圖像特征進(jìn)行了很強(qiáng)的歸納,而train procedure中的trick會(huì)變相的進(jìn)行數(shù)據(jù)增強(qiáng)。
# 個(gè)人體會(huì)
該論文出自Oxford University,與近期出現(xiàn)的重新讓研究者關(guān)注MLP的論文有異曲同工之妙,F(xiàn)eed-Forward Network(FFN)作用在patch上,可以將其看作一個(gè)特殊的convolution,只不過(guò)該卷積只作用于單通道。
而FFN作用在image features上時(shí)實(shí)際上就是一個(gè)1*1 convolution。由此引發(fā)我的思考,可以將該思想遷移到其他任務(wù)之上,研究在該任務(wù)中Multi-head attention的作用。
— 完 —
掃這里??關(guān)注我,記得標(biāo)星哦~

點(diǎn)贊的情誼學(xué)姐銘記在心~???