多模態(tài)|論文解讀《Selective residual learning for Visual Question Answeri
來源:投稿 作者:摩卡
編輯:學(xué)姐
# 本文的Motivation為
大量Self-attention based models, 在intra-relation建模時(shí)對所有的object或word進(jìn)行相互關(guān)系的計(jì)算,但其實(shí)在一張圖片中,只有幾個(gè)object是對問題貢獻(xiàn)較大的,之前的建模方式會使得模型忽略掉這些important object進(jìn)而損失模型精度。
# Method
本文針對這一問題提出了三個(gè)策略(創(chuàng)新):Selective residual module(SelRes), Selective mask model(SelMask), Bounding box aggregation module。其中SelRes的思想是:為了選擇important object,先使用Self-attention的方法計(jì)算出每一個(gè)結(jié)果,然后設(shè)置threshold(通過設(shè)置一個(gè)選擇率r和Q,K產(chǎn)生的相似度矩陣相乘產(chǎn)生)對小于threshold的特征進(jìn)行過濾將其全部設(shè)置為0。選擇率r的產(chǎn)生方法有兩種,一種是通過啟發(fā)式搜索產(chǎn)生,另一種是自適應(yīng)產(chǎn)生。

圖1:SelRes
# SelMask的思想是
在應(yīng)用SelRes model之后,未被選擇到的特征將會被設(shè)置為0,但是由于Self-attention模塊是堆疊的,在這一層的被選中特征,在下一層可能就變?yōu)槲幢贿x中特征了,會產(chǎn)生不穩(wěn)定現(xiàn)象(因?yàn)閟elf-attention中的linear會使得0特征變?yōu)榉?特征,然后又通過加權(quán)平均計(jì)算策略使得可能上次被選中的特征變?yōu)槲幢贿x中的特征)。為了解決這一問題,本文直接將上一層被設(shè)置為0的Self-attention特征,在下一層的attention matrix設(shè)置為0,這樣該位置對應(yīng)的特征就不能再使用了。

圖2:SelMask

圖3:self-attention沒有使用mask和使用mask對比
# Bounding box aggregation module思想
將位置坐標(biāo)和寬高坐標(biāo)通過concat融入圖像特征,產(chǎn)生更全面的圖像特征。

圖4:Bounding box aggregation module

圖5:基于MCAN改進(jìn)的模型圖

圖6:基于LXMERT改進(jìn)的模型圖
# 實(shí)驗(yàn)結(jié)果


本文選取了兩個(gè)基線模型,一個(gè)是from-scratch模型MCAN,另外一個(gè)是pre-training模型LXMERT。將上述的三個(gè)模塊應(yīng)用到MCAN,實(shí)驗(yàn)結(jié)果提升了0.4(test-dev 70.6到71.0, test-std 70.9到71.3),應(yīng)用在LXMERT上,實(shí)驗(yàn)結(jié)果提升了0.3(test-dev 72.4到72.7,test-std 72.5-72.8)。該結(jié)果驗(yàn)證了提出模塊的有效性。
參考文獻(xiàn):
[1] Z. Yu, J. Yu, Y. Cui, D. Tao, Q. Tian, Deep modular co-attention networks for
visual question answering, in: CVPR 2019
[2] H. Tan, M. Bansal, LXMERT: learning cross-modality encoder representations from transformers, in: K. Inui, J. Jiang, V. Ng, X. Wan (Eds.), Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the Ninth International Joint Conference on Natural Language Processing, EMNLPIJCNLP 2019, Hong Kong, China, November 3–7, 2019, Association for Computational Linguistics, 2019, pp. 5099–5110, doi:10.18653/v1/D19-1514.