最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

多模態(tài)|論文解讀《Selective residual learning for Visual Question Answeri

2022-03-07 18:41 作者:深度之眼官方賬號  | 我要投稿

來源:投稿 作者:摩卡

編輯:學(xué)姐


# 本文的Motivation為


大量Self-attention based models, 在intra-relation建模時(shí)對所有的object或word進(jìn)行相互關(guān)系的計(jì)算,但其實(shí)在一張圖片中,只有幾個(gè)object是對問題貢獻(xiàn)較大的,之前的建模方式會使得模型忽略掉這些important object進(jìn)而損失模型精度。



# Method


本文針對這一問題提出了三個(gè)策略(創(chuàng)新):Selective residual module(SelRes), Selective mask model(SelMask), Bounding box aggregation module。其中SelRes的思想是:為了選擇important object,先使用Self-attention的方法計(jì)算出每一個(gè)結(jié)果,然后設(shè)置threshold(通過設(shè)置一個(gè)選擇率r和Q,K產(chǎn)生的相似度矩陣相乘產(chǎn)生)對小于threshold的特征進(jìn)行過濾將其全部設(shè)置為0。選擇率r的產(chǎn)生方法有兩種,一種是通過啟發(fā)式搜索產(chǎn)生,另一種是自適應(yīng)產(chǎn)生。


圖1:SelRes


# SelMask的思想是


在應(yīng)用SelRes model之后,未被選擇到的特征將會被設(shè)置為0,但是由于Self-attention模塊是堆疊的,在這一層的被選中特征,在下一層可能就變?yōu)槲幢贿x中特征了,會產(chǎn)生不穩(wěn)定現(xiàn)象(因?yàn)閟elf-attention中的linear會使得0特征變?yōu)榉?特征,然后又通過加權(quán)平均計(jì)算策略使得可能上次被選中的特征變?yōu)槲幢贿x中的特征)。為了解決這一問題,本文直接將上一層被設(shè)置為0的Self-attention特征,在下一層的attention matrix設(shè)置為0,這樣該位置對應(yīng)的特征就不能再使用了。


圖2:SelMask


圖3:self-attention沒有使用mask和使用mask對比


# Bounding box aggregation module思想


將位置坐標(biāo)和寬高坐標(biāo)通過concat融入圖像特征,產(chǎn)生更全面的圖像特征。


圖4:Bounding box aggregation module


圖5:基于MCAN改進(jìn)的模型圖


圖6:基于LXMERT改進(jìn)的模型圖


# 實(shí)驗(yàn)結(jié)果


本文選取了兩個(gè)基線模型,一個(gè)是from-scratch模型MCAN,另外一個(gè)是pre-training模型LXMERT。將上述的三個(gè)模塊應(yīng)用到MCAN,實(shí)驗(yàn)結(jié)果提升了0.4(test-dev 70.6到71.0, test-std 70.9到71.3),應(yīng)用在LXMERT上,實(shí)驗(yàn)結(jié)果提升了0.3(test-dev 72.4到72.7,test-std 72.5-72.8)。該結(jié)果驗(yàn)證了提出模塊的有效性。



參考文獻(xiàn):

[1] Z. Yu, J. Yu, Y. Cui, D. Tao, Q. Tian, Deep modular co-attention networks for

visual question answering, in: CVPR 2019

[2] H. Tan, M. Bansal, LXMERT: learning cross-modality encoder representations from transformers, in: K. Inui, J. Jiang, V. Ng, X. Wan (Eds.), Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the Ninth International Joint Conference on Natural Language Processing, EMNLPIJCNLP 2019, Hong Kong, China, November 3–7, 2019, Association for Computational Linguistics, 2019, pp. 5099–5110, doi:10.18653/v1/D19-1514.

多模態(tài)|論文解讀《Selective residual learning for Visual Question Answeri的評論 (共 條)

分享到微博請遵守國家法律
收藏| 师宗县| 佛冈县| 科尔| 上饶市| 广德县| 徐闻县| 陕西省| 永顺县| 嵊泗县| 靖边县| 高碑店市| 延寿县| 石楼县| 博兴县| 罗定市| 彰化市| 增城市| 哈尔滨市| 永川市| 连城县| 奉化市| 神池县| 嵊州市| 雷波县| 马尔康县| 阿克| 喀什市| 甘肃省| 台南市| 怀来县| 昭觉县| 会理县| 梅河口市| 开原市| 台北市| 阿鲁科尔沁旗| 辰溪县| 习水县| 体育| 界首市|