散文網(wǎng) » 科技 »學(xué)習(xí) » 視覺問答（VQA）頂會(huì)論文及常用數(shù)據(jù)集分享！CVPR、ACL最新進(jìn)展在此

視覺問答（VQA）頂會(huì)論文及常用數(shù)據(jù)集分享！CVPR、ACL最新進(jìn)展在此

2023-11-03 17:30 作者:深度之眼官方賬號(hào) 0人讀過 | 我要投稿

今天來聊聊計(jì)算機(jī)視覺和自然語(yǔ)言處理交叉的一個(gè)熱門研究方向：視覺問答（VQA）。

視覺問答的任務(wù)是：給出一張圖片和一個(gè)關(guān)于這張圖片的自然語(yǔ)言問題，計(jì)算機(jī)需要根據(jù)圖片的內(nèi)容自動(dòng)回答這個(gè)問題。這樣的任務(wù)考驗(yàn)了計(jì)算機(jī)在圖像理解和語(yǔ)言理解上的能力，需要計(jì)算機(jī)可以像人一樣從圖片中抽取信息，理解問題，并用自然語(yǔ)言給出合理的回答。

作為計(jì)算機(jī)視覺與語(yǔ)言交互的新興研究熱點(diǎn)，視覺問答涉及了圖像處理、計(jì)算機(jī)視覺、自然語(yǔ)言處理等多個(gè)領(lǐng)域的技術(shù)，是評(píng)估計(jì)算機(jī)視覺系統(tǒng)整體語(yǔ)義理解能力的新方向。

近年來，針對(duì)視覺問答方向的研究成果日益增多，各大頂會(huì)中的相關(guān)論文數(shù)量也逐年攀升，學(xué)姐這回就整理了一些視覺問答頂會(huì)論文（CVPR、ACL）和大家分享，包括工作中常用的VQA數(shù)據(jù)集。

掃碼添加小享，回復(fù)“VQA”

免費(fèi)領(lǐng)取全部論文+源代碼+數(shù)據(jù)集

常用VQA數(shù)據(jù)集

通用型 VQA

1.VQA

VQAV1論文：VQA: Visual Question Answering

【視覺問答】

簡(jiǎn)介：論文提出了一個(gè)開放式視覺問答任務(wù)：給定圖像和問題，回答問題。問題和回答都是開放式的，問題可以詢問圖像不同區(qū)域的細(xì)節(jié)。因此，視覺問答系統(tǒng)通常需要比圖像字幕系統(tǒng)對(duì)圖像有更深入理解和復(fù)雜推理。論文提供包含數(shù)百萬張圖像、問題和答案的大規(guī)模數(shù)據(jù)集，討論它的信息量。

VQAV2論文：Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

【提升圖像理解在視覺問答中的作用】

簡(jiǎn)介：通過收集每個(gè)問題對(duì)應(yīng)不同答案的相似圖像，構(gòu)建視覺問答的平衡數(shù)據(jù)集，測(cè)試主流模型表現(xiàn)大幅下降，說明這些模型過于依賴語(yǔ)言先驗(yàn)。論文的數(shù)據(jù)集構(gòu)造方法也啟發(fā)了一個(gè)新的可解釋的模型，它不僅給出答案，還基于反例圖像提供解釋，可以建立機(jī)器與用戶之間的信任。

2.OK-VQA

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

【一個(gè)需要外部知識(shí)的視覺問答基準(zhǔn)測(cè)試】

簡(jiǎn)介：OK-VQA是第一個(gè)大規(guī)模的需要外部知識(shí)才能回答視覺問答問題的基準(zhǔn)測(cè)試集。它包含超過14000個(gè)開放域的問題，每個(gè)問題有5個(gè)標(biāo)注答案。問題的構(gòu)造保證單憑圖像內(nèi)容無法回答，需要利用外部知識(shí)庫(kù)。結(jié)果顯示當(dāng)前VQA模型在該數(shù)據(jù)集上的表現(xiàn)嚴(yán)重下降，說明模型過于依賴語(yǔ)言先驗(yàn)。

3.VizWiz-VQA

VizWiz Grand Challenge: Answering Visual Questions from Blind People

【VizWiz大挑戰(zhàn)：回答視障人士的視覺問題】

簡(jiǎn)介：VizWiz是第一個(gè)源自真實(shí)視覺問答場(chǎng)景的數(shù)據(jù)集。它包含超過31,000個(gè)視覺問答對(duì)，由視障用戶拍攝圖片并提出語(yǔ)音問題，每個(gè)問題有10個(gè)群眾標(biāo)注答案。VizWiz與現(xiàn)有VQA數(shù)據(jù)集不同：1)圖像質(zhì)量較差，拍攝者為視障人士，2)問題為語(yǔ)音形式，更具會(huì)話性，3)部分問題無法回答。在該數(shù)據(jù)集上評(píng)估現(xiàn)代VQA算法，結(jié)果顯示VizWiz是一個(gè)有挑戰(zhàn)性的數(shù)據(jù)集。

4.ScienceQA

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

【利用思維鏈進(jìn)行多模態(tài)推理以回答科學(xué)問題】

簡(jiǎn)介：ScienceQA是第一個(gè)大規(guī)模多模態(tài)科學(xué)問題回答基準(zhǔn)，包含約21k個(gè)多項(xiàng)選擇題，并標(biāo)注了對(duì)應(yīng)的講義和解釋作為答案的思維鏈。作者設(shè)計(jì)語(yǔ)言模型學(xué)習(xí)生成講義和解釋，模擬人回答問題的多跳推理過程。結(jié)果顯示，思維鏈可以提高GPT-3和UnifiedQA的少樣本和微調(diào)表現(xiàn)。

5.TDIUC

An Analysis of Visual Question Answering Algorithms

【對(duì)視覺問答算法的分析】

簡(jiǎn)介：現(xiàn)有的VQA數(shù)據(jù)集存在內(nèi)容和評(píng)估方式上的缺陷，導(dǎo)致評(píng)估分?jǐn)?shù)被夸大，主要由較簡(jiǎn)單的問題決定，難以比較不同方法。本文利用包含超過160萬個(gè)問題的新數(shù)據(jù)集分析現(xiàn)有VQA算法，問題按12個(gè)類別組織，并設(shè)計(jì)無意義問題迫使模型進(jìn)行圖像內(nèi)容推理。

掃碼添加小享，回復(fù)“VQA”

免費(fèi)領(lǐng)取全部論文+源代碼+數(shù)據(jù)集

6.GQA

GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

【一個(gè)用于真實(shí)世界視覺推理和組合式問答的新數(shù)據(jù)集】

簡(jiǎn)介：GQA是一個(gè)大規(guī)模真實(shí)世界視覺推理和組合式問答數(shù)據(jù)集。它通過場(chǎng)景圖來生成復(fù)雜的推理性問題，并提供語(yǔ)義表示的功能程序。該數(shù)據(jù)集引入了一套新的指標(biāo)來評(píng)估一致性、邏輯性等關(guān)鍵屬性，為提升模型魯棒性、一致性和圖像語(yǔ)言理解提供了重要的基準(zhǔn)資源。

7.IconQA

IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning

【抽象圖表理解和視覺語(yǔ)言推理的新基準(zhǔn)】

簡(jiǎn)介：IconQA是一個(gè)新的抽象圖表視覺問答基準(zhǔn)，包含10萬個(gè)圖表及相關(guān)問題。不同于自然圖像，抽象圖表的語(yǔ)義理解仍是視覺研究的難點(diǎn)。IconQA中的圖表需進(jìn)行幾何、常識(shí)、算術(shù)等復(fù)合推理來回答問題，作者還構(gòu)建了包含65萬彩色圖標(biāo)的Icon645數(shù)據(jù)集。IconQA要求模型深入理解抽象語(yǔ)義和進(jìn)行復(fù)合推理，是視覺語(yǔ)言理解任務(wù)的新方向。

文本導(dǎo)向的 VQA

1.OCR-VQA

OCR-VQA: Visual Question Answering by Reading Text in Images

【通過讀取圖像中的文本進(jìn)行視覺問答】

簡(jiǎn)介：本文提出通過讀取圖像中的文本(OCR)進(jìn)行視覺問答(OCR-VQA)這個(gè)新任務(wù)，作者為此構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集OCRVQA-200K，包含20多萬張書籍封面圖像及100多萬個(gè)相關(guān)問答對(duì)。實(shí)驗(yàn)結(jié)果顯示，這個(gè)任務(wù)面臨文本檢測(cè)、識(shí)別、語(yǔ)義理解等多方面挑戰(zhàn)。

2.TextVQA

Towards VQA Models That Can Read

【邁向能夠閱讀的VQA模型】

簡(jiǎn)介：本文提出TextVQA任務(wù)和數(shù)據(jù)集，需要VQA模型讀取圖像文本并進(jìn)行多模態(tài)推理。提出LoRRA模型，可以檢測(cè)、理解圖像文本并進(jìn)行問答。結(jié)果顯示TextVQA上的人機(jī)差距大于VQA 2.0，可以有效評(píng)估文本理解和多模態(tài)推理能力。

VQA頂會(huì)論文合集

CVPR

1.SimVQA: Exploring Simulated Environments for Visual Question Answering
2.A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering
3.SwapMix: Diagnosing and Regularizing the Over-reliance on Visual Context in Visual Question Answering
4.Dual-Key Multimodal Backdoors for Visual Question Answering
5.MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering
6.Grounding Answers for Visual Questions Asked by Visually Impaired People Maintaining Reasoning Consistency in Compositional Visual Question Answering

ACL

1.Co-VQA : Answering by Interactive Sub Question Sequence
2.xGQA: Cross-Lingual Visual Question Answering
3.CLIP Models are Few-Shot Learners: Empirical Studies on VQA and Visual Entailment
4.CARETS: A Consistency And Robustness Evaluative Test Suite for VQA
5.Hypergraph Transformer: Weakly-Supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering
6.DuReader_vis: A Chinese Dataset for Open-domain Document Visual Question Answering

掃碼添加小享，回復(fù)“VQA”

免費(fèi)領(lǐng)取全部論文+源代碼+數(shù)據(jù)集

標(biāo)簽：