最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

視覺問答(VQA)頂會(huì)論文及常用數(shù)據(jù)集分享!CVPR、ACL最新進(jìn)展在此

2023-11-03 17:30 作者:深度之眼官方賬號(hào)  | 我要投稿

今天來聊聊計(jì)算機(jī)視覺和自然語(yǔ)言處理交叉的一個(gè)熱門研究方向:視覺問答(VQA)。

視覺問答的任務(wù)是:給出一張圖片和一個(gè)關(guān)于這張圖片的自然語(yǔ)言問題,計(jì)算機(jī)需要根據(jù)圖片的內(nèi)容自動(dòng)回答這個(gè)問題。這樣的任務(wù)考驗(yàn)了計(jì)算機(jī)在圖像理解和語(yǔ)言理解上的能力,需要計(jì)算機(jī)可以像人一樣從圖片中抽取信息,理解問題,并用自然語(yǔ)言給出合理的回答。

作為計(jì)算機(jī)視覺與語(yǔ)言交互的新興研究熱點(diǎn),視覺問答涉及了圖像處理、計(jì)算機(jī)視覺、自然語(yǔ)言處理等多個(gè)領(lǐng)域的技術(shù),是評(píng)估計(jì)算機(jī)視覺系統(tǒng)整體語(yǔ)義理解能力的新方向。

近年來,針對(duì)視覺問答方向的研究成果日益增多,各大頂會(huì)中的相關(guān)論文數(shù)量也逐年攀升,學(xué)姐這回就整理了一些視覺問答頂會(huì)論文(CVPR、ACL)和大家分享,包括工作中常用的VQA數(shù)據(jù)集。

掃碼添加小享,回復(fù)“VQA

免費(fèi)領(lǐng)取全部論文+源代碼+數(shù)據(jù)集

常用VQA數(shù)據(jù)集

通用型 VQA

1.VQA

VQAV1論文:VQA: Visual Question Answering

【視覺問答】

簡(jiǎn)介:論文提出了一個(gè)開放式視覺問答任務(wù):給定圖像和問題,回答問題。問題和回答都是開放式的,問題可以詢問圖像不同區(qū)域的細(xì)節(jié)。因此,視覺問答系統(tǒng)通常需要比圖像字幕系統(tǒng)對(duì)圖像有更深入理解和復(fù)雜推理。論文提供包含數(shù)百萬張圖像、問題和答案的大規(guī)模數(shù)據(jù)集,討論它的信息量。

VQAV2論文:Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

【提升圖像理解在視覺問答中的作用】

簡(jiǎn)介:通過收集每個(gè)問題對(duì)應(yīng)不同答案的相似圖像,構(gòu)建視覺問答的平衡數(shù)據(jù)集,測(cè)試主流模型表現(xiàn)大幅下降,說明這些模型過于依賴語(yǔ)言先驗(yàn)。論文的數(shù)據(jù)集構(gòu)造方法也啟發(fā)了一個(gè)新的可解釋的模型,它不僅給出答案,還基于反例圖像提供解釋,可以建立機(jī)器與用戶之間的信任。

2.OK-VQA

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

【一個(gè)需要外部知識(shí)的視覺問答基準(zhǔn)測(cè)試】

簡(jiǎn)介:OK-VQA是第一個(gè)大規(guī)模的需要外部知識(shí)才能回答視覺問答問題的基準(zhǔn)測(cè)試集。它包含超過14000個(gè)開放域的問題,每個(gè)問題有5個(gè)標(biāo)注答案。問題的構(gòu)造保證單憑圖像內(nèi)容無法回答,需要利用外部知識(shí)庫(kù)。結(jié)果顯示當(dāng)前VQA模型在該數(shù)據(jù)集上的表現(xiàn)嚴(yán)重下降,說明模型過于依賴語(yǔ)言先驗(yàn)。

3.VizWiz-VQA

VizWiz Grand Challenge: Answering Visual Questions from Blind People

【VizWiz大挑戰(zhàn):回答視障人士的視覺問題】

簡(jiǎn)介:VizWiz是第一個(gè)源自真實(shí)視覺問答場(chǎng)景的數(shù)據(jù)集。它包含超過31,000個(gè)視覺問答對(duì),由視障用戶拍攝圖片并提出語(yǔ)音問題,每個(gè)問題有10個(gè)群眾標(biāo)注答案。VizWiz與現(xiàn)有VQA數(shù)據(jù)集不同:1)圖像質(zhì)量較差,拍攝者為視障人士,2)問題為語(yǔ)音形式,更具會(huì)話性,3)部分問題無法回答。在該數(shù)據(jù)集上評(píng)估現(xiàn)代VQA算法,結(jié)果顯示VizWiz是一個(gè)有挑戰(zhàn)性的數(shù)據(jù)集。

4.ScienceQA

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

【利用思維鏈進(jìn)行多模態(tài)推理以回答科學(xué)問題】

簡(jiǎn)介:ScienceQA是第一個(gè)大規(guī)模多模態(tài)科學(xué)問題回答基準(zhǔn),包含約21k個(gè)多項(xiàng)選擇題,并標(biāo)注了對(duì)應(yīng)的講義和解釋作為答案的思維鏈。作者設(shè)計(jì)語(yǔ)言模型學(xué)習(xí)生成講義和解釋,模擬人回答問題的多跳推理過程。結(jié)果顯示,思維鏈可以提高GPT-3和UnifiedQA的少樣本和微調(diào)表現(xiàn)。

5.TDIUC

An Analysis of Visual Question Answering Algorithms

【對(duì)視覺問答算法的分析】

簡(jiǎn)介:現(xiàn)有的VQA數(shù)據(jù)集存在內(nèi)容和評(píng)估方式上的缺陷,導(dǎo)致評(píng)估分?jǐn)?shù)被夸大,主要由較簡(jiǎn)單的問題決定,難以比較不同方法。本文利用包含超過160萬個(gè)問題的新數(shù)據(jù)集分析現(xiàn)有VQA算法,問題按12個(gè)類別組織,并設(shè)計(jì)無意義問題迫使模型進(jìn)行圖像內(nèi)容推理。

掃碼添加小享,回復(fù)“VQA

免費(fèi)領(lǐng)取全部論文+源代碼+數(shù)據(jù)集

6.GQA

GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

【一個(gè)用于真實(shí)世界視覺推理和組合式問答的新數(shù)據(jù)集】

簡(jiǎn)介:GQA是一個(gè)大規(guī)模真實(shí)世界視覺推理和組合式問答數(shù)據(jù)集。它通過場(chǎng)景圖來生成復(fù)雜的推理性問題,并提供語(yǔ)義表示的功能程序。該數(shù)據(jù)集引入了一套新的指標(biāo)來評(píng)估一致性、邏輯性等關(guān)鍵屬性,為提升模型魯棒性、一致性和圖像語(yǔ)言理解提供了重要的基準(zhǔn)資源。

7.IconQA

IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning

【抽象圖表理解和視覺語(yǔ)言推理的新基準(zhǔn)】

簡(jiǎn)介:IconQA是一個(gè)新的抽象圖表視覺問答基準(zhǔn),包含10萬個(gè)圖表及相關(guān)問題。不同于自然圖像,抽象圖表的語(yǔ)義理解仍是視覺研究的難點(diǎn)。IconQA中的圖表需進(jìn)行幾何、常識(shí)、算術(shù)等復(fù)合推理來回答問題,作者還構(gòu)建了包含65萬彩色圖標(biāo)的Icon645數(shù)據(jù)集。IconQA要求模型深入理解抽象語(yǔ)義和進(jìn)行復(fù)合推理,是視覺語(yǔ)言理解任務(wù)的新方向。

文本導(dǎo)向的 VQA

1.OCR-VQA

OCR-VQA: Visual Question Answering by Reading Text in Images

【通過讀取圖像中的文本進(jìn)行視覺問答】

簡(jiǎn)介:本文提出通過讀取圖像中的文本(OCR)進(jìn)行視覺問答(OCR-VQA)這個(gè)新任務(wù),作者為此構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集OCRVQA-200K,包含20多萬張書籍封面圖像及100多萬個(gè)相關(guān)問答對(duì)。實(shí)驗(yàn)結(jié)果顯示,這個(gè)任務(wù)面臨文本檢測(cè)、識(shí)別、語(yǔ)義理解等多方面挑戰(zhàn)。

2.TextVQA

Towards VQA Models That Can Read

【邁向能夠閱讀的VQA模型】

簡(jiǎn)介:本文提出TextVQA任務(wù)和數(shù)據(jù)集,需要VQA模型讀取圖像文本并進(jìn)行多模態(tài)推理。提出LoRRA模型,可以檢測(cè)、理解圖像文本并進(jìn)行問答。結(jié)果顯示TextVQA上的人機(jī)差距大于VQA 2.0,可以有效評(píng)估文本理解和多模態(tài)推理能力。

VQA頂會(huì)論文合集

CVPR

  • 1.SimVQA: Exploring Simulated Environments for Visual Question Answering

  • 2.A Thousand Words Are Worth More Than a Picture: Natural Language-Centric Outside-Knowledge Visual Question Answering

  • 3.SwapMix: Diagnosing and Regularizing the Over-reliance on Visual Context in Visual Question Answering

  • 4.Dual-Key Multimodal Backdoors for Visual Question Answering

  • 5.MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering

  • 6.Grounding Answers for Visual Questions Asked by Visually Impaired People Maintaining Reasoning Consistency in Compositional Visual Question Answering

ACL

  • 1.Co-VQA : Answering by Interactive Sub Question Sequence

  • 2.xGQA: Cross-Lingual Visual Question Answering

  • 3.CLIP Models are Few-Shot Learners: Empirical Studies on VQA and Visual Entailment

  • 4.CARETS: A Consistency And Robustness Evaluative Test Suite for VQA

  • 5.Hypergraph Transformer: Weakly-Supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering

  • 6.DuReader_vis: A Chinese Dataset for Open-domain Document Visual Question Answering

掃碼添加小享,回復(fù)“VQA

免費(fèi)領(lǐng)取全部論文+源代碼+數(shù)據(jù)集



視覺問答(VQA)頂會(huì)論文及常用數(shù)據(jù)集分享!CVPR、ACL最新進(jìn)展在此的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
宜都市| 承德县| 新兴县| 松滋市| 焉耆| 中牟县| 德化县| 兴义市| 黑水县| 扶风县| 镇雄县| 广汉市| 奉化市| 鹰潭市| 奉贤区| 赫章县| 锡林浩特市| 嘉定区| 油尖旺区| 静海县| 文成县| 全州县| 健康| 阿鲁科尔沁旗| 庆云县| 黔西县| 隆回县| 澄城县| 寿阳县| 沅江市| 新泰市| 柳江县| 清河县| 石台县| 香港| 龙川县| 拜泉县| 鲁甸县| 镇远县| 樟树市| 临漳县|