散文網(wǎng) » 科技 »學(xué)習(xí) » 關(guān)于跨模態(tài)模型是人工智能模型發(fā)展最終目的思考

關(guān)于跨模態(tài)模型是人工智能模型發(fā)展最終目的思考

2022-02-08 18:04 作者:深度之眼官方賬號 0人讀過 | 我要投稿

來源：投稿?作者：摩卡?

編輯：學(xué)姐帶你玩AI 公眾號

別罵我吹牛皮~不標題黨你們不愛看.......

Visual Question Answering(VQA)任務(wù)

隨著計算機視覺和自然語言處理技術(shù)的飛速發(fā)展，跨模態(tài)任務(wù)已經(jīng)受到了兩個領(lǐng)域的廣泛關(guān)注，例如圖像描述（Image Captioning）、圖像檢索（Image Retrieval）、視覺問答（Visual Question Answering）等任務(wù)。視覺問答任務(wù)是給定一張圖片和一個與圖片相關(guān)的問題，視覺問答模型來預(yù)測答案。視覺問答有很廣泛的應(yīng)用場景，例如早期教育、幫助盲人獲取外部信息等。

圖1：VQA任務(wù)過程

圖2：視覺助理：幫助視弱、盲人患者理解網(wǎng)上的圖片、辨別物體、了解周圍的環(huán)境等

圖3：聊天機器人：可以用于VR程序中幫助用戶與虛擬伙伴進行交流

圖4：在線教育：比如在線教育平臺的虛擬老師可以根據(jù)圖片回答低年級學(xué)生的一系列問題，比如“圖中有幾個小朋友？”，“圖中有幾個枕頭？”。

圖5：醫(yī)學(xué)領(lǐng)域的應(yīng)用

例如預(yù)測藥物-蛋白質(zhì)相互作用，給定的圖片是蛋白質(zhì)間的距離，問題是藥物的簡化分子（有專門的結(jié)構(gòu)處理就像NLP中的RNN）輸出答案是是否會相互作用。

與其他跨模態(tài)任務(wù)相比，視覺問答是一個更具挑戰(zhàn)性的任務(wù)，因為它需要對圖像信息和文本信息有更細粒度的語意理解，并且還需要視覺推理來預(yù)測出正確答案。所以視覺問答任務(wù)中最困難的部分是如何實現(xiàn)對多模態(tài)輸入進行全面、綜合的語義對齊。

早期為解決這一問題所提出的機制是采用全局特征直接融合，然后去預(yù)測答案。基于全局特征融合的方法首先使用傳統(tǒng)的CNN網(wǎng)絡(luò)（如VGG、ResNet、 GoogleNet等）提取出圖像的全局特征，使用RNN（LSTM、GRU等）提取出文本的特征，然后將這兩種不同的全局特征進行拼接，得到融合特征，以此來預(yù)測答案。

Mateusz Malinowski等在Ask Your Neurons: A Neural-based Approach to Answering Questions about Images使用了該方法，首先使用GoogleNet提取出圖像的全局特征，文本特征使用的是單詞所對應(yīng)的One-hot向量，然后將圖像特征和文本特征進行拼接，得到融合特征后送入LSTM單元來生成正確答案。但是基于全局特征直接融合的方式取得的效果并不好。

其局限性在于圖像的全局特征表示可能會丟失有關(guān)局部圖像區(qū)域的關(guān)鍵信息，從而導(dǎo)致無法正確回答問題。

圖6：特征融合方法解決VQA任務(wù)的框架

圖7：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images模型圖

近年來，隨著注意力機制在自然語言處理領(lǐng)域的成功應(yīng)用，許多學(xué)者將注意力機制運用到了視覺問答任務(wù)中。對于給定的問題，通過自適應(yīng)地學(xué)習(xí)圖像區(qū)域地權(quán)重，然后實現(xiàn)多特征融合，以此來預(yù)測正確答案。

Chen等在An attention based convolutional neural network for visual question answering提出了以問題為導(dǎo)向地注意力機制，將問題特征嵌入到視覺空間中去，以此來預(yù)測正確答案。

Z. Yang等在Stacked Attention Networks for Image Question Answering中提出了多步推理注意力機制，但是在此注意力機制中，每次推理地視覺特征都是不變地這極大的限制了模型地推理能力。

在2018年，Anderson等人在Bottom-up and top-down attention for image captioning and visual question answering中開創(chuàng)性地提出了自上而下和自下而上的注意力機制來學(xué)習(xí)候選對象地特征，首先使用Faster RCNN提取出圖像中對象的特征，接著將提取出來的視覺特征與GRU（或LSTM）提取出的文本特征進行融合，得到注意力權(quán)重分布矩陣，將此矩陣與Faster RCNN提取出的視覺特征相融合產(chǎn)生注意力視覺特征，最后根據(jù)注意力視覺特征和問題的文本特征進行融合預(yù)測出答案。

最近還有好多研究者將Transformer結(jié)構(gòu)應(yīng)用在注意力階段，以此來融合視覺特征和問題特征如Deep Modular Co-Attention Networks for Visual Question Answering。

圖8：Bottom-up and top-down attention for image captioning and visual question answering模型圖

圖9：Scaled Dot-Produce Attention計算過程?? 圖10：Multi-head attention機制

圖10：Transformer結(jié)構(gòu)圖

圖11：Deep Modular Co-Attention Networks for Visual Question Answering模型圖

個人認為跨模態(tài)模型是人工智能模型發(fā)展的最終目的，因為人工智能的最終目的就是讓機器模擬人類的行為，通過對不同模態(tài)數(shù)據(jù)(例如：圖片、文本、音頻)同時的融合，模擬人類可以分析推理復(fù)雜問題的能力，最終實現(xiàn)理想化的“人工智能”。

在近期的發(fā)展中多模態(tài)任務(wù)會成為一個新的藍海，并且隨著大規(guī)模預(yù)訓(xùn)練模型的發(fā)展以及大規(guī)模數(shù)據(jù)集的提出，相信該領(lǐng)域還會進一步推動人工智能領(lǐng)域的發(fā)展。

參考文獻

[1]Zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, Qi Tian. Deep Modular Co-Attention Networks for Visual Question Answering. In CVPR, 2019.

[2]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser. Attention Is All You Need. arXiv:1706.03762v5 [cs.CL] 6 Dec 2017.

[3]Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. In CVPR, 2018.

[4]Damien Teney, Peter Anderson, Xiaodong He, Antovan? den Hengel. Tips and Tricks for Visual Question Answering: Learning from the 2017 Challenge. In CVPR, 2018.?

[5]Mateusz Malinowski, Marcus Rohrbach, Mario Fritz. Ask Your Neurons: A Neural-based Approach to Answering Questions about Images. In ICCV, 2015??

— 完 —

點這里??關(guān)注我，記得標星哦～

點贊的情誼學(xué)姐銘記在心~

標簽：