關(guān)于跨模態(tài)模型是人工智能模型發(fā)展最終目的思考
來源:投稿?作者:摩卡?
編輯:學(xué)姐帶你玩AI 公眾號
別罵我吹牛皮~不標題黨你們不愛看.......
Visual Question Answering(VQA)任務(wù)
隨著計算機視覺和自然語言處理技術(shù)的飛速發(fā)展,跨模態(tài)任務(wù)已經(jīng)受到了兩個領(lǐng)域的廣泛關(guān)注,例如圖像描述(Image Captioning)、圖像檢索(Image Retrieval)、視覺問答(Visual Question Answering)等任務(wù)。視覺問答任務(wù)是給定一張圖片和一個與圖片相關(guān)的問題,視覺問答模型來預(yù)測答案。視覺問答有很廣泛的應(yīng)用場景,例如早期教育、幫助盲人獲取外部信息等。

圖1:VQA任務(wù)過程

圖2:視覺助理:幫助視弱、盲人患者理解網(wǎng)上的圖片、辨別物體、了解周圍的環(huán)境等

圖3:聊天機器人:可以用于VR程序中幫助用戶與虛擬伙伴進行交流

圖4:在線教育:比如在線教育平臺的虛擬老師可以根據(jù)圖片回答低年級學(xué)生的一系列問題,比如“圖中有幾個小朋友?”,“圖中有幾個枕頭?”。

圖5:醫(yī)學(xué)領(lǐng)域的應(yīng)用
例如預(yù)測藥物-蛋白質(zhì)相互作用,給定的圖片是蛋白質(zhì)間的距離,問題是藥物的簡化分子(有專門的結(jié)構(gòu)處理就像NLP中的RNN)輸出答案是是否會相互作用。
與其他跨模態(tài)任務(wù)相比,視覺問答是一個更具挑戰(zhàn)性的任務(wù),因為它需要對圖像信息和文本信息有更細粒度的語意理解,并且還需要視覺推理來預(yù)測出正確答案。所以視覺問答任務(wù)中最困難的部分是如何實現(xiàn)對多模態(tài)輸入進行全面、綜合的語義對齊。
早期為解決這一問題所提出的機制是采用全局特征直接融合,然后去預(yù)測答案。基于全局特征融合的方法首先使用傳統(tǒng)的CNN網(wǎng)絡(luò)(如VGG、ResNet、 GoogleNet等)提取出圖像的全局特征,使用RNN(LSTM、GRU等)提取出文本的特征,然后將這兩種不同的全局特征進行拼接,得到融合特征,以此來預(yù)測答案。
Mateusz Malinowski等在Ask Your Neurons: A Neural-based Approach to Answering Questions about Images使用了該方法,首先使用GoogleNet提取出圖像的全局特征,文本特征使用的是單詞所對應(yīng)的One-hot向量,然后將圖像特征和文本特征進行拼接,得到融合特征后送入LSTM單元來生成正確答案。但是基于全局特征直接融合的方式取得的效果并不好。
其局限性在于圖像的全局特征表示可能會丟失有關(guān)局部圖像區(qū)域的關(guān)鍵信息,從而導(dǎo)致無法正確回答問題。

圖6:特征融合方法解決VQA任務(wù)的框架

圖7:Ask Your Neurons: A Neural-based Approach to Answering Questions about Images模型圖
近年來,隨著注意力機制在自然語言處理領(lǐng)域的成功應(yīng)用,許多學(xué)者將注意力機制運用到了視覺問答任務(wù)中。對于給定的問題,通過自適應(yīng)地學(xué)習(xí)圖像區(qū)域地權(quán)重,然后實現(xiàn)多特征融合,以此來預(yù)測正確答案。
Chen等在An attention based convolutional neural network for visual question answering提出了以問題為導(dǎo)向地注意力機制,將問題特征嵌入到視覺空間中去,以此來預(yù)測正確答案。
Z. Yang等在Stacked Attention Networks for Image Question Answering中提出了多步推理注意力機制,但是在此注意力機制中,每次推理地視覺特征都是不變地這極大的限制了模型地推理能力。
在2018年,Anderson等人在Bottom-up and top-down attention for image captioning and visual question answering中開創(chuàng)性地提出了自上而下和自下而上的注意力機制來學(xué)習(xí)候選對象地特征,首先使用Faster RCNN提取出圖像中對象的特征,接著將提取出來的視覺特征與GRU(或LSTM)提取出的文本特征進行融合,得到注意力權(quán)重分布矩陣,將此矩陣與Faster RCNN提取出的視覺特征相融合產(chǎn)生注意力視覺特征,最后根據(jù)注意力視覺特征和問題的文本特征進行融合預(yù)測出答案。
最近還有好多研究者將Transformer結(jié)構(gòu)應(yīng)用在注意力階段,以此來融合視覺特征和問題特征如Deep Modular Co-Attention Networks for Visual Question Answering。

圖8:Bottom-up and top-down attention for image captioning and visual question answering模型圖

圖9:Scaled Dot-Produce Attention計算過程?? 圖10:Multi-head attention機制

圖10:Transformer結(jié)構(gòu)圖

圖11:Deep Modular Co-Attention Networks for Visual Question Answering模型圖
個人認為跨模態(tài)模型是人工智能模型發(fā)展的最終目的,因為人工智能的最終目的就是讓機器模擬人類的行為,通過對不同模態(tài)數(shù)據(jù)(例如:圖片、文本、音頻)同時的融合,模擬人類可以分析推理復(fù)雜問題的能力,最終實現(xiàn)理想化的“人工智能”。
在近期的發(fā)展中多模態(tài)任務(wù)會成為一個新的藍海,并且隨著大規(guī)模預(yù)訓(xùn)練模型的發(fā)展以及大規(guī)模數(shù)據(jù)集的提出,相信該領(lǐng)域還會進一步推動人工智能領(lǐng)域的發(fā)展。
參考文獻
[1]Zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, Qi Tian. Deep Modular Co-Attention Networks for Visual Question Answering. In CVPR, 2019.
[2]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser. Attention Is All You Need. arXiv:1706.03762v5 [cs.CL] 6 Dec 2017.
[3]Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. In CVPR, 2018.
[4]Damien Teney, Peter Anderson, Xiaodong He, Antovan? den Hengel. Tips and Tricks for Visual Question Answering: Learning from the 2017 Challenge. In CVPR, 2018.?
[5]Mateusz Malinowski, Marcus Rohrbach, Mario Fritz. Ask Your Neurons: A Neural-based Approach to Answering Questions about Images. In ICCV, 2015??
— 完 —
點這里??關(guān)注我,記得標星哦~

點贊的情誼學(xué)姐銘記在心~