最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

關(guān)于跨模態(tài)模型是人工智能模型發(fā)展最終目的思考

2022-02-08 18:04 作者:深度之眼官方賬號  | 我要投稿

來源:投稿?作者:摩卡?

編輯:學(xué)姐帶你玩AI 公眾號

別罵我吹牛皮~不標題黨你們不愛看.......


Visual Question Answering(VQA)任務(wù)


隨著計算機視覺和自然語言處理技術(shù)的飛速發(fā)展,跨模態(tài)任務(wù)已經(jīng)受到了兩個領(lǐng)域的廣泛關(guān)注,例如圖像描述(Image Captioning)、圖像檢索(Image Retrieval)、視覺問答(Visual Question Answering)等任務(wù)。視覺問答任務(wù)是給定一張圖片和一個與圖片相關(guān)的問題,視覺問答模型來預(yù)測答案。視覺問答有很廣泛的應(yīng)用場景,例如早期教育、幫助盲人獲取外部信息等。


圖1:VQA任務(wù)過程


圖2:視覺助理:幫助視弱、盲人患者理解網(wǎng)上的圖片、辨別物體、了解周圍的環(huán)境等


圖3:聊天機器人:可以用于VR程序中幫助用戶與虛擬伙伴進行交流


圖4:在線教育:比如在線教育平臺的虛擬老師可以根據(jù)圖片回答低年級學(xué)生的一系列問題,比如“圖中有幾個小朋友?”,“圖中有幾個枕頭?”。


圖5:醫(yī)學(xué)領(lǐng)域的應(yīng)用


例如預(yù)測藥物-蛋白質(zhì)相互作用,給定的圖片是蛋白質(zhì)間的距離,問題是藥物的簡化分子(有專門的結(jié)構(gòu)處理就像NLP中的RNN)輸出答案是是否會相互作用。


與其他跨模態(tài)任務(wù)相比,視覺問答是一個更具挑戰(zhàn)性的任務(wù),因為它需要對圖像信息和文本信息有更細粒度的語意理解,并且還需要視覺推理來預(yù)測出正確答案。所以視覺問答任務(wù)中最困難的部分是如何實現(xiàn)對多模態(tài)輸入進行全面、綜合的語義對齊。


早期為解決這一問題所提出的機制是采用全局特征直接融合,然后去預(yù)測答案。基于全局特征融合的方法首先使用傳統(tǒng)的CNN網(wǎng)絡(luò)(如VGG、ResNet、 GoogleNet等)提取出圖像的全局特征,使用RNN(LSTM、GRU等)提取出文本的特征,然后將這兩種不同的全局特征進行拼接,得到融合特征,以此來預(yù)測答案。


Mateusz Malinowski等在Ask Your Neurons: A Neural-based Approach to Answering Questions about Images使用了該方法,首先使用GoogleNet提取出圖像的全局特征,文本特征使用的是單詞所對應(yīng)的One-hot向量,然后將圖像特征和文本特征進行拼接,得到融合特征后送入LSTM單元來生成正確答案。但是基于全局特征直接融合的方式取得的效果并不好。


其局限性在于圖像的全局特征表示可能會丟失有關(guān)局部圖像區(qū)域的關(guān)鍵信息,從而導(dǎo)致無法正確回答問題。


圖6:特征融合方法解決VQA任務(wù)的框架


圖7:Ask Your Neurons: A Neural-based Approach to Answering Questions about Images模型圖


近年來,隨著注意力機制在自然語言處理領(lǐng)域的成功應(yīng)用,許多學(xué)者將注意力機制運用到了視覺問答任務(wù)中。對于給定的問題,通過自適應(yīng)地學(xué)習(xí)圖像區(qū)域地權(quán)重,然后實現(xiàn)多特征融合,以此來預(yù)測正確答案。


Chen等在An attention based convolutional neural network for visual question answering提出了以問題為導(dǎo)向地注意力機制,將問題特征嵌入到視覺空間中去,以此來預(yù)測正確答案。


Z. Yang等在Stacked Attention Networks for Image Question Answering中提出了多步推理注意力機制,但是在此注意力機制中,每次推理地視覺特征都是不變地這極大的限制了模型地推理能力。


在2018年,Anderson等人在Bottom-up and top-down attention for image captioning and visual question answering中開創(chuàng)性地提出了自上而下和自下而上的注意力機制來學(xué)習(xí)候選對象地特征,首先使用Faster RCNN提取出圖像中對象的特征,接著將提取出來的視覺特征與GRU(或LSTM)提取出的文本特征進行融合,得到注意力權(quán)重分布矩陣,將此矩陣與Faster RCNN提取出的視覺特征相融合產(chǎn)生注意力視覺特征,最后根據(jù)注意力視覺特征和問題的文本特征進行融合預(yù)測出答案。


最近還有好多研究者將Transformer結(jié)構(gòu)應(yīng)用在注意力階段,以此來融合視覺特征和問題特征如Deep Modular Co-Attention Networks for Visual Question Answering。


圖8:Bottom-up and top-down attention for image captioning and visual question answering模型圖


圖9:Scaled Dot-Produce Attention計算過程?? 圖10:Multi-head attention機制


圖10:Transformer結(jié)構(gòu)圖


圖11:Deep Modular Co-Attention Networks for Visual Question Answering模型圖


個人認為跨模態(tài)模型是人工智能模型發(fā)展的最終目的,因為人工智能的最終目的就是讓機器模擬人類的行為,通過對不同模態(tài)數(shù)據(jù)(例如:圖片、文本、音頻)同時的融合,模擬人類可以分析推理復(fù)雜問題的能力,最終實現(xiàn)理想化的“人工智能”。


在近期的發(fā)展中多模態(tài)任務(wù)會成為一個新的藍海,并且隨著大規(guī)模預(yù)訓(xùn)練模型的發(fā)展以及大規(guī)模數(shù)據(jù)集的提出,相信該領(lǐng)域還會進一步推動人工智能領(lǐng)域的發(fā)展。


參考文獻

[1]Zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, Qi Tian. Deep Modular Co-Attention Networks for Visual Question Answering. In CVPR, 2019.

[2]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser. Attention Is All You Need. arXiv:1706.03762v5 [cs.CL] 6 Dec 2017.

[3]Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. In CVPR, 2018.

[4]Damien Teney, Peter Anderson, Xiaodong He, Antovan? den Hengel. Tips and Tricks for Visual Question Answering: Learning from the 2017 Challenge. In CVPR, 2018.?

[5]Mateusz Malinowski, Marcus Rohrbach, Mario Fritz. Ask Your Neurons: A Neural-based Approach to Answering Questions about Images. In ICCV, 2015??


點這里??關(guān)注我,記得標星哦~

點贊的情誼學(xué)姐銘記在心~

關(guān)于跨模態(tài)模型是人工智能模型發(fā)展最終目的思考的評論 (共 條)

分享到微博請遵守國家法律
墨竹工卡县| 仙游县| 新巴尔虎左旗| 枣阳市| 珠海市| 永善县| 嘉黎县| 高唐县| 宜昌市| 五河县| 东丽区| 南康市| 平和县| 安丘市| 黄骅市| 云林县| 阿拉尔市| 开远市| 三穗县| 东乌珠穆沁旗| 隆昌县| 黄冈市| 高安市| 兖州市| 响水县| 扶沟县| 营口市| 娄底市| 莲花县| 辰溪县| 兴宁市| 寿宁县| 尼勒克县| 特克斯县| 北宁市| 保德县| 沙河市| 太原市| 兰州市| 台南市| 县级市|