都2022年了你還不知道多模態(tài)在研究什么?
來(lái)源:投稿?作者:宋岳庭
編輯:學(xué)姐
標(biāo)題看起來(lái)是不是很囂張?其實(shí)大部分人也是知道多模態(tài),但是你真的很了解嘛?也不一定吧?今天給你一五一十的說(shuō)明白!認(rèn)真看~覺(jué)得好了給個(gè)贊!

什么是多模態(tài)?
多模態(tài)指的是多種模態(tài)的信息,包括:文本、圖像、視頻、音頻等。
顧名思義,多模態(tài)研究的就是這些不同類型的數(shù)據(jù)的融合的問(wèn)題。

目前大多數(shù)工作中,只處理圖像和文本形式的數(shù)據(jù),即把視頻數(shù)據(jù)轉(zhuǎn)為圖像,把音頻數(shù)據(jù)轉(zhuǎn)為文本格式。
這就涉及到圖像和文本領(lǐng)域的內(nèi)容。
多模態(tài)的任務(wù)和數(shù)據(jù)集有哪些?
多模態(tài)研究的是視覺(jué)語(yǔ)言問(wèn)題,其任務(wù)是關(guān)于圖像和文字的分類、問(wèn)答、匹配、排序、定位等問(wèn)題。

例如給定一張圖片,可以完成以下任務(wù):
一、VQA(Visual Question Answering)視覺(jué)問(wèn)答
輸入:一張圖片、一個(gè)自然語(yǔ)言描述的問(wèn)題
輸出:答案(單詞或短語(yǔ))
二、Image Caption 圖像字幕
輸入:一張圖片
輸出:圖片的自然語(yǔ)言描述(一個(gè)句子)
三、Referring Expression Comprehension 指代表達(dá)
輸入:一張圖片、一個(gè)自然語(yǔ)言描述的句子
輸出:判斷句子描述的內(nèi)容(正確或錯(cuò)誤)
四、Visual Dialogue 視覺(jué)對(duì)話
輸入:一張圖片
輸出:兩個(gè)角色進(jìn)行多次交互、對(duì)話
五、VCR (Visual Commonsense Reasoning) 視覺(jué)常識(shí)推理
輸入:1個(gè)問(wèn)題,4個(gè)備選答案,4個(gè)理由
輸出:正確答案,和理由

六、NLVR(Natural Language for Visual Reasoning)自然語(yǔ)言視覺(jué)推理
輸入:2張圖片,一個(gè)分布
輸出:true或false

七、Visual Entailment 視覺(jué)蘊(yùn)含
輸入:圖像、文本
輸出:3種label的概率。(entailment、neutral、contradiction)蘊(yùn)含、中性、矛盾

八、Image-Text Retrieval 圖文檢索
有3種方式。
1)以圖搜文。輸入圖片,輸出文本
2)以文搜圖。輸入文本,輸出圖片
3)以圖搜圖,輸入圖片,輸出圖片

多種模態(tài)融合的方式有哪些?
通過(guò)NLP的預(yù)訓(xùn)練模型,可以得到文本的嵌入表示;
再結(jié)合圖像和視覺(jué)領(lǐng)域的預(yù)訓(xùn)練模型,可以得到圖像的嵌入表示;
那么,如何將兩者融合起來(lái),來(lái)完成以上的各種任務(wù)呢?
常用的多模態(tài)交叉的方式有兩種。
【1】點(diǎn)乘或者直接追加。
此種方式將文本和圖像分別進(jìn)行Embedding,之后將各自的向量進(jìn)行追加或者點(diǎn)乘。
好處是簡(jiǎn)單方便,計(jì)算成本也比較低。


【2】另外一種模態(tài)交叉的方式是最近用得比較多的Transformer。
其好處是利用了Transformer架構(gòu),能夠更好地進(jìn)行圖像特征和文本特征的表示。
缺點(diǎn)是占用空間大,計(jì)算成本較高。

參考:
https://lil.nlp.cornell.edu/nlvr/
http://arxiv.org/abs/1909.11740
https://arxiv.org/abs/2103.06561v6
http://arxiv.org/abs/2103.00020
http://arxiv.org/abs/2201.12086
http://arxiv.org/abs/2102.05918
深入了解多模態(tài)找不到人指導(dǎo)?
來(lái)找明鏡小享,帶你開(kāi)啟多模態(tài)研究!
