手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 科技 »學(xué)習(xí) » 都2022年了你還不知道多模態(tài)在研究什么？

都2022年了你還不知道多模態(tài)在研究什么？

2022-02-28 18:28 作者:深度之眼官方賬號(hào) 0人讀過(guò) | 我要投稿

來(lái)源：投稿?作者：宋岳庭

編輯：學(xué)姐

標(biāo)題看起來(lái)是不是很囂張？其實(shí)大部分人也是知道多模態(tài)，但是你真的很了解嘛？也不一定吧？今天給你一五一十的說(shuō)明白！認(rèn)真看~覺(jué)得好了給個(gè)贊！

什么是多模態(tài)？

多模態(tài)指的是多種模態(tài)的信息，包括：文本、圖像、視頻、音頻等。

顧名思義，多模態(tài)研究的就是這些不同類型的數(shù)據(jù)的融合的問(wèn)題。

目前大多數(shù)工作中，只處理圖像和文本形式的數(shù)據(jù)，即把視頻數(shù)據(jù)轉(zhuǎn)為圖像，把音頻數(shù)據(jù)轉(zhuǎn)為文本格式。

這就涉及到圖像和文本領(lǐng)域的內(nèi)容。

多模態(tài)的任務(wù)和數(shù)據(jù)集有哪些？

多模態(tài)研究的是視覺(jué)語(yǔ)言問(wèn)題，其任務(wù)是關(guān)于圖像和文字的分類、問(wèn)答、匹配、排序、定位等問(wèn)題。

例如給定一張圖片，可以完成以下任務(wù)：

一、VQA（Visual Question Answering）視覺(jué)問(wèn)答

輸入：一張圖片、一個(gè)自然語(yǔ)言描述的問(wèn)題

輸出：答案（單詞或短語(yǔ)）

二、Image Caption 圖像字幕

輸入：一張圖片

輸出：圖片的自然語(yǔ)言描述（一個(gè)句子）

三、Referring Expression Comprehension 指代表達(dá)

輸入：一張圖片、一個(gè)自然語(yǔ)言描述的句子

輸出：判斷句子描述的內(nèi)容（正確或錯(cuò)誤）

四、Visual Dialogue 視覺(jué)對(duì)話

輸入：一張圖片

輸出：兩個(gè)角色進(jìn)行多次交互、對(duì)話

五、VCR (Visual Commonsense Reasoning) 視覺(jué)常識(shí)推理

輸入：1個(gè)問(wèn)題，4個(gè)備選答案，4個(gè)理由

輸出：正確答案，和理由

六、NLVR(Natural Language for Visual Reasoning)自然語(yǔ)言視覺(jué)推理

輸入：2張圖片，一個(gè)分布

輸出：true或false

七、Visual Entailment 視覺(jué)蘊(yùn)含

輸入：圖像、文本

輸出：3種label的概率。（entailment、neutral、contradiction）蘊(yùn)含、中性、矛盾

八、Image-Text Retrieval 圖文檢索

有3種方式。

1）以圖搜文。輸入圖片，輸出文本

2）以文搜圖。輸入文本，輸出圖片

3）以圖搜圖，輸入圖片，輸出圖片

多種模態(tài)融合的方式有哪些？

通過(guò)NLP的預(yù)訓(xùn)練模型，可以得到文本的嵌入表示；

再結(jié)合圖像和視覺(jué)領(lǐng)域的預(yù)訓(xùn)練模型，可以得到圖像的嵌入表示；

那么，如何將兩者融合起來(lái)，來(lái)完成以上的各種任務(wù)呢？

常用的多模態(tài)交叉的方式有兩種。

【1】點(diǎn)乘或者直接追加。

此種方式將文本和圖像分別進(jìn)行Embedding，之后將各自的向量進(jìn)行追加或者點(diǎn)乘。

好處是簡(jiǎn)單方便，計(jì)算成本也比較低。

【2】另外一種模態(tài)交叉的方式是最近用得比較多的Transformer。

其好處是利用了Transformer架構(gòu)，能夠更好地進(jìn)行圖像特征和文本特征的表示。

缺點(diǎn)是占用空間大，計(jì)算成本較高。

參考：

https://lil.nlp.cornell.edu/nlvr/

http://arxiv.org/abs/1909.11740

https://arxiv.org/abs/2103.06561v6

http://arxiv.org/abs/2103.00020

http://arxiv.org/abs/2201.12086

http://arxiv.org/abs/2102.05918

深入了解多模態(tài)找不到人指導(dǎo)？

來(lái)找明鏡小享，帶你開(kāi)啟多模態(tài)研究！

標(biāo)簽：