最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

都2022年了你還不知道多模態(tài)在研究什么?

2022-02-28 18:28 作者:深度之眼官方賬號(hào)  | 我要投稿

來(lái)源:投稿?作者:宋岳庭

編輯:學(xué)姐

標(biāo)題看起來(lái)是不是很囂張?其實(shí)大部分人也是知道多模態(tài),但是你真的很了解嘛?也不一定吧?今天給你一五一十的說(shuō)明白!認(rèn)真看~覺(jué)得好了給個(gè)贊!





什么是多模態(tài)?


多模態(tài)指的是多種模態(tài)的信息,包括:文本、圖像、視頻、音頻等。


顧名思義,多模態(tài)研究的就是這些不同類型的數(shù)據(jù)的融合的問(wèn)題。



目前大多數(shù)工作中,只處理圖像和文本形式的數(shù)據(jù),即把視頻數(shù)據(jù)轉(zhuǎn)為圖像,把音頻數(shù)據(jù)轉(zhuǎn)為文本格式。


這就涉及到圖像和文本領(lǐng)域的內(nèi)容。



多模態(tài)的任務(wù)和數(shù)據(jù)集有哪些?


多模態(tài)研究的是視覺(jué)語(yǔ)言問(wèn)題,其任務(wù)是關(guān)于圖像和文字的分類、問(wèn)答、匹配、排序、定位等問(wèn)題。



例如給定一張圖片,可以完成以下任務(wù):


一、VQA(Visual Question Answering)視覺(jué)問(wèn)答


輸入:一張圖片、一個(gè)自然語(yǔ)言描述的問(wèn)題

輸出:答案(單詞或短語(yǔ))


二、Image Caption 圖像字幕


輸入:一張圖片

輸出:圖片的自然語(yǔ)言描述(一個(gè)句子)


三、Referring Expression Comprehension 指代表達(dá)


輸入:一張圖片、一個(gè)自然語(yǔ)言描述的句子

輸出:判斷句子描述的內(nèi)容(正確或錯(cuò)誤)


四、Visual Dialogue 視覺(jué)對(duì)話


輸入:一張圖片

輸出:兩個(gè)角色進(jìn)行多次交互、對(duì)話


五、VCR (Visual Commonsense Reasoning) 視覺(jué)常識(shí)推理


輸入:1個(gè)問(wèn)題,4個(gè)備選答案,4個(gè)理由

輸出:正確答案,和理由



六、NLVR(Natural Language for Visual Reasoning)自然語(yǔ)言視覺(jué)推理


輸入:2張圖片,一個(gè)分布

輸出:true或false



七、Visual Entailment 視覺(jué)蘊(yùn)含


輸入:圖像、文本

輸出:3種label的概率。(entailment、neutral、contradiction)蘊(yùn)含、中性、矛盾



八、Image-Text Retrieval 圖文檢索


有3種方式。

1)以圖搜文。輸入圖片,輸出文本

2)以文搜圖。輸入文本,輸出圖片

3)以圖搜圖,輸入圖片,輸出圖片





多種模態(tài)融合的方式有哪些?


通過(guò)NLP的預(yù)訓(xùn)練模型,可以得到文本的嵌入表示;

再結(jié)合圖像和視覺(jué)領(lǐng)域的預(yù)訓(xùn)練模型,可以得到圖像的嵌入表示;


那么,如何將兩者融合起來(lái),來(lái)完成以上的各種任務(wù)呢?

常用的多模態(tài)交叉的方式有兩種。


【1】點(diǎn)乘或者直接追加。


此種方式將文本和圖像分別進(jìn)行Embedding,之后將各自的向量進(jìn)行追加或者點(diǎn)乘。


好處是簡(jiǎn)單方便,計(jì)算成本也比較低。



【2】另外一種模態(tài)交叉的方式是最近用得比較多的Transformer。


其好處是利用了Transformer架構(gòu),能夠更好地進(jìn)行圖像特征和文本特征的表示。


缺點(diǎn)是占用空間大,計(jì)算成本較高。



參考:

https://lil.nlp.cornell.edu/nlvr/

http://arxiv.org/abs/1909.11740

https://arxiv.org/abs/2103.06561v6

http://arxiv.org/abs/2103.00020

http://arxiv.org/abs/2201.12086

http://arxiv.org/abs/2102.05918


深入了解多模態(tài)找不到人指導(dǎo)?

來(lái)找明鏡小享,帶你開(kāi)啟多模態(tài)研究!



都2022年了你還不知道多模態(tài)在研究什么?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
兰坪| 闽侯县| 博爱县| 台北县| 德阳市| 曲水县| 九江市| 文登市| 商水县| 巴彦淖尔市| 房山区| 阿巴嘎旗| 甘洛县| 乐昌市| 乌鲁木齐市| 荣昌县| 新巴尔虎右旗| 博兴县| 尖扎县| 嘉定区| 兰州市| 财经| 吐鲁番市| 垦利县| 交口县| 怀远县| 徐水县| 即墨市| 南京市| 鹰潭市| 石楼县| 赫章县| 锡林浩特市| 南康市| 甘谷县| 新竹市| 永寿县| 谷城县| 明溪县| 铅山县| 陕西省|