最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

多模態(tài)論文串講·上【論文精讀·46】

2023-08-12 18:08 作者:TYの阿凱  | 我要投稿

- 多模態(tài)串講

根據(jù)vilt論文里的figure2, 我們可以得出這樣一個(gè)結(jié)論,我們需要好的visual embed,圖像編碼器比文本編碼器要大,因?yàn)閳D像更為復(fù)雜,同時(shí)modality interaction也要很好,text embedding已經(jīng)很成熟,一般用BERT,所以這個(gè)很輕量化了已經(jīng)

因此我們總結(jié)出理想化的情況應(yīng)該是接近下圖(c)的情況


我們可以考慮一些常用的loss:

Image text contrastive loss

Image text matching loss

Masked language modelling loss

Word patch alignment (這個(gè)在vilt中用到,但是計(jì)算很慢,pass)

所以上面前三個(gè)loss是比較好用的


因此我們就可以引出ALBEF

- ALBEF (align before fuse)

出發(fā)點(diǎn) - 在multimodal interaction之前我們要align好text and image token,以便于multimodal encoder學(xué)習(xí)。ALign image and text representation BEfore Fusing (ALBEF) using a contrastive loss, 這是貢獻(xiàn)1

貢獻(xiàn)2 -? Momentum distillation, self-training method which learns from pseudo-targets produced by a momentum model

不同的損失函數(shù)其實(shí)是在為同一個(gè)圖像文本對(duì),生成不同的視角,變相地做data augmentation,達(dá)到semantic preserving的目的

主體方法:

目標(biāo)函數(shù):

  1. ITC loss, image text contrastive loss. 圖像和文本分別通過encoder tokenise, CLS token是一個(gè)全局特征(圖中綠色方塊旁邊的黃色方塊), down sample (786x1 => 256x1)然后 normalisation,然后進(jìn)行正負(fù)樣本的學(xué)習(xí) (預(yù)先存了很多個(gè)負(fù)樣本), 這一步就是align
  2. ITM loss, image text machine loss. 在multimodal encoder的輸出之后加一個(gè)二分類頭,這里很特別的是,每個(gè)batch里我拿一個(gè)圖片和batch里除了配對(duì)文本之外的所有的文本做cosine similarity (借助之前ITC的那個(gè)模塊),挑一個(gè)相似度最高的作為負(fù)樣本 (hard negative) 來訓(xùn)練,加大難度
  3. MLM, masked language modeling. 類似BERT的完形填空,mask住一個(gè)詞語,去預(yù)測(cè)mask的詞語,但是融合了圖像的信息

一個(gè)小細(xì)節(jié),計(jì)算ITC和ITM loss的時(shí)候,輸入的都是原始的image and text embedding (下圖橙色的T'表示masked text embedding),算MLM loss的時(shí)候,用的是原始的image embedding,但是是masked后的text embedding,因此每一次訓(xùn)練iteration其實(shí)做了2次forward,一次用了原始的image and text embedding,另一次用了原始的image和masked的text embedding,因?yàn)槟阋愣鄠€(gè)loss函數(shù)


Momentum distillation

動(dòng)機(jī) - 從網(wǎng)上爬下來的圖像文本對(duì)通常weakly-correlated,即文本并沒有很好地描述圖像,從而產(chǎn)生了noise

如果可以找到額外的監(jiān)督信號(hào),那就好了,這里額外的就是momentum model產(chǎn)生的一些pesudo-target,實(shí)際上是一個(gè)softmax score,當(dāng)ground-truth有noise的時(shí)候,pesudo-target就很有用了

最近很火的一種就是self-training


所以實(shí)際上有5個(gè)loss,2個(gè)ITC,2個(gè)MLM,1個(gè)ITM,ITM這個(gè)loss ground truth很清晰,所以不需要momentum的版本


- VLMo

貢獻(xiàn)1 - dual-encoder (雙塔模型,如CLIP) 解決了檢索問題,而fusion encoder,也叫單塔模型,解決了不同模態(tài)之間的交互問題,VLMo就把2種的好處都結(jié)合了起來,一個(gè)模型,想當(dāng)雙塔和單塔 (論文命名為vision-language expert, language expert, vision expert,其實(shí)就是不共享參數(shù)的FC層) 用都可以,具體可以看論文的圖

貢獻(xiàn)2 - stage-wise pre-training, 簡單來說就是多模態(tài)的數(shù)據(jù)集不夠大,那我就先預(yù)訓(xùn)練單獨(dú)的一個(gè)模態(tài)


注意這里由于loss的計(jì)算,和ALBEF類似,每次iteration也要forward幾次






多模態(tài)論文串講·上【論文精讀·46】的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
邢台市| 庆城县| 福海县| 自贡市| 蒙城县| 穆棱市| 罗定市| 会同县| 平南县| 双桥区| 江门市| 宝清县| 天峨县| 阿尔山市| 衢州市| 桦川县| 天气| 陈巴尔虎旗| 万源市| 博白县| 恩施市| 美姑县| 紫云| 旺苍县| 巨野县| 尤溪县| 丹凤县| 九江市| 水城县| 于田县| 永州市| 定西市| 浦城县| 镇宁| 色达县| 唐河县| 平顺县| 临清市| 浪卡子县| 长沙市| 日喀则市|