多模態(tài)論文串講·下【論文精讀·49】

2023-08-12 22:03 作者:TYの阿凱 0人讀過 | 我要投稿

上次多模態(tài)串講主要是講了用transformer encoder的多模態(tài)模型

這一篇來講使用transformer encoder + decoder的多模態(tài)模型

BLIP

結(jié)合了ALBEF (保證模態(tài)融合和圖像的特征學(xué)好，同時(shí)計(jì)算量和CLIP相當(dāng)) 和VLMO (比較靈活) 里的想法，設(shè)計(jì)了一個(gè)很靈活的框架

可以deal with noisy data
一個(gè)框架又干生成，又可以干image-text retrieval

貢獻(xiàn)點(diǎn)1 - 模型結(jié)構(gòu)

等于有3個(gè)task，根據(jù)不同的loss function，用不同的輸入去做forward

先不看最右邊的 image-grouded text decoder

如果我們把中間的image-grounded text encoder移到text encoder上面，和左邊的image encoder組合起來其實(shí)就是ALBEF，但是有一點(diǎn)不同的是，借鑒了VLMO里self-attention共享參數(shù)的做法 (圖中同樣的顏色代表參數(shù)共享)

現(xiàn)在來看最右邊的 image-grouded text decoder, causal self-attention, 即只通過前面的文本來預(yù)測后面的文本，最后的loss用的是LM而不是MLM因?yàn)椴皇窃谧鐾晷翁羁樟?/p>

大體來看，增加的參數(shù)量也就是causal self-attention的地方

Unified Framework!! (雖然不是真正意義上的unified，但是很靈活)

同樣地，這里訓(xùn)練時(shí)每一個(gè)iteration要做3次forward，來算不同的loss function

由于是ALBEF原班人馬，這里用了很多ALBEF的技巧，例如在ITC上用momentum distillation，和利用ITC抽取最難的樣本來計(jì)算ITM

貢獻(xiàn)點(diǎn)2 - Dataset bootstrapping

Motivation - 網(wǎng)上扒下來的數(shù)據(jù)集質(zhì)量不高

用高質(zhì)量（圖中帶綠色T的）圖片文本對fine tune text encoder和decoder

用image-grounded text encoder過濾掉錯(cuò)誤文本對
用decoder給圖片生成新的高質(zhì)量的caption，拿去過濾

最后數(shù)據(jù)集擴(kuò)大了，質(zhì)量也提高了

標(biāo)簽：

多模態(tài)論文串講·下【論文精讀·49】的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

多模態(tài)論文串講·下【論文精讀·49】

多模態(tài)論文串講·下【論文精讀·49】的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

多模態(tài)論文串講·下【論文精讀·49】

本文作者的其他文章

多模態(tài)論文串講·下【論文精讀·49】的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

多模態(tài)論文串講·下【論文精讀·49】的評論 (共條)