深度學(xué)習(xí)01 多模態(tài)-baseline
模型概況
ALBEF
雙流模型;
在預(yù)訓(xùn)練和下游任務(wù)時(shí),使用momentum distillation,緩解圖文數(shù)據(jù)集中的噪聲問題;
從Mutual Information的視角看圖文對(duì)信息對(duì)齊。
CLIP
雙流模型,文本和視覺分別進(jìn)入transformer encoder,經(jīng)過線性投影計(jì)算不同圖文對(duì)的相似度;
使用對(duì)比學(xué)習(xí),將圖片分類轉(zhuǎn)換成圖文匹配任務(wù)。
UniT:文本和視覺分別encoder,concat之后進(jìn)入transformer decoder,根據(jù)head進(jìn)行不同任務(wù)的訓(xùn)練。
Vx2TEXT
基于backbone network提取模態(tài)特征,經(jīng)過分類器,使用Gumbel-softmax 采樣得到k個(gè)類別,和文本一樣,映射到統(tǒng)一的語言空間;
端對(duì)端的文本生成模型。
標(biāo)簽: