CLIP
雙流模型,文本和視覺分別進入transformer encoder,經過線性投影計算不同圖文對的相似度;
使用對比學習,將圖片分類轉換成圖文匹配任務。
UniT:文本和視覺分別encoder,concat之后進入transformer decoder,根據head進行不同任務的訓練。