輸入:對齊的圖文數(shù)據(jù)模型:3個encoder組成
Image encoder模型:12-layer visual transformer ViT-B/16,在ImageNet-1k上進行權重初始化;輸入:Image I輸出:開頭添加[CLS]token的embedding 序列,
Text encoder模型:6-layer transformer,BERTbase前6層初始化輸入:序列T