深度學(xué)習(xí)點(diǎn)云感知科研論文小班2期
2023-02-22 13:56 作者:janet19961217 | 我要投稿
模型:對(duì)比學(xué)習(xí),預(yù)測(cè)
對(duì)圖文數(shù)據(jù),將圖片分類(lèi)任務(wù)轉(zhuǎn)換成圖文匹配任務(wù):

雙流,2個(gè)encoder分別處理文本和圖片數(shù)據(jù),text encoder使用Transformer,image encoder用了2種模型,ResNet和Vision Transformer(ViT);
a. 5種ResNet:ResNet-50, ResNet-101, EfficientNet-style的ResNet,
標(biāo)簽: