深度學習多模態(tài)實戰(zhàn)班2期
一個文本編碼器,文本編碼器可以是transformer。
一個圖像編碼器,圖像編碼器可以是resnet50或vision transformer(ViT)等
通過無監(jiān)督的對比學習預(yù)訓練將文本和圖像聯(lián)系起來
下圖(2) (3)則是利用預(yù)訓練好的模型進行零樣本(zero shot)的文本分類
將所有l(wèi)abels的文本通過 文本編碼器進行編碼
將要預(yù)測的圖像通過 圖像編碼器進行編碼
在計算 圖像編碼 與 所有 labels 文本編碼的 內(nèi)積,取內(nèi)積最大的那個作為預(yù)測label。

標簽: