深度之眼多模態(tài)實戰(zhàn)班筆記
CLIP 模型
CLIP(Contrastive Language–Image Pre-training?)是由OpenAI開源的基于對比學習的大規(guī)模圖文預訓練模型,其整個架構如下圖(1)所示:
一個文本編碼器,文本編碼器可以是transformer。
一個圖像編碼器,圖像編碼器可以是resnet50或vision transformer(ViT)等
通過無監(jiān)督的對比學習預訓練將文本和圖像聯(lián)系起來
下圖(2) (3)則是利用預訓練好的模型進行零樣本(zero shot)的文本分類
將所有l(wèi)abels的文本通過 文本編碼器進行編碼
將要預測的圖像通過 圖像編碼器進行編碼
在計算 圖像編碼 與 所有 labels 文本編碼的 內積,取內積最大的那個作為預測label。


標簽: