最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

深度之眼多模態(tài)實戰(zhàn)班筆記

2023-05-23 12:25 作者:自爆鬼才比企谷  | 我要投稿

CLIP 模型

CLIP(Contrastive Language–Image Pre-training?)是由OpenAI開源的基于對比學習的大規(guī)模圖文預訓練模型,其整個架構如下圖(1)所示:

  • 一個文本編碼器,文本編碼器可以是transformer。

  • 一個圖像編碼器,圖像編碼器可以是resnet50或vision transformer(ViT)等

  • 通過無監(jiān)督的對比學習預訓練將文本和圖像聯(lián)系起來

下圖(2) (3)則是利用預訓練好的模型進行零樣本(zero shot)的文本分類

  • 將所有l(wèi)abels的文本通過 文本編碼器進行編碼

  • 將要預測的圖像通過 圖像編碼器進行編碼

  • 在計算 圖像編碼 與 所有 labels 文本編碼的 內積,取內積最大的那個作為預測label。

其中特別值得注意的一點是,clip 預訓練的方式采用的在batch 內負采樣的方式進行的對比學習,如下圖所示:一個batch內,一個文本編碼,只有與它對應的圖像是正樣本,其他的圖像都是負樣本。目標就是優(yōu)化這個矩陣,希望對角線的值越大越好,矩陣其他地方的值越小越好。


深度之眼多模態(tài)實戰(zhàn)班筆記的評論 (共 條)

分享到微博請遵守國家法律
揭西县| 洮南市| 阿拉善左旗| 西乌珠穆沁旗| 盘锦市| 临高县| 汕尾市| 南阳市| 福鼎市| 张家口市| 民乐县| 扎兰屯市| 新竹市| 兴业县| 麟游县| 怀集县| 商河县| 卢龙县| 龙陵县| 汝阳县| 广灵县| 阿克苏市| 平原县| 昌黎县| 泸州市| 法库县| 德阳市| 长岭县| 吉林省| 昂仁县| 陈巴尔虎旗| 平塘县| 顺平县| 东乡县| 晴隆县| 桓仁| 穆棱市| 竹山县| 拉孜县| 军事| 海伦市|