最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

深度之眼多模態(tài)實戰(zhàn)班筆記

2023-05-23 12:25 作者:自爆鬼才比企谷 0人讀過 | 我要投稿

CLIP 模型

CLIP（Contrastive Language–Image Pre-training?）是由OpenAI開源的基于對比學習的大規(guī)模圖文預訓練模型，其整個架構如下圖（1）所示：

一個文本編碼器，文本編碼器可以是transformer。
一個圖像編碼器，圖像編碼器可以是resnet50或vision transformer（ViT）等
通過無監(jiān)督的對比學習預訓練將文本和圖像聯(lián)系起來

下圖（2）（3）則是利用預訓練好的模型進行零樣本（zero shot)的文本分類

將所有l(wèi)abels的文本通過文本編碼器進行編碼
將要預測的圖像通過圖像編碼器進行編碼
在計算圖像編碼與所有 labels 文本編碼的內積，取內積最大的那個作為預測label。

其中特別值得注意的一點是，clip 預訓練的方式采用的在batch 內負采樣的方式進行的對比學習，如下圖所示：一個batch內，一個文本編碼，只有與它對應的圖像是正樣本，其他的圖像都是負樣本。目標就是優(yōu)化這個矩陣，希望對角線的值越大越好，矩陣其他地方的值越小越好。

標簽：

深度之眼多模態(tài)實戰(zhàn)班筆記的評論 (共條)

揭西县| 洮南市| 阿拉善左旗| 西乌珠穆沁旗| 盘锦市| 临高县| 汕尾市| 南阳市| 福鼎市| 张家口市| 民乐县| 扎兰屯市| 新竹市| 兴业县| 麟游县| 怀集县| 商河县| 卢龙县| 龙陵县| 汝阳县| 广灵县| 阿克苏市| 平原县| 昌黎县| 泸州市| 法库县| 德阳市| 长岭县| 吉林省| 昂仁县| 陈巴尔虎旗| 平塘县| 顺平县| 东乡县| 晴隆县| 桓仁| 穆棱市| 竹山县| 拉孜县| 军事| 海伦市|