最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Clip

2023-03-12 19:35 作者:flow___  | 我要投稿

文章主要賣點(diǎn):使用圖像-文本 pair的形式,訓(xùn)練出一個(gè)大的模型,在zero-shot的條件下能達(dá)到與之前監(jiān)督式訓(xùn)練的水平,同時(shí)還能擺脫categorical label的限制,模型的泛化性和實(shí)用性要比之前對(duì)特定數(shù)據(jù)集訓(xùn)練的模型強(qiáng)得多。在30個(gè)不同類型的視覺任務(wù)上使用CLIP進(jìn)行了基準(zhǔn)測(cè)試,并展示了CLIP強(qiáng)大的遷移能力 —— 在很多下游任務(wù)上不需要任何額外的數(shù)據(jù)也能比擬supervised的模型。

原文鏈接:https://arxiv.org/pdf/2103.00020.pdf

預(yù)訓(xùn)練方法:

預(yù)訓(xùn)練過程

這里先看左圖,作者在網(wǎng)上搜羅了4億圖像-文本 pair形式的數(shù)據(jù)對(duì)(如上圖所示的 狗圖片 - "pepper the aussie pup")(當(dāng)然是經(jīng)過清理過后的數(shù)據(jù)配對(duì),這也是CLIP模型能運(yùn)作的很好的原因之一 —— 數(shù)據(jù)量夠大,數(shù)據(jù)質(zhì)量夠高)。然后將一個(gè)batch里的文本通過Text Encoder,同時(shí)將對(duì)應(yīng)配對(duì)的batch里的圖片通過Image Encoderk,分別得到N個(gè)特征對(duì)(這里的編碼器可以相對(duì)自由的選擇,resnet-50,ViT等等模型)。

后面在這樣的特征對(duì)上去使用對(duì)比學(xué)習(xí),這里就需要引入監(jiān)督信號(hào),也就是對(duì)比學(xué)習(xí)需要的"規(guī)則",這里使用的規(guī)則是:正樣本——圖片與對(duì)應(yīng)的文本是描述的同一個(gè)東西,則這樣的一個(gè)"配對(duì)"就是正樣本,反之不配對(duì)的話,則是負(fù)樣本(文章中并不是只使用了2分類,而是視一個(gè)batch有多大,則記作多少類,label =?arange(N),個(gè)人認(rèn)為這里也可以使用不一樣的打標(biāo)簽的方式,moco中則是使用 1,0,0,0...這樣的2類去做的對(duì)比學(xué)習(xí))。上圖使用的矩陣的樣子來表示,可以看到在這個(gè)正方形的矩陣中,對(duì)角線上的就是正樣本對(duì),且其他的類的配對(duì)都是負(fù)樣本。

這里分好規(guī)則后,做好labels,就去算一下他們的cosine similarities,也就可以得到logits 。那么在構(gòu)建一個(gè)合適的loss就可以開始訓(xùn)練啦。

下面是原文中的偽代碼,也是很清晰的。

CLIP預(yù)訓(xùn)練的偽代碼

這里的loss做了兩次,意味著做了一次文本到標(biāo)注的loss,做了一次圖像到標(biāo)注的差距,也就是對(duì)網(wǎng)絡(luò)進(jìn)行了兩次更新操作,這是對(duì)比學(xué)習(xí)中常用的操作,不過這里我對(duì)對(duì)比學(xué)習(xí)的了解不夠深刻,還需要再想一下。

預(yù)訓(xùn)練的部分大致思路是這樣,接下來看一下在不同任務(wù)的使用上,有一些值得注意的地方。因?yàn)镃LIP是一個(gè)預(yù)訓(xùn)練模型,沒有任何的分類頭或者特征圖,供下游任務(wù)直接拿去使用,這里作者使用了一個(gè)很有意思的操作 —— prompt template。?這里以下圖的1000類的Image的分類任務(wù)為例,先將這1000個(gè)詞擴(kuò)充成1000個(gè)句子,并通過text encoder得到1000個(gè)文本特征向量,然后將需要分類的圖片通過圖片編碼器得到的一個(gè)圖像的向量,與這1000個(gè)文本特征做一個(gè)similarities,選擇相似度最高的作為分類得到的目標(biāo)。

這里可以表現(xiàn)CLIP最吸引人的一個(gè)特性,它可以擺脫categorical label的限制,例如Image的1000種分類任務(wù)中沒有“三輪車”這個(gè)類,但是如果你在此時(shí)將1000類添加一個(gè)“三輪車”,使其變?yōu)?001類,同時(shí)你在下面使用一張三輪車的圖片去進(jìn)行分類查詢,此時(shí)CLIP仍然有極大的概率正確將其分類到“三輪車”的類中,這也是其能在zero-shot任務(wù)中大殺四方的原因。

CLIP用于zero-shot的分類任務(wù)

上面訓(xùn)練的部分還有很多細(xì)節(jié),但是因?yàn)闀簳r(shí)不做實(shí)驗(yàn),也沒有復(fù)現(xiàn)的需求,大致學(xué)習(xí)思想即可。

這里簡(jiǎn)單介紹CLIP的思想,后續(xù)有非常多基于CLIP的新穎任務(wù),后面會(huì)再說。

prompt engineering and emsemble: 文本的引導(dǎo)作用,在將單詞拓展成CLIP需要的句子時(shí),使用的工程技巧,是一個(gè)不錯(cuò)的方向。



Clip的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
绵竹市| 浮山县| 甘德县| 建湖县| 桂阳县| 兴业县| 凤台县| 新田县| 于都县| 通城县| 乌海市| 抚顺市| 高州市| 青田县| 剑阁县| 蒙城县| 汉川市| 类乌齐县| 即墨市| 海晏县| 溧阳市| 长顺县| 雷山县| 兴隆县| 增城市| 吉木乃县| 故城县| 天门市| 海盐县| 武乡县| 永登县| 齐齐哈尔市| 大理市| 陵水| 连山| 佳木斯市| 石屏县| 上犹县| 新邵县| 姚安县| 布拖县|