最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

詳解一篇CLIP應(yīng)用在語(yǔ)義分割上的經(jīng)典論文

2023-05-19 12:28 作者:深度之眼官方賬號(hào)  | 我要投稿

來(lái)源:投稿 作者:xin

編輯:學(xué)姐

Motivation:

目前雖然已經(jīng)有很多工作去改進(jìn)CLIP,但是這些改進(jìn)都是集中在image-text match級(jí)別的分類問(wèn)題上,很少有人涉足稠密預(yù)測(cè)領(lǐng)域。故本文在這方面進(jìn)行了探索,即如何把CLIP訓(xùn)練好的image-text匹配的知識(shí),遷移到下游pixel-text匹配的任務(wù)上。

Method

相比于傳統(tǒng)的Pre-training + Fine-tuning的范式CLIP類的模型融入了文本信息。將CLIP遷移到稠密任務(wù),有兩個(gè)挑戰(zhàn)將CLIP的知識(shí)遷移到稠密預(yù)測(cè)任務(wù)上有兩個(gè)難點(diǎn):
1、如何將V-L pretrained利用在稠密預(yù)測(cè)任務(wù)上很少有人涉足,且像之前pretrained backbone一樣會(huì)忽略語(yǔ)言先驗(yàn)。
2、由于上游對(duì)比學(xué)習(xí)學(xué)的是image-text的配對(duì),而稠密預(yù)測(cè)任務(wù)是pixel-text的配對(duì)。

為了解決上述問(wèn)題,本文提出了DenseCLIP模型。模型具體框架如下:

針對(duì)將image-text match到pixel-text match的問(wèn)題,論文提出了語(yǔ)言指導(dǎo)的稠密預(yù)測(cè),具體過(guò)程為:

作者也進(jìn)行了兩種方式的比較,最終選擇了post的方法。因?yàn)閜re的方法在推理過(guò)程中需要text encoder額外的前傳(因?yàn)槠湟蕾囉谝曈X(jué)特征),而post的方法可以預(yù)先存儲(chǔ)提取出來(lái)的文本特征,減少text encoder在推理過(guò)程中帶來(lái)的開銷。此外post的結(jié)果比pre的好。故選擇post方法。

為了將DenseCLIP模型更好的應(yīng)用于不同的稠密預(yù)測(cè)任務(wù),作者針對(duì)不同任務(wù)提出了不同的額外損失函數(shù)。由于score map可以看作低分辨率的分割結(jié)果,作者使用如下公式計(jì)算額外損失:

Result

在ADE20K的分割結(jié)果

ADE20K可視化結(jié)果

語(yǔ)義分割相關(guān)論文關(guān)注【學(xué)姐帶你玩AI】公眾號(hào)

回復(fù)“500”免費(fèi)領(lǐng)(含視頻講解)

詳解一篇CLIP應(yīng)用在語(yǔ)義分割上的經(jīng)典論文的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
松阳县| 广东省| 正宁县| 海南省| 莱州市| 崇阳县| 清徐县| 沾化县| 论坛| 通河县| 华阴市| 灌云县| 库车县| 桐柏县| 彭阳县| 醴陵市| 视频| 宣武区| 宁河县| 庄河市| 许昌市| 静宁县| 呼图壁县| 桐庐县| 桑植县| 库车县| 长泰县| 奉节县| 普安县| 阿克陶县| 中阳县| 南召县| 河间市| 洪泽县| 广河县| 和平县| 怀柔区| 揭阳市| 景泰县| 洞口县| 苍溪县|