詳解一篇CLIP應(yīng)用在語(yǔ)義分割上的經(jīng)典論文
來(lái)源:投稿 作者:xin
編輯:學(xué)姐
Motivation:
目前雖然已經(jīng)有很多工作去改進(jìn)CLIP,但是這些改進(jìn)都是集中在image-text match級(jí)別的分類問(wèn)題上,很少有人涉足稠密預(yù)測(cè)領(lǐng)域。故本文在這方面進(jìn)行了探索,即如何把CLIP訓(xùn)練好的image-text匹配的知識(shí),遷移到下游pixel-text匹配的任務(wù)上。
Method
相比于傳統(tǒng)的Pre-training + Fine-tuning的范式CLIP類的模型融入了文本信息。將CLIP遷移到稠密任務(wù),有兩個(gè)挑戰(zhàn)將CLIP的知識(shí)遷移到稠密預(yù)測(cè)任務(wù)上有兩個(gè)難點(diǎn):
1、如何將V-L pretrained利用在稠密預(yù)測(cè)任務(wù)上很少有人涉足,且像之前pretrained backbone一樣會(huì)忽略語(yǔ)言先驗(yàn)。
2、由于上游對(duì)比學(xué)習(xí)學(xué)的是image-text的配對(duì),而稠密預(yù)測(cè)任務(wù)是pixel-text的配對(duì)。


為了解決上述問(wèn)題,本文提出了DenseCLIP模型。模型具體框架如下:

針對(duì)將image-text match到pixel-text match的問(wèn)題,論文提出了語(yǔ)言指導(dǎo)的稠密預(yù)測(cè),具體過(guò)程為:






作者也進(jìn)行了兩種方式的比較,最終選擇了post的方法。因?yàn)閜re的方法在推理過(guò)程中需要text encoder額外的前傳(因?yàn)槠湟蕾囉谝曈X(jué)特征),而post的方法可以預(yù)先存儲(chǔ)提取出來(lái)的文本特征,減少text encoder在推理過(guò)程中帶來(lái)的開銷。此外post的結(jié)果比pre的好。故選擇post方法。
為了將DenseCLIP模型更好的應(yīng)用于不同的稠密預(yù)測(cè)任務(wù),作者針對(duì)不同任務(wù)提出了不同的額外損失函數(shù)。由于score map可以看作低分辨率的分割結(jié)果,作者使用如下公式計(jì)算額外損失:

Result
在ADE20K的分割結(jié)果

ADE20K可視化結(jié)果

語(yǔ)義分割相關(guān)論文關(guān)注【學(xué)姐帶你玩AI】公眾號(hào)
回復(fù)“500”免費(fèi)領(lǐng)(含視頻講解)