CLIP 改進(jìn)工作串講(下)【論文精讀·42】

CLIPasso
(CLIPasso: Semantically-Aware Object Skectching)
將CLIP做teach, 用它蒸餾自己的模型

- semantic loss: <原始,生成>特征盡可能的接近
- 幾何形狀上的限制,geomatric loss: perceptual loss把模型前面幾層的輸出特征算<原始,生成i>的相似性,而不是最后的2048維的特征(因?yàn)榍懊娴奶卣骱虚L(zhǎng)寬的概念,對(duì)幾何位置更加的敏感)。保證幾何形狀,物體朝向 位置的一致性
- 基于saliency的初始化方式:用一個(gè)訓(xùn)練好的VIT,把最后一層的多頭自注意力加權(quán)平均得到一個(gè)saliency map,對(duì)saliency map顯著的地方進(jìn)行采點(diǎn)。(在顯著的地方采點(diǎn)其實(shí)就相當(dāng)于自己已經(jīng)知道了這個(gè)地方有物體或已經(jīng)沿著這個(gè)物體的邊界畫(huà)貝茲曲線了)效果更穩(wěn)定

- 一張V100 6min 2000 iters
- 后處理:一張input,三張簡(jiǎn)筆畫(huà),取兩個(gè)loss最低的那張
優(yōu)點(diǎn):
- zero-shot: 不受限于數(shù)據(jù)集里含有的類(lèi)型
- 能達(dá)到任意程度的抽象,只需要控制筆畫(huà)數(shù)

局限性:
- 有背景的時(shí)候,效果不好(自注意力圖等不好)-> automatic mask的方式如U2Net,將物體扣出里(但是是two step了,不是end to end)
- 簡(jiǎn)筆畫(huà)都是同時(shí)生成的,不像人畫(huà)的時(shí)候具有序列性(做成auto-regressive,根據(jù)前一個(gè)筆畫(huà)去定位下一筆在哪)
- 必須提前制定筆畫(huà)數(shù),手動(dòng)+同等抽象度不同圖像需要的筆畫(huà)數(shù)不一樣多,(將筆畫(huà)數(shù)也進(jìn)行優(yōu)化)
CLIP+視頻
CLIP4clip: An empirical study of CLIP for end to end video clip retrieval

視頻是有時(shí)序的。一系列的幀,10個(gè)image token(cls token)如何做相似度計(jì)算:
1.parametr-free 直接取平均(目前最廣泛接受的)。沒(méi)有考慮時(shí)序,區(qū)分不了做下和站起來(lái)
2.加入時(shí)序,LSTM或transformer+位置編碼
late fusion:已經(jīng)抽取好圖像和文本的特征了,只是在最后看怎么融合

3.early fusion:最開(kāi)始就融合
文本和位置編碼, patch喂入一個(gè)transformer

直接拿CLIP做視頻文本的retrieval,效果直接秒殺之前的那些方法
少量數(shù)據(jù)集:直接mean效果最好(CLIP在4million上訓(xùn)練的,微調(diào)反而不好)


So, 大家都是直接mean
insights:

Gradient search,多試幾組學(xué)習(xí)率。
ActionCLIP: 動(dòng)作識(shí)別
動(dòng)機(jī):
- 動(dòng)作識(shí)別中標(biāo)簽的定義,標(biāo)記是非常困難的。
- 遇到新類(lèi),更細(xì)粒度的類(lèi)

因?yàn)檫@里的文本就是標(biāo)好的labels,非對(duì)角線點(diǎn)也可能是正樣本。->交叉熵?fù)Q成KL散度(兩個(gè)分布的相似度)
三階段:pre-train, prompt, finetune


shift: 在特征圖上做各種各樣的移動(dòng),達(dá)到更強(qiáng)的建模能力。沒(méi)有增加額外的參數(shù)和存儲(chǔ)。
19年tsm將shift用到了時(shí)序
shift window,swin transformer里有用到

multimodal framework: 把one hot的標(biāo)簽變成language guided的目標(biāo)函數(shù)
都是RGB+分類(lèi),使用CLIP預(yù)訓(xùn)練好的效果更好

因?yàn)樽R(shí)別的數(shù)據(jù)集很大,funetune足夠了

zero/Few-shot的能力:

視頻還有很多難點(diǎn)
拿CLIP作為visual encoder for diverse 下游vision-language tasks的初始化參數(shù), 再finetune
AudioCLIP

文本,視頻(幀),語(yǔ)音成triplet
三個(gè)相似度矩陣,loss
zero-shot語(yǔ)音分類(lèi)
數(shù)據(jù)集很小
只要是RGB圖像,CLIP都能處理的很好

prompt: 明確告訴是點(diǎn)云
把深度估計(jì)看成了一個(gè)分類(lèi)問(wèn)題而不是回歸

類(lèi)別和[0.5,1,1.5..]對(duì)應(yīng)
總結(jié):
1.僅用CLIP提取更好的特征,點(diǎn)乘
2.clip做teacher,蒸餾
3.不用預(yù)訓(xùn)練的CLIP,僅用多模態(tài)對(duì)比學(xué)習(xí)的思想