最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CLIP 改進(jìn)工作串講(下)【論文精讀·42】

2023-04-03 21:48 作者:c1assy好好學(xué)習(xí)  | 我要投稿

CLIPasso

(CLIPasso: Semantically-Aware Object Skectching)

將CLIP做teach, 用它蒸餾自己的模型


  • semantic loss: <原始,生成>特征盡可能的接近
  • 幾何形狀上的限制,geomatric loss: perceptual loss把模型前面幾層的輸出特征算<原始,生成i>的相似性,而不是最后的2048維的特征因?yàn)榍懊娴奶卣骱虚L(zhǎng)寬的概念,對(duì)幾何位置更加的敏感)。保證幾何形狀,物體朝向 位置的一致性
  • 基于saliency的初始化方式:用一個(gè)訓(xùn)練好的VIT,把最后一層的多頭自注意力加權(quán)平均得到一個(gè)saliency map,對(duì)saliency map顯著的地方進(jìn)行采點(diǎn)。(在顯著的地方采點(diǎn)其實(shí)就相當(dāng)于自己已經(jīng)知道了這個(gè)地方有物體或已經(jīng)沿著這個(gè)物體的邊界畫(huà)貝茲曲線了)效果更穩(wěn)定


  • 一張V100 6min 2000 iters
  • 后處理:一張input,三張簡(jiǎn)筆畫(huà),取兩個(gè)loss最低的那張

優(yōu)點(diǎn):

  • zero-shot: 不受限于數(shù)據(jù)集里含有的類(lèi)型
  • 能達(dá)到任意程度的抽象,只需要控制筆畫(huà)數(shù)

局限性:

  • 有背景的時(shí)候,效果不好(自注意力圖等不好)-> automatic mask的方式如U2Net,將物體扣出里(但是是two step了,不是end to end)
  • 簡(jiǎn)筆畫(huà)都是同時(shí)生成的,不像人畫(huà)的時(shí)候具有序列性(做成auto-regressive,根據(jù)前一個(gè)筆畫(huà)去定位下一筆在哪)
  • 必須提前制定筆畫(huà)數(shù),手動(dòng)+同等抽象度不同圖像需要的筆畫(huà)數(shù)不一樣多,(將筆畫(huà)數(shù)也進(jìn)行優(yōu)化)

CLIP+視頻

CLIP4clip: An empirical study of CLIP for end to end video clip retrieval


視頻是有時(shí)序的。一系列的幀,10個(gè)image token(cls token)如何做相似度計(jì)算:

1.parametr-free 直接取平均(目前最廣泛接受的)。沒(méi)有考慮時(shí)序,區(qū)分不了做下和站起來(lái)

2.加入時(shí)序,LSTM或transformer+位置編碼

late fusion:已經(jīng)抽取好圖像和文本的特征了,只是在最后看怎么融合

3.early fusion:最開(kāi)始就融合

文本和位置編碼, patch喂入一個(gè)transformer

直接拿CLIP做視頻文本的retrieval,效果直接秒殺之前的那些方法

少量數(shù)據(jù)集:直接mean效果最好(CLIP在4million上訓(xùn)練的,微調(diào)反而不好)

So, 大家都是直接mean

insights:

Gradient search,多試幾組學(xué)習(xí)率。

ActionCLIP: 動(dòng)作識(shí)別

動(dòng)機(jī):

  • 動(dòng)作識(shí)別中標(biāo)簽的定義,標(biāo)記是非常困難的。
  • 遇到新類(lèi),更細(xì)粒度的類(lèi)

因?yàn)檫@里的文本就是標(biāo)好的labels,非對(duì)角線點(diǎn)也可能是正樣本。->交叉熵?fù)Q成KL散度(兩個(gè)分布的相似度)

三階段:pre-train, prompt, finetune



shift: 在特征圖上做各種各樣的移動(dòng),達(dá)到更強(qiáng)的建模能力。沒(méi)有增加額外的參數(shù)和存儲(chǔ)。

19年tsm將shift用到了時(shí)序

shift window,swin transformer里有用到

multimodal framework: 把one hot的標(biāo)簽變成language guided的目標(biāo)函數(shù)

都是RGB+分類(lèi),使用CLIP預(yù)訓(xùn)練好的效果更好

因?yàn)樽R(shí)別的數(shù)據(jù)集很大,funetune足夠了

zero/Few-shot的能力:

視頻還有很多難點(diǎn)

?
55:21
?

拿CLIP作為visual encoder for diverse 下游vision-language tasks的初始化參數(shù), 再finetune

?
56:06
?

AudioCLIP

文本,視頻(幀),語(yǔ)音成triplet

三個(gè)相似度矩陣,loss

zero-shot語(yǔ)音分類(lèi)

?
57:30
?

數(shù)據(jù)集很小

只要是RGB圖像,CLIP都能處理的很好

prompt: 明確告訴是點(diǎn)云


?
59:21
?

把深度估計(jì)看成了一個(gè)分類(lèi)問(wèn)題而不是回歸


類(lèi)別和[0.5,1,1.5..]對(duì)應(yīng)


總結(jié):

1.僅用CLIP提取更好的特征,點(diǎn)乘

2.clip做teacher,蒸餾

3.不用預(yù)訓(xùn)練的CLIP,僅用多模態(tài)對(duì)比學(xué)習(xí)的思想



CLIP 改進(jìn)工作串講(下)【論文精讀·42】的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
镇巴县| 哈巴河县| 金华市| 东乡族自治县| 奉化市| 镇宁| 伊金霍洛旗| 比如县| 绿春县| 桐庐县| 石台县| 安新县| 鹤壁市| 瓦房店市| 哈密市| 尉犁县| 仁寿县| 久治县| 泰安市| 宁安市| 永顺县| 兰坪| 邵阳市| 神农架林区| 西昌市| 正安县| 枣强县| 元氏县| 尼玛县| 潜江市| 西峡县| 黄大仙区| 杭锦后旗| 华阴市| 朝阳县| 祥云县| 灵武市| 石城县| 巴楚县| 南郑县| 彭水|