最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

對比學習發(fā)展歷程綜述 p2 自用筆記

2023-03-17 13:34 作者:flow___  | 我要投稿

都是跟著泛讀

視頻講解:對比學習綜述?

第二階段:CV雙雄

MoCov1:和InstDisc很像,可以視作其改進型工作,各類實驗參數(shù)和其基本一樣。用一個queue替代了MemoryBank,用一個動量更新的編碼器取代原來的loss的約束項,而不用再去動量的更新特征,從而拿到一堆又大,一致性又高的編碼結果,進而達到更好的結果,其使用的改進技術十分深刻,直到現(xiàn)在仍在使用。

文章寫作非常值得借鑒! 詳見之前的Moco v1博文


SimCLRv1:simple contrastive learning of visual Representations? 對一個batchsize的數(shù)據(jù)做一倍的數(shù)據(jù)增強。正負樣本的選擇與前文P1里提到的 InvaSpread?一致。

其豐富的數(shù)據(jù)增強的手法廣為后續(xù)研究所參考。因為其做了諸多的消融實驗來論證不同數(shù)據(jù)增強帶來的實際效果如何。

使用的諸多數(shù)據(jù)增強方法

????下圖為各種數(shù)據(jù)增強的實際效果如何,最后一列先不看,每個格子代表著兩種數(shù)據(jù)增強組合所帶來的收益,對角線為單種數(shù)據(jù)增強的收益。數(shù)值越大越好,可以看到Crop - 隨即裁剪和color - 隨機色彩變幻 所組合后帶來的收益最大。

各類數(shù)據(jù)增強帶來的實際收益對比

????其使用lars優(yōu)化器去做大Batchsize的訓練思想為后續(xù)研究提供思路。

????其在編碼器后使用MLP層?- g(`)對表征網(wǎng)絡f(`)進行訓練提點的手法在后續(xù)任務中被廣泛使用。

SimCLR流程


MoCov2:技術報告,簡單在Moco v1上增加SimCLR中的線性投射層,同時把做對應的數(shù)據(jù)增強,提點10個點左右。Moco這種非端到端的訓練把對比學習變成普通人也能玩的起來的東西。同體量的端到端的基于batchsize的對比學習方法,所消耗的顯存和計算代價都貴(8臺8卡v100的機器)


SimCLRv2:技術報告,三點改進:使用了更大的模型,使用SKNet;2.將SimCLRv1的Projection head的MLP層變成了2層的MLP —— fc+relu+fc+relu,能比一層更好些。3.使用了MoCo中的動量編碼器結構,達到了1個百分點的提升,提升不夠明顯是因為其已經(jīng)用了非常大的mini-batch(4096 or 8192),“字典”結構的動量編碼器對其的提升有限。


SwAV:Swap Assignment Views?將對比學習與聚類方法結合,有效使用小trick —— multi-crop。原方法使用一個圖片與大量的負樣本的特征比較,去做反向傳播更新,計算量很大,思路比較簡單;SwAV提出,去和負樣本的“聚類的中心點”比較。右下方圖中的C - prototypes 就是“聚類中心”,是一個d*k的矩陣,他是由一個pretext tasks得出的,其中d的維度與f輸出的特征維度一致,k代表著“聚類中心”的個數(shù),本文為3000。文章核心在于,如果你是要和很多的負樣本圖片去做對比學習,可能你需要成千上萬的負樣本圖片,而且即使如此,在計算機的實現(xiàn)上也只能是求得一個近似的結果,而如果你去和聚類中心去做類比,那這么多的圖片總共的類別也是有限的,可能就最多幾千不到上萬,而且這里的聚類中心是有確切語義含義的,一般聚類的中心就是“該類”在高維空間中的表示就是位于“某點”附近,那么與這些“點”進行對比學習,往往將是非常有效的學習,等于拿著“正確答案”模板在進行對比學習,這與單張單張風格迥異,特征并不顯著的負類圖片相比,能在網(wǎng)絡的訓練過程中更快,效率更好。這里對聚類中心的理解,彈幕有一句話還不錯,不妨參考一下 —— “換個角度講,moco之類做負樣本,就是近似求解聚類中心的特征表示”。

個人理解:這里B*D的向量與D*K的特征向量C做矩陣乘法,可以理解成將該向量映射到C的特征空間中,是某種意義上的“降維”,這里用這個特征空間里所表示的向量,某種程度上是“具備了”全局所有樣本的信息的,因為這里的C是預處理所有幾百萬個樣本,聚類而得到的全局的一個特征向量,所表示的是一個高維的空間。

個人覺得這樣的的pretext tasks是不是太貴了?而且網(wǎng)絡的訓練是不是容易某種意義上的過擬合呢?

右側為SwAV的結構,左側為一般對比學習的模型

????multi-crop:“全局的和局部的特征都需要關注”,另一點SwAV提出的crop方法,傳統(tǒng)方法使用兩個224*224的方法去裁剪256*256的圖片,現(xiàn)在使用2個160*160+4個96*96的裁剪去裁剪原256的圖片,這樣總共的正樣本數(shù)量由2張變成了6張,但是同時計算代價并沒有很大的增大。這個簡單的想法對所有的對比學習模型都有用,同時提點情況非常明顯,適用于各類模型,均能帶來2-4%的提升(對于基于聚類方法的模型提點更明顯)。

圖 來自 bryanyzhu 老師的視頻講解




對比學習發(fā)展歷程綜述 p2 自用筆記的評論 (共 條)

分享到微博請遵守國家法律
和平县| 包头市| 张家界市| 东山县| 赣榆县| 吉首市| 武鸣县| 白朗县| 宁津县| 黄冈市| 辰溪县| 江门市| 长宁县| 金沙县| 留坝县| 平安县| 酒泉市| 石泉县| 合阳县| 宾川县| 洛隆县| 忻州市| 昌吉市| 越西县| 通江县| 高要市| 浙江省| 集安市| 青海省| 剑河县| 闽清县| 定结县| 芜湖市| 建水县| 依安县| 宁南县| 韶关市| 墨脱县| 沁水县| 婺源县| 荔浦县|