最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

何愷明團(tuán)隊(duì)最新力作SimSiam:消除表征學(xué)習(xí)“崩潰解”,探尋對(duì)比表達(dá)學(xué)習(xí)成功之根源

2020-11-24 16:14 作者:極市平臺(tái)  | 我要投稿

本文是FAIR的陳鑫磊&何愷明大神在無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域又一力作,提出了一種非常簡(jiǎn)單的表達(dá)學(xué)習(xí)機(jī)制用于避免表達(dá)學(xué)習(xí)中的“崩潰”問(wèn)題,從理論與實(shí)驗(yàn)角度證實(shí)了所提方法的有效性;與此同時(shí),還側(cè)面證實(shí)了對(duì)比學(xué)習(xí)方法成功的關(guān)鍵性因素:孿生網(wǎng)絡(luò)。?

paper:?https://arxiv.org/abs/2011.10566

Abstract

孿生網(wǎng)絡(luò)已成為無(wú)監(jiān)督表達(dá)學(xué)習(xí)領(lǐng)域的通用架構(gòu),現(xiàn)有方法通過(guò)最大化同一圖像的兩者增廣的相似性使其避免“崩潰解(collapsing solutions)”問(wèn)題。在這篇研究中,作者提出一種驚人的實(shí)證結(jié)果:Simple Siamese(SimSiam)網(wǎng)絡(luò)甚至可以在無(wú)((1) negative sample pairs;(2)large batch;(3)momentum encoders)的情形下學(xué)習(xí)有意義的特征表達(dá)。

作者通過(guò)實(shí)驗(yàn)表明:對(duì)于損失與結(jié)構(gòu)而言,“崩潰解”確實(shí)存在,但是“stop-gradient”操作對(duì)于避免“崩潰解”有非常重要的作用。作者提出了一種新穎的“stop-gradient”思想并通過(guò)實(shí)驗(yàn)對(duì)其進(jìn)行了驗(yàn)證,該文所提SimSiam在ImageNet及下游任務(wù)上均取得了有競(jìng)爭(zhēng)力的結(jié)果。作者期望:這個(gè)簡(jiǎn)單的基準(zhǔn)方案可以驅(qū)動(dòng)更多研員重新思考無(wú)監(jiān)督表達(dá)學(xué)習(xí)中的孿生結(jié)構(gòu)。

Method

SimSiam的實(shí)現(xiàn)偽代碼如下,有沒(méi)有一種“就這么簡(jiǎn)單”的感覺(jué)???

我們?cè)賮?lái)看一下SimSiam的基礎(chǔ)配置:

  • Optimizer: SGD用于預(yù)訓(xùn)練,學(xué)習(xí)率為lr × BatchSize/256, 基礎(chǔ)學(xué)習(xí)率為lr=0.05,學(xué)習(xí)率采用consine衰減機(jī)制,weight decay=0.0001,momentum=0.9。BatchSize默認(rèn)512,采用了SynBatchNorm。

  • Projection MLP:編碼網(wǎng)絡(luò)中投影MLP部分的每個(gè)全連接層后接BN層,其輸出層fc后無(wú)ReLU,隱含層的fc的維度為2048,MLP包含三個(gè)全連接層。

  • Prediction MLP:預(yù)測(cè)MLP中同樣適用了BN層,但其輸出層fc后無(wú)BN與ReLU。MLP有2個(gè)全連接層,第一個(gè)全連接層的輸入與輸出維度為2048,第二個(gè)的輸出維度為512.

  • Backbone:作者選用了ResNet50作為骨干網(wǎng)絡(luò)。

作者在ImageNet上線進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,然后采用監(jiān)督方式凍結(jié)骨干網(wǎng)絡(luò)訓(xùn)練分類頭,最后在驗(yàn)證集上驗(yàn)證其性能。

Empirical Study

在該部分內(nèi)容中,我們將實(shí)證研究SimSiam的表現(xiàn),主要聚焦于哪些行為有助于避免“崩潰解”。

Stop-gradient

上圖給出了Stop-gradient添加與否的性能對(duì)比,注網(wǎng)絡(luò)架構(gòu)與超參保持不變,區(qū)別僅在于是否添加Stop-gradient。

上圖left表示訓(xùn)練損失,可以看到:在無(wú)Stop-gradient時(shí),優(yōu)化器迅速找了了一個(gè)退化解并達(dá)到了最小可能損失-1。為證實(shí)上述退化解是“崩潰”導(dǎo)致的,作者研究了輸出的規(guī)范化結(jié)果的標(biāo)準(zhǔn)差。如果輸出“崩潰”到了常數(shù)向量,那么其每個(gè)通道的標(biāo)準(zhǔn)差應(yīng)當(dāng)是0,見(jiàn)上圖middle。

作為對(duì)比,如果輸出具有零均值各項(xiàng)同性高斯分布,可以看到其標(biāo)準(zhǔn)差為1/√d。上圖middle中的藍(lán)色曲線(即添加了Stop-gradient)接近1/√d,這也就意味著輸出并沒(méi)有“崩潰”。

上圖right給出了KNN分類器的驗(yàn)證精度,KNN分類器可用于訓(xùn)練過(guò)程的監(jiān)控。在無(wú)Stop-gradient時(shí),其分類進(jìn)度僅有0.1%,而添加Stop-gradient后最終分類精度可達(dá)67.7%。

上述實(shí)驗(yàn)表明:“崩潰”確實(shí)存在。但“崩潰”的存在不足以說(shuō)明所提方法可以避免“崩潰”,盡管上述對(duì)比中僅有“stop-gradient”的區(qū)別。

Predictor

上表給出了Predictor MLP的影響性分析,可以看到:

  • 當(dāng)移除預(yù)測(cè)MLP頭模塊h(即h為恒等映射)后,該模型不再有效(work);

  • 如果預(yù)測(cè)MLP頭模塊h固定為隨機(jī)初始化,該模型同樣不再有效;

  • 當(dāng)預(yù)測(cè)MLP頭模塊采用常數(shù)學(xué)習(xí)率時(shí),該模型甚至可以取得比基準(zhǔn)更好的結(jié)果(多個(gè)實(shí)驗(yàn)中均有類似發(fā)現(xiàn)).

Batch Size

上表給出了Batch Size從64變換到4096過(guò)程中的精度變化,可以看到:該方法在非常大范圍的batch size下表現(xiàn)均非常好。

Batch Normalization

上表比較了投影與預(yù)測(cè)MLP中不同BN的配置對(duì)比,可以看到:

  • 移除所有BN層后,盡管精度只有34.6%,但不會(huì)造成“崩潰”;這種低精度更像是優(yōu)化難問(wèn)題,對(duì)隱含層添加BN后精度則提升到了67.4%;

  • 在投影MLP的輸出后添加BN,精度可以進(jìn)一步提升到68.1%;

  • 在預(yù)測(cè)MLP的輸出添加BN后反而導(dǎo)致訓(xùn)練變的不穩(wěn)定。

總而言之,BN有助于訓(xùn)練優(yōu)化,這與監(jiān)督學(xué)習(xí)中BN的作用類似;但并未看到BN有助于避免“崩潰”的證據(jù)。

Similarity Function

所提方法除了與cosine相似性組合表現(xiàn)好外,其與交叉熵相似組合表現(xiàn)同樣良好,見(jiàn)上表。此時(shí)的交叉熵相似定義如下:

可以看到:交叉熵相似性同樣可以收斂到一個(gè)合理的解并不會(huì)導(dǎo)致“崩潰”,這也就是意味著“崩潰”避免行為與cosine相似性無(wú)關(guān)。

Symmetrization

盡管前述描述中用到了對(duì)稱損失,但上表的結(jié)果表明:SimSiam的行為不依賴于對(duì)稱損失:非對(duì)稱損失同樣取得了合理的結(jié)果,而對(duì)稱損失有助于提升精度,這與“崩潰”避免無(wú)關(guān)。

Summary

通過(guò)上面的一些列消融實(shí)驗(yàn)對(duì)比分析,可以看到:SimSiam可以得到有意義的結(jié)果而不會(huì)導(dǎo)致“崩潰”。優(yōu)化器、BN、相似性函數(shù)、對(duì)稱損失可能會(huì)影響精度,但與“崩潰”避免無(wú)關(guān);對(duì)于“崩潰”避免起關(guān)鍵作用的是stop-gradient操作。

Hypothesis

接下來(lái),我們將討論:SimSiam到底在隱式的優(yōu)化什么?并通過(guò)實(shí)驗(yàn)對(duì)其進(jìn)行驗(yàn)證。主要從定義、證明以及討論三個(gè)方面進(jìn)行介紹。

Formulation

作者假設(shè):SimSiam是類期望最大化算法的一種實(shí)現(xiàn)。它隱含的包含兩組變量,并解決兩個(gè)潛在子問(wèn)題,而stop-gradient操作是引入額外變換的結(jié)果。我們考慮如下形式的損失:

其中??,??分別表示特征提取網(wǎng)絡(luò)與數(shù)據(jù)增廣方法,x表示圖像。在這里,作者引入了另外一個(gè)變量??,其大小正比于圖像數(shù)量,直觀上來(lái)講,??x是x的特征表達(dá)。

基于上述表述,我們考慮如下優(yōu)化問(wèn)題:

結(jié)合前述介紹,SimSiam可以視作上述求解方案的一次性交替近似。

此外需要注意:(1)上述分析并不包含預(yù)測(cè)器h;(2) 上述分析并不包含對(duì)稱損失,對(duì)稱損失并非該方法的必選項(xiàng),但有助于提升精度。

Proof of concept

作者假設(shè):SimSiam是一種類似交錯(cuò)優(yōu)化的方案,其SGD更新間隔為1?;谠摷僭O(shè),所提方案在多步SGD更新下同樣有效。為此,作者設(shè)計(jì)了一組實(shí)驗(yàn)驗(yàn)證上述假設(shè),結(jié)果見(jiàn)下表。

在這里,等價(jià)與SimSiam??梢钥吹剑簃ulti-step variants work well。更多步的SGD更新甚至可以取得比SimSiam更優(yōu)的結(jié)果。這就意味著:交錯(cuò)優(yōu)化是一種可行的方案,而SimSiam是其特例。

Comparison

前述內(nèi)容已經(jīng)說(shuō)明了所提方法的有效性,接下來(lái)將從ImageNet以及遷移學(xué)習(xí)的角度對(duì)比一下所提方法與其他SOTA方法。

上圖給出了所提方法與其他SOTA無(wú)監(jiān)督學(xué)習(xí)方法在ImageNet的性能,可以看到:SimSiam可以取得具有競(jìng)爭(zhēng)力的結(jié)果。在100epoch訓(xùn)練下,所提方法具有最高的精度;但更長(zhǎng)的訓(xùn)練所得收益反而變小。

上表給出了所提方法與其他SOTA方法在遷移學(xué)習(xí)方面的性能對(duì)比。從中可以看到:SimSiam表達(dá)可以很好的遷移到ImageNet以外的任務(wù)上,遷移模型的性能極具競(jìng)爭(zhēng)力。

最后,作者對(duì)比了所提方法與其他SOTA方法的區(qū)別&聯(lián)系所在,見(jiàn)上圖。

  • Relation to SimCLR:SimCLR依賴于負(fù)采樣以避免“崩潰”,SimSiam可以是作為“SimCLR without negative”。

  • Relation to SwAV:SimSiam可以視作“SwAV without online clustering”.

  • Relation to BYOL: SimSiam可以視作“BYOL without the momentum encoder”.

全文到此結(jié)束,對(duì)該文感興趣的同學(xué)建議去查看原文的實(shí)驗(yàn)結(jié)果與實(shí)驗(yàn)分析。

Conclusion

該文采通過(guò)非常簡(jiǎn)單的設(shè)計(jì)探索了孿生網(wǎng)絡(luò),所提方法方法的有效性意味著:孿生形狀是這些表達(dá)學(xué)習(xí)方法(SimCLR, MoCo,SwAR等)成功的關(guān)鍵原因所在。孿生網(wǎng)絡(luò)天然具有建模不變性的特征,而這也是表達(dá)學(xué)習(xí)的核心所在。

相關(guān)文章

  1. SimCLR: A simple framework for contrastive learning of visual representations

  2. SimCLRv2: Big self-supervised models are strong semi-supervised learners.

  3. SwAV:Unsupervised learning of visual features by contrasting cluster assignments

  4. MoCo: Momentum contrast for unsupervised visual representation learning.

  5. MoCov2:Improved baselines with momentum contrastive learning

  6. BYOL: Bootstrap your own latten: A new aproach to self-supervised learning.

  7. CPC: Data efficient image recognition with contrastive predictive coding.

  8. PIC: Parametric instance classification for unsupervised visual feature learning.

◎作者檔案

Happy,一個(gè)愛(ài)“胡思亂想”的AI行者。歡迎大家聯(lián)系極市小編(微信ID:fengcall19)加入極市原創(chuàng)作者行列

何愷明團(tuán)隊(duì)最新力作SimSiam:消除表征學(xué)習(xí)“崩潰解”,探尋對(duì)比表達(dá)學(xué)習(xí)成功之根源的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
太谷县| 甘孜县| 昆山市| 赤城县| 合山市| 图们市| 龙门县| 东乌| 遂川县| 乌兰浩特市| 留坝县| 遂川县| 伊春市| 肇源县| 措美县| 寻乌县| 韶关市| 邵阳市| 石柱| 富平县| 新干县| 康平县| 祥云县| 南丹县| 元朗区| 凭祥市| 金川县| 华阴市| 南投县| 柳河县| 衢州市| 周宁县| 治县。| 凤凰县| 东阿县| 翁源县| 太谷县| 林州市| 安泽县| 元朗区| 德化县|