對(duì)比學(xué)習(xí)發(fā)展歷程綜述 p1 自用筆記
學(xué)習(xí) bryanyzhu?老師的?對(duì)比學(xué)習(xí)綜述?大致了解對(duì)比學(xué)習(xí)的使用場(chǎng)景。
第一階段:百花齊放
InstDisc:里程碑式的任務(wù),取得不錯(cuò)的無監(jiān)督表征學(xué)習(xí)的結(jié)果,提出“代理任務(wù)” -- 個(gè)體判別任務(wù)的概念,提出MemoryBank的思想。為后續(xù)對(duì)比學(xué)習(xí)的工作提供靈感和模板。

將一個(gè)batch圖片進(jìn)入網(wǎng)絡(luò)后降維至128D作為正樣本(樣本間互為負(fù)樣本),同時(shí)也在MMBank中抽取負(fù)樣本,使用NCEloss做對(duì)比學(xué)習(xí),做反向傳播更新網(wǎng)絡(luò)和特征。這里MMbank里面的特征,會(huì)隨之網(wǎng)絡(luò)的更新做動(dòng)量式的更新。
InvaSpread:SimCLR前身,未使用MemoryBank的概率,只使用單個(gè)batchsize里的圖片進(jìn)行對(duì)比學(xué)習(xí),也是最基本的對(duì)比學(xué)習(xí)模板。

文中選取正負(fù)樣本的方式可以學(xué)習(xí):也是個(gè)體判別任務(wù),對(duì)于batchsize為256 - x1,2,3,4,5...,則做一次數(shù)據(jù)增強(qiáng),得到256個(gè)新的?x' 1,2,3,4,5...,則對(duì)于該個(gè)體判別任務(wù)而言,x’1 為 x1的正樣本,其余的510個(gè)圖片為x1的負(fù)樣本(這里是成對(duì)的圖片,構(gòu)建損失函數(shù)的方式有別于InstDisc),這樣可以只用一個(gè)編碼器,一個(gè)端到端的訓(xùn)練把整個(gè)實(shí)驗(yàn)跑完。不需要用需要額外的什么MMBank,也只需要一個(gè)編碼器,沒有其他的特征構(gòu)造。
CPC:Contrastive Predictive Coding不使用個(gè)體判別方法進(jìn)行對(duì)比學(xué)習(xí),使用生成式的代理任務(wù) - - 預(yù)測(cè)型的任務(wù)。是一個(gè)通用型的方法,可用于音頻,圖片,文字與強(qiáng)化學(xué)習(xí)中使用。

這里從Xt-3 到 Xt的時(shí)刻通過編碼器genc輸入后,得到的輸入特征向量,然后這里選擇了一個(gè)會(huì)聯(lián)系上文信息的網(wǎng)絡(luò)架構(gòu),可以是RNN或者LSTM作為gar,對(duì)上文的序列進(jìn)行信息的提取,得到一個(gè)Ct作為輸出,由于理論上后續(xù)的音頻信息與前面的輸入信息存在邏輯上的關(guān)系,所以CPC在這里嘗試用這個(gè)Ct去“預(yù)測(cè)”后續(xù)的Xt+1,2,3等時(shí)刻的genc的特征輸出,而這里如何體現(xiàn)出對(duì)比學(xué)習(xí)呢,即用真正的該時(shí)刻的輸入得到的特征作為正樣本,他應(yīng)該和你的預(yù)測(cè)是相似的,而這里負(fù)樣本定義可以很隨意,可任意選取輸入得到的特征作為負(fù)樣本,他應(yīng)該和你的預(yù)測(cè)是不相似的。這樣可以完成一個(gè)表征學(xué)習(xí)。
這里的思想也可以用于圖片,句子等等,用patch或者單詞塊去替換語(yǔ)音段。
CMC:?“一個(gè)物體的很多視角都可以作為正樣本 ——原圖像 深度圖 表面法線圖 分割圖?等等”多模態(tài)做對(duì)比學(xué)習(xí)。

人觀察世界通過很多傳感器,而每一個(gè)視角都給我們提供信息,而每個(gè)視角都是帶有噪聲的,而且一般是不完整的,但最重要的信息是在這些多視角中共享的,如語(yǔ)義信息,幾何形狀,輪廓,物理定律。那這樣的思路,我們就可以用一個(gè)物體的多視角的圖片訓(xùn)練一個(gè)網(wǎng)絡(luò),能從所有視角中抓住主要信息的模型。在訓(xùn)練中,同一個(gè)物體的不同視角互為正樣本,其他則為負(fù)樣本。
摘要寫的好 可以學(xué)習(xí)他的講故事方法。