散文網(wǎng) » 科技 »學(xué)習(xí) » 提速3.7倍！何愷明團(tuán)隊(duì)再發(fā)新作，更快更高效的FLIP模型：通過(guò)Masking擴(kuò)展語(yǔ)言-圖像預(yù)

提速3.7倍！何愷明團(tuán)隊(duì)再發(fā)新作，更快更高效的FLIP模型：通過(guò)Masking擴(kuò)展語(yǔ)言-圖像預(yù)

2022-12-20 12:34 作者:BFT白芙堂機(jī)器人 0人讀過(guò) | 我要投稿

原創(chuàng)/文 BFT機(jī)器人

計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)領(lǐng)域大神何愷明攜團(tuán)隊(duì)再發(fā)新作！論文圍繞近來(lái)火熱的CLIP（Contrastive Language-Image Pre-Training）模型展開(kāi)研究，并提出了一種高效訓(xùn)練CLIP的圖像處理新方法——FLIP（Fast Language-Image Pre-training）。

該方法在訓(xùn)練中對(duì)圖像塊進(jìn)行大比例的隨機(jī)Mask遮蔽，在有限的時(shí)間內(nèi)從更多的image-text數(shù)據(jù)集中學(xué)習(xí)，并且在每次迭代對(duì)比更多樣本的情況下，保持相似的內(nèi)存占用率。何愷明團(tuán)隊(duì)在4億對(duì)image-text的訓(xùn)練實(shí)驗(yàn)中，對(duì)訓(xùn)練準(zhǔn)確度和訓(xùn)練速度進(jìn)行了利弊權(quán)衡，F(xiàn)LIP無(wú)論是在準(zhǔn)確性還是速度方面的表現(xiàn)均優(yōu)于CLIP。在加速訓(xùn)練能力的推動(dòng)下，何愷明團(tuán)隊(duì)還探索了擴(kuò)展模型尺寸、數(shù)據(jù)集大小、訓(xùn)練周期，最終成果喜人。

方法示意

圖像遮蔽：論文中采用的是ViT作為圖像編碼器，圖像首先被劃分為一個(gè)不重疊的網(wǎng)格，參考MAE隨機(jī)地遮蔽掉大比例的區(qū)塊(比例為50%、75%)，這種方法可以將訓(xùn)練時(shí)間復(fù)雜度相應(yīng)降低為原來(lái)的一半，甚至四分之一，且減少內(nèi)存占用。關(guān)于MAE的詳解可參考何愷明另一篇論文《Masked Autoencoders Are Scalable Vision Learners》。
文本遮蔽：同樣的方法，還可以用于文本遮蔽上。當(dāng)執(zhí)行Mask時(shí)，研究人員僅對(duì)可見(jiàn)token進(jìn)行編碼處理，和BERT的處理機(jī)制不一樣的是：采用Learned Mask Token進(jìn)行替換。這種稀疏計(jì)算也能夠在一定程度減少文本編碼所需要的時(shí)長(zhǎng)。但團(tuán)隊(duì)認(rèn)為，因?yàn)槲谋揪幋a器比較小，所帶來(lái)的加速效果難以導(dǎo)致更好的均衡。
訓(xùn)練目標(biāo)：Image/Text編碼器采用對(duì)比損失進(jìn)行訓(xùn)練優(yōu)化。但和MAE不同的是，本文中的FLIP重建被遮蔽的圖像內(nèi)容，同時(shí)丟棄了解碼器，由此取得了進(jìn)一步的加速。

解除遮蔽：雖然編碼器是在Masked圖像上來(lái)實(shí)現(xiàn)預(yù)訓(xùn)練的，但是它仍然可以像MAE那樣直接作用到無(wú)干擾的圖像，此可作為對(duì)標(biāo)的基線。為進(jìn)一步降低因Mask而產(chǎn)生的分布差異，作者將Mask比例設(shè)為0并進(jìn)行少量的連續(xù)預(yù)訓(xùn)練，這種處理方法可以使得訓(xùn)練時(shí)間和準(zhǔn)確性達(dá)到良好的均衡。

訓(xùn)練過(guò)程

在訓(xùn)練的具體過(guò)程中，研究人員依據(jù)CLIP和OpenCLIP，做出了一些改變：

圖像編碼器使用ViT，但在補(bǔ)丁嵌入后并未使用其余的圖層規(guī)范，并且在圖像編碼的末端增添了GAP。
論文運(yùn)用Non-AutoRegressive Transformer編碼，并使用WordPiece算法。
將圖像編碼器與文本編碼器的輸出分別投射到相同的嵌入空間，再用LTP（Learnable Temperature Parameter）進(jìn)行縮放，從而得到兩者的Cosine相似度。

實(shí)驗(yàn)結(jié)果

從最終的實(shí)驗(yàn)結(jié)果來(lái)看，當(dāng)mask為75%的時(shí)候，F(xiàn)LIP同基線模型CLIP的性能達(dá)到一致，訓(xùn)練速度卻是CLIP的3.7倍！換句話說(shuō)，假設(shè)CLIP完成一個(gè)周期的訓(xùn)練需要花費(fèi)2500TPU-days，而FLIP僅需700TUP-days。

ImageNet-1K分類(lèi)數(shù)據(jù)集結(jié)果對(duì)比

實(shí)驗(yàn)結(jié)果告訴我們，F(xiàn)LIP能夠在準(zhǔn)確性和訓(xùn)練時(shí)間之間實(shí)現(xiàn)有利的權(quán)衡。在對(duì)4億圖像-文本對(duì)的實(shí)驗(yàn)中，F(xiàn)LIP提高了no-masking基線的準(zhǔn)確性和速度。在大量downstream任務(wù)上，F(xiàn)LIP的性能明顯優(yōu)于在相同數(shù)據(jù)上訓(xùn)練的CLIP工作。

結(jié)語(yǔ)

據(jù)悉，何愷明已經(jīng)連續(xù)三年CVPR達(dá)到最高引用量，論文內(nèi)容均為研究監(jiān)督學(xué)習(xí)領(lǐng)域，且都具備一個(gè)共同的特點(diǎn)，都是研究范式轉(zhuǎn)換的一個(gè)節(jié)點(diǎn)，而不是固有研究范式中的新方法或新解釋。既MoCo、SimSiam、MAE之后，這次的FLIP又會(huì)帶來(lái)多大的影響力呢？

文章參考：

https://mp.weixin.qq.com/s/-vZvBDPjyv6CKRlQPSYehg

https://blog.csdn.net/xixiaoyaoww/article/details/128179973

論文原文pdf：請(qǐng)掃本公眾號(hào)原文下方二維碼

更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào)：BFT機(jī)器人

(公眾號(hào)后臺(tái)回復(fù)“優(yōu)惠活動(dòng)”查看BFT機(jī)器人年終鉅惠福利內(nèi)容)

本文為原創(chuàng)文章，版權(quán)歸BFT機(jī)器人所有，如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問(wèn)，請(qǐng)與我們聯(lián)系，將及時(shí)回應(yīng)。

標(biāo)簽：