提速3.7倍!何愷明團(tuán)隊(duì)再發(fā)新作,更快更高效的FLIP模型:通過(guò)Masking擴(kuò)展語(yǔ)言-圖像預(yù)
原創(chuàng)/文 BFT機(jī)器人

計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)領(lǐng)域大神何愷明攜團(tuán)隊(duì)再發(fā)新作!論文圍繞近來(lái)火熱的CLIP(Contrastive Language-Image Pre-Training)模型展開(kāi)研究,并提出了一種高效訓(xùn)練CLIP的圖像處理新方法——FLIP(Fast Language-Image Pre-training)。

該方法在訓(xùn)練中對(duì)圖像塊進(jìn)行大比例的隨機(jī)Mask遮蔽,在有限的時(shí)間內(nèi)從更多的image-text數(shù)據(jù)集中學(xué)習(xí),并且在每次迭代對(duì)比更多樣本的情況下,保持相似的內(nèi)存占用率。何愷明團(tuán)隊(duì)在4億對(duì)image-text的訓(xùn)練實(shí)驗(yàn)中,對(duì)訓(xùn)練準(zhǔn)確度和訓(xùn)練速度進(jìn)行了利弊權(quán)衡,F(xiàn)LIP無(wú)論是在準(zhǔn)確性還是速度方面的表現(xiàn)均優(yōu)于CLIP。在加速訓(xùn)練能力的推動(dòng)下,何愷明團(tuán)隊(duì)還探索了擴(kuò)展模型尺寸、數(shù)據(jù)集大小、訓(xùn)練周期,最終成果喜人。
方法示意

圖像遮蔽:論文中采用的是ViT作為圖像編碼器,圖像首先被劃分為一個(gè)不重疊的網(wǎng)格,參考MAE隨機(jī)地遮蔽掉大比例的區(qū)塊(比例為50%、75%),這種方法可以將訓(xùn)練時(shí)間復(fù)雜度相應(yīng)降低為原來(lái)的一半,甚至四分之一,且減少內(nèi)存占用。關(guān)于MAE的詳解可參考何愷明另一篇論文《Masked Autoencoders Are Scalable Vision Learners》。
文本遮蔽:同樣的方法,還可以用于文本遮蔽上。當(dāng)執(zhí)行Mask時(shí),研究人員僅對(duì)可見(jiàn)token進(jìn)行編碼處理,和BERT的處理機(jī)制不一樣的是:采用Learned Mask Token進(jìn)行替換。這種稀疏計(jì)算也能夠在一定程度減少文本編碼所需要的時(shí)長(zhǎng)。但團(tuán)隊(duì)認(rèn)為,因?yàn)槲谋揪幋a器比較小,所帶來(lái)的加速效果難以導(dǎo)致更好的均衡。
訓(xùn)練目標(biāo):Image/Text編碼器采用對(duì)比損失進(jìn)行訓(xùn)練優(yōu)化。但和MAE不同的是,本文中的FLIP重建被遮蔽的圖像內(nèi)容,同時(shí)丟棄了解碼器,由此取得了進(jìn)一步的加速。

解除遮蔽:雖然編碼器是在Masked圖像上來(lái)實(shí)現(xiàn)預(yù)訓(xùn)練的,但是它仍然可以像MAE那樣直接作用到無(wú)干擾的圖像,此可作為對(duì)標(biāo)的基線。為進(jìn)一步降低因Mask而產(chǎn)生的分布差異,作者將Mask比例設(shè)為0并進(jìn)行少量的連續(xù)預(yù)訓(xùn)練,這種處理方法可以使得訓(xùn)練時(shí)間和準(zhǔn)確性達(dá)到良好的均衡。
訓(xùn)練過(guò)程
在訓(xùn)練的具體過(guò)程中,研究人員依據(jù)CLIP和OpenCLIP,做出了一些改變:

圖像編碼器使用ViT,但在補(bǔ)丁嵌入后并未使用其余的圖層規(guī)范,并且在圖像編碼的末端增添了GAP。
論文運(yùn)用Non-AutoRegressive Transformer編碼,并使用WordPiece算法。
將圖像編碼器與文本編碼器的輸出分別投射到相同的嵌入空間,再用LTP(Learnable Temperature Parameter)進(jìn)行縮放,從而得到兩者的Cosine相似度。
實(shí)驗(yàn)結(jié)果

從最終的實(shí)驗(yàn)結(jié)果來(lái)看,當(dāng)mask為75%的時(shí)候,F(xiàn)LIP同基線模型CLIP的性能達(dá)到一致,訓(xùn)練速度卻是CLIP的3.7倍!換句話說(shuō),假設(shè)CLIP完成一個(gè)周期的訓(xùn)練需要花費(fèi)2500TPU-days,而FLIP僅需700TUP-days。



實(shí)驗(yàn)結(jié)果告訴我們,F(xiàn)LIP能夠在準(zhǔn)確性和訓(xùn)練時(shí)間之間實(shí)現(xiàn)有利的權(quán)衡。在對(duì)4億圖像-文本對(duì)的實(shí)驗(yàn)中,F(xiàn)LIP提高了no-masking基線的準(zhǔn)確性和速度。在大量downstream任務(wù)上,F(xiàn)LIP的性能明顯優(yōu)于在相同數(shù)據(jù)上訓(xùn)練的CLIP工作。
結(jié)語(yǔ)

據(jù)悉,何愷明已經(jīng)連續(xù)三年CVPR達(dá)到最高引用量,論文內(nèi)容均為研究監(jiān)督學(xué)習(xí)領(lǐng)域,且都具備一個(gè)共同的特點(diǎn),都是研究范式轉(zhuǎn)換的一個(gè)節(jié)點(diǎn),而不是固有研究范式中的新方法或新解釋。既MoCo、SimSiam、MAE之后,這次的FLIP又會(huì)帶來(lái)多大的影響力呢?
文章參考:
https://mp.weixin.qq.com/s/-vZvBDPjyv6CKRlQPSYehg
https://blog.csdn.net/xixiaoyaoww/article/details/128179973
論文原文pdf:請(qǐng)掃本公眾號(hào)原文下方二維碼
更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人
(公眾號(hào)后臺(tái)回復(fù)“優(yōu)惠活動(dòng)”查看BFT機(jī)器人年終鉅惠福利內(nèi)容)
本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問(wèn),請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。