最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

提速3.7倍!何愷明團(tuán)隊(duì)再發(fā)新作,更快更高效的FLIP模型:通過(guò)Masking擴(kuò)展語(yǔ)言-圖像預(yù)

2022-12-20 12:34 作者:BFT白芙堂機(jī)器人  | 我要投稿

原創(chuàng)/文 BFT機(jī)器人

研究論文地址:https://arxiv.org/abs/2212.00794

計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)領(lǐng)域大神何愷明攜團(tuán)隊(duì)再發(fā)新作!論文圍繞近來(lái)火熱的CLIP(Contrastive Language-Image Pre-Training)模型展開(kāi)研究,并提出了一種高效訓(xùn)練CLIP的圖像處理新方法——FLIP(Fast Language-Image Pre-training)。

該方法在訓(xùn)練中對(duì)圖像塊進(jìn)行大比例的隨機(jī)Mask遮蔽,在有限的時(shí)間內(nèi)從更多的image-text數(shù)據(jù)集中學(xué)習(xí),并且在每次迭代對(duì)比更多樣本的情況下,保持相似的內(nèi)存占用率。何愷明團(tuán)隊(duì)在4億對(duì)image-text的訓(xùn)練實(shí)驗(yàn)中,對(duì)訓(xùn)練準(zhǔn)確度和訓(xùn)練速度進(jìn)行了利弊權(quán)衡,F(xiàn)LIP無(wú)論是在準(zhǔn)確性還是速度方面的表現(xiàn)均優(yōu)于CLIP。在加速訓(xùn)練能力的推動(dòng)下,何愷明團(tuán)隊(duì)還探索了擴(kuò)展模型尺寸、數(shù)據(jù)集大小、訓(xùn)練周期,最終成果喜人。


方法示意

  • 圖像遮蔽:論文中采用的是ViT作為圖像編碼器,圖像首先被劃分為一個(gè)不重疊的網(wǎng)格,參考MAE隨機(jī)地遮蔽掉大比例的區(qū)塊(比例為50%、75%),這種方法可以將訓(xùn)練時(shí)間復(fù)雜度相應(yīng)降低為原來(lái)的一半,甚至四分之一,且減少內(nèi)存占用。關(guān)于MAE的詳解可參考何愷明另一篇論文《Masked Autoencoders Are Scalable Vision Learners》。

  • 文本遮蔽:同樣的方法,還可以用于文本遮蔽上。當(dāng)執(zhí)行Mask時(shí),研究人員僅對(duì)可見(jiàn)token進(jìn)行編碼處理,和BERT的處理機(jī)制不一樣的是:采用Learned Mask Token進(jìn)行替換。這種稀疏計(jì)算也能夠在一定程度減少文本編碼所需要的時(shí)長(zhǎng)。但團(tuán)隊(duì)認(rèn)為,因?yàn)槲谋揪幋a器比較小,所帶來(lái)的加速效果難以導(dǎo)致更好的均衡。

  • 訓(xùn)練目標(biāo):Image/Text編碼器采用對(duì)比損失進(jìn)行訓(xùn)練優(yōu)化。但和MAE不同的是,本文中的FLIP重建被遮蔽的圖像內(nèi)容,同時(shí)丟棄了解碼器,由此取得了進(jìn)一步的加速。

MAE架構(gòu)
  • 解除遮蔽:雖然編碼器是在Masked圖像上來(lái)實(shí)現(xiàn)預(yù)訓(xùn)練的,但是它仍然可以像MAE那樣直接作用到無(wú)干擾的圖像,此可作為對(duì)標(biāo)的基線。為進(jìn)一步降低因Mask而產(chǎn)生的分布差異,作者將Mask比例設(shè)為0并進(jìn)行少量的連續(xù)預(yù)訓(xùn)練,這種處理方法可以使得訓(xùn)練時(shí)間和準(zhǔn)確性達(dá)到良好的均衡。

訓(xùn)練過(guò)程

在訓(xùn)練的具體過(guò)程中,研究人員依據(jù)CLIP和OpenCLIP,做出了一些改變:

CLIP架構(gòu)
  • 圖像編碼器使用ViT,但在補(bǔ)丁嵌入后并未使用其余的圖層規(guī)范,并且在圖像編碼的末端增添了GAP。

  • 論文運(yùn)用Non-AutoRegressive Transformer編碼,并使用WordPiece算法。

  • 將圖像編碼器與文本編碼器的輸出分別投射到相同的嵌入空間,再用LTP(Learnable Temperature Parameter)進(jìn)行縮放,從而得到兩者的Cosine相似度。

實(shí)驗(yàn)結(jié)果

從最終的實(shí)驗(yàn)結(jié)果來(lái)看,當(dāng)mask為75%的時(shí)候,F(xiàn)LIP同基線模型CLIP的性能達(dá)到一致,訓(xùn)練速度卻是CLIP的3.7倍!換句話說(shuō),假設(shè)CLIP完成一個(gè)周期的訓(xùn)練需要花費(fèi)2500TPU-days,而FLIP僅需700TUP-days。

消融實(shí)驗(yàn)結(jié)果對(duì)比
ImageNet-1K分類(lèi)數(shù)據(jù)集結(jié)果對(duì)比

實(shí)驗(yàn)結(jié)果告訴我們,F(xiàn)LIP能夠在準(zhǔn)確性和訓(xùn)練時(shí)間之間實(shí)現(xiàn)有利的權(quán)衡。在對(duì)4億圖像-文本對(duì)的實(shí)驗(yàn)中,F(xiàn)LIP提高了no-masking基線的準(zhǔn)確性和速度。在大量downstream任務(wù)上,F(xiàn)LIP的性能明顯優(yōu)于在相同數(shù)據(jù)上訓(xùn)練的CLIP工作。


結(jié)語(yǔ)

據(jù)悉,何愷明已經(jīng)連續(xù)三年CVPR達(dá)到最高引用量,論文內(nèi)容均為研究監(jiān)督學(xué)習(xí)領(lǐng)域,且都具備一個(gè)共同的特點(diǎn),都是研究范式轉(zhuǎn)換的一個(gè)節(jié)點(diǎn),而不是固有研究范式中的新方法或新解釋。既MoCo、SimSiam、MAE之后,這次的FLIP又會(huì)帶來(lái)多大的影響力呢?


文章參考:

https://mp.weixin.qq.com/s/-vZvBDPjyv6CKRlQPSYehg

https://blog.csdn.net/xixiaoyaoww/article/details/128179973

論文原文pdf:請(qǐng)掃本公眾號(hào)原文下方二維碼



更多精彩內(nèi)容請(qǐng)關(guān)注公眾號(hào):BFT機(jī)器人

(公眾號(hào)后臺(tái)回復(fù)“優(yōu)惠活動(dòng)”查看BFT機(jī)器人年終鉅惠福利內(nèi)容)

本文為原創(chuàng)文章,版權(quán)歸BFT機(jī)器人所有,如需轉(zhuǎn)載請(qǐng)與我們聯(lián)系。若您對(duì)該文章內(nèi)容有任何疑問(wèn),請(qǐng)與我們聯(lián)系,將及時(shí)回應(yīng)。


提速3.7倍!何愷明團(tuán)隊(duì)再發(fā)新作,更快更高效的FLIP模型:通過(guò)Masking擴(kuò)展語(yǔ)言-圖像預(yù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
靖边县| 太康县| 濮阳市| 当涂县| 德清县| 奉节县| 探索| 栾城县| 南城县| 大新县| 平遥县| 七台河市| 兴山县| 西充县| 湟源县| 双辽市| 新建县| 菏泽市| 确山县| 从化市| 郴州市| 宝兴县| 资源县| 阳春市| 湘阴县| 正阳县| 安溪县| 呼玛县| 宁海县| 正蓝旗| 古交市| 德令哈市| 紫阳县| 子长县| 师宗县| 常德市| 鄱阳县| 灵寿县| 东源县| 吉水县| 汽车|