極市直播回放第105期丨NeurIPS 2022 Spotlight-童湛:基于掩碼和重建視頻自監(jiān)督預訓練
目前最先進的視覺自注意力模型 (Vision Transformer)通常需要先在超 大規(guī)模的圖像或者視頻數(shù)據(jù)集上進行預訓練, 才能在相對較小的數(shù)據(jù)集上展示出卓越的性能。如何在不使用任何其他預訓練模型或額外圖像數(shù)據(jù)的情況下,從視頻數(shù)據(jù)自身中有效地訓練Vision Transformer,仍然是一個沒有被解決的問題。與圖像數(shù)據(jù)集相比,現(xiàn)有的視頻數(shù)據(jù)集的規(guī)模相對更小,這進一步增加了直接在視頻數(shù)據(jù)集上訓練Vision Transformer的難度。
在本次分享中,我們邀請到了騰訊AI Lab研究員童湛,將主要介紹他們在這個問題上的探索工作:
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training(NeurIPS 2022 Spotlight)
“其中,我們嘗試利用掩碼式自監(jiān)督預訓練的方式對Vision Transformer進行預訓練。進一步地,我們設(shè)計了一種帶有極高掩碼比率的管道式掩碼策略,并且提出了視頻掩碼自編碼器(VideoMAE),釋放Vision Transformer在視頻理解相關(guān)任務(wù)上的強大表征能力?!?/p>
極市平臺公眾號后臺回復“極市直播”即可獲取PPT
?論文
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training(NeurIPS 2022 Spotlight)
論文鏈接:https://arxiv.org/abs/2203.12602
代碼地址:https://github.com/MCG-NJU/VideoMAE
?回放視頻在這里?
https://www.bilibili.com/video/BV1HP411K7nD
?PPT內(nèi)容截圖(極市平臺公眾號后臺回復“極市直播”即可獲取PPT)



?往期視頻在線觀看
B站:http://space.bilibili.com/85300886#!/
往期線上分享集錦:http://m6z.cn/6qIJzE(或直接閱讀原文)