VideoBERT
通過BERT學(xué)習(xí)text-to-video和video-to-text任務(wù);
視覺文本對齊處理;
3種masked learning,text-only, video-only和text-video。