多模態(tài)論文串講·上【論文精讀·46】

VLMO: Unified Vision-Language Pre-Training with mixture-of-modality-experts:
動機及貢獻:
(1)模型結(jié)構(gòu)的改進
類似于CLIP的Dual-encoder可以提取圖像和文本特征存儲起來,然后跟測試數(shù)據(jù)計算余弦相似度,比較容易做檢索的任務(wù)。但是在一些比較復(fù)雜的任務(wù)上效果不好,如VR。Fusion encoder的結(jié)構(gòu)是先把圖像和文本分別處理,再用transformer encoder做模態(tài)交互,在VR、VE、VQA效果比較好。但當(dāng)去做檢索任務(wù)且圖像-文本對特別大時,只有一個模型要把所有的對同時去編碼推理,然后計算相似度,才能完成檢索,這樣推理時間就會很慢。
提出了一個統(tǒng)一的框架,靈活選擇使用Dual-encoder還是Fusion encoder。即Mixture-of-Modality-Experts。思想是:所有模態(tài)share self-attention權(quán)重,但是feed-forward層每個模態(tài)對應(yīng)自己不同的expert。達到根據(jù)輸入的模態(tài)數(shù)據(jù),選擇使用哪個模型結(jié)構(gòu)。
(2)訓(xùn)練方式的改進
目前沒有大規(guī)模的多模態(tài)數(shù)據(jù)集,但是有大量的單模態(tài)數(shù)據(jù)集,不管是視覺還是文本。
提出Stagewise pre-training strategy,即分階段的模型預(yù)訓(xùn)練。具體做法是vision expert在視覺數(shù)據(jù)集上先預(yù)訓(xùn)練好,然后text expert在文本數(shù)據(jù)集上先預(yù)訓(xùn)練好。這樣vision expert和text expert模型都實現(xiàn)了很好的初始化,然后再在多模態(tài)的數(shù)據(jù)集上做pre-training。
具體細節(jié)
??模型結(jié)構(gòu)-- Mixture-of-modality-experts
特點:不同的模態(tài)有各自的FFN。

??訓(xùn)練方式---Stagewise pre-training strategy

預(yù)訓(xùn)練V-FFN時,利用BEIT 進行Mask image model的Unsupervised task。在預(yù)訓(xùn)練L-FFN時,進行Mask language model任務(wù),frozen V-FFN和Multi-Head Self-attention,都不需要fine-tune Multi-Head Self-attention,效果就很好,但先language訓(xùn)練再在vision上frozen,結(jié)果好像差一些。VL-FFN預(yù)訓(xùn)練時,打開所有參數(shù)fine-tune,損失函數(shù)與ALBEF一樣,也是ITC,ITM,MLM。
多模態(tài)學(xué)習(xí)搭配transformer是一個很好的組合。Transformer的self-attention用了最少的inductive bias,不挑輸入,同樣的self-attention weights,可以用來做不同的任務(wù),例如圖像,文本音頻視頻等輸入,不需要重新去訓(xùn)練這些參數(shù)。