深度之眼多模態(tài)實戰(zhàn)班
特征提取:
視覺的提取,大多用的是Faster R-CNN:
1.1 直接提取視覺向量;
1.2 進行目標(biāo)檢測,輸出bounding box和對應(yīng)位置;
1.3 進行目標(biāo)檢測,提取類別特征。
潛在問題:提取的信息有冗余和噪音,對下游任務(wù)有益的視覺信息沒有被有效提取,和對應(yīng)的文本信息有語義鴻溝,不好做視覺-文本對齊等。文本一般會用BERT或者Roberta做初始化,大規(guī)模訓(xùn)練集會從頭開始訓(xùn)練。
Early fusion:特征提取后,一般是直接concat,進入transformer;
Late fusion:特征提取后,模態(tài)內(nèi)部再進行深度學(xué)習(xí),再做模態(tài)交互。
標(biāo)簽: