深度學(xué)習(xí)0基礎(chǔ)集訓(xùn)營(yíng)
VisualBERT
Embedding有3種:視覺bounding region,區(qū)分視覺和文本的segment embedding和視覺和文本對(duì)齊的position embedding;
用了多種fusion方式,實(shí)驗(yàn)結(jié)果顯示early-fusion最好。
ViLBERT:雙流模型,每個(gè)模態(tài)先進(jìn)入自己的TRM(transformer block),再做模態(tài)交叉Co-TRM(co-attentional transformer)。
標(biāo)簽: