深度學(xué)習(xí)多模態(tài)科研小班第一期
2023-02-22 13:36 作者:bili_1361983162 | 我要投稿
Unicoder-VL
目的:構(gòu)建圖片和長序列的聯(lián)合表征的預(yù)訓(xùn)練模型;
提取的100個region feature 和文本 concat一起,進(jìn)入multi-layer transformers。
VisualBERT
Embedding有3種:視覺bounding region,區(qū)分視覺和文本的segment embedding和視覺和文本對齊的position embedding;
標(biāo)簽: