深度學習【天池】ICDAR 文本篡改分類和檢測
提取的視覺token和文本token不對齊,做圖文特征交叉是個難點。
之前的模型,使用bounding box提取region feature,本文提出ALBEF,通過cross-modal attention,實現(xiàn)圖文表征學習。且為了從noisy的web數(shù)據(jù)上提升模型效果,提出momentum distillation,這是一種self-training method,學習pseudo-targets。實驗結(jié)果顯示,模型在多個下游任務上,達到SOTA。
標簽: