深度學(xué)習(xí)文本分類科研小班1期
NLVR
圖文是否匹配。
實驗方案:設(shè)計text-assignment(TA)任務(wù),給定2張圖一個文本,模型做3分類,判斷文本和其中哪張圖片相關(guān)or都不相關(guān)。
和SOTA相比,提升了3.84%。VG(visual grounding)
根據(jù)文本描述,找到圖上位置。
數(shù)據(jù)集:RefCOCO+ dataset
實驗方案:是弱監(jiān)督式學(xué)習(xí),沒有bounding box。推理時,用Grad-CAM做熱力圖,對檢測的proposal做排序。
標(biāo)簽: