Oscar
目的:同圖片中的object tags作為anchor points輔助學習多模態(tài)對齊的信息;
輸入為3元組Word-Tag-Image;
通過Faster R-CNN檢測的k個高精度region作為object tags。