深度學(xué)習(xí)三維人體重建科研小班2期
Image-text retrieval
包含IR和TR。
數(shù)據(jù)集:Flickr30K + COCO
實驗方案:在2個數(shù)據(jù)集上分別做fine-tune,以及在COCO上做fine-tune,在Flickr30K上進行zero-shot檢索。Visual Entailment(SNLI-VE)
預(yù)測圖片和文本之間的關(guān)系是entailment,neutral還是contradictory。
實驗方案:借鑒UNITER,將VE任務(wù)視為3分類,用[CLS]做類別預(yù)測。VQA
給定圖片和問題,生成答案。
實驗方案:接入6層的transformer-decoder用來做答案生成,用[CLS]做decoder的輸入,[SEP]作為終止符。
標(biāo)簽: