自動(dòng)駕駛-多模態(tài)融合3D目標(biāo)檢測(cè)課
輸入
文本數(shù)據(jù):BookWiki and OpenWebText
圖片數(shù)據(jù):OpenImages and COCO unlabel
圖文對(duì):COCO, Visual Genome (VG), Conceptual Captions (CC) and SBU Captions
文本數(shù)據(jù)
輸入:BPE分詞器得到 W =\lbrace{[CLS],w_1,...,w_n,[SEP] \rbrace}
Token representation:self-attention之后得到h = \lbrace{h_{[CLS]},h_{w_1},...,h_{w_n}, h_{[SEP]} \rbrace}
視覺(jué)數(shù)據(jù)
通過(guò)Faster R-CNN提取視覺(jué)信息region features V
輸入:V = \lbrace{[IMG],v_1,...,v_t \rbrace}
region表示:self-attention之后得到h = \lbrace{h_{[IMG]},h_{v_1},...,h_{v_n}, h_{v_t} \rbrace}
視覺(jué)文本數(shù)據(jù)
輸入: \lbrace{[IMG],v_1,...,v_t,[CLS],w_1,...,w_n,[SEP] \rbrace}
視覺(jué)和文本表示:h_{[IMG]},h_{[CLS]}
模型: Cross-Modal Contrastive Learning(CMCL) + Transformer
對(duì)比學(xué)習(xí):希望對(duì)應(yīng)的圖片V和文本W(wǎng)的距離d(V,W)更近,不相關(guān)的圖文距離越遠(yuǎn)越好。
為了保證不同級(jí)別的圖文對(duì)齊,使用了以下方式進(jìn)行正負(fù)樣本構(gòu)建。