自動(dòng)駕駛-多模態(tài)融合3D目標(biāo)檢測(cè)課

2023-07-21 07:48 作者:每天一個(gè)拼課小技巧__ 0人讀過(guò) | 我要投稿

輸入

文本數(shù)據(jù)：BookWiki and OpenWebText

圖片數(shù)據(jù)：OpenImages and COCO unlabel

圖文對(duì)：COCO, Visual Genome (VG), Conceptual Captions (CC) and SBU Captions

文本數(shù)據(jù)

輸入：BPE分詞器得到 W =\lbrace{[CLS],w_1,...,w_n,[SEP] \rbrace}

Token representation：self-attention之后得到h = \lbrace{h_{[CLS]},h_{w_1},...,h_{w_n}, h_{[SEP]} \rbrace}

視覺(jué)數(shù)據(jù)

通過(guò)Faster R-CNN提取視覺(jué)信息region features V

輸入：V = \lbrace{[IMG],v_1,...,v_t \rbrace}

region表示：self-attention之后得到h = \lbrace{h_{[IMG]},h_{v_1},...,h_{v_n}, h_{v_t} \rbrace}

視覺(jué)文本數(shù)據(jù)

輸入： \lbrace{[IMG],v_1,...,v_t,[CLS],w_1,...,w_n,[SEP] \rbrace}

視覺(jué)和文本表示：h_{[IMG]},h_{[CLS]}

模型： Cross-Modal Contrastive Learning（CMCL） + Transformer

對(duì)比學(xué)習(xí)：希望對(duì)應(yīng)的圖片V和文本W(wǎng)的距離d(V,W)更近，不相關(guān)的圖文距離越遠(yuǎn)越好。

為了保證不同級(jí)別的圖文對(duì)齊，使用了以下方式進(jìn)行正負(fù)樣本構(gòu)建。

標(biāo)簽：

自動(dòng)駕駛-多模態(tài)融合3D目標(biāo)檢測(cè)課的評(píng)論 (共條)