最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

自動(dòng)駕駛-多模態(tài)融合3D目標(biāo)檢測(cè)課

2023-07-21 07:48 作者:每天一個(gè)拼課小技巧__  | 我要投稿

輸入

文本數(shù)據(jù):BookWiki and OpenWebText

圖片數(shù)據(jù):OpenImages and COCO unlabel

圖文對(duì):COCO, Visual Genome (VG), Conceptual Captions (CC) and SBU Captions


文本數(shù)據(jù)

輸入:BPE分詞器得到 W =\lbrace{[CLS],w_1,...,w_n,[SEP] \rbrace}

Token representation:self-attention之后得到h = \lbrace{h_{[CLS]},h_{w_1},...,h_{w_n}, h_{[SEP]} \rbrace}


視覺(jué)數(shù)據(jù)

通過(guò)Faster R-CNN提取視覺(jué)信息region features V

輸入:V = \lbrace{[IMG],v_1,...,v_t \rbrace}

region表示:self-attention之后得到h = \lbrace{h_{[IMG]},h_{v_1},...,h_{v_n}, h_{v_t} \rbrace}


視覺(jué)文本數(shù)據(jù)

輸入: \lbrace{[IMG],v_1,...,v_t,[CLS],w_1,...,w_n,[SEP] \rbrace}

視覺(jué)和文本表示:h_{[IMG]},h_{[CLS]}


模型: Cross-Modal Contrastive Learning(CMCL) + Transformer

對(duì)比學(xué)習(xí):希望對(duì)應(yīng)的圖片V和文本W(wǎng)的距離d(V,W)更近,不相關(guān)的圖文距離越遠(yuǎn)越好。

為了保證不同級(jí)別的圖文對(duì)齊,使用了以下方式進(jìn)行正負(fù)樣本構(gòu)建。


自動(dòng)駕駛-多模態(tài)融合3D目標(biāo)檢測(cè)課的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
色达县| 饶河县| 扎兰屯市| 新津县| 乌兰县| 宣武区| 东阿县| 寿光市| 焦作市| 天长市| 宝应县| 邳州市| 五台县| 绥滨县| 潼南县| 深圳市| 宜丰县| 建平县| 新昌县| 木兰县| 黔西| 绥阳县| 新干县| 辽阳县| 信丰县| 房山区| 卓资县| 昌平区| 凉山| 察隅县| 龙南县| 墨玉县| 蓬莱市| 旬阳县| 长岛县| 宁津县| 宜川县| 朝阳县| 文安县| 彝良县| 双江|