最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網會員登陸 & 注冊

深度學習多模態(tài)實戰(zhàn)班

2023-03-01 11:03 作者:南蠻果 0人讀過 | 我要投稿

之眼視覺的提取，大多用的是Faster R-CNN：
1.1 直接提取視覺向量；
1.2 進行目標檢測，輸出bounding box和對應位置；
1.3 進行目標檢測，提取類別特征。
潛在問題：提取的信息有冗余和噪音，對下游任務有益的視覺信息沒有被有效提取，和對應的文本信息有語義鴻溝，不好做視覺-文本對齊等。
文本一般會用BERT或者Roberta做初始化，大規(guī)模訓練集會從頭開始訓練。

Early fusion：特征提取后，一般是直接concat，進入transformer；
Late fusion：特征提取后，模態(tài)內部再進行深度學習，再做模態(tài)交互。

標簽：

深度學習多模態(tài)實戰(zhàn)班的評論 (共條)

达尔| 黎川县| 宜春市| 深泽县| 内乡县| 长武县| 舒兰市| 砚山县| 灵川县| 海盐县| 区。| 巴塘县| 安丘市| 建瓯市| 东丰县| 垣曲县| 舟山市| 嵩明县| 伊吾县| 定襄县| 依兰县| 松滋市| 兴山县| 佛山市| 贡嘎县| 甘洛县| 敦化市| 孝感市| 五原县| 霍山县| 通海县| 辽宁省| 平昌县| 廊坊市| 临颍县| 手游| 灵宝市| 南昌市| 辽源市| 河北区| 武平县|