最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

YOLO改進系列之注意力機制(CoTAttention模型介紹)

2023-11-16 21:44 作者:Bestsongc  | 我要投稿

簡介

CoTAttention網(wǎng)絡是一種用于多模態(tài)場景下的視覺問答(Visual Question Answering,VQA)任務的神經(jīng)網(wǎng)絡模型。它是在經(jīng)典的注意力機制(Attention Mechanism)上進行了改進,能夠自適應地對不同的視覺和語言輸入進行注意力分配,從而更好地完成VQA任務。CoTAttention網(wǎng)絡中的“CoT”代表“Cross-modal Transformer”,即跨模態(tài)Transformer。在該網(wǎng)絡中,視覺和語言輸入分別被編碼為一組特征向量,然后通過一個跨模態(tài)的Transformer模塊進行交互和整合。在這個跨模態(tài)的Transformer模塊中,Co-Attention機制被用來計算視覺和語言特征之間的交互注意力,從而實現(xiàn)更好的信息交換和整合。在計算機視覺和自然語言處理緊密結(jié)合的VQA任務中,CoTAttention取得了很好的效果。

論文地址:https://arxiv.org/pdf/2107.12292.pdf

代碼地址:https://github.com/JDAI-CV/CoTNet

模型結(jié)構(gòu)

傳統(tǒng)的Self-Attention可以很好地觸發(fā)不同空間位置的特征交互。然而,在傳統(tǒng)的Self-Attention機制中,所有的query-key關(guān)系都是通過獨立的quey-key pair學習的,沒有探索兩者之間的豐富上下文,這極大的限制了視覺表示學習。因此,作者提出了CoT Block,如上圖所示,這個結(jié)構(gòu)將上下文信息的挖掘Self-Attention的學習聚合到了一個結(jié)構(gòu)中。

首先對于輸入特征,首先定義了三個變量(這里只是將V進行了特征的映射,Q和K還是采用了原來的X值)。作者首先在K上進行了kxk的分組卷積,來獲得具備局部上下文信息表示的K,這個可以看做是在局部信息上進行了靜態(tài)的建模。接著作者將和Q進行了concat,然后對concat的結(jié)果進行了兩次連續(xù)的卷積操作。然后,作者將得到的Attention Map和V進行相乘得到動態(tài)上下文建模特征圖。最后CoT的結(jié)果為局部靜態(tài)上下文建模的和全局動態(tài)上下文建模的融合之后的結(jié)果。

實現(xiàn)代碼

CoTAttention的實現(xiàn)代碼如下所示:


YOLOv5模型改進

本文在YOLOv5目標檢測算法的Backbone和Head部分分別加入CoordAttention來增強目標提取能力,以下分別是在Backbone以及Head中改進的模型結(jié)構(gòu)和參數(shù)(以YOLOv5s為例)。

在Backbone部分

在Head部分

結(jié)

CoTAttention是一種用于多模態(tài)場景下的視覺問答(Visual Question Answering,VQA)任務的神經(jīng)網(wǎng)絡模型。它是在經(jīng)典的注意力機制(Attention Mechanism)上進行了改進,能夠自適應地對不同的視覺和語言輸入進行注意力分配,此外,CoTAttention可進一步應用于YOLOv7、YOLOv8等模型中,歡迎大家關(guān)注本博主的微信公眾號 BestSongC,后續(xù)更多的資源如模型改進、可視化界面等都會在此發(fā)布。另外,本博主最近也在MS COCO數(shù)據(jù)集上跑了一些YOLOv5的改進模型,實驗表明改進后的模型能在MS COCO 2017驗證集上分別漲點1-3%,感興趣的朋友關(guān)注后回復YOLOv5改進。

?


YOLO改進系列之注意力機制(CoTAttention模型介紹)的評論 (共 條)

分享到微博請遵守國家法律
西乌珠穆沁旗| 东源县| 乐亭县| 东阿县| 师宗县| 宁德市| 色达县| 天水市| 南木林县| 阿拉善左旗| 清苑县| 镇江市| 两当县| 宜阳县| 甘泉县| 灵川县| 宁都县| 扶风县| 金秀| 华宁县| 临西县| 江永县| 突泉县| 山阴县| 鄂州市| 宜昌市| 山阳县| 方正县| 米脂县| 奉节县| 深州市| 神池县| 东台市| 西乌珠穆沁旗| 杭锦旗| 望江县| 洞口县| 小金县| 石城县| 军事| 株洲县|