YOLO改進(jìn)系列之注意力機(jī)制(GatherExcite模型介紹)

模型結(jié)構(gòu)
盡管在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中使用自底向上的局部運(yùn)算符可以很好地匹配自然圖像的某些統(tǒng)計(jì)信息,但它也可能阻止此類模型捕獲上下文的遠(yuǎn)程特征交互。Hu等人提出了一種簡(jiǎn)單,輕量級(jí)的方法,以在CNN中更好地利用上下文。通過(guò)引入一對(duì)運(yùn)算符來(lái)做到這一點(diǎn):Gather可以有效地在很大的空間范圍內(nèi)聚合特征響應(yīng),而Excite可以將合并的信息重新分布到局部特征。GatherExcite構(gòu)造了一個(gè)輕量級(jí)函數(shù)來(lái)收集大范圍鄰域上的特征響應(yīng),并使用所得到的上下文信息來(lái)調(diào)制鄰域元素的原始響應(yīng)。具體地說(shuō),其定義了Gather算子和Excite算子,前者聚集給定空間范圍上的神經(jīng)元響應(yīng),后者接受聚集和原始輸入,以產(chǎn)生與原始輸入維度相同的新張量。GE算符對(duì)如圖1所示。

實(shí)現(xiàn)代碼
GatherExcite的實(shí)現(xiàn)代碼如下所示:

YOLOv5模型改進(jìn)
本文在YOLOv5目標(biāo)檢測(cè)算法的Backbone和Head部分分別加入GatherExcite來(lái)增強(qiáng)目標(biāo)提取能力,以下分別是在Backbone以及Head中改進(jìn)的模型結(jié)構(gòu)和參數(shù)(以YOLOv5s為例)。
在Backbone部分


在Head部分


總結(jié)
為了高效利用CNN中的特征上下文,GatherExcite被提出,大量實(shí)驗(yàn)證明該方法在多個(gè)數(shù)據(jù)集和模型體系結(jié)構(gòu)中的有效性。此外,GatherExcite可進(jìn)一步應(yīng)用于YOLOv7、YOLOv8等模型中,歡迎大家關(guān)注本博主的微信公眾號(hào) BestSongC,后續(xù)更多的資源如模型改進(jìn)、可視化界面等都會(huì)在此發(fā)布。另外,本博主最近也在MS COCO數(shù)據(jù)集上跑了一些YOLOv5的改進(jìn)模型,實(shí)驗(yàn)表明改進(jìn)后的模型能在MS COCO 2017驗(yàn)證集上分別漲點(diǎn)1-3%,感興趣的朋友關(guān)注后回復(fù)YOLOv5改進(jìn)。
?