最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

與SENet互補(bǔ)提升,華為諾亞提出自注意力新機(jī)制:Weight Excitation|ECCV2020

2020-09-24 17:57 作者:極市平臺  | 我要投稿

注意力機(jī)制、動(dòng)態(tài)卷積最近幾年被研究得非常透了,不過前述方法大多聚焦于特征圖層面,而該文則是從權(quán)值角度出發(fā)提出了一種非常有意思的機(jī)制。該文所提方法僅作用于訓(xùn)練階段,不會(huì)對推理造成任何的計(jì)算量消耗、網(wǎng)絡(luò)結(jié)構(gòu)改變,同時(shí)可取得媲美SE的性能提升,更重要的是它可以與SE相互促進(jìn)。

論文地址:
http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123750086.pdf

Abstract

該文提出一種新穎的方法,用于在訓(xùn)練階段同時(shí)判別卷積神經(jīng)網(wǎng)絡(luò)權(quán)值的重要性并對重要權(quán)值賦予更多的注意力。更確切的講,作者針對權(quán)值從兩個(gè)方面進(jìn)行重要性分析:幅值位置。通過在訓(xùn)練階段分析權(quán)值的上述兩種特性,作者提出了兩種獨(dú)立的Weight Excitation(權(quán)重激勵(lì))機(jī)制。作者通過實(shí)驗(yàn)證實(shí):在主流ConvNet上,在多個(gè)CV應(yīng)用中,采用WE方法可以取得顯著性能提升(比如在ImageNet分類任務(wù)上,可以提升ResNet50的精度達(dá)1.3%),而且這些改進(jìn)不會(huì)造成額外的計(jì)算量或者網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整。此外,只需很少的幾行代碼即可將其嵌入到卷積模塊中。更重要的是,WE可以與其他注意力機(jī)制(比如SE)取得互補(bǔ)作用,進(jìn)一步提升性能。

該文的主要貢獻(xiàn)包含以下幾點(diǎn):

  • 提出兩種關(guān)于權(quán)值的特性用于刻畫每個(gè)權(quán)值的重要性;

  • 提出兩種新穎的權(quán)值再參數(shù)化機(jī)制:通過調(diào)整反向傳播梯度對重要權(quán)值賦予更多注意力,作者將這種訓(xùn)練機(jī)制稱之為權(quán)值激勵(lì)訓(xùn)練;

  • 在多個(gè)任務(wù)(ImageNet、Cifar100分類任務(wù),VOC、Cityscapes語義分割以及手勢識別、姿態(tài)識別等)、多個(gè)ConvNet架構(gòu)上驗(yàn)證了所提方法的優(yōu)異性能。

Method

在這部分內(nèi)容中,我們先來看探索一下權(quán)值重要性與幅值、位置的關(guān)系;然后再看了解一下作者所提出的權(quán)值再參數(shù)化方法。注:作者將位置相關(guān)的方法稱之為LWE(location-based WE),將幅值相關(guān)的方法稱之為MWE(Magnitude-based WE)。

Investigating the importance of weights

為探索權(quán)值的重要性,作者進(jìn)行了權(quán)值影響的系統(tǒng)性分析(通過將權(quán)值置零)。作者研究了關(guān)于權(quán)值的兩種特性:幅值和位置。為更好說明兩者的重要性,作者采用ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練ResNet50進(jìn)行相應(yīng)數(shù)據(jù)分析。

  • Weight Magnitude。為探索權(quán)值幅值的重要性,作者通過如下流程進(jìn)行了分析(結(jié)果見上圖):

    • 對于每個(gè)卷積權(quán)值按照絕對值進(jìn)行升序排序;

    • 將不同百分位的權(quán)值置零并記錄模型性能下降情況。從上圖可以看到:更高百分位的權(quán)值(即權(quán)值幅值更大)置零導(dǎo)致的性能下降更嚴(yán)重,這也就說明了權(quán)值的重要性隨幅值變大而變大。


Location-based weight excitation


與之對應(yīng)的LWE結(jié)構(gòu)如下圖a所示,有沒有覺得挺簡單的呀,嘿嘿。

Magnitude-based weight excitation


此外需要注意的是:對于LWE或MWE的輸入權(quán)值,作者先進(jìn)行了歸一化,而這一操作可以導(dǎo)致ConvNet性能的輕微提升。注:WE僅作用于訓(xùn)練階段,而不會(huì)造成推理階段的額外計(jì)算量或網(wǎng)絡(luò)架構(gòu)調(diào)整。

Experiments

為說明所提方法的有效性,作者在ImageNet分類、VOC語義分割以及Mini-Kinetics姿態(tài)識別等任務(wù)上進(jìn)行了驗(yàn)證。

直接上結(jié)果了,ImageNet任務(wù)上的性能對比見下圖??梢钥吹剑涸谥髁鰿onvNet上(如MobileNetV2、ResNet50、ResNeXt50、ResNet152-SE,Wide ResNet50)均可得到一致性的性能提升,且MWE的性能增益要比LWE增益低。作者同時(shí)發(fā)現(xiàn):LWE對于深度分離卷積的增強(qiáng)并不好,這也是該方法的一個(gè)局限所在。與此同時(shí),作者還將所提方法與其他注意力機(jī)制進(jìn)行了對比,見下圖b。相比SE,LWE的一個(gè)優(yōu)勢在于:提供同等性能增益同時(shí)具有更少的訓(xùn)練消耗、無需額外的推理消耗。

與此同時(shí),作者還對比了所提方與其他規(guī)范化(如BatchNorm、GroupNorm)技術(shù)的性能差異。

最后,我們再來看一下所提方法在不同任務(wù)、不同架構(gòu)上的性能增益對比,見下表。很明顯,采用WE機(jī)制訓(xùn)練的模型均可得到一定程度的性能提升。

全文到此結(jié)束,更多實(shí)驗(yàn)結(jié)果與分析詳見原文,建議各位同學(xué)去查閱一下原文。


與SENet互補(bǔ)提升,華為諾亞提出自注意力新機(jī)制:Weight Excitation|ECCV2020的評論 (共 條)

分享到微博請遵守國家法律
镇巴县| 富顺县| 东明县| 鹤山市| 武胜县| 唐山市| 长寿区| 广饶县| 富平县| 芦山县| 江永县| 惠水县| 黄冈市| 三台县| 青岛市| 陆良县| 固安县| 华容县| 赫章县| 芷江| 岢岚县| 嘉鱼县| 如皋市| 望都县| 横峰县| 马尔康县| 商南县| 普安县| 揭阳市| 盐城市| 元朗区| 永福县| 桑日县| 丽江市| 醴陵市| 扎赉特旗| 九江市| 武夷山市| 金湖县| 高安市| 武定县|