最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Peripheral Vision Transformer

2023-07-04 11:25 作者:Aster的小號(hào)  | 我要投稿

人類視覺擁有一種特殊類型的視覺處理系統(tǒng),稱為周邊視覺。通過根據(jù)視線中心的距離將整個(gè)視野劃分為多個(gè)輪廓區(qū)域,周邊視覺使我們能夠在不同的區(qū)域感知各種視覺特征。在這項(xiàng)工作中,我們采用一種生物學(xué)啟發(fā)式方法,探索在深度神經(jīng)網(wǎng)絡(luò)中建模周邊視覺用于視覺識(shí)別。我們提出了將周邊位置編碼引入多頭自注意力層的思想,讓網(wǎng)絡(luò)學(xué)習(xí)根據(jù)訓(xùn)練數(shù)據(jù)將視野劃分為不同的周邊區(qū)域。我們?cè)诖笠?guī)模的ImageNet數(shù)據(jù)集上評(píng)估了所提出的網(wǎng)絡(luò),稱為PerViT,并系統(tǒng)地研究了模型在機(jī)器感知方面的內(nèi)部工作過程,展示了網(wǎng)絡(luò)學(xué)習(xí)類似于人類視覺感知視覺數(shù)據(jù)的方式。在不同模型規(guī)模下,在圖像分類任務(wù)中的最先進(jìn)性能表明了所提出方法的效果。

過去十年來,由于其在模擬圖像的空間配置方面的優(yōu)越性,卷積一直是神經(jīng)網(wǎng)絡(luò)中用于視覺識(shí)別的主要特征轉(zhuǎn)換方法 [17, 25, 26]。盡管卷積在學(xué)習(xí)視覺模式方面的有效性表現(xiàn)出色,但是卷積核具有局部和靜態(tài)的特性限制了其在靈活處理中的最大表示能力,例如全局感受野下的動(dòng)態(tài)轉(zhuǎn)換。最初設(shè)計(jì)用于自然語言處理(NLP)的自注意力機(jī)制[50]為這個(gè)問題提供了新的解決方向;憑借自適應(yīng)輸入處理和捕捉長(zhǎng)程交互的能力,自注意力成為計(jì)算機(jī)視覺的替代特征轉(zhuǎn)換方法,并被廣泛作為核心構(gòu)建模塊采用 [15]。然而,獨(dú)立的自注意力模型,如ViT [15],要想達(dá)到與卷積模型相媲美的性能,需要更多的訓(xùn)練數(shù)據(jù)[43],因?yàn)樗鼈內(nèi)鄙倬矸e擁有的某些理想特性,例如局部性。卷積和自注意力的這些固有的優(yōu)點(diǎn)和缺點(diǎn)傾向于鼓勵(lì)最近的研究將兩者結(jié)合起來,以便在兩者之間找到最佳的優(yōu)勢(shì),但至于哪種方法最適合有效的視覺處理仍存在爭(zhēng)議 [7, 8, 9, 11, 27, 29, 32, 33, 37, 38, 47, 49, 52, 55, 57, 59, 64]。

與機(jī)器視覺中主導(dǎo)性的視覺特征轉(zhuǎn)換方法不同,人類視覺擁有一種特殊類型的視覺處理系統(tǒng),稱為周邊視覺 [28];它將整個(gè)視野根據(jù)與注視中心的距離劃分為多個(gè)輪廓區(qū)域,其中每個(gè)區(qū)域都代表不同的視覺屬性。如圖1所示,我們?cè)谝暰€中心附近(即中央和旁中央?yún)^(qū)域)進(jìn)行高分辨率處理,用于識(shí)別高度詳細(xì)的視覺元素,例如幾何形狀和低級(jí)細(xì)節(jié)。對(duì)于距離注視點(diǎn)更遠(yuǎn)的區(qū)域(即中部和遠(yuǎn)周邊區(qū)域),分辨率會(huì)降低,用于識(shí)別抽象的視覺特征,例如動(dòng)態(tài)特征和高級(jí)上下文。這種系統(tǒng)化的策略使我們能夠在視野的一小部分(1%)內(nèi)有效地感知重要細(xì)節(jié),同時(shí)最小化背景干擾的非必要處理(99%),從而為人類大腦的高效視覺處理提供支持。

根據(jù)最近對(duì)視覺轉(zhuǎn)換器的工作方式的研究 [11, 15, 37, 46, 57],它們的行為實(shí)際上與周邊視覺如何運(yùn)作密切相關(guān)。早期層的注意力圖被學(xué)習(xí)用于在中央?yún)^(qū)域捕捉細(xì)粒度的幾何細(xì)節(jié),而后期層的注意力圖則執(zhí)行全局關(guān)注,用于從整個(gè)視野中識(shí)別粗粒度的語義和上下文,覆蓋周邊區(qū)域。這些發(fā)現(xiàn)揭示了模仿生物設(shè)計(jì)可能有助于模擬有效的機(jī)器視覺,也支持最近的方法在卷積和自注意力的獨(dú)立視覺處理之外,嘗試融合兩種不同的感知策略:細(xì)粒度/局部和粗粒度/全局,就像圖1所示的人類視覺一樣。

在這項(xiàng)工作中,我們采用一種生物學(xué)啟發(fā)的方法,提出將周邊歸納偏差注入深度神經(jīng)網(wǎng)絡(luò)用于圖像識(shí)別。我們提出了將周邊注意力機(jī)制融入多頭自注意力機(jī)制 [50]的思想,讓網(wǎng)絡(luò)在給定訓(xùn)練數(shù)據(jù)的情況下學(xué)會(huì)將視野劃分為多樣的周邊區(qū)域,其中每個(gè)區(qū)域捕捉不同的視覺特征。我們通過實(shí)驗(yàn)證明,所提出的網(wǎng)絡(luò)模擬了有效的視覺周邊,用于可靠的視覺識(shí)別。我們的主要貢獻(xiàn)可以總結(jié)如下:

? 本工作通過將周邊歸納偏差注入自注意力層,探索縮小人類視覺與機(jī)器視覺之間的差距,并提出了一種名為多頭周邊注意力(MPA)的新型特征轉(zhuǎn)換形式。

? 基于MPA,我們引入了周邊視覺轉(zhuǎn)換器(PerViT),并通過定性和定量分析其學(xué)習(xí)到的注意力機(jī)制,對(duì)PerViT的內(nèi)部工作進(jìn)行系統(tǒng)研究。結(jié)果表明,網(wǎng)絡(luò)學(xué)習(xí)類似于人類視覺,無需任何特殊監(jiān)督。

? 在不同的模型規(guī)模上,在圖像分類任務(wù)中的最先進(jìn)表現(xiàn)驗(yàn)證了所提出方法的有效性。



Peripheral Vision Transformer的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
滦平县| 囊谦县| 南汇区| 杂多县| 惠东县| 普陀区| 沧州市| 濮阳县| 通州市| 香港| 武功县| 海伦市| 额尔古纳市| 化州市| 武陟县| 延川县| 竹溪县| 鄂伦春自治旗| 延庆县| 乐山市| 静安区| 银川市| 株洲市| 迁安市| 永顺县| 建阳市| 高陵县| 顺昌县| 乐都县| 光山县| 浙江省| 金湖县| 密山市| 改则县| 苏尼特左旗| 丰都县| 松桃| 铅山县| 万盛区| 周至县| 永兴县|