最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Bootstrapped Masked Autoencoders for Vision BERT Pretraining

2023-07-04 10:58 作者:Aster的小號  | 我要投稿

我們提出了基于自舉蒙版自編碼器(BootMAE)的新方法,用于視覺BERT預(yù)訓(xùn)練。BootMAE改進了原始的蒙版自編碼器(MAE),具有兩個核心設(shè)計:1)動量編碼器,提供在線特征作為額外的BERT預(yù)測目標(biāo);2)目標(biāo)感知解碼器,試圖減輕編碼器在BERT預(yù)訓(xùn)練中記憶目標(biāo)特定信息的壓力。第一個設(shè)計的動機是觀察到使用預(yù)訓(xùn)練的MAE提取特征作為蒙版標(biāo)記的BERT預(yù)測目標(biāo)可以實現(xiàn)更好的預(yù)訓(xùn)練性能。因此,我們在原始MAE編碼器的同時添加了一個動量編碼器,它通過使用自身表示作為BERT預(yù)測目標(biāo)來引導(dǎo)預(yù)訓(xùn)練性能。在第二個設(shè)計中,我們直接將編碼器中的目標(biāo)特定信息(如未屏蔽補丁的像素值)傳遞給解碼器,以減輕編碼器記憶與預(yù)測目標(biāo)相關(guān)的未屏蔽標(biāo)記信息的壓力。因此,編碼器專注于語義建模,這是BERT預(yù)訓(xùn)練的目標(biāo),并且不需要浪費容量來記憶與預(yù)測目標(biāo)相關(guān)的未屏蔽標(biāo)記的信息。通過大量實驗證明,我們的BootMAE在帶有ViT-B骨干的ImageNet-1K上實現(xiàn)了84.2%的Top-1準(zhǔn)確率,在相同的預(yù)訓(xùn)練時期下,優(yōu)于MAE 0.8%。BootMAE還在ADE20K上的語義分割上實現(xiàn)了+1.0 mIoU的改進,并在COCO數(shù)據(jù)集上的目標(biāo)檢測和分割上實現(xiàn)了+1.3框AP,+1.4蒙版AP的改進。代碼已發(fā)布在https://github.com/LightDXY/BootMAE。

自我監(jiān)督表示學(xué)習(xí)[56、46、58、63、27、33、12]旨在從無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)可轉(zhuǎn)移的表示,是計算機視覺領(lǐng)域長期存在的問題。最近的進展表明,大規(guī)模的自我監(jiān)督表示學(xué)習(xí)在具有挑戰(zhàn)性的數(shù)據(jù)集上相比監(jiān)督學(xué)習(xí)具有顯著的改進。特別是,在視覺變換器的自我監(jiān)督預(yù)訓(xùn)練中,蒙版圖像建模(MIM)展示了在各種計算機視覺任務(wù)中引人注目的下游性能改進[24、4],吸引了越來越多的關(guān)注。

MIM旨在基于剩余可見補丁恢復(fù)被遮蔽區(qū)域。本質(zhì)上,它通過內(nèi)容預(yù)測通過對圖像結(jié)構(gòu)本身進行建模來學(xué)習(xí)可轉(zhuǎn)移的表示。最近的研究工作蒙版自編碼器(MAE)[30]引入了一種不對稱的編碼器-解碼器結(jié)構(gòu),其中編碼器僅對可見補丁進行操作,并且將編碼器的輸出表示與遮蔽的標(biāo)記一起饋送到輕量級解碼器中。將遮蔽標(biāo)記轉(zhuǎn)移到小型解碼器中會大幅減少計算量。除了效率外,它還在只使用ImageNet-1K數(shù)據(jù)的方法中裝備ViT-Huge骨干的情況下,實現(xiàn)了有競爭力的準(zhǔn)確性(87.8%)。

在本文中,我們介紹了自舉蒙版自編碼器(BootMAE),這是一種用于自我監(jiān)督表示學(xué)習(xí)的新框架,具有兩個核心設(shè)計。首先,我們觀察到,采用與MAE相同的結(jié)構(gòu)設(shè)計,僅將MIM預(yù)測目標(biāo)從像素更改為預(yù)訓(xùn)練的MAE編碼器的表示將ViT-Base骨干的ImageNet分類準(zhǔn)確度從83.4%提高到83.8%。受到這一觀察的啟發(fā),我們提出使用動量編碼器提供額外的預(yù)測目標(biāo)。動量編碼器是MAE編碼器的時間編集,即權(quán)重由MAE編碼器參數(shù)的指數(shù)移動平均(EMA)參數(shù)化[31、29]。對于每次迭代,我們將完整圖像傳遞給動量編碼器,為遮蔽的補丁提供地面真實表示,并將遮蔽圖像傳遞給編碼器,然后通過預(yù)測器為遮蔽的補丁生成預(yù)測。我們假設(shè)隨著訓(xùn)練的進行,動量編碼器通過自舉提供的動態(tài)更深的語義相對于固定目標(biāo)。我們保留MAE中的像素回歸分支,作為區(qū)分圖像的良好正則化。此外,它還為模型學(xué)習(xí)關(guān)于低級紋理的推理提供了指導(dǎo)。這種多重監(jiān)督有助于學(xué)習(xí)在需要低級信息的更廣泛任務(wù)中受益的表示。

其次,我們提出目標(biāo)感知的解碼器,試圖減輕編碼器記憶目標(biāo)特定信息的壓力,并鼓勵編碼器專注于有益于預(yù)訓(xùn)練的語義建模?;仡橫IM的目標(biāo)是在給定可見補丁的情況下恢復(fù)缺失區(qū)域。它基于這樣一個事實,即自然圖像,無論其多樣性如何,都具有高度結(jié)構(gòu)化(例如,建筑物的規(guī)律模式,汽車的結(jié)構(gòu)形狀)。MIM的目標(biāo)是使模型理解這種結(jié)構(gòu),或稱為語義,或等效地是預(yù)測目標(biāo)空間(像素空間或特征空間)中不同補丁之間的關(guān)系。然后,預(yù)測是通過兩個不可或缺的元素進行的:這種結(jié)構(gòu)的知識以及可見補丁的目標(biāo)特定信息(例如,像素值)。然而,先前的MIM方法將這兩個元素耦合在一個單一模塊中,浪費了模型在“記憶”可見補丁的目標(biāo)特定信息方面的能力。相比之下,我們嘗試將它們解耦,以便編碼器利用其整個模型能力進行結(jié)構(gòu)學(xué)習(xí)。具體而言,將目標(biāo)特定信息明確而連續(xù)地提供給解碼器,就像我們?nèi)祟愒谶M行視覺預(yù)測時總是看到可見補丁一樣。

總之,我們的框架如圖1所示,包含四個組件:(1)旨在捕獲結(jié)構(gòu)知識的編碼器;(2)從編碼器接收結(jié)構(gòu)知識以及低級上下文信息進行像素級回歸的回歸器;(3)從編碼器接收結(jié)構(gòu)知識以及高級上下文信息進行潛在表示預(yù)測的預(yù)測器;(4)負(fù)責(zé)將各自所需的目標(biāo)特定信息合并到回歸器解碼器和預(yù)測器解碼器中的特征注入模塊。

此外,我們發(fā)現(xiàn)遮蔽策略對于這兩個不同的預(yù)測目標(biāo)非常重要。它們偏愛不同的遮蔽策略。特別地,像素回歸依賴于隨機遮蔽,而塊狀遮蔽對于特征預(yù)測更好。原因可能是塊狀遮蔽傾向于去除大塊區(qū)域,而這對于像素回歸來說是一個困難的任務(wù),因為像素回歸在預(yù)測時嚴(yán)重依賴于來自局部鄰居的提示。而對于特征預(yù)測,它不受精確像素對齊的約束,一個大的遮蔽補丁對于模型推理語義結(jié)構(gòu)更有幫助。

在實驗中,我們展示了我們的框架在包括圖像分類、目標(biāo)檢測和語義分割在內(nèi)的各種下游任務(wù)中的有效性。我們的方法比之前的監(jiān)督方法和自我監(jiān)督方法都表現(xiàn)出更優(yōu)越的性能。我們還提供了廣泛的消融研究,驗證了我們模型中的兩個核心設(shè)計的有效性。我們進一步在不同時期和不同模型中與MAE進行了全面的比較,并展示了我們的框架始終具有更好的性能。


Bootstrapped Masked Autoencoders for Vision BERT Pretraining的評論 (共 條)

分享到微博請遵守國家法律
东辽县| 盐山县| 商丘市| 平原县| 波密县| 昆山市| 大港区| 波密县| 涡阳县| 云安县| 章丘市| 沂南县| 福鼎市| 沈丘县| 昌黎县| 五原县| 溧水县| 井冈山市| 三门县| 盱眙县| 通州市| 囊谦县| 社会| 中方县| 阜城县| 白朗县| 泾川县| 武威市| 惠来县| 昭通市| 平利县| 公主岭市| 长宁县| 手游| 平罗县| 定远县| 华阴市| 锡林浩特市| 南城县| 洪雅县| 合川市|