Meta transformer大一統(tǒng)模型,港中文力作
1.模型可統(tǒng)合數(shù)據(jù)類型

2.如何統(tǒng)一
使用Data2Seq,有點類似于NLP中的Seq2Seq。
無需配對數(shù)據(jù),而是將所有類型數(shù)據(jù),用Data2Seq統(tǒng)一編碼到一個共同空間中,轉(zhuǎn)換為token后,使用統(tǒng)一的模態(tài)共享編碼器繼續(xù)編碼該序列,從而Meta-Transformer可以感知相應(yīng)模態(tài)并訓(xùn)練。
3.方法介紹
??3.1組成部分:
??三個部分組成:
Data2Seq tokenization模塊:
??核心:數(shù)據(jù)分組 — 卷積提取局部語義 — 語義聚合 — 空間映射

統(tǒng)一的共享編碼模塊
??1.LAION-2B數(shù)據(jù)集與訓(xùn)練,凍結(jié)參數(shù),得到深度為L的Transformer編碼器(多個堆疊的多頭自注意力(MSA)層和MLP塊組成)
??2.輸入的 token 首先進(jìn)入 MSA 層,然后進(jìn)入 MLP 塊。然后第 (?- 1) 個 MLP 塊的輸出作為第?個 MSA 層的輸入,層歸一化(LN)被添加到每一層之前。MLP 包含兩個線性 FC 層和一個 GELU 非線性激活層。
下游任務(wù)學(xué)習(xí)模塊
在獲得學(xué)習(xí)表征后,研究人員將表征輸入特定任務(wù)的頭,它主要由 MLP 組成,因模態(tài)和任務(wù)而異。
實驗結(jié)果
能處理的模態(tài)及對應(yīng)任務(wù):

雷達(dá)圖

分別在 ImageNet-1K 圖像分類,MS COCO 目標(biāo)檢測,以及 ADE-20K 的語義分割上進(jìn)行了評估

https://doi.org/10.48550/arXiv.2307.10802