散文網(wǎng) » 科技 »學(xué)習(xí) » Meta transformer大一統(tǒng)模型，港中文力作

Meta transformer大一統(tǒng)模型，港中文力作

2023-08-18 14:40 作者:傑君 0人讀過 | 我要投稿

1.模型可統(tǒng)合數(shù)據(jù)類型

2.如何統(tǒng)一

使用Data2Seq，有點類似于NLP中的Seq2Seq。

無需配對數(shù)據(jù)，而是將所有類型數(shù)據(jù)，用Data2Seq統(tǒng)一編碼到一個共同空間中，轉(zhuǎn)換為token后，使用統(tǒng)一的模態(tài)共享編碼器繼續(xù)編碼該序列，從而Meta-Transformer可以感知相應(yīng)模態(tài)并訓(xùn)練。

3.方法介紹

??3.1組成部分：

??三個部分組成：

Data2Seq tokenization模塊：

??核心：數(shù)據(jù)分組 — 卷積提取局部語義 — 語義聚合 — 空間映射

統(tǒng)一的共享編碼模塊

??1.LAION-2B數(shù)據(jù)集與訓(xùn)練，凍結(jié)參數(shù)，得到深度為L的Transformer編碼器（多個堆疊的多頭自注意力(MSA)層和MLP塊組成）

??2.輸入的 token 首先進(jìn)入 MSA 層，然后進(jìn)入 MLP 塊。然后第 (?- 1) 個 MLP 塊的輸出作為第?個 MSA 層的輸入，層歸一化（LN）被添加到每一層之前。MLP 包含兩個線性 FC 層和一個 GELU 非線性激活層。

下游任務(wù)學(xué)習(xí)模塊

在獲得學(xué)習(xí)表征后，研究人員將表征輸入特定任務(wù)的頭，它主要由 MLP 組成，因模態(tài)和任務(wù)而異。

實驗結(jié)果

能處理的模態(tài)及對應(yīng)任務(wù)：

雷達(dá)圖

分別在 ImageNet-1K 圖像分類，MS COCO 目標(biāo)檢測，以及 ADE-20K 的語義分割上進(jìn)行了評估

https://doi.org/10.48550/arXiv.2307.10802

標(biāo)簽：神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)多模態(tài)模型