最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Meta-Transformer實現(xiàn)骨干網(wǎng)絡(luò)大一統(tǒng),12種模態(tài),一個學習框架

2023-07-25 12:40 作者:大數(shù)據(jù)狂人  | 我要投稿

機器之心編輯部

由統(tǒng)一的多模態(tài)理解,邁向通用感知智能。

在邁向通用人工智能(AGI)的諸多可能的方向中,發(fā)展多模態(tài)大模型(MLLM)已然成為當前炙手可熱的重要路徑。在 GPT4 對圖文理解的沖擊下,更多模態(tài)的理解成為學術(shù)界關(guān)注的焦點,通感時代真要來了嗎?

我們知道,人類在學習的過程中不僅僅會接觸到文字、圖像,還會同時接觸聲音、視頻等各種模態(tài)的信息,并在腦中對這些信息同時進行加工處理和統(tǒng)一學習。

那么:人工智能可以具備人類統(tǒng)一學習多模態(tài)信息的能力嗎?事實上,多模態(tài)之間的互補性可以增強人工智能的學習能力,比如,CLIP 將圖像與文本進行統(tǒng)一學習的方式就取得了巨大的成功。但受限于多種模態(tài)之間巨大的差異性以及現(xiàn)有多模態(tài)模型對配對數(shù)據(jù)的依賴性,實現(xiàn)模態(tài)通用感知存在著艱巨挑戰(zhàn)。

為了解決上述挑戰(zhàn),近日,香港中文大學多媒體實驗室聯(lián)合上海人工智能實驗室的研究團隊提出一個統(tǒng)一多模態(tài)學習框架 ——Meta-Transformer,采用全新的設(shè)計思路,通過統(tǒng)一學習無配對數(shù)據(jù),可以理解 12 種模態(tài)信息。

Meta-Transformer 實現(xiàn)骨干網(wǎng)絡(luò)的大一統(tǒng),具有一個模態(tài)共享編碼器,并且無需配對數(shù)據(jù),能夠在 12 個不同的模態(tài)上完成 16 個不同的感知任務(wù)。該工作不僅為當前多模態(tài)學習提供了強大的工具,也給多模態(tài)領(lǐng)域帶來新的設(shè)計思路。

圖 1:Meta-Transformer 框架下統(tǒng)一的多模態(tài)感知,能夠處理 12 種不同的模態(tài)

表 1:相比于現(xiàn)有工作,Meta-Transformer 可以利用統(tǒng)一的模態(tài)共享編碼器來處理更多的模態(tài),并且擺脫了多模態(tài)訓練過程中對于配對數(shù)據(jù)的依賴性。

接下來,一起詳細看一看 Meta-Transformer 的創(chuàng)新與貢獻體現(xiàn)在哪些方面。

Meta-Transformer 通向無限模態(tài)的感知范式

1、統(tǒng)一的模態(tài)共享編碼器

相比于先前 CLIP 使用不同的圖像和文本編碼器,以及 BEIT-3 的部分共享編碼器框架,Meta-Transformer 的核心設(shè)計在于一個所有模態(tài)完全共享的編碼器。該設(shè)計在編碼器層面統(tǒng)一多達 12 個模態(tài),證明了多模態(tài)數(shù)據(jù)完全共享編碼器的可行性。共享編碼器有助于在編碼器階段減小由不同的網(wǎng)絡(luò)參數(shù)引入的表征差異,這離統(tǒng)一的多模態(tài)感知智能更近了一步,即一個通用的網(wǎng)絡(luò)結(jié)構(gòu)處理任意模態(tài)的信息。

Meta-Transformer 可以有效地處理和學習高達 12 種模態(tài)的數(shù)據(jù),從常見的文本、圖像到音頻、視頻,甚至在其他更復雜的數(shù)據(jù)類型上也有所突破,如點云和高光譜數(shù)據(jù)。該設(shè)計有助于拓寬未來的多模態(tài)工作的設(shè)計思路。

圖 2:Meta-Transformer 的框架圖:對于不同模態(tài)的數(shù)據(jù),研究人員基于不同模態(tài)的信息特性設(shè)計了相應(yīng)的特征序列構(gòu)造方式,接著將得到的特征序列輸入到預(yù)訓練后參數(shù)凍結(jié)的編碼器中,由此提取的表征能夠在多個模態(tài)上解決下游多個任務(wù)。

2、無需配對數(shù)據(jù):更加靈活的訓練方式

當前許多模態(tài)工作依賴于內(nèi)容配對的多模態(tài)數(shù)據(jù)來語義對齊兩個模態(tài),但收集生成多個模態(tài)兩兩之間配對的數(shù)據(jù)的高難度限制了當前的多模態(tài)工作推廣到更廣泛的數(shù)據(jù)模態(tài)上。為了緩解這一限制,該研究提出 Data2Seq 方法, 將不同模態(tài)的原數(shù)據(jù)嵌入到一個共同編碼空間,轉(zhuǎn)換成各自對應(yīng) token 序列,隨后使用統(tǒng)一的模態(tài)共享編碼器繼續(xù)編碼 token 序列,因而任一模態(tài)的數(shù)據(jù)就可以訓練 Meta-Transformer 感知相應(yīng)的模態(tài)的能力。實驗表明,Meta-Transformer 能夠在缺少配對數(shù)據(jù)訓練場景下展現(xiàn)優(yōu)異性能。

3、更多模態(tài):通向模態(tài)通用感知

現(xiàn)有的多模態(tài)模態(tài)框架多側(cè)重于視覺和語言,較少衍生到更多其他模態(tài)。相比之下,Meta-Transformer 能夠?qū)τ?12 種不同的數(shù)據(jù)模態(tài)提供一套統(tǒng)一的學習框架,包括文本、圖像、點云、音頻、視頻、紅外、超光譜、X 射線、表格、圖形、時間序列和慣性測量單元(IMU)數(shù)據(jù)。這種廣泛的數(shù)據(jù)模態(tài)覆蓋,極大擴展了 Meta-Transformer 的應(yīng)用范圍,并且 Meta-transformer 框架對于擴展到更多的模態(tài)有著易擴展、低成本、高訓練效率的優(yōu)勢。

Meta-Transformer 的方法介紹

Meta-Transformer 統(tǒng)一處理來自不同模態(tài)的數(shù)據(jù),并通過共享編碼器完成對十二種模態(tài)的編碼。為了實現(xiàn)這一目標,Meta-Transformer 由三個部分組成:Data2Seq tokenization 模塊、統(tǒng)一的共享編碼模塊和下游任務(wù)學習模塊。

首先,研究人員提出了一套處理多模態(tài)數(shù)據(jù)的核心方案:數(shù)據(jù)分組 — 卷積提取局部語義 — 語義聚合 —— 空間映射,將各種模態(tài)的數(shù)據(jù)轉(zhuǎn)換為在同一個共享的嵌入空間內(nèi)的 token 序列。

圖 3:Data-to-Sequence 的設(shè)計方案能夠有效地將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)化為同一個流行嵌入空間內(nèi)的 token 序列,具有極強的模態(tài)拓展性。

緊接著,Meta-Transformer 將使用統(tǒng)一的共享編碼器對上一步得到的的不同模態(tài)的 token 序列進行編碼。研究人員使用 LAION-2B 數(shù)據(jù)集對于骨干網(wǎng)絡(luò)進行預(yù)訓練,在預(yù)訓練之后凍結(jié)了模型參數(shù),得到深度為 L 的 Transformer 編碼器由多個堆疊的多頭自注意力(MSA)層和 MLP 塊組成。輸入的 token 首先進入 MSA 層,然后進入 MLP 塊。然后第 (?- 1) 個 MLP 塊的輸出作為第?個 MSA 層的輸入,層歸一化(LN)被添加到每一層之前。MLP 包含兩個線性 FC 層和一個 GELU 非線性激活層。

最后,在獲得學習表征后,研究人員將表征輸入特定任務(wù)的頭,它主要由 MLP 組成,因模態(tài)和任務(wù)而異。Meta-Transformer 的學習目標可以概括為

其中 h (?),g (?),與 f (?),分別表示 tokenizer,模型骨干網(wǎng)絡(luò),以及下游任務(wù)網(wǎng)絡(luò)中的運算過程。

實驗結(jié)果

Meta-Transformer 具有豐富且優(yōu)秀的實驗結(jié)果。下表 2 展示了 Meta-Transformer 在不同模態(tài)上的實驗內(nèi)容。可以看出,Meta-Transformer 從 12 種模態(tài)中提取表征信息,能夠有效地服務(wù) 16 個不同模態(tài)的下游任務(wù),且擁有出色的性能。

表 2:Meta-Transformer 能處理 12 個模態(tài)的 16 個感知任務(wù).

圖 3:Meta-Transforme 有著優(yōu)秀的多模態(tài)感知能力,在文字、圖像、點云、聲音、紅外、高光譜以及醫(yī)療 X 光圖像理解任務(wù)方面與現(xiàn)有的單模態(tài) SOTA 模型性能相接近,并且在多模態(tài)理解能力方面大幅領(lǐng)先 ImageBind.

對于圖像理解:

如下表 3 所示,與 Swin Transformer 系列和 InternImage 相比,Meta-Transformer 在圖像理解任務(wù)中表現(xiàn)突出。在分類任務(wù)中,Meta-Transformer 與 Meta-Transformer-B16F 和 Meta-Transformer-L14F 在零鏡頭分類下的表現(xiàn)非常好,分別達到了 69.3% 和 75.3%。與此同時,當調(diào)整預(yù)訓練參數(shù)時,Meta-Transformer-B16T 和 Meta-Transformer-L14T 分別達到 85.4% 和 88. 1% 的準確率,超越了現(xiàn)有最先進的方法。在目標檢測與語義分割方面,Meta-Transformer 也提供了出色的性能,進一步證明了其對圖像理解的通用能力。

表 3:Meta-Transformer 對于圖像理解方面的能力,分別在 ImageNet-1K 圖像分類,MS COCO 目標檢測,以及 ADE-20K 的語義分割上進行了評估。

對于點云理解:

表 4 展示了 Meta-Transformer 在點云上的實驗結(jié)果。當在二維數(shù)據(jù)上進行預(yù)訓練時,Meta-Transformer 在 ModelNet-40 上僅用 0.6M 可訓練參數(shù)就達到了 93.6% 的總體準確率(OA),與表現(xiàn)最好的模型不相上下。此外,Meta-Transformer 在 ShapeNetPart 數(shù)據(jù)集中表現(xiàn)出色,僅訓練 2.3M 參數(shù)的情況下,在實例 mIoU 和類別 mIoU 方面都獲得了最好的實驗結(jié)果,分別為 87.0% 和 85.2%。由此可見,Meta-Transformer 在點云理解任務(wù)中表現(xiàn)出了顯著的優(yōu)勢,在可訓練參數(shù)較少的情況下提供了具有競爭力的性能。

表 4:Meta-Transformer 對于點云理解方面的能力,分別在 ModelNet-40 形狀分類,S3DIS 室內(nèi)場景分割,以及 ShapeNet Part 物體分割任務(wù)上進行了評估。

研究結(jié)論

Meta-Transformer 是一種統(tǒng)一的多模態(tài)學習框架,它能處理并關(guān)聯(lián)來自多種模態(tài)的信息,包括自然語言、2D 圖像、3D 點云、音頻、視頻等。它實現(xiàn)了無配對訓練數(shù)據(jù)的場景下進行多模態(tài)感知,是第一個能夠在 12 種模態(tài)上進行統(tǒng)一學習的框架。Meta-Transformer 能夠有助于將多模態(tài)大模型推廣至更多模態(tài),也為實現(xiàn)統(tǒng)一的多模態(tài)智能提供了參考。Meta-Transformer 具有的多模態(tài)感知理解能力也會為人工智能技術(shù)作為服務(wù)全社會的基礎(chǔ)設(shè)施,對于教育、醫(yī)療、娛樂等領(lǐng)域提供更智能、更便捷、更豐富多元的服務(wù)。

不方便下載的,我已經(jīng)整理好放置網(wǎng)盤,

需要論文代碼的可以關(guān)注微信公眾號:AI技術(shù)星球? 發(fā)送:211? 領(lǐng)取



Meta-Transformer實現(xiàn)骨干網(wǎng)絡(luò)大一統(tǒng),12種模態(tài),一個學習框架的評論 (共 條)

分享到微博請遵守國家法律
太原市| 乳源| 花垣县| 东平县| 独山县| 饶阳县| 黑龙江省| 伊吾县| 平远县| 兴文县| 大埔县| 蕉岭县| 马鞍山市| 武隆县| 临汾市| 本溪| 水城县| 萍乡市| 福建省| 沂南县| 吉木萨尔县| 达拉特旗| 宁南县| 同心县| 广宁县| 宜宾市| 阜宁县| 进贤县| 雅安市| 施甸县| 昌吉市| 卢氏县| 林西县| 磐石市| 唐河县| 杭锦旗| 大悟县| 南充市| 华池县| 镇赉县| 三门县|