最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

多模態(tài)學(xué)習(xí)(MultiModel Learning)

2023-07-09 22:36 作者:Tartaether  | 我要投稿

近年來,多模態(tài)計(jì)機(jī)器學(xué)習(xí)在行業(yè)內(nèi)越來越火爆。多模態(tài)學(xué)習(xí)打破了某些領(lǐng)域之間的“分界線”,有望促使人工智能走向統(tǒng)一。

一、定義

多模態(tài)機(jī)器學(xué)習(xí),英文全稱 MultiModal Machine Learning (MMML)

模態(tài)(modal)是事情經(jīng)歷和發(fā)生的方式,我們生活在一個由多種模態(tài)(Multimodal)信息構(gòu)成的世界,包括視覺信息、聽覺信息、文本信息、嗅覺信息等等,當(dāng)研究的問題或者數(shù)據(jù)集包含多種這樣的模態(tài)信息時我們稱之為多模態(tài)問題,研究多模態(tài)問題是推動人工智能更好的了解和認(rèn)知我們周圍世界的關(guān)鍵。

什么是多模態(tài)

1.1 模態(tài)

模態(tài)是指一些表達(dá)或感知事物的方式,每一種信息的來源或者形式,都可以稱為一種模態(tài)。例如,人有觸覺,聽覺,視覺,嗅覺;信息的媒介,有語音、視頻、文字等;多種多樣的傳感器,如雷達(dá)、紅外、加速度計(jì)等。以上的每一種都可以稱為一種模態(tài)。

相較于圖像、語音、文本等多媒體(Multi-media)數(shù)據(jù)劃分形式,“模態(tài)”是一個更為細(xì)粒度的概念,同一媒介下可存在不同的模態(tài)。?比如我們可以把兩種不同的語言當(dāng)做是兩種模態(tài),甚至在兩種不同情況下采集到的數(shù)據(jù)集,亦可認(rèn)為是兩種模態(tài)。

1.2 多模態(tài)

多模態(tài)即是從多個模態(tài)表達(dá)或感知事物。?多模態(tài)可歸類為同質(zhì)性的模態(tài),例如從兩臺相機(jī)中分別拍攝的圖片,異質(zhì)性的模態(tài),例如圖片與文本語言的關(guān)系。

多模態(tài)可能有以下三種形式:

  • 描述同一對象的多媒體數(shù)據(jù)。如互聯(lián)網(wǎng)環(huán)境下描述某一特定對象的視頻、圖片、語音、文本等信息。下圖即為典型的多模態(tài)信息形式。

“下雪”場景的多模態(tài)數(shù)據(jù)(圖像、音頻與文本)
  • 來自不同傳感器的同一類媒體數(shù)據(jù)。如醫(yī)學(xué)影像學(xué)中不同的檢查設(shè)備所產(chǎn)生的圖像數(shù)據(jù), 包括B超(B-Scan ultrasonography)、計(jì)算機(jī)斷層掃描(CT)、核磁共振等;物聯(lián)網(wǎng)背景下不同傳感器所檢測到的同一對象數(shù)據(jù)等。

  • 具有不同的數(shù)據(jù)結(jié)構(gòu)特點(diǎn)、表示形式的表意符號與信息。如描述同一對象的結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)單元;描述同一數(shù)學(xué)概念的公式、邏輯 符號、函數(shù)圖及解釋性文本;描述同一語義的詞向量、詞袋、知識圖譜以及其它語義符號單元等。

通常主要研究模態(tài)包括"3V":即Verbal(文本)、Vocal(語音)、Visual(視覺)。
人跟人交流時的多模態(tài):

multimodel communicative behaviors

1.3 多模態(tài)學(xué)習(xí)

多模態(tài)機(jī)器學(xué)習(xí)是從多種模態(tài)的數(shù)據(jù)中學(xué)習(xí)并且提升自身的算法,它不是某一個具體的算法,它是一類算法的總稱。

語義感知的角度切入,多模態(tài)數(shù)據(jù)涉及不同的感知通道如視覺、聽覺、觸覺、嗅覺所接收到的信息;在數(shù)據(jù)層面理解,多模態(tài)數(shù)據(jù)則可被看作多種數(shù)據(jù)類型的組合,如圖片、數(shù)值、文本、符號、音頻、時間序列,或者集合、樹、圖等不同數(shù)據(jù)結(jié)構(gòu)所組成的復(fù)合數(shù)據(jù)形式,乃至來自不同數(shù)據(jù)庫、不同知識庫的各種信息資源的組合。對多源異構(gòu)數(shù)據(jù)的挖掘分析可被理解為多模態(tài)學(xué)習(xí)。

多模態(tài)學(xué)習(xí)舉例



二、發(fā)展歷史


2.2 計(jì)算時代

二、發(fā)展歷史

多模態(tài)發(fā)展的四個時期



2.1 行為時代

The “behavioral” era (1970s until late 1980s),這一階段主要從心理學(xué)的角度對多模態(tài)這一現(xiàn)象進(jìn)行剖析。

  • Chicago 的McNeill 認(rèn)為手勢是說話人的思考行為,是言語表達(dá)的重要組成部分,而不僅僅是補(bǔ)足。

  • 1976年的McGurk效應(yīng):當(dāng)語音與唇形不符合時,大腦會腦補(bǔ)出中和的聲音MCGURK, H., MACDONALD, J. Hearing lips and seeing voices. Nature 264, 746–748 (1976).?The McGurk Effect Video

2.2 計(jì)算時代

The “computational” era (late 1980s until 2000),這一階段主要利用一些淺層的模型對多模態(tài)問題進(jìn)行研究,其中代表性的應(yīng)用包括視覺語音聯(lián)合識別,多模態(tài)情感計(jì)算等等。

  • 視頻音頻語音識別(AVSR),在聲音的低信噪比下,引入視覺信號能夠極大提升識別準(zhǔn)確率

AVSR


  • 多模態(tài)/多感知接口:情感計(jì)算:與情感或其他情感現(xiàn)象有關(guān)、源于情感或有意影響情感的計(jì)算[Rosalind Picard]

  • 多媒體計(jì)算:CMU曾有過信息媒體數(shù)字視頻庫項(xiàng)目[1994-2010],

2.3 交互時代

The “interaction” era (2000 - 2010),這一階段主要主要從交互的角度入手,研究多模態(tài)識別問題,其中主要的代表作品包括蘋果的語音助手Siri等。

擬人類多模態(tài)交互過程

  • IDIAP實(shí)驗(yàn)室的AMI項(xiàng)目[2001-2006],記錄會議錄音、同步音頻視頻、轉(zhuǎn)錄與注釋;

  • Alex Waibel的CHIL項(xiàng)目,將計(jì)算機(jī)置于人類交互圈中,多傳感器多模態(tài)信號處理,面對面交互

IMI Projet & CHIL Project


  • 2003-2008 SRI的學(xué)習(xí)和組織認(rèn)知助手,個性化助手,Siri就是這個項(xiàng)目的衍生產(chǎn)品

  • 2008-2011 IDIAP的社交信號處理網(wǎng)絡(luò),數(shù)據(jù)庫http://sspnet.eu。

CALO Project & SSP Project


2.4 深度學(xué)習(xí)時代

The “deep learning” era (2010s until …),促使多模態(tài)研究發(fā)展的關(guān)鍵促成因素有4個,1)新的大規(guī)模多模態(tài)數(shù)據(jù)集,2)GPU快速計(jì)算,3)強(qiáng)大的視覺特征抽取能力,4)強(qiáng)大的語言特征抽取能力。

表示學(xué)習(xí)三篇參考文獻(xiàn)

  • Multimodal Deep Learning [ICML 2011]

  • Multimodal Learning with Deep Boltzmann Machines [NIPS 2012]

  • Visual attention: Show, Attend and Tell: Neural Image Caption Generation with Visual Attention [ICML 2015]

三、典型任務(wù)

3.1 跨模態(tài)預(yù)訓(xùn)練

  • 圖像/視頻與語言預(yù)訓(xùn)練。

  • 跨任務(wù)預(yù)訓(xùn)練

3.2 Language-Audio

  • Text-to-Speech Synthesis: 給定文本,生成一段對應(yīng)的聲音。

  • Audio Captioning:給定一段語音,生成一句話總結(jié)并描述主要內(nèi)容。(不是語音識別)

3.3 Vision-Audio

  • Audio-Visual Speech Recognition(視聽語音識別):給定某人的視頻及語音進(jìn)行語音識別。

  • Video Sound Separation(視頻聲源分離):給定視頻和聲音信號(包含多個聲源),進(jìn)行聲源定位與分離。

  • Image Generation from Audio: 給定聲音,生成與其相關(guān)的圖像。

  • Speech-conditioned Face generation:給定一段話,生成說話人的視頻。

  • Audio-Driven 3D Facial Animation:給定一段話與3D人臉模版,生成說話的人臉3D動畫。

3.4 Vision-Language

  • Image/Video-Text Retrieval (圖(視頻)文檢索): 圖像/視頻<–>文本的相互檢索。

  • Image/Video Captioning(圖像/視頻描述):給定一個圖像/視頻,生成文本描述其主要內(nèi)容。

  • Visual Question Answering(視覺問答):給定一個圖像/視頻與一個問題,預(yù)測答案。

  • Image/Video Generation from Text:給定文本,生成相應(yīng)的圖像或視頻。

  • Multimodal Machine Translation:給定一種語言的文本與該文本對應(yīng)的圖像,翻譯為另外一種語言。

  • Vision-and-Language Navigation(視覺-語言導(dǎo)航): 給定自然語言進(jìn)行指導(dǎo),使得智能體根據(jù)視覺傳感器導(dǎo)航到特定的目標(biāo)。

  • Multimodal Dialog(多模態(tài)對話): 給定圖像,歷史對話,以及與圖像相關(guān)的問題,預(yù)測該問題的回答。

3.5 定位相關(guān)的任務(wù)

  • Visual Grounding:給定一個圖像與一段文本,定位到文本所描述的物體。

  • Temporal Language Localization: 給定一個視頻即一段文本,定位到文本所描述的動作(預(yù)測起止時間)。

  • Video Summarization from text query:給定一段話(query)與一個視頻,根據(jù)這段話的內(nèi)容進(jìn)行視頻摘要,預(yù)測視頻關(guān)鍵幀(或關(guān)鍵片段)組合為一個短的摘要視頻。

  • Video Segmentation from Natural Language Query: 給定一段話(query)與一個視頻,分割得到query所指示的物體。

  • Video-Language Inference: 給定視頻(包括視頻的一些字幕信息),還有一段文本假設(shè)(hypothesis),判斷二者是否存在語義蘊(yùn)含(二分類),即判斷視頻內(nèi)容是否包含這段文本的語義。

  • Object Tracking from Natural Language Query: 給定一段視頻和一些文本,追蹤視頻中文本所描述的對象。

  • Language-guided Image/Video Editing: 一句話自動修圖。給定一段指令(文本),自動進(jìn)行圖像/視頻的編輯。

3.6 更多模態(tài)

  • Affect Computing (情感計(jì)算):使用語音、視覺(人臉表情)、文本信息、心電、腦電等模態(tài)進(jìn)行情感識別。

  • Medical Image:不同醫(yī)療圖像模態(tài)如CT、MRI、PETRGB-D模態(tài):RGB圖與深度圖

四、技術(shù)挑戰(zhàn)

多模態(tài)學(xué)習(xí)的技術(shù)挑戰(zhàn)


4.1 表征Representation

第一個基本挑戰(zhàn)是學(xué)習(xí)如何以利用多種模態(tài)的互補(bǔ)性和冗余性的方式表示和總結(jié)多模態(tài)數(shù)據(jù)。多模態(tài)數(shù)據(jù)的異質(zhì)性使得構(gòu)建這樣的表示具有挑戰(zhàn)性。例如,語言通常是象征性的,而音頻和視覺形式將被表示為信號。

單模態(tài)的表征負(fù)責(zé)將信息表示為計(jì)算機(jī)可以處理的數(shù)值向量或者進(jìn)一步抽象為更高層的特征向量,而多模態(tài)表征是指通過利用多模態(tài)之間的互補(bǔ)性,剔除模態(tài)間的冗余性,從而學(xué)習(xí)到更好的特征表示。

Representation


4.1.1 聯(lián)合表征

聯(lián)合表征(Joint Representation)將多個模態(tài)的信息一起映射到一個統(tǒng)一的多模態(tài)向量空間,Joint結(jié)構(gòu)注重捕捉多模態(tài)的互補(bǔ)性,融合多個輸入模x_%7B1%7D%20,x_%7B2%7D獲得多模態(tài)表征x_%7Bm%7D%3Df(x_%7B1%7D%2C...%2Cx_%7Bn%7D),進(jìn)而使x_%7Bm%7D完成某種預(yù)測任務(wù)。


Joint Representation


Multimodal learning with deep boltzmann machines (NIPS 2012)?提出將 deep boltzmann machines(DBM) 結(jié)構(gòu)擴(kuò)充到多模態(tài)領(lǐng)域,通過 Multimodal DBM,可以學(xué)習(xí)到多模態(tài)的聯(lián)合概率分布。

Multimodal DBM 模型


在獲得圖像與文本間的聯(lián)合概率分布后,我們在應(yīng)用階段,輸入圖片,利用條件概率 P(文本|圖片),生成文本特征,可以得到圖片相應(yīng)的文本描述;而輸入文本,利用條件概率 P(圖片|文本),可以生成圖片特征,通過檢索出最靠近該特征向量的兩個圖片實(shí)例,可以得到符合文本描述的圖片。

Multimodal DBM 應(yīng)用


4.1.2 協(xié)同表征

協(xié)同表征(Coordinated Representation)將多模態(tài)中的每個模態(tài)分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關(guān)性約束(例如線性相關(guān))。Coordinated結(jié)構(gòu)并不尋求融合而是建模多種模態(tài)數(shù)據(jù)間的相關(guān)性,它將多個(通常是兩個)模態(tài)映射到協(xié)作空間,表示為:f(x_%7B1%7D)~g(x_%7B2%7D),其中~表示一種協(xié)作關(guān)系。網(wǎng)絡(luò)的優(yōu)化目標(biāo)是這種協(xié)作關(guān)系(通常是相似性,即最小化cosine距離等度量)。

Coordinated Representation


Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)?利用協(xié)同學(xué)習(xí)到的特征向量之間滿足加減算數(shù)運(yùn)算這一特性,可以搜索出與給定圖片滿足“指定的轉(zhuǎn)換語義”的圖片。例如:狗的圖片特征向量 - 狗的文本特征向量 + 貓的文本特征向量 = 貓的圖片特征向量 -> 在特征向量空間,根據(jù)最近鄰距離,檢索得到貓的圖片。

多模態(tài)向量空間運(yùn)算


4.2 翻譯Translation

第二個挑戰(zhàn)涉及如何將數(shù)據(jù)從一種模式轉(zhuǎn)化(映射)到另一種模式。不僅數(shù)據(jù)是異構(gòu)的,而且模態(tài)之間的關(guān)系通常是開放式的或主觀的。例如,存在多種描述圖像的正確方法,并且可能不存在一種完美的翻譯。

4.2.1 常見應(yīng)用

  • 機(jī)器翻譯(Machine Translation):將輸入的語言A(即時)翻譯為另一種語言B。類似的還有唇讀(Lip Reading)和語音翻譯 (Speech Translation),分別將唇部視覺和語音信息轉(zhuǎn)換為文本信息。

  • 圖片描述(Image captioning) 或者視頻描述(Video captioning): 對給定的圖片/視頻形成一段文字描述,以表達(dá)圖片/視頻的內(nèi)容。

  • 語音合成(Speech Synthesis):根據(jù)輸入的文本信息,自動合成一段語音信號。

Translation


4.2.2 基于實(shí)例的方法

基于實(shí)例的方法從詞典中檢索最佳翻譯,詞典一般指訓(xùn)練集中的數(shù)據(jù)對%5Cleft%5C%7B%20%7B(x_%7B1%7D%2Cy_%7B1%7D)%2C...%2C(x_%7BN%7D%2Cy_%7BN%7D)%7D%20%5Cright%5C%7D%20。給定測試樣本%5Chat%7Bx%7D%20,模版法直接檢索在詞典中找到最匹配的翻譯結(jié)果y_%7Bi%7D,并將其作為最終輸出。
檢索可分為單模態(tài)檢索或跨模態(tài)檢索

  • 單模態(tài)檢索首先找到與%5Chat%7Bx%7D%20最相似的x_x_%7Bi%7D,然后獲得x_%7Bi%7D對應(yīng)的y_%7Bi%7D;

  • 多模態(tài)檢索直接在%5Cleft%5C%7B%20y_%7B1%7D%2C...%2Cy_%7BN%7D%20%5Cright%5C%7D%20集合中檢索到與%5Chat%7Bx%7D%20最相似的y_%7Bi%7D,性能通常優(yōu)于單模態(tài)檢索。

為進(jìn)一步增強(qiáng)檢索結(jié)果的準(zhǔn)確性,可選擇top-K的檢索結(jié)果%5Cleft%5C%7B%20%20y_%7Bi1%7D%2Cy_%7Bi2%7D%2C...%2Cy_%7Bik%7D%5Cright%5C%7D%20,再融合K個結(jié)果作為最終輸出。

4.2.3 模型驅(qū)動的方法

基于模型的首先在字典上訓(xùn)練一個翻譯模型,然后使用該模型進(jìn)行翻譯。

  • 基于語法的模型(Grammar-based models)
    即人為設(shè)定多個針對目標(biāo)模態(tài)的語法模版,將模型的預(yù)測結(jié)果插入模版中作為翻譯結(jié)果。以圖像描述為例,模版定義為?(who)?did?(what)?to (whom)?in?a (place)??,其中有四個待替換的插槽。通過不同類型的目標(biāo)/屬性/場景檢測器可以獲得who, what, whom, place等具體單詞,進(jìn)而完成翻譯。

  • 編碼-解碼器模型(Encoder-decoder models)
    首先將源模態(tài)的數(shù)據(jù)編碼為隱特征z,后續(xù)被解碼器用于生成目標(biāo)模態(tài)。以圖像描述為例,編碼器(一般為CNN+spatial pooling)將圖像編碼為一個或多個特征向量,進(jìn)而輸入到RNN中以自回歸的方式生成單詞序列。

  • 連續(xù)型生成模型(Continuous generation models)
    它針對源模態(tài)與目標(biāo)模態(tài)都為流數(shù)據(jù)且在時間上嚴(yán)格對齊的任務(wù)。以文本合成語音為例,它與圖像描述不同,語音數(shù)據(jù)與文本數(shù)據(jù)在時間上嚴(yán)格對齊。WaveNet采用了CNN并行預(yù)測解決該類問題,當(dāng)然,編碼-解碼器理論上也可完成該任務(wù),但需處理數(shù)據(jù)對齊問題。

4.2.4 翻譯的評估困境

多模態(tài)翻譯方法面臨的一個主要挑戰(zhàn)是它們很難評估。語音識別等任務(wù)只有一個正確的翻譯,而語音合成和媒體描述等任務(wù)則沒有。有時,就像在語言翻譯中,多重答案是正確的,決定哪個翻譯更好往往是主觀的。

  • 人工評價是最理想的評估,但是耗時耗錢,且需要多樣化打分人群的背景以避免偏見。

  • 自動化指標(biāo)是視覺描述領(lǐng)域常用的替代方法,包括BLEU,Meteor,CIDEr,ROUGE等,但它們被證實(shí)與人的評價相關(guān)性較弱。

  • 基于檢索的評估弱化任務(wù)(例如:將圖像描述中一對多映射簡化為VQA中一對一的映射)也是解決評估困境的手段。

4.3 對齊Alignment

第三個挑戰(zhàn)是從兩種或多種不同的模態(tài)中識別(子)元素之間的直接關(guān)系。例如,我們可能希望將食譜中的步驟與顯示正在制作的菜肴的視頻對齊。為了應(yīng)對這一挑戰(zhàn),我們需要測量不同模式之間的相似性并處理可能的長期依賴和歧義。

Alignment


4.3.1 顯式對齊

如果模型的主要目標(biāo)是對齊來自兩個或多個模態(tài)的子元素,那么我們將其分類為執(zhí)行顯式對齊。顯式對齊的一個重要工作是相似性度量。大多數(shù)方法都依賴于度量不同模態(tài)的子組件之間的相似性作為基本構(gòu)建塊。

顯式對齊


包括無監(jiān)督和弱監(jiān)督的方法:

  • 無監(jiān)督對齊:給定兩個模態(tài)的數(shù)據(jù)作為輸入,希望模型實(shí)現(xiàn)子元素的對齊,但是訓(xùn)練數(shù)據(jù)沒有“對齊結(jié)果”的標(biāo)注,模型需要同時學(xué)習(xí)相似度度量和對齊方式。

  • 有監(jiān)督對齊:有監(jiān)督方法存在標(biāo)注,可訓(xùn)練模型學(xué)習(xí)相似度度量。

4.3.2 隱式對齊

隱式對齊用作另一個任務(wù)的中間(通常是潛在的)步驟。?這允許在許多任務(wù)中有更好的表現(xiàn),包括語音識別、機(jī)器翻譯、媒體描述和視覺問題回答。這些模型不顯式地對齊數(shù)據(jù),也不依賴于監(jiān)督對齊示例,而是學(xué)習(xí)如何在模型訓(xùn)練期間潛在地對齊數(shù)據(jù)。

隱式對齊


4.4 融合Fusion

第四個挑戰(zhàn)是結(jié)合來自兩個或多個模態(tài)的信息來執(zhí)行預(yù)測。例如,對于視聽語音識別,將嘴唇運(yùn)動的視覺描述與語音信號融合以預(yù)測口語。來自不同模態(tài)的信息可能具有不同的預(yù)測能力和噪聲拓?fù)?,并且可能在至少一種模態(tài)中丟失數(shù)據(jù)。

Fusion
Fusion


4.4.1 模型無關(guān)的方法

  • 早期融合(Early Fusion):指在模型的淺層(或輸入層)將多個模態(tài)的特征拼接起來,然后再級聯(lián)深度網(wǎng)絡(luò)結(jié)構(gòu),最后接上分類器或其他模型。Early Fusion 是學(xué)者對多模態(tài)融合的早期嘗試,通過將各模態(tài)的底層特征進(jìn)行融合學(xué)習(xí)相關(guān)性,由于只需要訓(xùn)練一個共同的模型,復(fù)雜度可控。但是,由于多個模態(tài)的數(shù)據(jù)來源不一致,會給拼接造成很大的難度,并且直接對原始數(shù)據(jù)進(jìn)行拼接會引起較大的特征維度,對數(shù)據(jù)預(yù)處理也非常敏感。

  • 晚期融合(Late Fusion):獨(dú)立訓(xùn)練多個模型,在預(yù)測層(最后一層)進(jìn)行融合,可以理解為集成方法 Ensemble Methods 的一種。Late Fusion 方式的各模態(tài)單獨(dú)處理,特征獨(dú)立互不影響,即使某個模態(tài)信息丟失也可以正常訓(xùn)練,具有很強(qiáng)的靈活性。但是,該方式?jīng)]有充分利用模態(tài)間底層特征的相關(guān)性,并且由于涉及多個模態(tài)的分別訓(xùn)練,也會帶來較大的計(jì)算復(fù)雜度

  • 混合融合(Hybird Fusion):同時結(jié)合前融合和后融合,以及在模型中間層進(jìn)行特征交互。Hybird Fusion是一種逐級融合方式,在不同層級上依次對不同模態(tài)進(jìn)行融合,綜合了上述兩種方式的優(yōu)點(diǎn),既利用了模態(tài)間信息的相關(guān)性,也具有一定的靈活性,目前大部分多模態(tài)融合都是采用這種方法。

4.4.2 基于模型的方法

  • Deep Neural Networks:神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練,使用LSTM、卷積層、注意力層、門機(jī)制、雙線性融合等設(shè)計(jì)序列數(shù)據(jù)或圖像數(shù)據(jù)的復(fù)雜交互。

  • Multiple Kernel learning:多核學(xué)習(xí)(將不同的核用于不同的數(shù)據(jù)模態(tài)/視圖)

  • Graphical models:利用隱馬爾可夫模型或貝葉斯網(wǎng)絡(luò)建模數(shù)據(jù)的聯(lián)合概率分布(生成式)或條件概率(判別式)

4.5 協(xié)同學(xué)習(xí)Co-learning

第五個挑戰(zhàn)是在模態(tài)的表示和它們的預(yù)測模型之間轉(zhuǎn)移知識。協(xié)同學(xué)習(xí)探索了從一種模態(tài)中學(xué)習(xí)的知識如何幫助在不同模態(tài)上訓(xùn)練的計(jì)算模型。當(dāng)其中一種模式的資源有限(例如,帶注釋的數(shù)據(jù))時,這一挑戰(zhàn)尤其重要。輔助模態(tài)(helper modality)通常只參與模型的訓(xùn)練過程,并不參與模型的測試使用過程

Co-learning


4.5.1 并行

需要訓(xùn)練數(shù)據(jù)集,其中來自一種模態(tài)的觀察結(jié)果與來自其他模態(tài)的觀察結(jié)果直接相關(guān),例如在一個視聽語音數(shù)據(jù)集中,視頻和語音樣本來自同一個說話者。

4.5.2 非并行

不需要來自不同模式的觀察結(jié)果之間的直接聯(lián)系,通常通過使用類別重疊來實(shí)現(xiàn)共同學(xué)習(xí),例如,在零樣本學(xué)習(xí)中,使用來自Wikipedia的純文本數(shù)據(jù)集擴(kuò)展傳統(tǒng)的視覺對象識別數(shù)據(jù)集以改進(jìn)視覺對象識別的泛化能力。

4.5.3 混合

通過共享模式或數(shù)據(jù)集橋接

五、SOTA模型 - CLIP

CLIP全稱Contrastive Language-Image Pre-training,是OpenAI最新的一篇NLP和CV結(jié)合的多模態(tài)的工作,在多模態(tài)領(lǐng)域邁出了重要的一步。CLIP在無需利用ImageNet的數(shù)據(jù)和標(biāo)簽進(jìn)行訓(xùn)練的情況下,就可以達(dá)到ResNet50在ImageNet數(shù)據(jù)集上有監(jiān)督訓(xùn)練的結(jié)果。

CLIP Zero shot


CLIP主要的貢獻(xiàn)就是利用無監(jiān)督的文本信息,作為監(jiān)督信號來學(xué)習(xí)視覺特征。

5.1 原理

CLIP不預(yù)先定義圖像和文本標(biāo)簽類別,直接利用從互聯(lián)網(wǎng)爬取的 400 million 個image-text pair 進(jìn)行圖文匹配任務(wù)的訓(xùn)練,并將其成功遷移應(yīng)用于30個現(xiàn)存的計(jì)算機(jī)視覺分類。

語義標(biāo)簽


5.2 流程

  • Contrastive pre-training:預(yù)訓(xùn)練階段,使用圖片 - 文本對進(jìn)行對比學(xué)習(xí)訓(xùn)練;

  • Create dataset classifier from label text:提取預(yù)測類別文本特征;

  • Use for zero-shot predictiion:進(jìn)行 Zero-Shoot 推理預(yù)測;


Contrastive pre-training
Zero-shot


階段1:Contrastive pre-training
在預(yù)訓(xùn)練階段,對比學(xué)習(xí)十分靈活,只需要定義好 正樣本對 和 負(fù)樣本對 就行了,其中能夠配對的 image-text 對即為正樣本。具體來說,先分別對圖像和文本提特征,這時圖像對應(yīng)生成 I1、I2 … In 的特征向量(Image Feature),文本對應(yīng)生成 T1、T2 … Tn 的特征向量(Text Feature),中間對角線為正樣本,其余均為負(fù)樣本。

階段2:Create dataset classifier from label text
基于400M數(shù)據(jù)上學(xué)得的先驗(yàn),僅用數(shù)據(jù)集的標(biāo)簽文本,就可以得到很強(qiáng)的圖像分類性能。現(xiàn)在訓(xùn)練好了,然后進(jìn)入前向預(yù)測階段,通過 prompt label text 來創(chuàng)建待分類的文本特征向量。

階段3:Use for zero-shot predictiion
最后就是推理見證效果的時候,對于測試圖片,選擇相似度最大的那個類別輸出。在推理階段,無論來了張什么樣的圖片,只要扔給 Image Encoder 進(jìn)行特征提取,會生成一個一維的圖片特征向量,然后拿這個圖片特征和 N 個文本特征做余弦相似度對比,最相似的即為想要的那個結(jié)果,比如這里應(yīng)該會得到 “A photo of a guacamole.”,

5.3 實(shí)現(xiàn)

Numpy-like pseudocode for the core of an implementation of CLIP.



5.4 后續(xù)

StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery (ICCV 2021 Oral)
StyleCLIP是結(jié)合CLIP和StyleGAN的一個工作,通過文字上的改變,從而去引導(dǎo)圖像的生成。
https://github.com/orpatashnik/StyleCLIP


StyleCLIP 例子
StyleCLIP 例子


CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders
CLIPDraw也是利用文字來指導(dǎo)圖像生成的一個工作,只是想法更加簡單,不需要進(jìn)行模型訓(xùn)練,而是使用預(yù)訓(xùn)練的 CLIP 語言圖像編碼器作為度量,以最大化給定描述和生成的繪圖之間的相似性,最后就可以生成很多簡筆畫的圖像。

CLIPDraw


ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation / Google
用CLIP來做物體檢測和分割的任務(wù),在CLIP出來一個月半月以后,就Google就出了這篇文章。
作者指出,如果你用傳統(tǒng)的物體檢測方法,算法只能告訴你這些只是玩具,也就是下圖藍(lán)色的base categories,但是當(dāng)你利用了這種自然語言之后,你就拜托了基礎(chǔ)類的這個限制,就可以檢測出來新的類,也就是紅色的noval categories。

ViLD


CLIPasso: Semantically-Aware Object Sketching (SIGGRAPH 2022 Best Paper Award)
用CLIP提煉語義概念,生成圖片目標(biāo)的高度抽象線條畫(速寫)

CLIPasso


應(yīng)用:Contrastive Language-Image Forensic Search
https://github.com/johanmodin/clifs
使用CLIP完成視頻檢索,看一個視頻里面有沒有出現(xiàn)過一個人或者一些場景,通過直接輸入文本的這種形式進(jìn)行檢索。

A truck with the text “odwalla”

A truck with the text "odwalla"


A white BMW car

A white BMW car


參考資料

[1]多模態(tài)學(xué)習(xí)方法綜述 / 陳鵬 / 工程科學(xué)學(xué)報 / 2019
[2]Multimodal Machine Learning: A Survey and Taxonomy / Tadas Baltrusaitis / 2017
[3]MultiModal Machine Learning / Louis-Philippe Morency / CMU
[4]CMU-10707 第二十一講 多模態(tài)機(jī)器學(xué)習(xí) / 華年ss / 知乎
[5]Multimodal Learning with Deep Boltzmann Machines / Nitish Srivastava / 2012
[6]多模態(tài)學(xué)習(xí)綜述及最新方向 / yougeii / 知乎
[7]Learning transferable visual models from natural language supervision / 2021
[8]CLIP: Connecting Text and Images / openai / blog
[9]Awesome-CLIP / yzhuoning

(轉(zhuǎn)載至多模態(tài)學(xué)習(xí)(MultiModal Learning) - 張浩在路上 (imzhanghao.com))

多模態(tài)學(xué)習(xí)(MultiModel Learning)的評論 (共 條)

分享到微博請遵守國家法律
安阳市| 墨玉县| 茂名市| 江北区| 综艺| 定南县| 沭阳县| 叶城县| 泸溪县| 华宁县| 武宁县| 肥西县| 惠州市| 邵武市| 正蓝旗| 大英县| 华容县| 安陆市| 兴和县| 柳河县| 航空| 六安市| 桃园市| 平山县| 吉安市| 明光市| 沙洋县| 宣化县| 郧西县| 广东省| 专栏| 苍梧县| 仲巴县| 客服| 河池市| 馆陶县| 建水县| 平阳县| 海阳市| 犍为县| 旺苍县|