深度動(dòng)作識(shí)別研究綜述——論文筆記
論文原文:??A Comprehensive Study of Deep Video Action Recognition.pdf

Abstract
視頻動(dòng)作識(shí)別是視頻理解的代表性任務(wù)之一。在過去的十年中,由于深度學(xué)習(xí)的出現(xiàn),我們見證了視頻動(dòng)作識(shí)別的巨大進(jìn)步。但我們也遇到了新的挑戰(zhàn),包括在視頻中建模長期時(shí)間信息,高計(jì)算成本,以及由于數(shù)據(jù)集和評(píng)估協(xié)議的差異導(dǎo)致的無法比較的結(jié)果。在本文中,我們對(duì)200多篇關(guān)于視頻動(dòng)作識(shí)別的深度學(xué)習(xí)的現(xiàn)有論文進(jìn)行了全面的調(diào)查。我們首先介紹了影響模型設(shè)計(jì)的17個(gè)視頻動(dòng)作識(shí)別數(shù)據(jù)集。然后,我們按照時(shí)間順序介紹視頻動(dòng)作識(shí)別模型:從適應(yīng)深度學(xué)習(xí)的早期嘗試開始,然后是雙流網(wǎng)絡(luò),然后是3D卷積核的采用,最后是最近的計(jì)算效率模型。此外,我們在幾個(gè)代表性的數(shù)據(jù)集和發(fā)布代碼上對(duì)流行的方法進(jìn)行了基準(zhǔn)測試,以提高可再現(xiàn)性。最后,我們討論了視頻動(dòng)作識(shí)別的開放性問題,并闡明了視頻動(dòng)作識(shí)別的機(jī)遇,以促進(jìn)新的研究思路。
Introduction
視頻理解中最重要的任務(wù)之一是了解人類的行為。它有許多真實(shí)世界的應(yīng)用,包括行為分析、視頻檢索、人機(jī)交互、游戲和娛樂。人類行為理解包括識(shí)別、定位和預(yù)測人類行為。識(shí)別視頻中人類動(dòng)作的任務(wù)稱為視頻動(dòng)作識(shí)別。在圖1中,我們可視化了幾個(gè)帶有相關(guān)動(dòng)作標(biāo)簽的視頻幀,它們是典型的人類日?;顒?dòng),比如握手和騎自行車。

近十年來,隨著高質(zhì)量大規(guī)模動(dòng)作識(shí)別數(shù)據(jù)集的出現(xiàn),人們對(duì)視頻動(dòng)作識(shí)別的研究興趣日益濃厚。我們在圖2中總結(jié)了流行的動(dòng)作識(shí)別數(shù)據(jù)集的統(tǒng)計(jì)。

我們看到視頻和類的數(shù)量都在快速增長,例如,從HMDB51[109]中的7K個(gè)視頻超過51個(gè)類,到Y(jié)ouTube8M[1]中的8M個(gè)視頻超過3862個(gè)類。此外,新數(shù)據(jù)集發(fā)布的速度也在增加:2011年至2015年發(fā)布了3個(gè)數(shù)據(jù)集,而2016年至2020年發(fā)布了13個(gè)數(shù)據(jù)集。
由于大規(guī)模數(shù)據(jù)集的可用性和深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的視頻動(dòng)作識(shí)別模型也快速增長。在圖3中,我們按時(shí)間順序展示了最近的代表性工作。DeepVideo[99]是最早將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于視頻的嘗試之一。我們在這里觀察到三個(gè)趨勢。第一種趨勢由關(guān)于雙流網(wǎng)絡(luò)的開創(chuàng)性論文開始[187],通過在光流流上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),增加了第二種路徑來學(xué)習(xí)視頻中的時(shí)間信息。它的巨大成功激發(fā)了大量后續(xù)論文,如TDD[214]、LRCN[37]、Fusion[50]、TSN[218]等。第二個(gè)趨勢是使用3D卷積核來建模視頻時(shí)間信息,如I3D [14], R3D [74], S3D [239], Non-local [219], SlowFast[45]等。最后,第三個(gè)趨勢是將計(jì)算效率擴(kuò)展到更大的數(shù)據(jù)集,以便在實(shí)際應(yīng)用中采用。例如:Hidden TSN [278], TSM [128], X3D [44], TVN[161]等。

盡管有大量基于深度學(xué)習(xí)的視頻動(dòng)作識(shí)別模型,但還沒有專門針對(duì)這些模型的全面調(diào)查。以前的調(diào)查論文要么將更多精力放在手工制作的特征上[77,173],要么關(guān)注更廣泛的主題,如視頻字幕[236]、視頻預(yù)測[104]、視頻動(dòng)作檢測[261]和零樣本視頻動(dòng)作識(shí)別[96]。在本文中:
我們?nèi)婊仡櫫?00多篇關(guān)于視頻動(dòng)作識(shí)別的深度學(xué)習(xí)的論文。我們按時(shí)間順序和系統(tǒng)地向讀者介紹最近的進(jìn)展,并詳細(xì)解釋了流行的論文。
我們在相同的數(shù)據(jù)集上對(duì)廣泛采用的方法進(jìn)行了準(zhǔn)確性和效率方面的基準(zhǔn)測試。我們還發(fā)布了完全可再現(xiàn)性的實(shí)現(xiàn)https://cv.gluon.ai/model_zoo/action_recognition.html。
我們詳細(xì)闡述了該領(lǐng)域的挑戰(zhàn)、開放問題和機(jī)遇,以促進(jìn)未來的研究。
綜述的其余部分安排如下。在第二節(jié)中我們首先描述了用于基準(zhǔn)測試的流行數(shù)據(jù)集和存在的挑戰(zhàn)。然后在第三節(jié)中我們介紹了使用深度學(xué)習(xí)進(jìn)行視頻動(dòng)作識(shí)別的最新進(jìn)展,這是本綜述的主要貢獻(xiàn)。在第4節(jié)中,我們對(duì)標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集上廣泛采用的方法進(jìn)行評(píng)估,并在第5節(jié)中提供討論和未來的研究機(jī)會(huì)。
Datasets and Challenges
Datasets
深度學(xué)習(xí)方法通常會(huì)隨著訓(xùn)練數(shù)據(jù)量的增加而提高精度。對(duì)于視頻動(dòng)作識(shí)別,這意味著我們需要大規(guī)模的標(biāo)注數(shù)據(jù)集來學(xué)習(xí)有效的模型。
對(duì)于視頻動(dòng)作識(shí)別任務(wù),數(shù)據(jù)集的構(gòu)建通常采用以下過程:(1)定義一個(gè)動(dòng)作列表,結(jié)合以前動(dòng)作識(shí)別數(shù)據(jù)集的標(biāo)簽,并根據(jù)用例添加新的類別。(2)通過將視頻標(biāo)題/字幕與動(dòng)作列表進(jìn)行匹配,從YouTube、電影等多種來源獲取視頻。(3)手動(dòng)提供時(shí)態(tài)注釋來指示動(dòng)作的起始和結(jié)束位置,(4)最后通過去重復(fù)和過濾噪聲類/樣本來清理數(shù)據(jù)集。下面我們回顧表1和圖2中最流行的大規(guī)模視頻動(dòng)作識(shí)別數(shù)據(jù)集。

HMDB51[109]于2011年推出。它主要是從電影中收集的,也有一小部分來自公共數(shù)據(jù)集,如Prelinger檔案、YouTube和谷歌視頻。該數(shù)據(jù)集包含6849個(gè)剪輯,分為51個(gè)動(dòng)作類別,每個(gè)動(dòng)作類別至少包含101個(gè)剪輯。該數(shù)據(jù)集有三個(gè)正式的拆分。大多數(shù)以前的論文要么報(bào)告了第一個(gè)分割點(diǎn)的分類準(zhǔn)確率,要么報(bào)告了三個(gè)分割點(diǎn)的平均精度。
UCF101[190]于2012年推出,是以前的UCF50數(shù)據(jù)集的擴(kuò)展。它包含了來自YouTube的13320個(gè)視頻,涉及101種人類行為。該數(shù)據(jù)集有三個(gè)與HMDB51類似的官方拆分,并且也以相同的方式進(jìn)行評(píng)估。
Sports1M[99]于2014年推出,是第一個(gè)大規(guī)模視頻動(dòng)作數(shù)據(jù)集,由100多萬個(gè)YouTube視頻組成,其中標(biāo)注了487節(jié)運(yùn)動(dòng)類。類別是細(xì)粒度的,這導(dǎo)致了較低的類間差異。它有一個(gè)官方的10折交叉驗(yàn)證部分用于評(píng)估。
ActivityNet[40]最初于2015年推出,ActivityNet系列自首次推出以來已有多個(gè)版本。最新的ActivityNet 200 (V1.3)包含200個(gè)人類日常生活行為。它有10,024個(gè)訓(xùn)練視頻,4,926個(gè)驗(yàn)證視頻和5,044個(gè)測試視頻。平均每個(gè)類有137個(gè)未裁剪的視頻,每個(gè)視頻有1.41個(gè)活動(dòng)實(shí)例。
YouTube8M[1]于2016年推出,是迄今為止規(guī)模最大的視頻數(shù)據(jù)集,包含800萬個(gè)YouTube視頻(總計(jì)50萬小時(shí)的視頻),并用3862個(gè)動(dòng)作類進(jìn)行注釋。每個(gè)視頻由YouTube視頻注釋系統(tǒng)用一個(gè)或多個(gè)標(biāo)簽進(jìn)行注釋。該數(shù)據(jù)集按70:20:10的比例分為訓(xùn)練、驗(yàn)證和測試三部分。該數(shù)據(jù)集的驗(yàn)證集還擴(kuò)展了人工驗(yàn)證的片段標(biāo)注,以提供時(shí)間定位信息。
Charades[186]于2016年被引入,作為現(xiàn)實(shí)生活中并發(fā)動(dòng)作理解的數(shù)據(jù)集。它包含9,848個(gè)視頻,平均長度為30秒。這個(gè)數(shù)據(jù)集包括267個(gè)不同的人進(jìn)行的157項(xiàng)多標(biāo)簽的日常室內(nèi)活動(dòng)。它有一個(gè)官方的訓(xùn)練驗(yàn)證分割,有7985個(gè)訓(xùn)練視頻和剩余的1863個(gè)驗(yàn)證視頻。
Kinetics Family現(xiàn)在是采用最廣泛的基準(zhǔn)。Kinetics400[100]于2017年推出,它包括大約24萬個(gè)訓(xùn)練和2萬個(gè)驗(yàn)證視頻,從400個(gè)人類行動(dòng)類別中裁剪到10秒。Kinetics家族繼續(xù)擴(kuò)大,2018年發(fā)布的Kinetics-600[12]有48萬個(gè)視頻,2019年發(fā)布的Kinetics700[13]有650K的視頻。
200BN -Something - Something [69] V1于2017年推出,V2于2018年推出。這個(gè)系列是另一個(gè)流行的基準(zhǔn)測試,它由174個(gè)操作類組成,描述了人類對(duì)日常對(duì)象執(zhí)行的基本操作。V1有108,499個(gè)視頻,V2有220,847個(gè)視頻。注意Something - Something數(shù)據(jù)集需要強(qiáng)大的時(shí)間建模,因?yàn)榇蠖鄶?shù)活動(dòng)不能僅根據(jù)空間特征推斷(例如打開某物,用某物覆蓋某物)。
AVA[70]于2017年引入,是首個(gè)大規(guī)模時(shí)空行為檢測數(shù)據(jù)集。它包含430個(gè)15分鐘的視頻剪輯,帶有80個(gè)原子動(dòng)作標(biāo)簽(只有60個(gè)標(biāo)簽用于評(píng)估)。在每個(gè)關(guān)鍵幀上提供標(biāo)注,導(dǎo)致214,622個(gè)訓(xùn)練樣本、57,472個(gè)驗(yàn)證樣本和120,322個(gè)測試樣本。AVA數(shù)據(jù)集最近擴(kuò)展為AVA- kinetics,有352,091個(gè)訓(xùn)練樣本,89,882個(gè)驗(yàn)證樣本和182,457個(gè)測試樣本[117]。
Moments in Time[142]于2018年推出,它是一個(gè)用于理解事件的大型數(shù)據(jù)集。它包含一百萬個(gè)3秒的視頻剪輯,用一個(gè)包含339個(gè)類的字典進(jìn)行注釋。不同于其他為理解人類行為而設(shè)計(jì)的數(shù)據(jù)集,Moments in Time數(shù)據(jù)集涉及人、動(dòng)物、物體和自然現(xiàn)象。該數(shù)據(jù)集在2019年擴(kuò)展到Multi-Moments in Time (M-MiT)[143],將視頻數(shù)量增加到102萬個(gè),修剪模糊類,并增加每個(gè)視頻的標(biāo)簽數(shù)量。
HACS[267]于2019年推出,是一個(gè)從網(wǎng)絡(luò)視頻中收集的用于識(shí)別和定位人類行為的新的大規(guī)模數(shù)據(jù)集。它包括兩種手動(dòng)標(biāo)注。HACS剪輯包含50K視頻1.55M 2秒的剪輯注釋,HACS片段包含50K視頻140K完整動(dòng)作片段(從動(dòng)作開始到結(jié)束)。這些視頻使用ActivityNet (V1.3)[40]中使用的200個(gè)人類動(dòng)作類進(jìn)行注釋。
HVU[34]數(shù)據(jù)集于2020年發(fā)布,用于多標(biāo)簽多任務(wù)視頻理解。這個(gè)數(shù)據(jù)集有572K個(gè)視頻和3142個(gè)標(biāo)簽。官方拆分有481K, 31K和65K的視頻分別用于訓(xùn)練,驗(yàn)證和測試。這個(gè)數(shù)據(jù)集有6個(gè)任務(wù)類別:場景、對(duì)象、動(dòng)作、事件、屬性和概念。平均而言,每個(gè)標(biāo)簽大約有2112個(gè)樣本。視頻時(shí)長不超過10秒。
AViD[165]于2020年作為匿名動(dòng)作識(shí)別的數(shù)據(jù)集被引入。它包含410K的培訓(xùn)視頻和40K的測試視頻。每個(gè)視頻剪輯持續(xù)時(shí)間在3-15秒之間,總共有887個(gè)動(dòng)作類。在數(shù)據(jù)收集過程中,作者試圖從不同的國家收集數(shù)據(jù),以處理數(shù)據(jù)偏差。他們還刪除了面部身份,以保護(hù)視頻制作者的隱私。因此,對(duì)于識(shí)別與面部相關(guān)的動(dòng)作,AViD數(shù)據(jù)集可能不是一個(gè)合適的選擇。
在我們按時(shí)間順序回顧這些方法之前,我們先展示圖4中來自上述數(shù)據(jù)集的幾個(gè)可視化示例,以展示它們的不同特征。在最上面的兩行中,我們從UCF101[190]和Kinetics400[100]數(shù)據(jù)集中選取動(dòng)作類。有趣的是,我們發(fā)現(xiàn)這些行為有時(shí)僅由情境或場景決定。例如,該模型可以預(yù)測騎自行車的動(dòng)作,只要它識(shí)別出視頻幀中的自行車。如果該模型識(shí)別出了板球場,它還可以預(yù)測板球投球的動(dòng)作。因此,對(duì)于這些類別,視頻動(dòng)作識(shí)別可能成為一個(gè)對(duì)象/場景分類問題,而不需要推理運(yùn)動(dòng)/時(shí)間信息。在中間兩行,我們從Something-Something數(shù)據(jù)集[69]中選擇動(dòng)作類。該數(shù)據(jù)集中于人與對(duì)象的交互,因此它更細(xì)粒度,需要強(qiáng)大的時(shí)間建模。例如,如果我們只看掉東西和撿起東西的第一幀,而不看其他視頻幀,就不可能區(qū)分這兩個(gè)動(dòng)作。在最下面一行,我們從Moments In Time數(shù)據(jù)集[142]中選擇動(dòng)作類。這個(gè)數(shù)據(jù)集不同于大多數(shù)視頻動(dòng)作識(shí)別數(shù)據(jù)集,它被設(shè)計(jì)為具有較大的類間和類內(nèi)變化,以在不同抽象級(jí)別上代表動(dòng)態(tài)事件。例如,攀爬動(dòng)作可以在不同的環(huán)境(樓梯或樹)中有不同的演員(人或動(dòng)物)。

Challenges
在開發(fā)有效的視頻動(dòng)作識(shí)別算法方面存在幾個(gè)主要的挑戰(zhàn)。
在數(shù)據(jù)集方面,首先,為訓(xùn)練動(dòng)作識(shí)別模型定義標(biāo)簽空間是非常重要的。這是因?yàn)槿祟愋袨橥ǔJ菑?fù)合概念,這些概念的層次結(jié)構(gòu)沒有明確定義。其次,為動(dòng)作識(shí)別標(biāo)注視頻很費(fèi)力(例如,需要觀看所有的視頻幀),并且不明確(例如,很難確定動(dòng)作的確切開始和結(jié)束)。第三,一些流行的基準(zhǔn)數(shù)據(jù)集(如Kinetics系列)只發(fā)布視頻鏈接供用戶下載,而不發(fā)布實(shí)際視頻,導(dǎo)致對(duì)方法的評(píng)估基于不同的數(shù)據(jù)。在方法之間進(jìn)行公平的比較并獲得洞察力是不可能的。
在建模方面,首先,捕捉人類行為的視頻既有強(qiáng)烈的類內(nèi)變化,也有類間變化。人們可以在不同的視點(diǎn)下以不同的速度執(zhí)行相同的動(dòng)作。此外,有些動(dòng)作具有相似的運(yùn)動(dòng)模式,很難區(qū)分。其次,識(shí)別人類行為需要同時(shí)理解短期特定動(dòng)作的運(yùn)動(dòng)信息和長期時(shí)間信息。我們可能需要一個(gè)復(fù)雜的模型來處理不同的視角,而不是使用單一的卷積神經(jīng)網(wǎng)絡(luò)。第三,訓(xùn)練和推理的計(jì)算成本都很高,阻礙了動(dòng)作識(shí)別模型的開發(fā)和部署。在下一節(jié)中,我們將演示視頻動(dòng)作識(shí)別方法在過去十年中如何發(fā)展,以解決上述挑戰(zhàn)。
An Odyssey(探索) of Using Deep Learning for Video Action Recognition
在本節(jié)中,我們回顧了2014年至今基于深度學(xué)習(xí)的視頻動(dòng)作識(shí)別方法,并介紹了相關(guān)的早期工作。
從手工制作的特征到CNN
盡管已有一些論文使用卷積神經(jīng)網(wǎng)絡(luò)(cnn)進(jìn)行視頻動(dòng)作識(shí)別,但[200,5,91]、手工制作特征[209,210,158,112],特別是改進(jìn)密集軌跡(IDT)[210],由于其準(zhǔn)確性高、魯棒性好,在2015年之前的視頻理解文獻(xiàn)中占主導(dǎo)地位。然而,手工制作的特性具有沉重的計(jì)算成本[244],并且難以擴(kuò)展和部署。
隨著深度學(xué)習(xí)的興起[107],研究人員開始利用CNN解決視頻問題。開創(chuàng)性的研究DeepVideo[99]提出在每個(gè)視頻幀上單獨(dú)使用一個(gè)2D CNN模型,并研究了幾種時(shí)間連接模式來學(xué)習(xí)視頻動(dòng)作識(shí)別的時(shí)空特征,如后期融合、早期融合和慢融合。盡管該模型在后來被證明是有用的想法(如多分辨率網(wǎng)絡(luò))上取得了早期進(jìn)展,但其在UCF101[190]上的遷移學(xué)習(xí)性能比手工制作的IDT特征低20% (65.4% vs 87.9%)。此外,DeepVideo[99]發(fā)現(xiàn),當(dāng)輸入變?yōu)橐欢褞瑫r(shí),由單個(gè)視頻幀提供的網(wǎng)絡(luò)的性能同樣良好。這一觀察可能表明,習(xí)得的時(shí)空特征沒有很好地捕捉到運(yùn)動(dòng)。它還鼓勵(lì)人們思考,為什么CNN模型在視頻領(lǐng)域沒有表現(xiàn)出傳統(tǒng)手工制作的特征,而不像在其他計(jì)算機(jī)視覺任務(wù)中[107,171]。
雙流網(wǎng)絡(luò)
由于視頻理解需要直觀的運(yùn)動(dòng)信息,尋找合適的方式描述幀之間的時(shí)間關(guān)系對(duì)于提高基于CNN的視頻動(dòng)作識(shí)別性能至關(guān)重要。
光流[79]是描述物體/場景運(yùn)動(dòng)的有效運(yùn)動(dòng)表示方法。確切地說,它是由觀察者和場景之間的相對(duì)運(yùn)動(dòng)引起的視覺場景中物體、表面和邊緣的明顯運(yùn)動(dòng)模式。我們在圖5中展示了幾個(gè)光流的可視化圖。我們可以看到,光流能夠準(zhǔn)確地描述每個(gè)動(dòng)作的運(yùn)動(dòng)模式。與RGB圖像相比,使用光流的優(yōu)點(diǎn)是提供了正交信息。例如,圖5底部的兩個(gè)圖像的背景很混亂。光流可以有效去除靜止背景,與使用原始RGB圖像作為輸入相比,學(xué)習(xí)問題更簡單。此外,光流已被證明在視頻問題上效果很好。傳統(tǒng)的手工特征,如IDT[210],也包含類似光流的特征,如光流直方圖(HOF)和運(yùn)動(dòng)邊界直方圖(MBH)。

因此,Simonyan等人。[187]提出了雙流網(wǎng)絡(luò),它包括空間流和時(shí)間流,如圖6所示。該方法與雙流假說[65]有關(guān),根據(jù)該假說,人眼視皮層包含兩條路徑:腹流(執(zhí)行物體識(shí)別)和背流(識(shí)別運(yùn)動(dòng))??臻g流將原始視頻幀作為輸入以捕獲視覺外觀信息。時(shí)間流將一疊光流圖像作為輸入,以捕捉視頻幀之間的運(yùn)動(dòng)信息。具體地說,[187]將估計(jì)流的水平和垂直分量(即,x方向和y方向上的運(yùn)動(dòng))線性地重新縮放到[0,255]范圍,并使用JPEG進(jìn)行壓縮。輸出對(duì)應(yīng)于圖6中所示的兩個(gè)光流圖像。壓縮后的光流圖像將被連接為具有H×W×2L維度的時(shí)間流的輸入,其中H、W和L表示視頻幀的高度、寬度和長度。最后,將兩個(gè)流的預(yù)測得分求平均,得到最終的預(yù)測結(jié)果。
通過添加額外的時(shí)間流,基于CNN的方法第一次獲得了與UCF101(88.0%比87.9%)和HMDB51[109](59.4%比61.1%)上之前最好的手工特征IDT相似的性能。[187]提出了兩點(diǎn)重要的意見。首先,運(yùn)動(dòng)信息對(duì)于視頻動(dòng)作識(shí)別非常重要。其次,對(duì)于CNN來說,直接從原始視頻幀中學(xué)習(xí)時(shí)間信息仍然具有挑戰(zhàn)性。預(yù)計(jì)算光流作為運(yùn)動(dòng)表示,是深度學(xué)習(xí)展示其威力的有效途徑。[187]由于成功地縮小了深度學(xué)習(xí)方法與傳統(tǒng)手工特征之間的差距,出現(xiàn)了許多關(guān)于雙流網(wǎng)絡(luò)的后續(xù)論文,極大地推動(dòng)了視頻動(dòng)作識(shí)別的發(fā)展。在這里,我們將它們分為幾個(gè)類別,并逐個(gè)進(jìn)行審查。

使用更深層次的網(wǎng)絡(luò)架構(gòu)
雙流網(wǎng)絡(luò)[187]使用相對(duì)淺的網(wǎng)絡(luò)體系結(jié)構(gòu)[107]。因此,雙流網(wǎng)絡(luò)的自然擴(kuò)展涉及使用更深層次的網(wǎng)絡(luò)。然而,Wang et al.[215]發(fā)現(xiàn)簡單地使用更深的網(wǎng)絡(luò)并不能產(chǎn)生更好的結(jié)果,這可能是由于對(duì)小尺寸視頻數(shù)據(jù)集的過度匹配[190,109]?;叵胍幌碌?.1節(jié),UCF101和HMDB51數(shù)據(jù)集只有數(shù)千個(gè)培訓(xùn)視頻。因此,Wang等人。[217]介紹了交叉通道初始化、同步批量歸一化、角點(diǎn)裁剪和多尺度裁剪數(shù)據(jù)增強(qiáng)、大丟失率等一系列好的做法,以防止更深層次的網(wǎng)絡(luò)過度擬合。通過這些良好實(shí)踐,[217]能夠使用VGG16模型[188]訓(xùn)練一個(gè)雙流網(wǎng)絡(luò),該網(wǎng)絡(luò)在UCF101上的性能遠(yuǎn)遠(yuǎn)超過[187]。這些良好做法已被廣泛采納,并仍在使用。后來,時(shí)間段網(wǎng)絡(luò)(TSN)[218]對(duì)網(wǎng)絡(luò)體系結(jié)構(gòu)進(jìn)行了深入的研究,如VGG16、ResNet[76]、Inception[198],并證明了較深的網(wǎng)絡(luò)通??梢垣@得更高的視頻動(dòng)作識(shí)別準(zhǔn)確率。我們將在第3.2.4節(jié)中介紹有關(guān)TSN的更多詳細(xì)信息。
雙流融合
由于雙流網(wǎng)絡(luò)中有兩個(gè)流,因此需要一個(gè)階段來合并兩個(gè)網(wǎng)絡(luò)的結(jié)果以獲得最終的預(yù)測。這一階段通常被稱為時(shí)空融合步驟。
最簡單和最直接的方法是Late Fusion,它對(duì)兩個(gè)流的預(yù)測進(jìn)行加權(quán)平均。盡管晚期融合被廣泛采用[187,217],但許多研究人員認(rèn)為,這可能不是融合空間外觀流和時(shí)間運(yùn)動(dòng)流之間的信息的最佳方式。他們認(rèn)為,在模型學(xué)習(xí)期間,兩個(gè)網(wǎng)絡(luò)之間的早期交互可能會(huì)使兩個(gè)流都受益,這被稱為早期融合。
Fusion[50]是研究早期融合范例的首批論文之一,包括如何執(zhí)行空間融合(例如,使用諸如總和、最大值、雙線性、卷積和級(jí)聯(lián)等運(yùn)算符)、在哪里融合網(wǎng)絡(luò)(例如,發(fā)生早期交互的網(wǎng)絡(luò)層)以及如何執(zhí)行時(shí)間融合(例如,在網(wǎng)絡(luò)的較后階段使用2D或3D卷積融合)。[50]表明早期融合有利于兩個(gè)流學(xué)習(xí)更豐富的特征,并導(dǎo)致比后期融合更好的性能。沿著這一研究路線,F(xiàn)eichtenhofer等人。[46]通過在兩個(gè)流之間引入剩余連接,將ResNet[76]推廣到時(shí)空域。在[46]的基礎(chǔ)上,F(xiàn)eichtenhofer et al.[47]進(jìn)一步提出了一種用于殘差網(wǎng)絡(luò)的乘性門限函數(shù),以更好地學(xué)習(xí)時(shí)空特征。同時(shí),[225]采用時(shí)空金字塔在兩個(gè)流之間進(jìn)行分層早期融合。
循環(huán)神經(jīng)網(wǎng)絡(luò)
由于視頻本質(zhì)上是一個(gè)時(shí)間序列,研究人員探索了用于視頻中的時(shí)間建模的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),特別是對(duì)長短期記憶(LSTM)的使用[78]。
LRCN[37]和Beyond-Short-SnipSets[253]是在雙流網(wǎng)絡(luò)環(huán)境下使用LSTM進(jìn)行視頻動(dòng)作識(shí)別的幾篇論文中的第一篇。
它們將CNN的特征映射作為深度LSTM網(wǎng)絡(luò)的輸入,并將幀級(jí)別的CNN特征聚合為視頻級(jí)別的預(yù)測。請注意,他們分別對(duì)兩個(gè)流使用LSTM,最終結(jié)果仍然是通過后期融合獲得的。然而,與雙流基線[187]相比,LSTM模型[253]并沒有明顯的經(jīng)驗(yàn)改進(jìn)。根據(jù)CNN-LSTM的框架,提出了幾種變體,如雙向LSTM[205]、CNN-LSTM融合[56]和分層多粒度LSTM網(wǎng)絡(luò)[118]。[125]描述了視頻LSTM,它包括基于相關(guān)性的空間注意機(jī)制和基于輕量級(jí)運(yùn)動(dòng)的注意機(jī)制。VideoLSTM不僅顯示了動(dòng)作識(shí)別的改進(jìn)結(jié)果,而且還演示了如何通過僅依賴動(dòng)作類標(biāo)簽來將學(xué)習(xí)到的注意力用于動(dòng)作定位。格子-LSTM[196]通過學(xué)習(xí)單個(gè)空間位置的存儲(chǔ)單元的獨(dú)立隱藏狀態(tài)轉(zhuǎn)變來擴(kuò)展LSTM,因此它可以準(zhǔn)確地模擬長期和復(fù)雜的運(yùn)動(dòng)。ShuttleNet[183]是一個(gè)并行工作,它同時(shí)考慮RNN中的前饋和反饋連接,以學(xué)習(xí)長期依賴關(guān)系。FASTER[272]設(shè)計(jì)了一個(gè)FAST-GRU,可以從昂貴的主干和廉價(jià)的主干中聚合剪輯級(jí)的特征。該策略降低了冗余片段的處理代價(jià),從而加快了推理速度。
然而,上面提到的工作[37,253,125,196,183]使用不同的雙流網(wǎng)絡(luò)/骨干。因此,使用RNN的各種方法之間的差異尚不清楚。Ma等[135]建立了一個(gè)較強(qiáng)的基線進(jìn)行公平比較,并深入研究了利用學(xué)習(xí)時(shí)空特征的效果。他們發(fā)現(xiàn)提高性能需要適當(dāng)?shù)淖⒁?,例如,LSTM需要預(yù)先分段的數(shù)據(jù)來充分利用時(shí)間信息。視頻動(dòng)作定位[189]和視頻問答[274]也對(duì)進(jìn)行了深入研究,但這些都超出了本次調(diào)查的范圍。
基于分段的方法
多虧了光流,雙流網(wǎng)絡(luò)能夠?qū)g的短期運(yùn)動(dòng)信息進(jìn)行推理。然而,它們?nèi)匀粺o法捕獲遠(yuǎn)程的時(shí)間信息。受雙流網(wǎng)絡(luò)的這種弱點(diǎn)的驅(qū)使,Wang等人。[218]提出了一種時(shí)間分段網(wǎng)絡(luò)(TSN)來進(jìn)行視頻級(jí)動(dòng)作識(shí)別。雖然最初建議與2D CNN一起使用,但它很簡單和通用。因此,最近使用2D或3D CNN的工作仍然建立在這個(gè)框架上。
具體來說,如圖6所示,TSN首先將整個(gè)視頻分成若干段,這些段沿時(shí)間維均勻分布。然后TSN在每個(gè)片段中隨機(jī)選擇一個(gè)視頻幀,通過網(wǎng)絡(luò)轉(zhuǎn)發(fā)。在這里,網(wǎng)絡(luò)共享來自所有段的輸入幀的權(quán)重。最后,通過分段共識(shí)從采樣的視頻幀中聚合信息。分段共識(shí)可以是平均池化、最大池化、雙線性編碼等操作。從這個(gè)意義上說,TSN能夠模擬長程時(shí)間結(jié)構(gòu),因?yàn)槟P褪菑恼麄€(gè)視頻中看到的內(nèi)容。此外,這種稀疏采樣策略降低了長視頻序列的訓(xùn)練成本,但保留了相關(guān)信息。
由于TSN具有良好的性能和簡單性,大多數(shù)雙流方法后來都變成了基于段的雙流網(wǎng)絡(luò)。由于分段共識(shí)只是做一個(gè)max或average pooling操作,特征編碼步驟可以生成一個(gè)全局視頻特征,并像傳統(tǒng)方法中建議的那樣提高性能[179,97,157]。深度局部視頻特征(Deep Local Video Feature, DVOF)[114]提出將經(jīng)過局部輸入訓(xùn)練的深度網(wǎng)絡(luò)作為特征提取器,訓(xùn)練另一個(gè)編碼函數(shù)將全局特征映射到全局標(biāo)簽。時(shí)間線性編碼(TLE)網(wǎng)絡(luò)[36]與DVOF同時(shí)出現(xiàn),但將編碼層嵌入到網(wǎng)絡(luò)中,使得整個(gè)管道可以端到端進(jìn)行訓(xùn)練。VLAD3和ActionVLAD[123, 63]也同時(shí)出現(xiàn)。他們將NetVLAD層[4]擴(kuò)展到視頻域以執(zhí)行視頻級(jí)編碼,而不是像[36]那樣使用緊湊的雙線性編碼。為了提高TSN的時(shí)間推理能力,時(shí)間關(guān)系網(wǎng)絡(luò)(temporal Relation Network, TRN)[269]被提出用于在多個(gè)時(shí)間尺度上學(xué)習(xí)和推理視頻幀之間的時(shí)間相關(guān)性。最近最先進(jìn)的高效模型TSM[128]也是基于分段的。我們將在第3.4.2節(jié)更詳細(xì)地討論它。
多流網(wǎng)絡(luò)
雙流網(wǎng)絡(luò)之所以成功,是因?yàn)橥庥^和運(yùn)動(dòng)信息是視頻的兩個(gè)最重要的屬性。然而,還有其他因素也可以幫助視頻動(dòng)作識(shí)別,如姿勢、物體、音頻和深度等。
姿勢信息與人體動(dòng)作密切相關(guān)。我們可以通過不看場景背景只看一個(gè)姿勢(骨架)圖像來識(shí)別大多數(shù)動(dòng)作。盡管之前有利用pose進(jìn)行動(dòng)作識(shí)別的工作[150,246],但P-CNN[23]是最早成功利用pose改善視頻動(dòng)作識(shí)別的深度學(xué)習(xí)方法之一。P-CNN提出沿人體各部位軌跡聚合運(yùn)動(dòng)和外觀信息,其原理與軌跡匯聚類似[214]?!?82】將這條管道延伸到一個(gè)鏈?zhǔn)降亩嗔骺蚣埽摽蚣芸梢杂?jì)算和集成外觀、運(yùn)動(dòng)和姿態(tài)。
他們引入馬爾可夫鏈模型,將這些線索相繼加入,并在動(dòng)作識(shí)別和動(dòng)作定位方面取得了令人振奮的結(jié)果。湯劑[25]是P-CNN的后續(xù)工作,但引入了一個(gè)更強(qiáng)大的特征表示,對(duì)人類語義關(guān)鍵點(diǎn)的運(yùn)動(dòng)進(jìn)行編碼。他們首先運(yùn)行了一個(gè)像樣的人體姿勢估計(jì)器,并提取了每幀人體關(guān)節(jié)的熱圖。然后,他們通過臨時(shí)聚合這些概率圖來獲得藥劑的表示。湯劑是輕量級(jí)的,比以前的姿勢表現(xiàn)更好[23,282]。此外,它還被證明是標(biāo)準(zhǔn)外觀和運(yùn)動(dòng)流的補(bǔ)充,例如,將湯劑與I3D[14]組合在UCF101上獲得了最先進(jìn)的結(jié)果(98.2%)。
物體信息是另一個(gè)重要的線索,因?yàn)榇蠖鄶?shù)人類行為涉及人與物體的交互。Wu[232]提出同時(shí)利用物體特征和場景特征來幫助視頻動(dòng)作識(shí)別。對(duì)象和場景特征是從最先進(jìn)的預(yù)訓(xùn)練對(duì)象和場景檢測器中提取的。Wang等人[252]進(jìn)一步使網(wǎng)絡(luò)端到端可訓(xùn)練。他們引入了一種基于雙流語義區(qū)域的方法,用Faster RCNN網(wǎng)絡(luò)取代標(biāo)準(zhǔn)的空間流[171],提取物體、人物和場景的語義信息。
音頻信號(hào)通常與視頻一起出現(xiàn),并與視覺信息互補(bǔ)。Wu等人[233]介紹了一種多流框架,該框架集成了視頻中的空間、短期運(yùn)動(dòng)、長期時(shí)間和音頻,以消化互補(bǔ)的線索。最近,Xiao等人[237]在[45]之后引入了AudioSlowFast,通過在統(tǒng)一表示中添加另一個(gè)音頻通路來建模視覺和聲音。
在RGB-D視頻動(dòng)作識(shí)別領(lǐng)域,使用深度信息是標(biāo)準(zhǔn)實(shí)踐[59]。然而,對(duì)于基于視覺的視頻動(dòng)作識(shí)別(例如,僅給出單眼視頻),我們不能像在RGB-D域那樣獲得基準(zhǔn)真實(shí)深度信息。早期的嘗試Depth2Action[280]使用現(xiàn)成的深度估計(jì)器從視頻中提取深度信息,并將其用于動(dòng)作識(shí)別。
從本質(zhì)上講,多流網(wǎng)絡(luò)是一種多模態(tài)學(xué)習(xí)方法,使用不同的線索作為輸入信號(hào)來幫助視頻動(dòng)作識(shí)別。我們將在第5.12節(jié)進(jìn)一步討論多模態(tài)學(xué)習(xí)。
3D CNN的興起
預(yù)計(jì)算光流計(jì)算量大、存儲(chǔ)要求高,不利于大規(guī)模訓(xùn)練或?qū)崟r(shí)部署。從概念上理解視頻的一個(gè)簡單方法是把它看成一個(gè)具有兩個(gè)空間維度和一個(gè)時(shí)間維度的三維張量。因此,這導(dǎo)致使用3D CNN作為處理單元來建模視頻中的時(shí)間信息。
使用3D CNN進(jìn)行動(dòng)作識(shí)別的開創(chuàng)性工作是[91]。雖然鼓舞人心,但該網(wǎng)絡(luò)還不夠深入,無法顯示其潛力。Tran等人[202]將[91]擴(kuò)展到更深層次的三維網(wǎng)絡(luò),稱為C3D。C3D遵循[188]的模塊化設(shè)計(jì),可以認(rèn)為是VGG16網(wǎng)絡(luò)的3D版本。它在標(biāo)準(zhǔn)基準(zhǔn)上的性能并不令人滿意,但具有很強(qiáng)的泛化能力,可以作為各種視頻任務(wù)的通用特征提取器[250]。
然而,3D網(wǎng)絡(luò)很難優(yōu)化。為了很好地訓(xùn)練3D卷積濾波器,人們需要具有不同視頻內(nèi)容和動(dòng)作類別的大規(guī)模數(shù)據(jù)集。幸運(yùn)的是,存在一個(gè)足夠大的數(shù)據(jù)集Sports1M[99],可以支持深度3D網(wǎng)絡(luò)的訓(xùn)練。然而,C3D的訓(xùn)練需要幾周的時(shí)間來收斂。盡管C3D非常流行,但大多數(shù)用戶只是將其作為不同用例的特征提取器,而不是對(duì)網(wǎng)絡(luò)進(jìn)行修改/微調(diào)。這也是2014年至2017年基于2D cnn的雙流網(wǎng)絡(luò)在視頻動(dòng)作識(shí)別領(lǐng)域占據(jù)主導(dǎo)地位的部分原因。
當(dāng)2017年carira等人[14]提出I3D時(shí),情況發(fā)生了變化。如圖6所示,I3D以一個(gè)視頻片段作為輸入,通過堆疊的3D卷積層轉(zhuǎn)發(fā)。一個(gè)視頻剪輯是一個(gè)視頻幀序列,通常使用16或32幀。I3D的主要貢獻(xiàn)在于:1)它將成熟的圖像分類架構(gòu)用于3D CNN;2)模型權(quán)值采用[217]中初始化光流網(wǎng)絡(luò)的方法,將ImageNet預(yù)訓(xùn)練的2D模型權(quán)值膨脹到3D模型中相應(yīng)的權(quán)值。因此,I3D繞過了3D CNN必須從頭開始訓(xùn)練的困境。通過在新的大規(guī)模數(shù)據(jù)集Kinetics400[100]上進(jìn)行預(yù)訓(xùn)練,I3D在UCF101上達(dá)到95.6%,在HMDB51上達(dá)到74.8%。I3D結(jié)束了用不同方法報(bào)告小型數(shù)據(jù)集(如UCF101和HMDB512)數(shù)據(jù)的時(shí)代。I3D之后的出版物需要報(bào)告他們在Kinetics400或其他大型基準(zhǔn)數(shù)據(jù)集上的性能,這將視頻動(dòng)作識(shí)別推向了下一個(gè)水平。在接下來的幾年里,3D CNN發(fā)展迅速,幾乎在每一個(gè)基準(zhǔn)數(shù)據(jù)集上都表現(xiàn)出色。我們將在以下幾個(gè)類別中回顧基于3D CNN的文獻(xiàn)。
我們想指出的是,3DCNN并不是在取代雙流網(wǎng)絡(luò),它們也不是相互排斥的。他們只是使用不同的方式來模擬視頻中的時(shí)間關(guān)系。此外,雙流方法是視頻理解的通用框架,而不是特定的方法。只要存在兩個(gè)網(wǎng)絡(luò),一個(gè)用于使用RGB幀的空間外觀建模,另一個(gè)用于使用光流的時(shí)間運(yùn)動(dòng)建模,則該方法可以歸類為雙流網(wǎng)絡(luò)家族。在[14]中,他們還使用I3D架構(gòu)構(gòu)建了一個(gè)時(shí)間流,并實(shí)現(xiàn)了更高的性能,在UCF101上為98.0%,在HMDB51上為80.9%。因此,最終的I3D模型是3D CNN和兩流網(wǎng)絡(luò)的結(jié)合。然而,I3D的貢獻(xiàn)并不在于光流的使用。
從2D到3D CNN的映射
2D CNN享受著諸如ImageNet[30]和Places205[270]這樣的大規(guī)模圖像數(shù)據(jù)集帶來的預(yù)訓(xùn)練的好處,即使是當(dāng)今可用的最大的視頻數(shù)據(jù)集也無法與之匹敵。在這些數(shù)據(jù)集上,許多人致力于尋找更準(zhǔn)確、更通用的2D CNN結(jié)構(gòu)。下面,我們將介紹利用這些進(jìn)展開發(fā)3D CNN的努力。
ResNet3D[74]直接采用2D ResNet[76],并用3D核取代了所有2D卷積濾波。他們認(rèn)為,通過使用深度3D CNN和大規(guī)模數(shù)據(jù)集,人們可以在ImageNet上利用2D CNN的成功。在ResNeXt[238]的激勵(lì)下,Chenet al.[20]提出了一種多纖維體系結(jié)構(gòu),將復(fù)雜的神經(jīng)網(wǎng)絡(luò)分割成輕量級(jí)網(wǎng)絡(luò)(纖維)的集成,促進(jìn)了纖維之間的信息流動(dòng),同時(shí)降低了計(jì)算成本。受SENet[81]的啟發(fā),STCNet[33]建議在3D塊內(nèi)集成通道信息,以捕獲整個(gè)網(wǎng)絡(luò)中的空間通道和時(shí)間通道相關(guān)信息。
統(tǒng)一2D和3DCNN
為了降低三維網(wǎng)絡(luò)訓(xùn)練的復(fù)雜性,P3D[169]和R2+1D[204]探索了三維分解的思想。具體而言,一個(gè)3D內(nèi)核(例如,3×3×3)兩個(gè)獨(dú)立的操作,可以映像2 d空間卷積(例如,1×3×3)和1 d時(shí)間卷積(例如,3×1×1)。P3D和R2 + 1 d之間的差異是如何安排兩個(gè)映像操作以及他們?nèi)绾沃贫總€(gè)殘塊。軌跡卷積[268]遵循這一思路,但使用可變形卷積對(duì)時(shí)間分量進(jìn)行處理,以更好地處理運(yùn)動(dòng)。
簡化3DCNN的另一種方式是在單個(gè)網(wǎng)絡(luò)中混合2D和3D卷積。MiCTNet[271]集成了2D和3D CNN來生成更深層次和更多信息的特征圖,同時(shí)降低了每一輪時(shí)空融合的訓(xùn)練復(fù)雜度。Artnet[213]通過使用新的構(gòu)建塊引入了外觀和關(guān)系網(wǎng)絡(luò)。構(gòu)建塊由使用2D CNN的空間分支和使用3D CNN的關(guān)系分支組成。S3D[239]結(jié)合了上述方法的優(yōu)點(diǎn)。首先用2D核代替網(wǎng)絡(luò)底層的3D卷積,發(fā)現(xiàn)這種頂-重網(wǎng)絡(luò)具有更高的識(shí)別精度。然后,S3D像P3D和R2+1D那樣對(duì)剩余的3D核進(jìn)行因子分解,以進(jìn)一步降低模型規(guī)模和訓(xùn)練復(fù)雜度。一個(gè)名為ECO[283]的并發(fā)工作也采用了這種頭重腳輕的網(wǎng)絡(luò)來實(shí)現(xiàn)在線視頻理解。
長范圍時(shí)序建模
在3D CNN中,可以通過堆疊多個(gè)短時(shí)間卷積來實(shí)現(xiàn)長距離時(shí)間連接,例如,3×3×3個(gè)濾波器。然而,在深度網(wǎng)絡(luò)的后期階段,特別是對(duì)于相隔很遠(yuǎn)的幀,有用的時(shí)間信息可能會(huì)丟失。
為了進(jìn)行長范圍時(shí)序建模,LTC[206]引入并評(píng)估了大量視頻幀的長期時(shí)間卷積。然而,受限于GPU內(nèi)存,他們不得不犧牲輸入分辨率來使用更多幀。之后,T3D[32]采用密集連接結(jié)構(gòu)[83],使原始時(shí)間信息盡可能完整,從而進(jìn)行最終的預(yù)測。后來,Wang等人[219]引入了一種新的構(gòu)建模塊,稱為非本地。Non-local是一種類似于self-attention的通用操作[207],它可以以即插即用的方式用于許多計(jì)算機(jī)視覺任務(wù)。如圖6所示,他們在稍后的剩余塊之后使用時(shí)空非本地模塊來捕獲空間和時(shí)間域的長期依賴性,并在沒有附加提示的情況下實(shí)現(xiàn)了比基線更好的性能。Wu等人[229]提出了一種特征庫表示,將整個(gè)視頻的信息嵌入到一個(gè)存儲(chǔ)單元中,以進(jìn)行上下文感知的預(yù)測。最近,V4D[264]提出了視頻級(jí)4D CNN,用4D卷積對(duì)長程時(shí)空表征的演化進(jìn)行建模。
提高3D效率
為了進(jìn)一步提高3D CNN的效率(即在GFLOPS、模型參數(shù)和延遲方面),3D CNN的許多變體開始出現(xiàn)。
在高效2D網(wǎng)絡(luò)發(fā)展的推動(dòng)下,研究人員開始采用基于信道的可分離卷積,并將其擴(kuò)展到視頻分類[111,203]。CSN[203]揭示了通過分離通道交互和時(shí)空交互來分解3D卷積是一種很好的實(shí)踐,并且能夠獲得最先進(jìn)的性能,同時(shí)比以前的最佳方法快2到3倍。這些方法也與多光纖網(wǎng)絡(luò)[20]相關(guān),因?yàn)樗鼈兌际怯扇壕矸e啟發(fā)的。
最近,F(xiàn)eichtenhofer et al.[45]提出了一種既有慢通路又有快通路的高效網(wǎng)絡(luò)SlowFast。網(wǎng)絡(luò)設(shè)計(jì)的部分靈感來自于靈長類視覺系統(tǒng)中的微小細(xì)胞和大細(xì)胞。如圖6所示,慢通道在低幀率下工作以捕獲詳細(xì)的語義信息,而快通道在高時(shí)間分辨率下工作以捕獲快速變化的運(yùn)動(dòng)。為了融合運(yùn)動(dòng)信息,例如在雙流網(wǎng)絡(luò)中,SlowFast采用橫向連接來融合每個(gè)通路學(xué)習(xí)到的表示。由于可以通過減少通道容量使快速通道變得非常輕量級(jí),因此SlowFast的整體效率大大提高。雖然SlowFast有兩條路徑,但它與雙流網(wǎng)絡(luò)不同[187],因?yàn)檫@兩條路徑被設(shè)計(jì)用來模擬不同的時(shí)間速度,而不是空間和時(shí)間建模。有幾個(gè)并發(fā)的論文使用多種途徑來平衡準(zhǔn)確性和效率[43]。
沿著這個(gè)思路,F(xiàn)eichtenhofer[44]引入了X3D,它沿著多個(gè)網(wǎng)絡(luò)軸逐步擴(kuò)展2D圖像分類體系結(jié)構(gòu),例如時(shí)間持續(xù)時(shí)間、幀速率、空間分辨率、寬度、瓶頸寬度和深度。X3D將三維模型的修改/分解推向了極致,是一系列能夠滿足不同目標(biāo)復(fù)雜度要求的高效視頻網(wǎng)絡(luò)。本著類似的精神,A3D[276]還利用了多種網(wǎng)絡(luò)配置。然而,3D聯(lián)合訓(xùn)練這些配置,并且在推理期間僅部署一個(gè)模型。這使得最終的模型更有效率。在下一節(jié)中,我們將繼續(xù)討論高效的視頻建模,但不是基于3D卷積。
高效視頻建模
隨著數(shù)據(jù)集大小的增加和部署的需要,效率成為一個(gè)重要的問題。
如果我們使用基于雙流網(wǎng)絡(luò)的方法,我們需要預(yù)先計(jì)算光流并將其存儲(chǔ)在本地磁盤上。以Kinetics400數(shù)據(jù)集為例,存儲(chǔ)所有的光流圖像需要4.5TB的磁盤空間。如此龐大的數(shù)據(jù)量會(huì)使I/O成為訓(xùn)練過程中最緊的瓶頸,導(dǎo)致GPU資源的浪費(fèi)和實(shí)驗(yàn)周期的延長。此外,預(yù)計(jì)算光流的代價(jià)也不便宜,這意味著所有的雙流網(wǎng)絡(luò)方法都不是實(shí)時(shí)性的。
如果我們使用基于3D cnn的方法,人們?nèi)匀粫?huì)發(fā)現(xiàn)3DCNN很難訓(xùn)練,部署也很有挑戰(zhàn)性。在培訓(xùn)方面,使用高端8-GPU機(jī)器在Kinetics400數(shù)據(jù)集上訓(xùn)練一個(gè)標(biāo)準(zhǔn)的SlowFast網(wǎng)絡(luò)需要10天才能完成。如此長的實(shí)驗(yàn)周期和巨大的計(jì)算成本使得視頻理解研究只能由擁有豐富計(jì)算資源的大公司/實(shí)驗(yàn)室進(jìn)行。最近有幾次嘗試加快深度視頻模型的訓(xùn)練[230],但與大多數(shù)基于圖像的計(jì)算機(jī)視覺任務(wù)相比,這些方法仍然昂貴。在部署方面,不同平臺(tái)對(duì)3D卷積的支持不如2D卷積。此外,3D CNN需要更多的視頻幀作為輸入,這增加了額外的IO成本。
因此,從2018年開始,研究人員開始研究其他替代方案,看看他們?nèi)绾文軌蛲瑫r(shí)提高視頻動(dòng)作識(shí)別的準(zhǔn)確性和效率。我們將在以下幾個(gè)類別中回顧最近有效的視頻建模方法。
Flow-mimic方法
雙流網(wǎng)絡(luò)的主要缺點(diǎn)之一是對(duì)光流的需求。預(yù)計(jì)算光流計(jì)算成本高,存儲(chǔ)要求高,且不能用于視頻動(dòng)作識(shí)別的端到端訓(xùn)練。如果我們能找到一種不使用光流對(duì)運(yùn)動(dòng)信息進(jìn)行編碼的方法,至少在推理過程中是很有吸引力的。
[146]和[35]是學(xué)習(xí)估計(jì)用于視頻動(dòng)作識(shí)別的網(wǎng)絡(luò)內(nèi)光流的早期嘗試。雖然這兩種方法在推理過程中不需要光流,但是在訓(xùn)練過程中需要光流來訓(xùn)練流估計(jì)網(wǎng)絡(luò)。隱式雙流網(wǎng)絡(luò)[278]提出了MotionNet來取代傳統(tǒng)的光流計(jì)算。 MotionNet是一個(gè)輕量級(jí)的網(wǎng)絡(luò),以一種無監(jiān)督的方式學(xué)習(xí)運(yùn)動(dòng)信息,當(dāng)與時(shí)間流連接時(shí),是端到端可訓(xùn)練的。因此,無論是訓(xùn)練階段還是推理階段,隱式雙流cnn[278]僅以原始視頻幀為輸入,直接預(yù)測動(dòng)作類,而不顯式計(jì)算光流。PAN[257]通過計(jì)算連續(xù)特征映射之間的差異來模擬光流特征。按照這個(gè)方向,[197,42,116,164]繼續(xù)研究端到端可訓(xùn)練的cnn,從數(shù)據(jù)中學(xué)習(xí)類光流特征。他們直接從光流的定義推導(dǎo)出這些特征[255]。MARS[26]和D3D[191]使用知識(shí)蒸餾將兩個(gè)流網(wǎng)絡(luò)合并為一個(gè)流,例如,通過調(diào)整空間流來預(yù)測時(shí)間流的輸出。最近,Kwon等人[110]引入了MotionSqueeze模塊來估計(jì)運(yùn)動(dòng)特征。該模塊是端到端可培訓(xùn)的,可以插入任何網(wǎng)絡(luò),類似于[278]。
沒有三維卷積的時(shí)序建模
對(duì)幀之間的時(shí)間關(guān)系進(jìn)行建模的一種簡單而自然的選擇是使用3D卷積。然而,有許多替代方案可以實(shí)現(xiàn)這一目標(biāo)。在這里,我們將回顧一些最近的工作,執(zhí)行時(shí)間建模沒有3D卷積。
Lin等人。[128]介紹了一種稱為時(shí)間移位模塊(TSM)的新方法。
TSM將移位操作[228]擴(kuò)展到視頻理解。它沿著時(shí)間維度移動(dòng)部分通道,從而促進(jìn)相鄰幀之間的信息交換。為了保持空間特征學(xué)習(xí)能力,他們將時(shí)間移模塊放入殘差分支的殘差塊中。因此,原始激活中的所有信息在經(jīng)過時(shí)間變換后仍可通過身份映射訪問。TSM最大的優(yōu)點(diǎn)是可以插入到2D CNN中,實(shí)現(xiàn)零計(jì)算、零參數(shù)的時(shí)態(tài)建模。與TSM類似,TIN[182]引入了一個(gè)時(shí)間交錯(cuò)模塊來對(duì)時(shí)間卷積進(jìn)行建模。
最近有幾種使用注意力來執(zhí)行長期時(shí)間建模的2D CNN方法[92,122,132,133]。STM[92]提出了一個(gè)基于通道的時(shí)空模型來表示時(shí)空特征,并提出了一個(gè)基于通道的運(yùn)動(dòng)模型來有效地編碼運(yùn)動(dòng)特征。TEA[122]類似于STM,但受到Senet[81]的啟發(fā),TEA使用運(yùn)動(dòng)特征來重新校準(zhǔn)時(shí)空特征,以增強(qiáng)運(yùn)動(dòng)模式。具體地說,TEA包括兩個(gè)部分:運(yùn)動(dòng)激勵(lì)和多個(gè)時(shí)間聚合,第一個(gè)組件處理短距離運(yùn)動(dòng)建模,第二個(gè)組件有效地?cái)U(kuò)大了遠(yuǎn)程時(shí)間建模的時(shí)間接受范圍。它們是互補(bǔ)的,而且都很輕,因此TEA能夠?qū)崿F(xiàn)與以前最好的方法相競爭的結(jié)果,同時(shí)將FLOP保持在與2D CNN一樣低的水平。最近,TEINet[132]也采用了注意增強(qiáng)時(shí)態(tài)建模。請注意,上述基于注意的方法不同于非本地[219],因?yàn)樗鼈兪褂猛ǖ雷⒁?,而非本地使用空間注意。
Miscellaneous 雜項(xiàng)
在這一部分中,我們將展示過去十年中流行的視頻動(dòng)作識(shí)別的其他幾個(gè)方向。
基于軌跡的方法
雖然基于CNN的方法已經(jīng)顯示出其優(yōu)越性,并逐漸取代了傳統(tǒng)的手工制作方法,但傳統(tǒng)的局部特征流水線仍有其不可忽視的優(yōu)點(diǎn),如軌跡的使用。
受到基于軌跡的方法的良好性能的啟發(fā)[210],Wang等人。[214]提出了一種基于軌跡約束的匯集算法,將深層卷積特征聚合成有效的描述符,稱之為TDD。這里,軌跡被定義為在時(shí)間維度中跟蹤像素的路徑。這種新的視頻表示兼具手工制作功能和深度學(xué)習(xí)功能的優(yōu)點(diǎn),并在2015年成為UCF101和HMDB51數(shù)據(jù)集的最佳表現(xiàn)之一。同時(shí),Lan et al.[113]將獨(dú)立子空間分析(ISA)和密集軌跡結(jié)合到標(biāo)準(zhǔn)的雙流網(wǎng)絡(luò)中,展示了數(shù)據(jù)無關(guān)和數(shù)據(jù)驅(qū)動(dòng)兩種方法的互補(bǔ)性。趙等人沒有將CNN視為固定的特征提取器。[268]提出軌跡卷積算法,借助軌跡沿時(shí)間維度學(xué)習(xí)特征。
秩池化
還有另一種方法來為視頻中的時(shí)間信息建模,稱為秩池(也稱為學(xué)習(xí)到秩)。這一行的開創(chuàng)性工作從VideoDarwin[53]開始,它使用一個(gè)排序機(jī)器來學(xué)習(xí)外觀隨時(shí)間的演變,并返回一個(gè)排序函數(shù)。排序函數(shù)應(yīng)該能夠?qū)σ曨l幀進(jìn)行時(shí)間上的排序,因此他們使用這個(gè)排序函數(shù)的參數(shù)作為一個(gè)新的視頻表示。VideoDarwin[53]不是一種基于深度學(xué)習(xí)的方法,但具有相當(dāng)?shù)男阅芎托省?/span>
Fernando[54]為了將秩池化適應(yīng)深度學(xué)習(xí),引入了可微秩池化層來實(shí)現(xiàn)端到端特征學(xué)習(xí)。按照這個(gè)方向,Bilen等人[9]對(duì)視頻的原始圖像像素應(yīng)用秩池,每個(gè)視頻產(chǎn)生一個(gè)RGB圖像,稱為動(dòng)態(tài)圖像。Fernando[51]的另一項(xiàng)并發(fā)工作是通過疊加多層時(shí)間編碼將級(jí)別池?cái)U(kuò)展為分層級(jí)別池。最后,[22]利用子空間表示法對(duì)原始排序公式[53]進(jìn)行了推廣,并表明它可以顯著地更好地表示動(dòng)作的動(dòng)態(tài)演化,同時(shí)計(jì)算成本較低。
壓縮視頻動(dòng)作識(shí)別
大多數(shù)視頻動(dòng)作識(shí)別方法使用原始視頻(或解碼的視頻幀)作為輸入。然而,使用原始視頻存在數(shù)據(jù)量大、時(shí)間冗余度高等缺點(diǎn)。視頻壓縮方法通常通過重復(fù)使用來自另一幀(即,I幀)的內(nèi)容來存儲(chǔ)一幀,并且由于相鄰幀相似的事實(shí)而僅存儲(chǔ)差異(即,P幀和B幀)。這里,I幀是原始RGB視頻幀,P幀和B幀包括用于存儲(chǔ)差值的運(yùn)動(dòng)矢量和殘差。在視頻壓縮領(lǐng)域發(fā)展的推動(dòng)下,研究人員開始采用壓縮視頻表示作為輸入來訓(xùn)練有效的視頻模型。
由于運(yùn)動(dòng)矢量結(jié)構(gòu)粗糙,可能包含不準(zhǔn)確的運(yùn)動(dòng),Zhang等[256]采用了知識(shí)蒸餾的方法來幫助基于運(yùn)動(dòng)矢量的時(shí)間流模擬基于光流的時(shí)間流。
然而,他們的方法需要提取和處理每一幀。它們獲得了與標(biāo)準(zhǔn)雙流網(wǎng)絡(luò)相當(dāng)?shù)淖R(shí)別精度,但速度快了27倍。Wu等人。[231]I幀使用重量級(jí)CNN,P幀使用輕量級(jí)CNN。這需要通過累加將每個(gè)P幀的運(yùn)動(dòng)矢量和殘差引用回I幀。DMC-NET[185]是[231]使用對(duì)抗性損失的后續(xù)工作。它采用了輕量級(jí)的生成器網(wǎng)絡(luò)來幫助運(yùn)動(dòng)向量捕捉精細(xì)的運(yùn)動(dòng)細(xì)節(jié),而不是像[256]中那樣進(jìn)行知識(shí)蒸餾。最近的一篇論文SCSsamer[106]也采用了壓縮視頻表示來對(duì)顯著片段進(jìn)行采樣,我們將在下一節(jié)3.5.4中討論這一問題。到目前為止,由于增加的復(fù)雜性,沒有一種壓縮方法能夠處理B幀。
幀剪輯采樣
對(duì)于最終預(yù)測,大多數(shù)前述深度學(xué)習(xí)方法平等地對(duì)待每個(gè)視頻幀/剪輯。然而,判別性動(dòng)作只在幾個(gè)時(shí)刻發(fā)生,而大多數(shù)其他視頻內(nèi)容與標(biāo)記的動(dòng)作類別無關(guān)或相關(guān)性較弱。這種模式有幾個(gè)缺點(diǎn)。首先,使用大量不相關(guān)的視頻幀進(jìn)行訓(xùn)練可能會(huì)影響性能。其次,這種均勻抽樣在推理過程中效率不高。
部分受到人類如何在整個(gè)視頻上只瞥幾眼就能理解視頻的啟發(fā)[251],提出了許多方法來采樣信息最豐富的視頻幀/剪輯,以提高性能和使模型在推理過程中更高效。
KVM[277]是最早提出端到端框架的嘗試之一,該框架可以同時(shí)識(shí)別關(guān)鍵卷并進(jìn)行操作分類。后來,[98]引入了AdaScan,它以一種在線方式預(yù)測每個(gè)視頻幀的重要性分?jǐn)?shù),他們稱之為自適應(yīng)時(shí)間池。這兩種方法都取得了較好的性能,但它們?nèi)匀徊捎脴?biāo)準(zhǔn)的評(píng)價(jià)方案,在推理過程中表現(xiàn)不出效率。最近的方法更多地關(guān)注效率[41,234,8,106]。AdaFrame[234]遵循[251,98],但使用基于強(qiáng)化學(xué)習(xí)的方法來搜索更有信息的視頻片段。同時(shí),[8]使用了一個(gè)教師-學(xué)生框架,也就是說,可以使用一個(gè)能看到一切的教師來訓(xùn)練一個(gè)計(jì)算效率很高、只看到很少的學(xué)生。實(shí)驗(yàn)結(jié)果表明,這種高效的學(xué)生網(wǎng)絡(luò)可以將推理時(shí)間減少30%,同時(shí)將Flop的數(shù)量減少約90%,而性能損失可以忽略不計(jì)。最近,SCSsamer[106]訓(xùn)練了一個(gè)輕量級(jí)網(wǎng)絡(luò),以基于壓縮視頻表示對(duì)最重要的視頻片段進(jìn)行采樣,并在Kinetics400和Sports1M數(shù)據(jù)集上實(shí)現(xiàn)最先進(jìn)的性能。實(shí)驗(yàn)還表明,這種基于顯著性的采樣不僅效率高,而且比使用所有視頻幀具有更高的精度。
Visual tempo 視覺節(jié)奏
視覺節(jié)奏是一個(gè)用來描述動(dòng)作速度的概念。許多動(dòng)作類有不同的視覺節(jié)奏。在大多數(shù)情況下,區(qū)分它們的關(guān)鍵是它們的視覺節(jié)奏,因?yàn)樗鼈冊谝曈X外觀上可能有很高的相似性,如行走、慢跑和跑步[248]。有幾篇論文探索用于改進(jìn)時(shí)間建模的不同時(shí)間速率(TEMPO)[273,147,82,281,45,248]。最初的嘗試通常通過以多個(gè)速率采樣原始視頻并構(gòu)建輸入級(jí)幀金字塔[273,147,281]來捕獲視頻節(jié)奏。最近,SlowFast[45],正如我們在3.3.4節(jié)中討論的那樣,利用視覺節(jié)奏的特性來設(shè)計(jì)一個(gè)雙向網(wǎng)絡(luò),以獲得更好的精度和效率折衷。CIDC[121]提出了方向時(shí)態(tài)建模和局部主干視頻時(shí)態(tài)建模。TPN[248]將TEMPO建模擴(kuò)展到特征級(jí)別,并與以前的方法相比顯示出一致的改進(jìn)。
我們想指出的是,視覺節(jié)奏也被廣泛用于自監(jiān)督視頻表征學(xué)習(xí)[6,247,16],因?yàn)樗梢宰匀坏靥峁┍O(jiān)督信號(hào)來訓(xùn)練深度網(wǎng)絡(luò)。我們將在第5.13節(jié)討論有關(guān)自我監(jiān)督視頻表征學(xué)習(xí)的更多細(xì)節(jié)。
評(píng)估和基準(zhǔn)測試
在本節(jié)中,我們將比較基準(zhǔn)數(shù)據(jù)集上流行的方法。具體來說,我們首先在4.1節(jié)介紹標(biāo)準(zhǔn)評(píng)價(jià)方案。然后,我們將常用基準(zhǔn)分為三類,場景聚焦(UCF101, HMDB51和Kinetics400在第4.2節(jié)),運(yùn)動(dòng)聚焦(sth V1和V2在第4.3節(jié))和多標(biāo)簽(Charades在第4.4節(jié))。最后,我們在4.5節(jié)中對(duì)目前流行的識(shí)別方法在識(shí)別精度和效率方面進(jìn)行了公平的比較。
評(píng)估方案
在模型訓(xùn)練過程中,我們通常隨機(jī)選取一個(gè)視頻幀/片段,形成小批量樣本。然而,對(duì)于評(píng)估,我們需要一個(gè)標(biāo)準(zhǔn)化的管道來執(zhí)行公平的比較。
對(duì)于2D CNN,一種廣泛采用的評(píng)估方案是從緊隨[187,217]之后的每個(gè)視頻中均勻采樣25幀。對(duì)于每一幀,我們通過裁剪4個(gè)角和1個(gè)中心,水平翻轉(zhuǎn)它們,并在樣本的所有裁剪上平均預(yù)測分?jǐn)?shù)(在Softmax操作之前),執(zhí)行十裁剪數(shù)據(jù)增強(qiáng),即,這意味著我們使用每個(gè)視頻250幀來進(jìn)行推斷。
對(duì)于3DCNN,一種被廣泛采用的評(píng)估方案稱為30視圖策略,即從跟隨[219]的每個(gè)視頻中均勻采樣10個(gè)片段。對(duì)于每個(gè)視頻片段,我們執(zhí)行三個(gè)裁剪數(shù)據(jù)增強(qiáng)。具體地說,我們將較短的空間邊縮放到256像素,并采用256×256的三個(gè)裁剪來覆蓋空間維度并對(duì)預(yù)測得分進(jìn)行平均。
然而,評(píng)估方案并不是固定的。它們正在不斷發(fā)展和適應(yīng)新的網(wǎng)絡(luò)架構(gòu)和不同的數(shù)據(jù)集。例如,TSM[128]對(duì)于小型數(shù)據(jù)集[190,109],每個(gè)視頻只使用兩個(gè)片段,盡管是2D CNN,但每個(gè)片段都進(jìn)行三種作物數(shù)據(jù)的增強(qiáng)。我們將提及任何偏離標(biāo)準(zhǔn)評(píng)估管道的情況。
在評(píng)價(jià)指標(biāo)方面,我們報(bào)告了單標(biāo)簽動(dòng)作識(shí)別的準(zhǔn)確性,以及多標(biāo)簽動(dòng)作識(shí)別的平均精度。
Scene-focused數(shù)據(jù)集
在這里,我們比較了聚焦場景的數(shù)據(jù)集:UCF101、HMDB51和Kinetics400的最新技術(shù)。之所以稱其為場景聚焦,是因?yàn)檫@些數(shù)據(jù)集中的大多數(shù)動(dòng)作視頻都很短,僅通過靜態(tài)場景出現(xiàn)即可識(shí)別,如圖4所示。
按照時(shí)間順序,我們首先在表2的頂部展示了使用深度學(xué)習(xí)和雙流網(wǎng)絡(luò)的早期嘗試的結(jié)果。我們做了一些觀察。首先,在沒有運(yùn)動(dòng)/時(shí)間建模的情況下,DeepVideo[99]的性能低于所有其他方法。其次,它有助于將知識(shí)從傳統(tǒng)的方法(非cnn為基礎(chǔ))轉(zhuǎn)移到深度學(xué)習(xí)。例如,TDD[214]使用軌跡池提取運(yùn)動(dòng)感知CNN特征。TLE[36]將傳統(tǒng)視頻動(dòng)作識(shí)別流水線中的全局特征編碼嵌入到深度網(wǎng)絡(luò)中。

然后,我們在表2的中間比較了基于3D CNN的方法。盡管在大量視頻語料庫上進(jìn)行訓(xùn)練,但C3D[202]的性能不如并發(fā)工作[187,214,217],這可能是由于3D核的優(yōu)化困難。受此啟發(fā),幾篇論文-I3D[14]、P3D[169]、R2+1D[204]和S3D[239]將3D卷積濾波器分解為2D空間核和1D時(shí)間核以簡化訓(xùn)練。此外,I3D引入了膨脹策略,通過從訓(xùn)練有素的2D網(wǎng)絡(luò)中引導(dǎo)3D模型權(quán)重來避免從頭開始訓(xùn)練。通過使用這些技術(shù),它們實(shí)現(xiàn)了與最好的兩流網(wǎng)絡(luò)方法[36]相當(dāng)?shù)男阅埽恍枰饬?。此外,通過使用更多的訓(xùn)練樣本[203]、附加路徑[45]或架構(gòu)搜索[44],最近的3D模型獲得了更高的精度。
最后,我們在表2的底部給出了最新的有效模型。我們可以看到,這些方法能夠獲得比兩流網(wǎng)絡(luò)(頂部)更高的識(shí)別精度,而性能與3D CNN(中間)相當(dāng)。由于它們是二維CNN,不使用光流,因此這些方法在訓(xùn)練和推理方面都是有效的。其中大多數(shù)是實(shí)時(shí)方法,有些可以進(jìn)行在線視頻動(dòng)作識(shí)別[128]。我們認(rèn)為,由于效率的需要,2D CNN+時(shí)間建模是一個(gè)很有前途的發(fā)展方向。在這里,時(shí)間建??梢允腔谧⒁饬Φ?、基于流的或基于3D內(nèi)核的。
Motion-focused數(shù)據(jù)集
在本節(jié)中,我們將比較200億某物(某物)數(shù)據(jù)集的最新技術(shù)。我們報(bào)告了V1和V2的最高精度。SthSth數(shù)據(jù)集中于人類對(duì)日常對(duì)象執(zhí)行基本操作。與以場景為中心的數(shù)據(jù)集不同,sth數(shù)據(jù)集中的背景場景對(duì)最終動(dòng)作類預(yù)測的貢獻(xiàn)較小。此外,還有“從左向右推”、“從右向左推”等類,這些類都需要較強(qiáng)的運(yùn)動(dòng)推理。
通過比較表3中之前的工作,我們觀察到使用更長的輸入(例如,16幀)通常更好。此外,專注于時(shí)間建模的方法[128,122,92]比堆疊的3D核[14]工作得更好。例如,TSM[128]、TEA[122]和MSNet[110]在2D ResNet主干中插入了顯式的時(shí)間推理模塊,并獲得了最先進(jìn)的結(jié)果。這意味著Sth-Sth數(shù)據(jù)集需要很強(qiáng)的時(shí)間運(yùn)動(dòng)推理和空間語義信息。

多標(biāo)簽數(shù)據(jù)集
在本節(jié)中,我們首先比較了Charades數(shù)據(jù)集[186]的最新研究方法,然后列出了一些在Charades中使用組裝模型或附加對(duì)象信息的最新研究成果。
比較表4中之前的工作,我們得出以下觀察結(jié)果。首先,3D模型[229,45]的性能一般優(yōu)于2D模型[186,231]和含有光流輸入的2D模型。這表明時(shí)空推理對(duì)于理解長期復(fù)雜的并發(fā)行為至關(guān)重要。其次,較長的輸入有助于識(shí)別[229],可能是因?yàn)橛行﹦?dòng)作需要長時(shí)特征才能識(shí)別。第三,在更大的數(shù)據(jù)集上預(yù)先訓(xùn)練的具有強(qiáng)大骨干的模型通常具有更好的性能[45]。這是因?yàn)镃harades是一個(gè)中等規(guī)模的數(shù)據(jù)集,不包含足夠的多樣性來訓(xùn)練深度模型。
最近,研究人員通過組裝模型[177]或提供額外的人-物交互信息[90],探索了復(fù)雜并發(fā)動(dòng)作識(shí)別的替代方向。這些論文的表現(xiàn)遠(yuǎn)遠(yuǎn)超過了之前的文獻(xiàn),這些文獻(xiàn)只對(duì)字謎游戲的單一模型進(jìn)行了微調(diào)。研究表明,探索時(shí)空人-物交互并找到避免過度匹配的方法是并行動(dòng)作理解的關(guān)鍵。

速度比較
要在實(shí)際應(yīng)用程序中部署模型,我們通常需要知道它是否滿足速度要求,然后才能繼續(xù)。在本節(jié)中,我們根據(jù)(1)參數(shù)數(shù)量,(2)FLOPS,(3)延遲和(4)幀/秒來評(píng)估上面提到的方法來執(zhí)行一個(gè)全面的比較。
我們在表5中給出了結(jié)果。在這里,我們使用GluonCV視頻動(dòng)作識(shí)別模型動(dòng)物園中的模型,因?yàn)樗羞@些模型都是使用相同的數(shù)據(jù)、相同的數(shù)據(jù)增強(qiáng)策略和相同的30視角評(píng)估方案進(jìn)行訓(xùn)練的,因此進(jìn)行了公平的比較。所有計(jì)時(shí)都是在一臺(tái)特斯拉V100 GPU上完成的,有105次重復(fù)運(yùn)行,而前5次運(yùn)行因預(yù)熱而被忽略。我們總是使用批次大小為1。在模型輸入方面,我們使用原稿中建議的設(shè)置。

正如我們在表5中看到的,如果我們比較延遲,2D模型比所有其他3D變體要快得多。這可能就是為什么大多數(shù)現(xiàn)實(shí)世界的視頻應(yīng)用程序仍然采用幀方式的方法。其次,如[170,259]中所述,F(xiàn)lops與實(shí)際推理時(shí)間(即延遲)沒有很強(qiáng)的相關(guān)性。第三,如果比較性能,大多數(shù)3D模型給出了大約75%的相似準(zhǔn)確率,但使用更大的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練可以顯著提高性能。這表明了訓(xùn)練數(shù)據(jù)的重要性,并在一定程度上表明,自我監(jiān)督的預(yù)訓(xùn)練可能是進(jìn)一步改進(jìn)現(xiàn)有方法的一種有前途的方式。
討論與未來工作
自2014年以來,我們已經(jīng)調(diào)查了超過200種基于深度學(xué)習(xí)的視頻動(dòng)作識(shí)別方法。盡管基準(zhǔn)數(shù)據(jù)集的性能趨于平穩(wěn),但在這一任務(wù)中仍有許多值得探索的積極和有前途的方向。
分析和見解 Analysis and insights
越來越多的改進(jìn)視頻動(dòng)作識(shí)別的方法被開發(fā)出來,同時(shí)也有一些論文對(duì)這些方法進(jìn)行了總結(jié)和分析。Huang等[82]明確分析了時(shí)間信息對(duì)視頻理解的影響。他們試圖回答這個(gè)問題“視頻中的動(dòng)作對(duì)識(shí)別動(dòng)作有多重要”。Feichtenhofer等人[48,49]提供了一個(gè)令人驚嘆的可視化的雙流模型已經(jīng)學(xué)習(xí)了什么,以便理解這些深度表征是如何工作的,以及它們捕獲了什么。Li等人[124]引入了數(shù)據(jù)集表示偏差的概念,發(fā)現(xiàn)當(dāng)前的數(shù)據(jù)集偏向于靜態(tài)表示。
在這種有偏差的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論,這確實(shí)是限制視頻動(dòng)作識(shí)別發(fā)展的一大問題。最近,Piergiovanni et al.引入了Avid[165]數(shù)據(jù)集,通過從不同人群收集數(shù)據(jù)來處理數(shù)據(jù)偏差。這些論文提供了很好的見解,幫助其他研究人員了解挑戰(zhàn)、開放問題以及下一個(gè)突破可能存在的地方。
數(shù)據(jù)增強(qiáng)
在圖像識(shí)別領(lǐng)域已經(jīng)提出了許多數(shù)據(jù)增強(qiáng)方法,如MixUp[258],CutMix[31],CutMix[254],AutoAugment[27],F(xiàn)astAutoAug[126]等。然而,視頻動(dòng)作識(shí)別仍然采用2015年[217,188]之前引入的基本數(shù)據(jù)增強(qiáng)技術(shù),包括隨機(jī)大小調(diào)整、隨機(jī)裁剪和隨機(jī)水平翻轉(zhuǎn)。最近,SimCLR[17]等論文表明,顏色抖動(dòng)和隨機(jī)旋轉(zhuǎn)極大地幫助了表征學(xué)習(xí)。因此,研究使用不同的數(shù)據(jù)增強(qiáng)技術(shù)進(jìn)行視頻動(dòng)作識(shí)別是特別有用的。這可能會(huì)更改所有現(xiàn)有方法的數(shù)據(jù)預(yù)處理管道
視頻域適應(yīng)
近年來,領(lǐng)域自適應(yīng)(DA)被廣泛研究以解決領(lǐng)域遷移問題。盡管在標(biāo)準(zhǔn)數(shù)據(jù)集上的準(zhǔn)確率越來越高,但目前的視頻模型跨數(shù)據(jù)集或領(lǐng)域的泛化能力還很少被探索。
關(guān)于視頻領(lǐng)域的自適應(yīng)已有較早的研究[193,241,89,159]。然而,這些文獻(xiàn)都是針對(duì)小規(guī)模的視頻數(shù)據(jù)挖掘,只有少數(shù)重疊的類別,可能不能反映實(shí)際的領(lǐng)域差異,可能導(dǎo)致有偏性的結(jié)論。Chen等人[15]引入了兩個(gè)更大尺度的數(shù)據(jù)集來研究視頻數(shù)據(jù)同化,發(fā)現(xiàn)對(duì)齊時(shí)間動(dòng)力學(xué)特別有用。Pan等[152]采用共同注意的方法來解決時(shí)間偏差問題。最近,Munro等人[145]探索了一種用于細(xì)粒度視頻動(dòng)作識(shí)別的多模態(tài)自我監(jiān)督方法,并展示了多模態(tài)學(xué)習(xí)在視頻DA中的有效性。Shuffle和Attend[95]認(rèn)為,將所有采樣片段的特征對(duì)齊會(huì)導(dǎo)致次優(yōu)解,因?yàn)樗衅味疾话嚓P(guān)語義。因此,他們建議使用一種注意機(jī)制,將注意力更多地集中在信息片段上,而丟棄非信息片段。綜上所述,視頻數(shù)據(jù)處理是一個(gè)很有前途的研究方向,特別是對(duì)于計(jì)算資源較少的研究人員。
神經(jīng)結(jié)構(gòu)搜索
近年來,神經(jīng)結(jié)構(gòu)研究引起了人們的極大興趣,是一個(gè)很有前途的研究方向。然而,考慮到其對(duì)計(jì)算資源的貪婪需求,目前在這方面發(fā)表的論文很少[156,163,161,178]。TVN家族[161],聯(lián)合優(yōu)化參數(shù)和運(yùn)行時(shí),可以實(shí)現(xiàn)與人類設(shè)計(jì)的當(dāng)代模型競爭的準(zhǔn)確性,并運(yùn)行得更快(在CPU上37到100毫秒,在GPU上10毫秒每秒鐘的視頻剪輯)。AssembleNet[178]和AssembleNet++[177]提供了一種通用的方法來學(xué)習(xí)跨輸入模式的特征表示之間的連接性,并且在猜謎游戲和其他基準(zhǔn)測試中表現(xiàn)出令人驚訝的好表現(xiàn)。AttentionNAS[222]提出了一種時(shí)空注意單元搜索的解決方案。發(fā)現(xiàn)的細(xì)胞可以插入任何網(wǎng)絡(luò),以改善時(shí)空特征。所有之前的論文都顯示了它們在視頻理解方面的潛力。
近年來,在圖像識(shí)別領(lǐng)域提出了一些有效的架構(gòu)搜索方法,如DARTS [130], Proxyless NAS [11], ENAS [160], oneshot NAS[7]等。將高效的2D cnn和高效的搜索算法結(jié)合起來以合理的成本執(zhí)行視頻NAS將是一件有趣的事情。
高效模型開發(fā)
盡管基于深度學(xué)習(xí)的視頻理解方法具有較高的精確度,但在實(shí)際應(yīng)用中很難將其用于視頻理解問題。存在幾個(gè)主要挑戰(zhàn):(1)大多數(shù)方法是在離線環(huán)境下開發(fā)的,這意味著輸入的是短視頻片段,而不是在線環(huán)境下的視頻流;(2)大多數(shù)方法不能滿足實(shí)時(shí)要求;(3)3D卷積或其他非標(biāo)準(zhǔn)操作符在非GPU設(shè)備(如邊緣設(shè)備)上不兼容。
因此,發(fā)展基于2D卷積的高效網(wǎng)絡(luò)體系結(jié)構(gòu)是一個(gè)很有前途的方向。圖像分類領(lǐng)域中提出的方法可以很容易地適用于視頻動(dòng)作識(shí)別,例如模型壓縮、模型量化、模型剪枝、分布式訓(xùn)練[68,127]、移動(dòng)網(wǎng)絡(luò)[80,265]、混合精度訓(xùn)練等。然而,在線設(shè)置需要更多的努力,因?yàn)榇蠖鄶?shù)動(dòng)作識(shí)別應(yīng)用的輸入是視頻流,例如監(jiān)控監(jiān)控。我們可能需要一個(gè)新的、更全面的數(shù)據(jù)集來對(duì)在線視頻動(dòng)作識(shí)別方法進(jìn)行基準(zhǔn)測試。最后,使用壓縮視頻可能是可取的,因?yàn)榇蠖鄶?shù)視頻已經(jīng)被壓縮,并且我們可以免費(fèi)訪問運(yùn)動(dòng)信息。
新數(shù)據(jù)集
對(duì)于機(jī)器學(xué)習(xí)來說,數(shù)據(jù)比模型開發(fā)更重要,至少是同樣重要。對(duì)于視頻動(dòng)作識(shí)別,大多數(shù)數(shù)據(jù)集偏向于空間表示[124],即大多數(shù)動(dòng)作可以通過視頻內(nèi)的單幀來識(shí)別,而不考慮時(shí)間運(yùn)動(dòng)。因此,在長期時(shí)間建模方面需要一個(gè)新的數(shù)據(jù)集來推進(jìn)視頻理解。此外,目前大多數(shù)數(shù)據(jù)集都是從YouTube上收集的。由于版權(quán)/隱私問題,數(shù)據(jù)集管理器通常只發(fā)布YouTube id或視頻鏈接供用戶下載,而不是實(shí)際的視頻。第一個(gè)問題是,在某些地區(qū),下載大規(guī)模數(shù)據(jù)集的速度可能很慢。特別是,YouTube最近開始禁止從單一IP進(jìn)行大規(guī)模下載。因此,許多研究人員甚至可能沒有數(shù)據(jù)集就開始在這個(gè)領(lǐng)域工作。第二個(gè)問題是,由于地域限制和隱私問題,一些視頻無法訪問。例如,原來的kinetis400數(shù)據(jù)集有超過300K的視頻,但目前我們只能抓取280K左右的視頻。我們平均每年損失5%的視頻。在對(duì)不同的方法進(jìn)行訓(xùn)練和評(píng)估時(shí),不可能對(duì)它們進(jìn)行公平的比較。
視頻對(duì)抗攻擊
對(duì)抗性例子已經(jīng)在圖像模型中得到了很好的研究。[199]首先表明,通過在原始圖像上插入少量噪聲來計(jì)算的對(duì)抗樣本可能會(huì)導(dǎo)致錯(cuò)誤的預(yù)測。然而,在攻擊視頻模型方面所做的工作有限。
這個(gè)任務(wù)通常考慮兩個(gè)設(shè)置,白盒攻擊(86,119,66,21)的對(duì)手總能完整的訪問模型包括給定輸入準(zhǔn)確的梯度,或一個(gè)黑盒(93、245、226),模型的結(jié)構(gòu)和參數(shù)的封鎖,這樣攻擊者只能訪問(輸入,輸出)對(duì)通過查詢。最近的研究ME-Sampler[260]直接利用運(yùn)動(dòng)信息生成對(duì)抗視頻,并顯示使用更少的查詢成功攻擊了許多視頻分類模型。綜上所述,這個(gè)方向很有用,因?yàn)楹芏喙径继峁┝艘曨l分類、異常檢測、樣本檢測、人臉檢測等服務(wù)的API。此外,本主題還與DeepFake視頻檢測相關(guān)。因此,研究攻擊和防御方法對(duì)于確保這些視頻服務(wù)的安全至關(guān)重要。
零樣本動(dòng)作識(shí)別
零樣本學(xué)習(xí)(ZSL)在圖像理解領(lǐng)域已經(jīng)成為一種趨勢,并已被應(yīng)用于視頻動(dòng)作識(shí)別。它的目標(biāo)是將學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到以前未見過的類別中。由于(1)昂貴的數(shù)據(jù)來源和注釋以及(2)可能的人類動(dòng)作集合是巨大的,零射擊動(dòng)作識(shí)別對(duì)于現(xiàn)實(shí)世界的應(yīng)用是非常有用的任務(wù)。
在這個(gè)方向有許多早期的嘗試[242,88,243,137,168,57]。它們大多遵循一個(gè)標(biāo)準(zhǔn)的框架,即首先使用預(yù)先訓(xùn)練好的網(wǎng)絡(luò)從視頻中提取視覺特征,然后訓(xùn)練一個(gè)聯(lián)合模型,將視覺嵌入映射到語義嵌入空間。通過這種方式,可以將模型應(yīng)用到新類中,方法是找到嵌入模型輸出最近的測試類。最近的一項(xiàng)工作URL[279]提出學(xué)習(xí)跨數(shù)據(jù)集泛化的通用表示。在URL[279]之后,[10]提出了第一個(gè)端到端ZSL動(dòng)作識(shí)別模型。他們還建立了新的ZSL訓(xùn)練和評(píng)估方案,為進(jìn)一步推進(jìn)該領(lǐng)域提供了深入的分析。受NLP域前訓(xùn)練和零樣本的成功啟發(fā),我們認(rèn)為ZSL動(dòng)作識(shí)別是一個(gè)很有前途的研究課題。
弱監(jiān)督視頻動(dòng)作識(shí)別
構(gòu)建高質(zhì)量的視頻動(dòng)作識(shí)別數(shù)據(jù)集[190,100]通常需要多個(gè)繁瑣的步驟:1)首先從互聯(lián)網(wǎng)上獲取大量原始視頻;2)刪除與數(shù)據(jù)集中類別無關(guān)的視頻;3)手動(dòng)裁剪有興趣動(dòng)作的視頻片段;4)細(xì)化分類標(biāo)簽。弱監(jiān)督動(dòng)作識(shí)別探索了如何降低管理訓(xùn)練數(shù)據(jù)的成本。
第一個(gè)研究方向[19,60,58]旨在降低采購視頻的成本和準(zhǔn)確的分類標(biāo)簽。他們設(shè)計(jì)訓(xùn)練方法,使用訓(xùn)練數(shù)據(jù),比如與行動(dòng)相關(guān)的圖像或部分注釋的視頻,這些數(shù)據(jù)來自互聯(lián)網(wǎng)等公開來源。因此,這種范式也被稱為webly-supervised learning[19,58]。最近關(guān)于全監(jiān)督學(xué)習(xí)的研究[60,64,38]也遵循了這一范式,但其特點(diǎn)是通過提取模型自身的推理結(jié)果來引導(dǎo)未標(biāo)記視頻。
第二個(gè)方向是去除注釋中最耗時(shí)的部分——修剪。UntrimmedNet[216]提出了一種對(duì)只有分類標(biāo)簽的未修剪視頻學(xué)習(xí)動(dòng)作識(shí)別模型的方法[149,172]。這一任務(wù)也與弱監(jiān)督的時(shí)間動(dòng)作定位有關(guān),其目的是自動(dòng)生成動(dòng)作的時(shí)間跨度。幾篇論文建議同時(shí)[155]或迭代[184]學(xué)習(xí)這兩個(gè)任務(wù)的模型。
細(xì)粒度視頻動(dòng)作識(shí)別
流行的動(dòng)作識(shí)別數(shù)據(jù)集,如UCF101[190]或Kinetics400[100],大多包含發(fā)生在各種場景中的動(dòng)作。然而,在這些數(shù)據(jù)集上學(xué)習(xí)的模型可能會(huì)過度擬合與行為無關(guān)的上下文信息[224,227,24]。已經(jīng)有幾個(gè)數(shù)據(jù)集被用來研究細(xì)粒度動(dòng)作識(shí)別問題,這些數(shù)據(jù)集可以檢驗(yàn)?zāi)P蛯?duì)特定動(dòng)作信息建模的能力。這些數(shù)據(jù)集包括人類活動(dòng)中的細(xì)粒度行為,如烹飪[28,108,174]、工作[103]和體育[181,124]。例如,F(xiàn)ineGym[181]是最近的一個(gè)大型數(shù)據(jù)集,在體操視頻中注釋了不同的動(dòng)作和子動(dòng)作。
以自我為中心的行為識(shí)別 Egocentric action recognition
近年來,隨著可穿戴相機(jī)設(shè)備的出現(xiàn),大規(guī)模自我中心行為識(shí)別[29,28]引起了越來越多的關(guān)注。自我中心行為識(shí)別需要對(duì)手部運(yùn)動(dòng)和復(fù)雜環(huán)境中相互作用的物體有很好的理解。一些論文利用對(duì)象檢測特征提供精細(xì)的對(duì)象上下文來改進(jìn)以自我為中心的視頻識(shí)別[136,223,229,180]。另一些則結(jié)合時(shí)空注意[192]或凝視注釋[131]來定位相互作用的物體,以便于動(dòng)作識(shí)別。與第三人稱動(dòng)作識(shí)別類似,多模態(tài)輸入(如光流和音頻)已被證明在自我中心動(dòng)作識(shí)別中是有效的[101]。
多模態(tài)
近年來,多模態(tài)視頻理解越來越受到關(guān)注[55,3,129,167,154,2,105]。多模態(tài)視頻理解有兩大類。第一組方法使用多模態(tài),如場景、物體、運(yùn)動(dòng)和音頻來豐富視頻表征。在第二組中,目標(biāo)是設(shè)計(jì)一個(gè)模型,利用模態(tài)信息作為訓(xùn)練前模型的監(jiān)督信號(hào)[195,138,249,62,2]。
由于視頻中語義的復(fù)雜性,學(xué)習(xí)一個(gè)魯棒和全面的視頻表示是極具挑戰(zhàn)性的。視頻數(shù)據(jù)通常包括不同形式的變化,包括外觀、運(yùn)動(dòng)、音頻、文本或場景[55,129,166]。因此,利用這些多模態(tài)表示是更有效地理解視頻內(nèi)容的關(guān)鍵步驟。視頻的多模態(tài)表征可以通過收集場景、對(duì)象、音頻、運(yùn)動(dòng)、外觀和文本等多種模態(tài)表征來近似。Ngiam等人[148]是早期建議使用多種方法獲得更好特征的嘗試。他們利用嘴唇和相應(yīng)的語音視頻進(jìn)行多模態(tài)表征學(xué)習(xí)。Miech等人[139]提出了一種混合嵌入專家模型,將包括運(yùn)動(dòng)、外觀、音頻和面部特征在內(nèi)的多種模式結(jié)合起來,并學(xué)習(xí)這些模式和文本之間的共享嵌入空間。Roig等人[175]將動(dòng)作、場景、物體和聲學(xué)事件特征等多種形態(tài)結(jié)合在一個(gè)金字塔結(jié)構(gòu)中進(jìn)行動(dòng)作識(shí)別。他們表明,添加每種形態(tài)可以提高最終動(dòng)作識(shí)別的準(zhǔn)確性。CE[129]和MMT[55]遵循與[139]相似的研究路線,其目標(biāo)是結(jié)合多種模態(tài)來獲得視頻的綜合表征,用于聯(lián)合視頻-文本表征學(xué)習(xí)。Piergiovanni等人[166]利用文本數(shù)據(jù)和視頻數(shù)據(jù)來學(xué)習(xí)聯(lián)合嵌入空間。利用學(xué)習(xí)到的關(guān)節(jié)嵌入空間,該方法能夠進(jìn)行零射擊動(dòng)作識(shí)別。由于強(qiáng)大的語義提取模型的可用性,以及變形金剛在視覺和語言任務(wù)上的成功,這一研究方向很有前途。視頻數(shù)據(jù)通常包括不同形式的變化,包括外觀、運(yùn)動(dòng)、音頻、文本或場景[55、129、166]。因此,利用這些多模式表示是更有效地理解視頻內(nèi)容的關(guān)鍵一步。
大多數(shù)視頻包含多種形式,如音頻或文本/字幕。這些模態(tài)是監(jiān)督學(xué)習(xí)視頻表示的重要來源[3,144,154,2,162]。Korbar等人[105]將音頻和視頻之間的自然同步作為監(jiān)督信號(hào)納入他們的對(duì)比學(xué)習(xí)目標(biāo),實(shí)現(xiàn)自我監(jiān)督表示學(xué)習(xí)。在多模態(tài)自監(jiān)督表示學(xué)習(xí)中,數(shù)據(jù)集起著重要的作用。VideoBERT[195]從YouTube上收集了31萬份烹飪視頻。但是,此數(shù)據(jù)集不是公開的。與BERT類似,VideoBERT使用了“蒙面語言模型”的訓(xùn)練目標(biāo),并將視覺表征量化為“視覺詞”。Miech等人[140]在2019年引入了HowTo100M數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包括1.22M個(gè)視頻的136M個(gè)剪輯及其相應(yīng)的文本。他們從YouTube上收集數(shù)據(jù)集,目的是獲得教學(xué)視頻(如何執(zhí)行一項(xiàng)活動(dòng))??偟膩碚f,它涵蓋了23.6K的教學(xué)任務(wù)。MIL-NCE[138]使用該數(shù)據(jù)集進(jìn)行自我監(jiān)督的跨模態(tài)表示學(xué)習(xí)。通過在對(duì)比學(xué)習(xí)目標(biāo)中考慮多個(gè)正對(duì),他們解決了視覺失調(diào)敘述的問題。ActBERT[275]利用HowTo100M數(shù)據(jù)集以自我監(jiān)督的方式對(duì)模型進(jìn)行預(yù)訓(xùn)練。他們將視覺、動(dòng)作、文本和物體特征結(jié)合起來進(jìn)行跨模態(tài)表征學(xué)習(xí)。最近,AVLnet[176]和MMV[2]考慮了視覺、音頻和語言三種模式用于自監(jiān)督表征學(xué)習(xí)。由于對(duì)比學(xué)習(xí)在許多視覺和語言任務(wù)上的成功,以及在YouTube、Instagram或Flickr等平臺(tái)上獲得了大量未標(biāo)記的多模態(tài)視頻數(shù)據(jù),這一研究方向也越來越受到關(guān)注。表6的頂部部分比較了多模態(tài)自我監(jiān)督表示學(xué)習(xí)方法。我們將在下一節(jié)討論更多關(guān)于視頻表示學(xué)習(xí)的工作。

自監(jiān)督視頻表示學(xué)習(xí)
自監(jiān)督學(xué)習(xí)最近引起了更多的關(guān)注,因?yàn)樗軌蚶么罅康奈礃?biāo)記數(shù)據(jù),通過設(shè)計(jì)一個(gè)代理任務(wù)來從數(shù)據(jù)本身獲得免費(fèi)的監(jiān)督信號(hào)。它最早出現(xiàn)在圖像表征學(xué)習(xí)中。在圖像方面,第一批論文旨在設(shè)計(jì)代理任務(wù),以完成丟失的信息,如圖像著色[262]和圖像重新排序[153,61,263]。第二批論文以實(shí)例歧視[235]為借口,以對(duì)比損失[235,151]為借口進(jìn)行監(jiān)督。他們通過對(duì)沒有類別標(biāo)簽的對(duì)象實(shí)例的視覺相似性建模來學(xué)習(xí)視覺表示[235,75,201,18,17]。
自監(jiān)督學(xué)習(xí)也適用于視頻。與圖像相比,視頻有另一個(gè)軸,時(shí)間維度,我們可以用它來制作借口任務(wù)。用于此目的的信息完成任務(wù)包括預(yù)測混洗幀[141、52]和視頻剪輯[240]的正確順序。Jing et al.[94]僅通過預(yù)測旋轉(zhuǎn)視頻剪輯的旋轉(zhuǎn)角度來關(guān)注空間維度。結(jié)合時(shí)間和空間信息,已經(jīng)引入了幾個(gè)任務(wù)來解決時(shí)空立方體難題、預(yù)測未來幀[208]、預(yù)測長期運(yùn)動(dòng)[134]以及預(yù)測運(yùn)動(dòng)和外觀統(tǒng)計(jì)[211]。RSPNet[16]和視覺節(jié)奏[247]利用視頻剪輯之間的相對(duì)速度作為監(jiān)控信號(hào)。
增加的時(shí)間軸還可以在設(shè)計(jì)實(shí)例區(qū)分借口時(shí)提供靈活性[67,167]。受三維卷積與空間和時(shí)間可分離卷積解耦的啟發(fā)[239],Zhang等人[266]提出將視頻表示學(xué)習(xí)解耦為兩個(gè)子任務(wù):空間對(duì)比和時(shí)間對(duì)比。最近,Han等人[72]提出了用于自監(jiān)督視頻表示學(xué)習(xí)的記憶增強(qiáng)密集預(yù)測編碼。他們將每個(gè)視頻分成幾個(gè)塊,并通過結(jié)合內(nèi)存中的壓縮表示來預(yù)測未來塊的嵌入。
視頻中的時(shí)間連續(xù)性激發(fā)研究人員圍繞通信設(shè)計(jì)其他借口任務(wù)。Wanget等人[221]提出通過執(zhí)行循環(huán)一致性跟蹤來學(xué)習(xí)表示。具體地說,他們在連續(xù)的視頻幀中前后跟蹤同一目標(biāo),并利用起點(diǎn)和終點(diǎn)之間的不一致性作為損失函數(shù)。TCC[39]是一篇并發(fā)論文。[39]沒有跟蹤局部對(duì)象,而是使用周期一致性來執(zhí)行幀級(jí)時(shí)間對(duì)齊作為監(jiān)督信號(hào)。【120】是【221】的后續(xù)工作,利用了視頻幀之間的對(duì)象級(jí)和像素級(jí)對(duì)應(yīng)。最近,在[87]中,長程時(shí)間對(duì)應(yīng)被建模為隨機(jī)游走圖,以幫助學(xué)習(xí)視頻表示。
我們在表6的底部部分比較了視頻自監(jiān)督表示學(xué)習(xí)方法。可以觀察到一個(gè)明顯的趨勢,最近的論文取得了比監(jiān)督前訓(xùn)練更好的線性評(píng)價(jià)準(zhǔn)確性和微調(diào)精度。這表明,自我監(jiān)督學(xué)習(xí)可能是學(xué)習(xí)更好的視頻表示的一個(gè)有前途的方向。
總結(jié)
在這次調(diào)查中,我們對(duì)200多種基于深度學(xué)習(xí)的視頻動(dòng)作識(shí)別的最新方法進(jìn)行了全面的回顧。盡管這不是一份詳盡的清單,但我們希望這份調(diào)查對(duì)那些尋求進(jìn)入該領(lǐng)域的人來說是一份簡單易懂的教程,對(duì)于那些尋求找到新的研究方向的人來說是一次鼓舞人心的討論。