最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

I3D 論文精讀【論文精讀】

2022-04-02 22:50 作者:小清舍  | 我要投稿


I3D

論文:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

論文地址:https://openaccess.thecvf.com/content_cvpr_2017/papers/Carreira_Quo_Vadis_Action_CVPR_2017_paper.pdf

貢獻(xiàn)點(diǎn):

  1. 提出了1個(gè)新模型:一個(gè)inflated 3D network(I3D),把2D模型擴(kuò)張到3D模型,這樣就不用專門(mén)設(shè)計(jì)一個(gè)視頻理解的網(wǎng)絡(luò)了,可以使用2D里已經(jīng)設(shè)計(jì)好的網(wǎng)絡(luò),比如VGG、ResNet直接把它擴(kuò)張到3D就可以了,甚至利用一些巧妙的方式把預(yù)訓(xùn)練模型利用起來(lái),這樣不僅設(shè)計(jì)簡(jiǎn)單,而且可以省掉很多預(yù)訓(xùn)練的麻煩
  2. 提出了一個(gè)新的數(shù)據(jù)集——Kinetics數(shù)據(jù)集,剛開(kāi)始提出的時(shí)候只有400類(lèi),后面又推出了kinetic 600/700,分別對(duì)應(yīng)600類(lèi)和700類(lèi),視頻的數(shù)量也從最開(kāi)始的30萬(wàn)漲到了50多萬(wàn),最后60多萬(wàn),類(lèi)比均衡,難度適中,不算特別大,很多人玩得動(dòng),一經(jīng)提出就得到了廣泛的使用,一直到現(xiàn)在,只要是做視頻分類(lèi)的,那基本一定要在這個(gè)數(shù)據(jù)集上出一個(gè)結(jié)果,你不出,審稿人也會(huì)問(wèn)你要,是逃不掉的
  3. 論文主要賣(mài)點(diǎn)就是新的模型和數(shù)據(jù)集



Quo Vadis由來(lái):是一個(gè)1951年的電影,Where is going?借此圖表達(dá)意思是如果你只通過(guò)一張圖片來(lái)看的話是不能區(qū)分很多動(dòng)作的,比如不知道這兩個(gè)演員是要親對(duì)方,還是他們已經(jīng)親過(guò)了,更重要的一個(gè)問(wèn)題是不論他親過(guò)還是沒(méi)親過(guò),接下來(lái)的動(dòng)作該如何發(fā)展呢?這些問(wèn)題我們通過(guò)單一的一張視頻幀都是無(wú)法回答的,只有看到了視頻理解了上下文的含義,才知道這些動(dòng)作發(fā)生了什么,以及未來(lái)有可能會(huì)發(fā)生什么,然后作者說(shuō)視頻領(lǐng)域缺少這么一個(gè)大的視頻數(shù)據(jù)集,所以導(dǎo)致現(xiàn)在大家也不能很好的去研究這個(gè)視頻理解的框架,本文中,作者證實(shí)了這個(gè)視頻的模型,最好還是要在視頻上去預(yù)訓(xùn)練。具體來(lái)說(shuō)就是本文提出了一個(gè)又大又好的數(shù)據(jù)集,然后在這個(gè)數(shù)據(jù)集之上,他們訓(xùn)練了一個(gè)新的模型交I3D模型,然后這個(gè)模型在現(xiàn)有的這些視頻數(shù)據(jù)集上,都取得了巨大的這個(gè)效果提升。比如在kinetics數(shù)據(jù)集上預(yù)訓(xùn)練之后,然后再在UCF101這個(gè)數(shù)據(jù)集上去做微調(diào),最后的結(jié)果就直接刷到98了,直接就宣告了UCF101數(shù)據(jù)集的終結(jié),以及kinetics數(shù)據(jù)集的崛起,從這篇論文之后,大家不僅刷不動(dòng)UCF101這個(gè)數(shù)據(jù)集了,即使有一點(diǎn)提升,審稿人也是不會(huì)放過(guò)你,一定會(huì)問(wèn)你為什么不跑kinetics數(shù)據(jù)集。所以從這個(gè)角度來(lái)說(shuō)I3D這篇論文開(kāi)啟了一個(gè)新時(shí)代,但是比較諷刺的是現(xiàn)在大家還是覺(jué)得這個(gè)數(shù)據(jù)集非常的special heavy,就是從這個(gè)視頻里選最中間的那一幀,然后對(duì)這一幀做一個(gè)圖像分類(lèi),他的準(zhǔn)確度就已經(jīng)很高了,完全不需要太多的上下文信息,也完全不需要模型具備這種太強(qiáng)的時(shí)序建模能力,所以跟這篇論文達(dá)到的目標(biāo)還是有一段距離。

大家到現(xiàn)在還不能找到一個(gè)很好的方式去構(gòu)建一個(gè)很好的視頻數(shù)據(jù)集,從而能讓學(xué)到的模型,真的能關(guān)注這種時(shí)序上的信息,真的能去處理這種長(zhǎng)時(shí)間的復(fù)雜的視頻,而且真的能夠拓展到生活中的方方面面的領(lǐng)域里去,所以視頻理解的道路還非常漫長(zhǎng)



團(tuán)隊(duì)介紹:1作推動(dòng)了kinetics這個(gè)數(shù)據(jù)集的發(fā)展

去年做了一個(gè)工作perceiver

論文大概

這篇論文沒(méi)有related work因?yàn)檫@些相關(guān)工作和他們要說(shuō)的內(nèi)容非常的相關(guān),讀者必須對(duì)這些行管工作有一些了解,才能欣賞到這篇論文的必要之處

過(guò)去非常流行的視頻理解方法

  1. 先有一個(gè)卷積神經(jīng)網(wǎng)絡(luò),后面跟一個(gè)lstm,卷積神經(jīng)網(wǎng)絡(luò)用來(lái)抽取特征,讓LSTM來(lái)處理時(shí)序信息
  2. 直接訓(xùn)練一個(gè)3D網(wǎng)絡(luò)
  3. 雙流網(wǎng)絡(luò)

本文選自arxiv版本是2018年2月份最后一次更新的

摘要:目前數(shù)據(jù)集太小比如UCF-101和HMDB-51,分別有101個(gè)類(lèi)別和51個(gè)類(lèi)別,視頻數(shù)量UCF13000個(gè)視頻,HMDB是7000多個(gè)視頻,在笑的數(shù)據(jù)集上很難發(fā)揮深度學(xué)習(xí)的威力,所以在CVPR16,ECCV16的時(shí)候,很多方法在這兩個(gè)數(shù)據(jù)集上的表現(xiàn)都很相似了,作者說(shuō),這些方法肯定有強(qiáng)有弱,但因?yàn)閿?shù)據(jù)集太小,已經(jīng)無(wú)法讓他能夠去識(shí)別好這種視頻網(wǎng)絡(luò)架構(gòu)了,于是提出新數(shù)據(jù)集

,也把之前最好的網(wǎng)絡(luò)結(jié)構(gòu)在這個(gè)數(shù)據(jù)集上試了一遍

k400數(shù)據(jù)集,每個(gè)視頻10秒,按動(dòng)作標(biāo)注好了

clip就是一小段視頻

賣(mài)點(diǎn)遷移學(xué)習(xí),在這個(gè)大數(shù)據(jù)集上預(yù)訓(xùn)練過(guò)的模型,在小規(guī)模的數(shù)據(jù)集上能有多大的提升

第二段提出雙流的inflated 3D 網(wǎng)絡(luò),比如將ResNet的網(wǎng)絡(luò)拿過(guò)來(lái),把里面所有的這種3*3的kernel或者pooling全都變成3*3*3的,然后一個(gè)針對(duì)視頻理解的網(wǎng)絡(luò)結(jié)構(gòu)就生成了,不用專門(mén)設(shè)計(jì)針對(duì)視頻理解的網(wǎng)絡(luò)架構(gòu)了

UCF和HMDB上準(zhǔn)確率不凡,給判了死刑,只能座位輔助實(shí)驗(yàn)或者自監(jiān)督學(xué)習(xí)特征的一個(gè)衡量標(biāo)準(zhǔn),而不能作為有監(jiān)督學(xué)習(xí)下的衡量標(biāo)準(zhǔn)

引言

ImageNet這個(gè)數(shù)據(jù)集所帶來(lái)額好處不光是說(shuō)可以訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),而且是說(shuō)在這種大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練之后,我們可以直接從這個(gè)網(wǎng)絡(luò)里抽特征,比如之前的做法就是把fc6或者fc7就是倒數(shù)那兩層的全連接層特征抽出來(lái),可以非常有效的遷移到其他任務(wù)上去,比如可以在pascal voc分類(lèi)或者檢測(cè)的任務(wù)上都能取得很好的效果

從ImageNet訓(xùn)練這種網(wǎng)絡(luò)結(jié)構(gòu)開(kāi)始,深度學(xué)習(xí)逐漸把別的任務(wù)也控制了,比如分割,深度估計(jì)、姿態(tài)估計(jì)和動(dòng)作分類(lèi)這些任務(wù)

在視頻領(lǐng)域,其實(shí)這種現(xiàn)在大規(guī)模數(shù)據(jù)集上去做預(yù)訓(xùn)練然后遷移到小數(shù)據(jù)集上這種范式呢,其實(shí)還沒(méi)有被證實(shí)有效,因?yàn)橐曨l領(lǐng)域還沒(méi)有這么一個(gè)好用的,可用的大規(guī)模數(shù)據(jù)集,目前有的數(shù)據(jù)集其實(shí)只有1萬(wàn)個(gè)視頻左右,相對(duì)于其他任務(wù)或者其他領(lǐng)域來(lái)說(shuō)數(shù)據(jù)量實(shí)在太小了,于是提出了Kinetics數(shù)據(jù)集,遠(yuǎn)比HMDB和UCF大

k400有400個(gè)類(lèi)別,每個(gè)類(lèi)別超過(guò)400個(gè)樣本,并且每個(gè)樣本都來(lái)自一個(gè)獨(dú)一無(wú)二的youtube視頻

拿之前最好的方法來(lái)跑一下進(jìn)行benchmark,這樣可以看一下之前的方法有哪些優(yōu)點(diǎn),有哪些缺點(diǎn),他們之間有哪些相似或者不同的特性,也可以驗(yàn)證一下新數(shù)據(jù)集的有效性,因?yàn)橛械臅r(shí)候新手機(jī)的數(shù)據(jù)集可能會(huì)有一些他自帶的特性或者Bias導(dǎo)致它會(huì)過(guò)于簡(jiǎn)單或者過(guò)于難,就沒(méi)有人會(huì)去用這個(gè)數(shù)據(jù)集,構(gòu)建數(shù)據(jù)集的意義也就消失了

數(shù)據(jù)集在3種網(wǎng)絡(luò)(卷積+LSTM、雙流、3D)上表現(xiàn)的參差不齊,作者取其精華去其糟粕就提出了他們的Two-Stream I3D

方法

首先講在2D圖像分類(lèi)領(lǐng)域其實(shí)已經(jīng)有這種主導(dǎo)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)了,之前可能是VGG、Inception現(xiàn)在是ResNet,大家都會(huì)去用也沒(méi)有什么意義,但是在視頻領(lǐng)域到2017年大家還沒(méi)有一個(gè)定論,到現(xiàn)在為止視頻領(lǐng)域也沒(méi)有一個(gè)定論,到底用2D還是3D還是甚至去使用transformer也還沒(méi)有一個(gè)固定的結(jié)論

使用2D網(wǎng)絡(luò)預(yù)訓(xùn)練的參數(shù)作為初始化之后,I3D網(wǎng)絡(luò)也不需要很多的視頻數(shù)據(jù)去訓(xùn)練了,

本文使用的網(wǎng)絡(luò)結(jié)構(gòu)是從inception V1經(jīng)過(guò)一些改造得來(lái)的,為什么使用Inception 而不是Resnet是因?yàn)?016年很多論文做過(guò)消融實(shí)驗(yàn),發(fā)現(xiàn)至少在當(dāng)時(shí)的視頻分類(lèi)上inception的結(jié)構(gòu)要比ResNet稍微好一點(diǎn),由于ResNet太具有統(tǒng)治地位了,一年之后在Non local那篇論文,作者就已經(jīng)把I3D網(wǎng)絡(luò)用ResNet進(jìn)行實(shí)現(xiàn)了,自從那個(gè)時(shí)候,大家在說(shuō)I3D其實(shí)很多時(shí)候也指的是ResNet基礎(chǔ)的I3D網(wǎng)絡(luò)

方法對(duì)比

第一種:卷積神經(jīng)網(wǎng)絡(luò)后面跟一個(gè)LSTM,這種方式呢,還是把視頻更多看成圖像分類(lèi)的任務(wù),一張一張圖片去過(guò)神經(jīng)網(wǎng)絡(luò),抽特征的過(guò)程是完全分開(kāi)的,抽完所有特征之后扔給一個(gè)LSTM網(wǎng)絡(luò),因?yàn)長(zhǎng)STM是可以進(jìn)行時(shí)序建模的,因此可以把每個(gè)時(shí)間戳上的這個(gè)特征,糅合起來(lái)看看整個(gè)視頻到底在說(shuō)些什么,經(jīng)過(guò)一些計(jì)算把最后一個(gè)時(shí)間戳上出來(lái)的結(jié)果,后面加上一個(gè)全連接層,然后就去做這種分類(lèi)任務(wù)了,這種方式其實(shí)是一種非常合理的方式,大家之前也是這么想的,圖片分開(kāi)做,然后用一個(gè)LSTM這種網(wǎng)絡(luò)去模擬這個(gè)時(shí)序信息,但可惜,這種方法在之前至少這些數(shù)據(jù)集上,他的表現(xiàn)并不是非常好,所以很快這種方式就被拋棄了,基本留下來(lái)的就是兩個(gè)主流框架

第二種3D卷積神經(jīng)網(wǎng)絡(luò),非常暴力,將視頻劈成一個(gè)一個(gè)的這個(gè)視頻段,然后每一個(gè)視頻段里,有從1到K的圖片,然后,他把這么多圖片當(dāng)成一個(gè)Volume,整個(gè)視頻扔給這個(gè)網(wǎng)絡(luò),意味著這個(gè)網(wǎng)絡(luò)可以進(jìn)行時(shí)空學(xué)習(xí),就是你的卷積核必須是三維的,不光要處理二維上的圖像,還要處理額外的時(shí)間維度,所以也就是我們說(shuō)的這個(gè)3*3*3,這就會(huì)導(dǎo)致參數(shù)量變得很大,相當(dāng)于所有的參數(shù)層都多了一個(gè)維度,之前在數(shù)據(jù)集少的情況下,不是很好訓(xùn)練,效果也一般,但是在這篇論文里,給夠數(shù)據(jù)之后威力可能就顯現(xiàn)出來(lái)了

第三種:雙流網(wǎng)絡(luò):提前先把光流抽取好,自身就蘊(yùn)含了非常準(zhǔn)確而且非常強(qiáng)大的物體運(yùn)動(dòng)的信息在里面,所以他變相是一種視頻里時(shí)序信息的一個(gè)特征表示,所以只需要先從視頻里去抽取這個(gè)光流圖,然后只需要學(xué)習(xí)一個(gè)映射,從這個(gè)光流到最后的這個(gè)動(dòng)作之間的這個(gè)映射關(guān)系就可以了,而卷積神經(jīng)網(wǎng)絡(luò)本身,并不需要知道這個(gè)運(yùn)動(dòng)是怎么發(fā)生的,也不需要有這種時(shí)序模擬建模的能力,這些就全交給光流去做了,網(wǎng)絡(luò)簡(jiǎn)單,對(duì)模型的要求也比較低,所以比較好訓(xùn)練,結(jié)果也非常的高,在15、16年的時(shí)候,雙流網(wǎng)絡(luò)是完全壓著這個(gè)3D神經(jīng)網(wǎng)絡(luò)的,90%的工作都是基于雙流網(wǎng)絡(luò),具體的是這個(gè)雙流網(wǎng)絡(luò)就是有兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)都是2D不是3D,左邊的網(wǎng)絡(luò)叫做空間流,他的輸入是一幀或者多幀,主要負(fù)責(zé)學(xué)習(xí)這個(gè)場(chǎng)景信息,右邊的叫做時(shí)間流,他的輸入是光流圖像,主要為了學(xué)習(xí)這個(gè)物體的這個(gè)運(yùn)動(dòng)信息,這兩個(gè)神經(jīng)網(wǎng)絡(luò)最后會(huì)給一個(gè)特征,然后做一個(gè)分類(lèi)的結(jié)果,當(dāng)有一個(gè)分類(lèi)的結(jié)果之后,做一個(gè)later fusion最后就把這兩個(gè)logist加權(quán)平均一下就可以了


3D-Fused Two-Stream:結(jié)合3d和雙流網(wǎng)絡(luò),剛開(kāi)始按雙流網(wǎng)絡(luò)做,輸入是一個(gè)2DCNN,右邊也是2DCNN然后輸入是光流,最后在還沒(méi)有出結(jié)果的時(shí)候把兩個(gè)特征先融合在一起,然后用一個(gè)3D卷積神經(jīng)網(wǎng)絡(luò)去處理一下,最后直接得到一個(gè)分類(lèi)結(jié)果,這里的3DCNN也可以用LSTM替代的,但是因?yàn)樾Ч缓?,大家都是?DCNN做的


I3D細(xì)節(jié)


Inflate 2D to 3D


Bootstrapping :如何能從一個(gè)2D ImageNet已經(jīng)訓(xùn)練好的模型出發(fā),然后去初始化一個(gè)3D模型繼續(xù)做訓(xùn)練,讓他變得更好,這里使用的是,給定同樣的輸入,用這個(gè)輸入在原來(lái)的那個(gè)模型上跑一遍,然后再在我們初始化后的模型上再跑一遍,這兩種輸出按道理來(lái)說(shuō)應(yīng)該是完全一樣的,因?yàn)槿绻麉?shù)搬運(yùn)一樣,這兩個(gè)模型是完全對(duì)等的,那如果是同樣的輸入同樣的模型,那你的輸出就應(yīng)該相等,

這里用同樣一張圖片反復(fù)復(fù)制粘貼,最后變成了一個(gè)視頻,這個(gè)視頻里全都是同樣的視頻幀,播放是沒(méi)有變化的,把所有2D的filter全都在這個(gè)時(shí)間的維度,也復(fù)制粘貼了N次,就跟這個(gè)輸入視頻呢對(duì)應(yīng)起來(lái)了,輸出相同




具體細(xì)節(jié)

不做下采樣

實(shí)驗(yàn)對(duì)比



效果最好,對(duì)比其他


original沒(méi)有用K400后面兩個(gè)用了K400

整體微調(diào)的效果會(huì)好一些


意味著可以從頭訓(xùn)練并不一定要借助ImageNet預(yù)訓(xùn)練好的模型了


結(jié)論

在大規(guī)模數(shù)據(jù)集上做預(yù)訓(xùn)練,然后做遷移學(xué)習(xí),得到的效果是非常好的

只是針對(duì)了視頻分類(lèi)這個(gè)論文里,得到的結(jié)論不一定準(zhǔn)確,如果接下來(lái)能進(jìn)一步驗(yàn)證,在K400上做預(yù)訓(xùn)練,在其他視頻任務(wù)上,比如視頻分割,視頻物體檢測(cè)或者光流計(jì)算上,在K400的預(yù)訓(xùn)練都能提供幫助的話,那這個(gè)數(shù)據(jù)集就太厲害了,而且這個(gè)影響力也會(huì)大不少。因?yàn)闀r(shí)間和計(jì)算的關(guān)系,就沒(méi)有一一去做,最好把數(shù)據(jù)集開(kāi)放出來(lái),大家可以一起來(lái)探索一下

在模型上的探索也沒(méi)有做的非常全面,比如沒(méi)有考慮比較火的action tubes或者attention mechanism

往往寫(xiě)在結(jié)論里的future work都是非常好的研究方向,可以在這里找啟發(fā),跟進(jìn)展望

I3D 論文精讀【論文精讀】的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
兴仁县| 成都市| 略阳县| 萍乡市| 久治县| 成安县| 西安市| 应城市| 改则县| 金川县| 桂东县| 古蔺县| 鱼台县| 来宾市| 黄平县| 莒南县| 三穗县| 十堰市| 琼结县| 沂南县| 贡嘎县| 湖北省| 北碚区| 闽清县| 巩义市| 南昌县| 雷州市| 鄱阳县| 海宁市| 柏乡县| 五指山市| 江永县| 无棣县| 阜宁县| 博野县| 马尔康县| 鸡西市| 哈密市| 太湖县| 东城区| 潜山县|