雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】

論文:Two-Stream Convolutional Networks for Action Recognition in Videos
論文地址:https://proceedings.neurips.cc/paper/2014/file/00ec53c4682d36f5c4359f4ae7bd7ba1-Paper.pdf
視頻理解開山之作:雙流網(wǎng)絡(luò)(Two-Stream Convolutional Networks)
從雙流網(wǎng)絡(luò)——TSN——I3D——slow fast——video transformer(time transformer)
視頻本身是一個(gè)很好的數(shù)據(jù)來源,比2D的單個(gè)圖像包含更多的信息,比如有物體之間移動(dòng)的信息,和長期的時(shí)序信息和音頻信號,非常適合做多模態(tài)學(xué)習(xí)
人眼看到的信號也是連續(xù)的以視頻形式展現(xiàn)的,而不是一個(gè)又一個(gè)靜止的圖片
因此如何更好地利用視頻數(shù)據(jù)做視頻理解有可能是通向更強(qiáng)的人工智能的必經(jīng)之路

2022.2.9特斯拉總監(jiān)Andrej Karpathy 發(fā)表推特說計(jì)算機(jī)視覺現(xiàn)在的研究有一點(diǎn)停滯不前在進(jìn)入2D紋理識別的局部minimum上,大家都是在ImageNet和COCO上刷分,很卷了,堆了一大堆數(shù)據(jù),用了很大的模型挑了很多的參數(shù),但長的點(diǎn)比較少,現(xiàn)在有點(diǎn)像AlexNet之前用傳統(tǒng)手工特征去做視覺時(shí)候得感覺,花費(fèi)大功夫可能也就長0.5-1個(gè)點(diǎn)
這雖然并不是不好但是這只是第一步,解鎖更長足的進(jìn)步需要一個(gè)新的框架,訓(xùn)練的數(shù)據(jù)來源一定得是視頻,而不是去網(wǎng)上爬單個(gè)的圖片
因此視頻理解是一個(gè)很好的研究方向且非常有前景
雙流網(wǎng)絡(luò)為什么是開山之作?雙流網(wǎng)絡(luò)并不是第一篇把深度學(xué)習(xí)用到視頻分類任務(wù)上的,在2014早期CVPR就有一篇文章Deep video把深度學(xué)習(xí)應(yīng)用到視頻分類上,而且提出了一個(gè)巨大數(shù)據(jù)集:Sports One Million(100萬個(gè)視頻)
但是最后訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)差強(qiáng)人意,在當(dāng)時(shí)常見的幾個(gè)數(shù)據(jù)集上訓(xùn)練之后效果甚至還不如之前手工設(shè)計(jì)的幾個(gè)特征
雙流網(wǎng)絡(luò)是第一個(gè)能讓卷積神經(jīng)網(wǎng)絡(luò)的效果和之前基于最好的手工特征的方法打成平手,讓大家了解不是深度學(xué)習(xí)解決不了視頻理解,而是之前打開的方式不對,從此在視頻理解領(lǐng)域,深度學(xué)習(xí)的方法基本也就是占主流地位,所以將雙流網(wǎng)絡(luò)稱為視頻理解領(lǐng)域的開山之作
文章總體架構(gòu)
文章收錄與2014年的neurons
正文內(nèi)容8頁(arXiv版本無頁數(shù)限制加了兩張圖)

論文寫作中規(guī)中矩,上來先半頁摘要
闡述3頁,1頁篇幅實(shí)現(xiàn)細(xì)節(jié)
但目前網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜使用的trick,數(shù)據(jù)增強(qiáng)越來越多
現(xiàn)在常規(guī)操作都是大家簡單地在正文里提一下,具體實(shí)現(xiàn)細(xì)節(jié)放到補(bǔ)充材料中
正文
雙流卷積神經(jīng)網(wǎng)絡(luò)用來做視頻動(dòng)作識別
更有實(shí)際指導(dǎo)意義,數(shù)據(jù)集更好收集

雙流網(wǎng)絡(luò)顧名思義使用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)
作者來自VGG組,大佬,還有另外一篇巨作VGG-Net

對于2D圖像分類任務(wù)來說,當(dāng)給予單張圖片作為輸入,將他扔給一個(gè)卷積神經(jīng)網(wǎng)絡(luò)就可以,經(jīng)過幾層conv然后幾層fc,最后得到一個(gè)分類結(jié)果
但當(dāng)輸入為一個(gè)視頻,有很多連續(xù)的幀,將怎樣利用卷積神經(jīng)網(wǎng)絡(luò)呢
早期方法是從視頻抽一些關(guān)鍵幀,然后將這些幀一個(gè)一個(gè)通過卷積神經(jīng)網(wǎng)絡(luò),然后將結(jié)果合并起來
作為整體的一個(gè)輸入扔進(jìn)卷積神經(jīng)網(wǎng)絡(luò)然后在網(wǎng)絡(luò)做一些early fusion或者late fusion達(dá)到時(shí)空學(xué)習(xí)的效果,但是這些工作的效果都差強(qiáng)人意,甚至比不上之前手工設(shè)計(jì)的文章
本文雙流網(wǎng)絡(luò)作者發(fā)現(xiàn)一個(gè)比較有趣的現(xiàn)象,之所以用一個(gè)神經(jīng)網(wǎng)絡(luò)無法處理好這種視頻問題是因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)比較擅長去學(xué)習(xí)局部的特征而不擅長學(xué)習(xí)視頻之中這種物體的移動(dòng)規(guī)律
作者想如果卷積神經(jīng)網(wǎng)絡(luò)無法處理這種運(yùn)動(dòng)信息motion information,那就先抽取好運(yùn)動(dòng)信息即文中圖提到的多幀光流抽取,只需要神經(jīng)網(wǎng)絡(luò)學(xué)從最開始的輸入光流到動(dòng)作分類之間的映射就可以
學(xué)習(xí)這種映射是深度卷積神經(jīng)網(wǎng)絡(luò)最擅長的事情,通過一系列矩陣乘法學(xué)習(xí)輸入到輸出之間的映射關(guān)系
作者將關(guān)注空間信息神經(jīng)網(wǎng)絡(luò)稱為空間流卷積神經(jīng)網(wǎng)絡(luò),把關(guān)注Motion-information的卷積神經(jīng)網(wǎng)絡(luò)稱為時(shí)間流神經(jīng)網(wǎng)絡(luò)
空間流的輸入是一張單幀的圖片,最后給一個(gè)分類的概率
時(shí)間流的輸入是一系列的光流圖片,最后也給一個(gè)分類的概率
最后作者將兩個(gè)概率做加權(quán)平均得到最終的預(yù)測 ,以上就是雙流網(wǎng)絡(luò)的結(jié)構(gòu)
光流(optical flow):光的流動(dòng),光是怎么改變的
光流描述的是觀察者和場景之間各種物體這種運(yùn)動(dòng),其實(shí)就是視頻里各個(gè)物體之間是怎么運(yùn)動(dòng)的

光流可視化:圖左邊是視頻前后兩幀疊加在一起,一個(gè)*****,背景不動(dòng)人在動(dòng),當(dāng)用一些光流預(yù)測算法把這個(gè)光流預(yù)測出來的時(shí)候,可以看到右圖整個(gè)背景是黑色的,什么值都沒有因?yàn)楣鉀]有流動(dòng)背景是沒有變,只有前景人在動(dòng),所以光流很準(zhǔn)確的捕捉到了人的運(yùn)動(dòng),運(yùn)動(dòng)越明顯的地方顏色越亮,代表運(yùn)動(dòng)幅度越大
光流是一個(gè)非常有效的描述物體之間運(yùn)動(dòng)的一個(gè)特征表示
通過提取光流可以把背景不必要的噪聲包括人的穿著、性別全都忽略,最后提取到的特征完全是專注這個(gè)動(dòng)作本身的,可以很好地描述這個(gè)運(yùn)動(dòng)信息
雙流網(wǎng)絡(luò)把神經(jīng)網(wǎng)絡(luò)的短板補(bǔ)上了:學(xué)不好物體的運(yùn)動(dòng)信息,將抽好的運(yùn)動(dòng)信息的特征直接給出,只要學(xué)習(xí)映射就好,因此性能大大提升
細(xì)讀

本篇研究如何使用深度卷積神經(jīng)網(wǎng)絡(luò)去做視頻里的動(dòng)作識別,主要難點(diǎn)在于如何能同時(shí)學(xué)到兩種信息
一種是從靜止的圖像獲得外觀信息如物體形狀、大小、顏色,場景信息
另一種是物體之間的移動(dòng)信息或者想象為物體的時(shí)序信息
這兩種信息對視頻理解來說都至關(guān)重要
作者想把之前最好的手工特征中蘊(yùn)含的思想帶入到深度學(xué)習(xí)這種數(shù)據(jù)驅(qū)動(dòng)的框架之中來從而技能學(xué)到apperance信息又能學(xué)到motion信息