手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 筆記 »全部筆記 » 雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】

雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】

2022-03-16 16:36 作者:小清舍 0人讀過 | 我要投稿

論文：Two-Stream Convolutional Networks for Action Recognition in Videos

論文地址：https://proceedings.neurips.cc/paper/2014/file/00ec53c4682d36f5c4359f4ae7bd7ba1-Paper.pdf

視頻理解開山之作：雙流網(wǎng)絡(luò)(Two-Stream Convolutional Networks)

從雙流網(wǎng)絡(luò)——TSN——I3D——slow fast——video transformer(time transformer)

視頻本身是一個(gè)很好的數(shù)據(jù)來源，比2D的單個(gè)圖像包含更多的信息，比如有物體之間移動(dòng)的信息，和長期的時(shí)序信息和音頻信號，非常適合做多模態(tài)學(xué)習(xí)

人眼看到的信號也是連續(xù)的以視頻形式展現(xiàn)的，而不是一個(gè)又一個(gè)靜止的圖片

因此如何更好地利用視頻數(shù)據(jù)做視頻理解有可能是通向更強(qiáng)的人工智能的必經(jīng)之路

2022.2.9特斯拉總監(jiān)Andrej Karpathy 發(fā)表推特說計(jì)算機(jī)視覺現(xiàn)在的研究有一點(diǎn)停滯不前在進(jìn)入2D紋理識別的局部minimum上，大家都是在ImageNet和COCO上刷分，很卷了，堆了一大堆數(shù)據(jù)，用了很大的模型挑了很多的參數(shù)，但長的點(diǎn)比較少，現(xiàn)在有點(diǎn)像AlexNet之前用傳統(tǒng)手工特征去做視覺時(shí)候得感覺，花費(fèi)大功夫可能也就長0.5-1個(gè)點(diǎn)

這雖然并不是不好但是這只是第一步，解鎖更長足的進(jìn)步需要一個(gè)新的框架，訓(xùn)練的數(shù)據(jù)來源一定得是視頻，而不是去網(wǎng)上爬單個(gè)的圖片

因此視頻理解是一個(gè)很好的研究方向且非常有前景

雙流網(wǎng)絡(luò)為什么是開山之作？雙流網(wǎng)絡(luò)并不是第一篇把深度學(xué)習(xí)用到視頻分類任務(wù)上的，在2014早期CVPR就有一篇文章Deep video把深度學(xué)習(xí)應(yīng)用到視頻分類上，而且提出了一個(gè)巨大數(shù)據(jù)集：Sports One Million(100萬個(gè)視頻）

但是最后訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)差強(qiáng)人意，在當(dāng)時(shí)常見的幾個(gè)數(shù)據(jù)集上訓(xùn)練之后效果甚至還不如之前手工設(shè)計(jì)的幾個(gè)特征

雙流網(wǎng)絡(luò)是第一個(gè)能讓卷積神經(jīng)網(wǎng)絡(luò)的效果和之前基于最好的手工特征的方法打成平手，讓大家了解不是深度學(xué)習(xí)解決不了視頻理解，而是之前打開的方式不對，從此在視頻理解領(lǐng)域，深度學(xué)習(xí)的方法基本也就是占主流地位，所以將雙流網(wǎng)絡(luò)稱為視頻理解領(lǐng)域的開山之作

文章總體架構(gòu)

文章收錄與2014年的neurons

正文內(nèi)容8頁（arXiv版本無頁數(shù)限制加了兩張圖）

論文寫作中規(guī)中矩，上來先半頁摘要

闡述3頁，1頁篇幅實(shí)現(xiàn)細(xì)節(jié)

但目前網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜使用的trick，數(shù)據(jù)增強(qiáng)越來越多

現(xiàn)在常規(guī)操作都是大家簡單地在正文里提一下，具體實(shí)現(xiàn)細(xì)節(jié)放到補(bǔ)充材料中

正文

雙流卷積神經(jīng)網(wǎng)絡(luò)用來做視頻動(dòng)作識別

更有實(shí)際指導(dǎo)意義，數(shù)據(jù)集更好收集

雙流網(wǎng)絡(luò)顧名思義使用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)

作者來自VGG組，大佬，還有另外一篇巨作VGG-Net

對于2D圖像分類任務(wù)來說，當(dāng)給予單張圖片作為輸入，將他扔給一個(gè)卷積神經(jīng)網(wǎng)絡(luò)就可以，經(jīng)過幾層conv然后幾層fc，最后得到一個(gè)分類結(jié)果

但當(dāng)輸入為一個(gè)視頻，有很多連續(xù)的幀，將怎樣利用卷積神經(jīng)網(wǎng)絡(luò)呢

早期方法是從視頻抽一些關(guān)鍵幀，然后將這些幀一個(gè)一個(gè)通過卷積神經(jīng)網(wǎng)絡(luò)，然后將結(jié)果合并起來

作為整體的一個(gè)輸入扔進(jìn)卷積神經(jīng)網(wǎng)絡(luò)然后在網(wǎng)絡(luò)做一些early fusion或者late fusion達(dá)到時(shí)空學(xué)習(xí)的效果，但是這些工作的效果都差強(qiáng)人意，甚至比不上之前手工設(shè)計(jì)的文章

本文雙流網(wǎng)絡(luò)作者發(fā)現(xiàn)一個(gè)比較有趣的現(xiàn)象，之所以用一個(gè)神經(jīng)網(wǎng)絡(luò)無法處理好這種視頻問題是因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)比較擅長去學(xué)習(xí)局部的特征而不擅長學(xué)習(xí)視頻之中這種物體的移動(dòng)規(guī)律

作者想如果卷積神經(jīng)網(wǎng)絡(luò)無法處理這種運(yùn)動(dòng)信息motion information,那就先抽取好運(yùn)動(dòng)信息即文中圖提到的多幀光流抽取，只需要神經(jīng)網(wǎng)絡(luò)學(xué)從最開始的輸入光流到動(dòng)作分類之間的映射就可以

學(xué)習(xí)這種映射是深度卷積神經(jīng)網(wǎng)絡(luò)最擅長的事情，通過一系列矩陣乘法學(xué)習(xí)輸入到輸出之間的映射關(guān)系

作者將關(guān)注空間信息神經(jīng)網(wǎng)絡(luò)稱為空間流卷積神經(jīng)網(wǎng)絡(luò)，把關(guān)注Motion-information的卷積神經(jīng)網(wǎng)絡(luò)稱為時(shí)間流神經(jīng)網(wǎng)絡(luò)

空間流的輸入是一張單幀的圖片，最后給一個(gè)分類的概率

時(shí)間流的輸入是一系列的光流圖片，最后也給一個(gè)分類的概率

最后作者將兩個(gè)概率做加權(quán)平均得到最終的預(yù)測，以上就是雙流網(wǎng)絡(luò)的結(jié)構(gòu)

光流（optical flow）:光的流動(dòng)，光是怎么改變的

光流描述的是觀察者和場景之間各種物體這種運(yùn)動(dòng)，其實(shí)就是視頻里各個(gè)物體之間是怎么運(yùn)動(dòng)的

光流可視化：圖左邊是視頻前后兩幀疊加在一起，一個(gè)*****，背景不動(dòng)人在動(dòng)，當(dāng)用一些光流預(yù)測算法把這個(gè)光流預(yù)測出來的時(shí)候，可以看到右圖整個(gè)背景是黑色的，什么值都沒有因?yàn)楣鉀]有流動(dòng)背景是沒有變，只有前景人在動(dòng)，所以光流很準(zhǔn)確的捕捉到了人的運(yùn)動(dòng)，運(yùn)動(dòng)越明顯的地方顏色越亮，代表運(yùn)動(dòng)幅度越大

光流是一個(gè)非常有效的描述物體之間運(yùn)動(dòng)的一個(gè)特征表示

通過提取光流可以把背景不必要的噪聲包括人的穿著、性別全都忽略，最后提取到的特征完全是專注這個(gè)動(dòng)作本身的，可以很好地描述這個(gè)運(yùn)動(dòng)信息

雙流網(wǎng)絡(luò)把神經(jīng)網(wǎng)絡(luò)的短板補(bǔ)上了：學(xué)不好物體的運(yùn)動(dòng)信息，將抽好的運(yùn)動(dòng)信息的特征直接給出，只要學(xué)習(xí)映射就好，因此性能大大提升

細(xì)讀

本篇研究如何使用深度卷積神經(jīng)網(wǎng)絡(luò)去做視頻里的動(dòng)作識別，主要難點(diǎn)在于如何能同時(shí)學(xué)到兩種信息

一種是從靜止的圖像獲得外觀信息如物體形狀、大小、顏色，場景信息

另一種是物體之間的移動(dòng)信息或者想象為物體的時(shí)序信息

這兩種信息對視頻理解來說都至關(guān)重要

作者想把之前最好的手工特征中蘊(yùn)含的思想帶入到深度學(xué)習(xí)這種數(shù)據(jù)驅(qū)動(dòng)的框架之中來從而技能學(xué)到apperance信息又能學(xué)到motion信息

標(biāo)簽：

雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】

雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】

本文作者的其他文章

雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】的評論 (共條)