最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】

2022-03-16 16:36 作者:小清舍  | 我要投稿

論文:Two-Stream Convolutional Networks for Action Recognition in Videos

論文地址:https://proceedings.neurips.cc/paper/2014/file/00ec53c4682d36f5c4359f4ae7bd7ba1-Paper.pdf

視頻理解開山之作:雙流網(wǎng)絡(luò)(Two-Stream Convolutional Networks)

從雙流網(wǎng)絡(luò)——TSN——I3D——slow fast——video transformer(time transformer)

視頻本身是一個(gè)很好的數(shù)據(jù)來源,比2D的單個(gè)圖像包含更多的信息,比如有物體之間移動(dòng)的信息,和長期的時(shí)序信息和音頻信號,非常適合做多模態(tài)學(xué)習(xí)

人眼看到的信號也是連續(xù)的以視頻形式展現(xiàn)的,而不是一個(gè)又一個(gè)靜止的圖片

因此如何更好地利用視頻數(shù)據(jù)做視頻理解有可能是通向更強(qiáng)的人工智能的必經(jīng)之路


2022.2.9特斯拉總監(jiān)Andrej Karpathy 發(fā)表推特說計(jì)算機(jī)視覺現(xiàn)在的研究有一點(diǎn)停滯不前在進(jìn)入2D紋理識別的局部minimum上,大家都是在ImageNet和COCO上刷分,很卷了,堆了一大堆數(shù)據(jù),用了很大的模型挑了很多的參數(shù),但長的點(diǎn)比較少,現(xiàn)在有點(diǎn)像AlexNet之前用傳統(tǒng)手工特征去做視覺時(shí)候得感覺,花費(fèi)大功夫可能也就長0.5-1個(gè)點(diǎn)

這雖然并不是不好但是這只是第一步,解鎖更長足的進(jìn)步需要一個(gè)新的框架,訓(xùn)練的數(shù)據(jù)來源一定得是視頻,而不是去網(wǎng)上爬單個(gè)的圖片

因此視頻理解是一個(gè)很好的研究方向且非常有前景


雙流網(wǎng)絡(luò)為什么是開山之作?雙流網(wǎng)絡(luò)并不是第一篇把深度學(xué)習(xí)用到視頻分類任務(wù)上的,在2014早期CVPR就有一篇文章Deep video把深度學(xué)習(xí)應(yīng)用到視頻分類上,而且提出了一個(gè)巨大數(shù)據(jù)集:Sports One Million(100萬個(gè)視頻)

但是最后訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)差強(qiáng)人意,在當(dāng)時(shí)常見的幾個(gè)數(shù)據(jù)集上訓(xùn)練之后效果甚至還不如之前手工設(shè)計(jì)的幾個(gè)特征

雙流網(wǎng)絡(luò)是第一個(gè)能讓卷積神經(jīng)網(wǎng)絡(luò)的效果和之前基于最好的手工特征的方法打成平手,讓大家了解不是深度學(xué)習(xí)解決不了視頻理解,而是之前打開的方式不對,從此在視頻理解領(lǐng)域,深度學(xué)習(xí)的方法基本也就是占主流地位,所以將雙流網(wǎng)絡(luò)稱為視頻理解領(lǐng)域的開山之作


文章總體架構(gòu)

文章收錄與2014年的neurons

正文內(nèi)容8頁(arXiv版本無頁數(shù)限制加了兩張圖)


論文寫作中規(guī)中矩,上來先半頁摘要

闡述3頁,1頁篇幅實(shí)現(xiàn)細(xì)節(jié)

但目前網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜使用的trick,數(shù)據(jù)增強(qiáng)越來越多

現(xiàn)在常規(guī)操作都是大家簡單地在正文里提一下,具體實(shí)現(xiàn)細(xì)節(jié)放到補(bǔ)充材料中


正文

雙流卷積神經(jīng)網(wǎng)絡(luò)用來做視頻動(dòng)作識別

更有實(shí)際指導(dǎo)意義,數(shù)據(jù)集更好收集

雙流網(wǎng)絡(luò)顧名思義使用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)

作者來自VGG組,大佬,還有另外一篇巨作VGG-Net



對于2D圖像分類任務(wù)來說,當(dāng)給予單張圖片作為輸入,將他扔給一個(gè)卷積神經(jīng)網(wǎng)絡(luò)就可以,經(jīng)過幾層conv然后幾層fc,最后得到一個(gè)分類結(jié)果

但當(dāng)輸入為一個(gè)視頻,有很多連續(xù)的幀,將怎樣利用卷積神經(jīng)網(wǎng)絡(luò)呢

早期方法是從視頻抽一些關(guān)鍵幀,然后將這些幀一個(gè)一個(gè)通過卷積神經(jīng)網(wǎng)絡(luò),然后將結(jié)果合并起來

作為整體的一個(gè)輸入扔進(jìn)卷積神經(jīng)網(wǎng)絡(luò)然后在網(wǎng)絡(luò)做一些early fusion或者late fusion達(dá)到時(shí)空學(xué)習(xí)的效果,但是這些工作的效果都差強(qiáng)人意,甚至比不上之前手工設(shè)計(jì)的文章


本文雙流網(wǎng)絡(luò)作者發(fā)現(xiàn)一個(gè)比較有趣的現(xiàn)象,之所以用一個(gè)神經(jīng)網(wǎng)絡(luò)無法處理好這種視頻問題是因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)比較擅長去學(xué)習(xí)局部的特征而不擅長學(xué)習(xí)視頻之中這種物體的移動(dòng)規(guī)律

作者想如果卷積神經(jīng)網(wǎng)絡(luò)無法處理這種運(yùn)動(dòng)信息motion information,那就先抽取好運(yùn)動(dòng)信息即文中圖提到的多幀光流抽取,只需要神經(jīng)網(wǎng)絡(luò)學(xué)從最開始的輸入光流到動(dòng)作分類之間的映射就可以

學(xué)習(xí)這種映射是深度卷積神經(jīng)網(wǎng)絡(luò)最擅長的事情,通過一系列矩陣乘法學(xué)習(xí)輸入到輸出之間的映射關(guān)系


作者將關(guān)注空間信息神經(jīng)網(wǎng)絡(luò)稱為空間流卷積神經(jīng)網(wǎng)絡(luò),把關(guān)注Motion-information的卷積神經(jīng)網(wǎng)絡(luò)稱為時(shí)間流神經(jīng)網(wǎng)絡(luò)

空間流的輸入是一張單幀的圖片,最后給一個(gè)分類的概率

時(shí)間流的輸入是一系列的光流圖片,最后也給一個(gè)分類的概率

最后作者將兩個(gè)概率做加權(quán)平均得到最終的預(yù)測 ,以上就是雙流網(wǎng)絡(luò)的結(jié)構(gòu)


光流(optical flow):光的流動(dòng),光是怎么改變的

光流描述的是觀察者和場景之間各種物體這種運(yùn)動(dòng),其實(shí)就是視頻里各個(gè)物體之間是怎么運(yùn)動(dòng)的


光流可視化:圖左邊是視頻前后兩幀疊加在一起,一個(gè)*****,背景不動(dòng)人在動(dòng),當(dāng)用一些光流預(yù)測算法把這個(gè)光流預(yù)測出來的時(shí)候,可以看到右圖整個(gè)背景是黑色的,什么值都沒有因?yàn)楣鉀]有流動(dòng)背景是沒有變,只有前景人在動(dòng),所以光流很準(zhǔn)確的捕捉到了人的運(yùn)動(dòng),運(yùn)動(dòng)越明顯的地方顏色越亮,代表運(yùn)動(dòng)幅度越大

光流是一個(gè)非常有效的描述物體之間運(yùn)動(dòng)的一個(gè)特征表示

通過提取光流可以把背景不必要的噪聲包括人的穿著、性別全都忽略,最后提取到的特征完全是專注這個(gè)動(dòng)作本身的,可以很好地描述這個(gè)運(yùn)動(dòng)信息


雙流網(wǎng)絡(luò)把神經(jīng)網(wǎng)絡(luò)的短板補(bǔ)上了:學(xué)不好物體的運(yùn)動(dòng)信息,將抽好的運(yùn)動(dòng)信息的特征直接給出,只要學(xué)習(xí)映射就好,因此性能大大提升


細(xì)讀

本篇研究如何使用深度卷積神經(jīng)網(wǎng)絡(luò)去做視頻里的動(dòng)作識別,主要難點(diǎn)在于如何能同時(shí)學(xué)到兩種信息

一種是從靜止的圖像獲得外觀信息如物體形狀、大小、顏色,場景信息

另一種是物體之間的移動(dòng)信息或者想象為物體的時(shí)序信息

這兩種信息對視頻理解來說都至關(guān)重要

作者想把之前最好的手工特征中蘊(yùn)含的思想帶入到深度學(xué)習(xí)這種數(shù)據(jù)驅(qū)動(dòng)的框架之中來從而技能學(xué)到apperance信息又能學(xué)到motion信息

雙流網(wǎng)絡(luò)論文逐段精讀【論文精讀】的評論 (共 條)

分享到微博請遵守國家法律
黑水县| 永兴县| 卢氏县| 昌黎县| 盈江县| 鸡东县| 商城县| 阳东县| 全州县| 奉节县| 澄迈县| 西乡县| 汶川县| 原平市| 社会| 南华县| 河西区| 泊头市| 观塘区| 平凉市| 长沙市| 诏安县| 日照市| 榆树市| 察哈| 新宁县| 龙井市| 饶河县| 平舆县| 晋城| 垫江县| 山丹县| 横山县| 嘉兴市| 河曲县| 开平市| 图木舒克市| 石阡县| 长岭县| 罗定市| 乐亭县|