最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

視頻理解綜述學(xué)習(xí) p2 自用筆記

2023-03-23 20:29 作者:flow___  | 我要投稿

朱老師的綜述論文

主要包括除開Video Transformer以外的主線文章?

這部分主要是走出手工光流的一些文章,因?yàn)楣饬鞯某槿》浅5馁F,非常的耗時(shí)(如果算一張光流需要0.06s,那么在k400數(shù)據(jù)集上抽取光流對(duì)于單張卡需要的時(shí)間是50天,占用的空間為500g),且需要用光流進(jìn)行推理的應(yīng)用場(chǎng)景要求非常高,0.06s的抽取就已經(jīng)滿足不了實(shí)時(shí)處理。此時(shí)使用3D卷積是符合大眾需求的。


理解3D卷積

3D卷積圖解 =. =?

可以自行理解一下3D網(wǎng)絡(luò)上的殘差連接,和深度可分離卷積等2D卷積的拓展情況。


C3D & I3D

C3D?

Learning Spatiotemporal Features with 3D Convolutional Networks? - ICCV 2015

提出一個(gè)簡(jiǎn)單的更深的3D卷積,在大的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,并得到了好的結(jié)果。

11層的深度網(wǎng)絡(luò),3D版本的VGG

在第一層,稍前的pooling時(shí)序上一般不做下采樣,盡可能保留時(shí)間上的信息。

C3D開放了特征抽取的接口,使得更多人使用3D的卷積神經(jīng)網(wǎng)絡(luò)返回的視頻特征,去做下游任務(wù),是該網(wǎng)絡(luò)廣為被使用的原因。為后續(xù)3D卷積的發(fā)展做鋪墊。


I3D

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset?- CVPR 2017

這兩篇文章的迭代經(jīng)歷了2年,由此可見訓(xùn)練3d網(wǎng)絡(luò)的成本之高。通過(guò)bootstrapping的形式,降低3d網(wǎng)絡(luò)的訓(xùn)練難度。主要通過(guò)Inflate的初始化操作,使得3D模型的初始化成本大幅度降低,且能夠從ImageNet的2d卷積的與訓(xùn)練模型擴(kuò)充得來(lái),由此可以把所有的2D網(wǎng)絡(luò)架構(gòu)推廣Inflate到3D網(wǎng)絡(luò)。

網(wǎng)絡(luò),簡(jiǎn)單看一下,注意時(shí)間維度上的下采樣時(shí)機(jī)

主要還是Inflation操作和一些3d卷積的訓(xùn)練經(jīng)驗(yàn):把2d模型擴(kuò)充到3d網(wǎng)絡(luò),且將2d預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù)進(jìn)行復(fù)制并減少權(quán)值,直接移植到3d的網(wǎng)絡(luò)上,這樣簡(jiǎn)單膨脹擴(kuò)充的操作,實(shí)際使用效果特別好。將整個(gè)視頻理解領(lǐng)域從雙流帶到了3d卷積,且把舊的兩個(gè)視頻分類數(shù)據(jù)集 UCF101 和 HMDB51 都刷爆了,帶到了新的賽道 k400 數(shù)據(jù)集上。

后續(xù)的ResNet -- > ResNet3d,ResNexT--> MFNet, SENet(channel attention) -->STCNet 等等2d到3d的變體,如雨后春筍刷了一波。



Non-local Neural Networks - CVPR 2018??

3D網(wǎng)絡(luò)上引入self-attention去對(duì)3d網(wǎng)絡(luò)的時(shí)序信息建模。詳細(xì)消融實(shí)驗(yàn)去證明,在空間,和時(shí)間上做自注意力操作都同樣重要,對(duì)于越長(zhǎng)的視頻段的建模更有效。且文章使用上了Non local的I3D模型后,甚至比之前使用基于光流的雙流I3D模型效果更好!這也給了“舍棄光流”的研究者們信心。


就是transformer中的QKV操作,和3d卷積結(jié)合起來(lái)


R(2+1)D

A Closer Look at Spatiotemporal Convolutions for Action Recognition? - CVPR2018

文章對(duì)于視頻動(dòng)作識(shí)別任務(wù),將2d和3d網(wǎng)絡(luò)的架構(gòu)組合,組合,做了詳盡的調(diào)查,非常的試驗(yàn)性。實(shí)驗(yàn)對(duì)比于消融值得一讀。

由于只用2d卷積在視頻動(dòng)作識(shí)別領(lǐng)域其實(shí)效果也很好,而3d太貴,作者希望能換就換簡(jiǎn)單的。

不同架構(gòu)的消融實(shí)驗(yàn)

????作者對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),把全3d卷積拆分成空間上的2d和時(shí)間上的1d,最后能得到更好的效果,且訓(xùn)練上也簡(jiǎn)單了很多。在多個(gè)數(shù)據(jù)集上都得到不錯(cuò)的結(jié)果。

3d卷積與(2+1)d的對(duì)比

先做空間上的純2d卷積,中間通過(guò)一次線性投射后,用1*1*d的卷積去處理時(shí)序,這里的線性投射是為了和Res3D進(jìn)行同模型大小下的性能對(duì)比。和GoogleNet的操作有點(diǎn)像啊,先做1*d的卷積后再做d*1的卷積。這里相當(dāng)于每層多做了一次非線性操作,同時(shí)也有直觀的解釋,3d的卷積是比2+1d的更難訓(xùn)練的。文章給出了一個(gè)圖簡(jiǎn)單說(shuō)明自己的2+1d比純3d更好訓(xùn)練收斂。


SlowFast

SlowFast Networks for Video Recognition? ? - 2019


使用雙流的結(jié)構(gòu),基于I3d卷積

核心思想是用用雙流網(wǎng)絡(luò)的架構(gòu),之一是低幀輸入+復(fù)雜網(wǎng)絡(luò),之二是高幀輸入+輕量化網(wǎng)絡(luò),且在前面的每個(gè)block間做fusion(Lateral connections fuse them)做信息交互。能達(dá)到好的精度和一定程度上的輕量化。


視頻理解綜述學(xué)習(xí) p2 自用筆記的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
沙田区| 哈密市| 桃源县| 璧山县| 定兴县| 信阳市| 瑞丽市| 晋城| 弥渡县| 武川县| 中宁县| 溧水县| 安达市| 彩票| 桑日县| 紫阳县| 木里| 垫江县| 水富县| 宁强县| 岐山县| 元阳县| 易门县| 巴塘县| 盈江县| 泾川县| 井冈山市| 城市| 阳山县| 威远县| 横峰县| 华亭县| 瑞昌市| 江孜县| 荆州市| 遂溪县| 方正县| 罗田县| 通河县| 巴林左旗| 衡阳县|