散文網(wǎng) » 生活 »日常 » 視頻理解綜述學(xué)習(xí) p2 自用筆記

視頻理解綜述學(xué)習(xí) p2 自用筆記

2023-03-23 20:29 作者:flow___ 0人讀過(guò) | 我要投稿

主要包括除開Video Transformer以外的主線文章?

這部分主要是走出手工光流的一些文章，因?yàn)楣饬鞯某槿》浅５馁F，非常的耗時(shí)（如果算一張光流需要0.06s，那么在k400數(shù)據(jù)集上抽取光流對(duì)于單張卡需要的時(shí)間是50天，占用的空間為500g），且需要用光流進(jìn)行推理的應(yīng)用場(chǎng)景要求非常高，0.06s的抽取就已經(jīng)滿足不了實(shí)時(shí)處理。此時(shí)使用3D卷積是符合大眾需求的。

理解3D卷積

可以自行理解一下3D網(wǎng)絡(luò)上的殘差連接，和深度可分離卷積等2D卷積的拓展情況。

C3D & I3D

C3D?

Learning Spatiotemporal Features with 3D Convolutional Networks? - ICCV 2015

提出一個(gè)簡(jiǎn)單的更深的3D卷積，在大的數(shù)據(jù)集上進(jìn)行了訓(xùn)練，并得到了好的結(jié)果。

在第一層，稍前的pooling時(shí)序上一般不做下采樣，盡可能保留時(shí)間上的信息。

C3D開放了特征抽取的接口，使得更多人使用3D的卷積神經(jīng)網(wǎng)絡(luò)返回的視頻特征，去做下游任務(wù)，是該網(wǎng)絡(luò)廣為被使用的原因。為后續(xù)3D卷積的發(fā)展做鋪墊。

I3D

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset?- CVPR 2017

這兩篇文章的迭代經(jīng)歷了2年，由此可見訓(xùn)練3d網(wǎng)絡(luò)的成本之高。通過(guò)bootstrapping的形式，降低3d網(wǎng)絡(luò)的訓(xùn)練難度。主要通過(guò)Inflate的初始化操作，使得3D模型的初始化成本大幅度降低，且能夠從ImageNet的2d卷積的與訓(xùn)練模型擴(kuò)充得來(lái)，由此可以把所有的2D網(wǎng)絡(luò)架構(gòu)推廣Inflate到3D網(wǎng)絡(luò)。

網(wǎng)絡(luò)，簡(jiǎn)單看一下，注意時(shí)間維度上的下采樣時(shí)機(jī)

主要還是Inflation操作和一些3d卷積的訓(xùn)練經(jīng)驗(yàn)：把2d模型擴(kuò)充到3d網(wǎng)絡(luò)，且將2d預(yù)訓(xùn)練的網(wǎng)絡(luò)參數(shù)進(jìn)行復(fù)制并減少權(quán)值，直接移植到3d的網(wǎng)絡(luò)上，這樣簡(jiǎn)單膨脹擴(kuò)充的操作，實(shí)際使用效果特別好。將整個(gè)視頻理解領(lǐng)域從雙流帶到了3d卷積，且把舊的兩個(gè)視頻分類數(shù)據(jù)集 UCF101 和 HMDB51 都刷爆了，帶到了新的賽道 k400 數(shù)據(jù)集上。

后續(xù)的ResNet -- > ResNet3d，ResNexT--> MFNet, SENet（channel attention） -->STCNet 等等2d到3d的變體，如雨后春筍刷了一波。

Non-local Neural Networks - CVPR 2018??

3D網(wǎng)絡(luò)上引入self-attention去對(duì)3d網(wǎng)絡(luò)的時(shí)序信息建模。詳細(xì)消融實(shí)驗(yàn)去證明，在空間，和時(shí)間上做自注意力操作都同樣重要，對(duì)于越長(zhǎng)的視頻段的建模更有效。且文章使用上了Non local的I3D模型后，甚至比之前使用基于光流的雙流I3D模型效果更好！這也給了“舍棄光流”的研究者們信心。

就是transformer中的QKV操作，和3d卷積結(jié)合起來(lái)

R(2+1)D

A Closer Look at Spatiotemporal Convolutions for Action Recognition? - CVPR2018

文章對(duì)于視頻動(dòng)作識(shí)別任務(wù)，將2d和3d網(wǎng)絡(luò)的架構(gòu)組合，組合，做了詳盡的調(diào)查，非常的試驗(yàn)性。實(shí)驗(yàn)對(duì)比于消融值得一讀。

由于只用2d卷積在視頻動(dòng)作識(shí)別領(lǐng)域其實(shí)效果也很好，而3d太貴，作者希望能換就換簡(jiǎn)單的。

????作者對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，把全3d卷積拆分成空間上的2d和時(shí)間上的1d，最后能得到更好的效果，且訓(xùn)練上也簡(jiǎn)單了很多。在多個(gè)數(shù)據(jù)集上都得到不錯(cuò)的結(jié)果。

先做空間上的純2d卷積，中間通過(guò)一次線性投射后，用1*1*d的卷積去處理時(shí)序，這里的線性投射是為了和Res3D進(jìn)行同模型大小下的性能對(duì)比。和GoogleNet的操作有點(diǎn)像啊，先做1*d的卷積后再做d*1的卷積。這里相當(dāng)于每層多做了一次非線性操作，同時(shí)也有直觀的解釋，3d的卷積是比2+1d的更難訓(xùn)練的。文章給出了一個(gè)圖簡(jiǎn)單說(shuō)明自己的2+1d比純3d更好訓(xùn)練收斂。

SlowFast

SlowFast Networks for Video Recognition? ? - 2019

核心思想是用用雙流網(wǎng)絡(luò)的架構(gòu)，之一是低幀輸入+復(fù)雜網(wǎng)絡(luò)，之二是高幀輸入+輕量化網(wǎng)絡(luò)，且在前面的每個(gè)block間做fusion（Lateral connections fuse them）做信息交互。能達(dá)到好的精度和一定程度上的輕量化。

標(biāo)簽：深度學(xué)習(xí)視頻理解

視頻理解綜述學(xué)習(xí) p2 自用筆記的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

視頻理解綜述學(xué)習(xí) p2 自用筆記

視頻理解綜述學(xué)習(xí) p2 自用筆記的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

視頻理解綜述學(xué)習(xí) p2 自用筆記

本文作者的其他文章

視頻理解綜述學(xué)習(xí) p2 自用筆記的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

視頻理解綜述學(xué)習(xí) p2 自用筆記的評(píng)論 (共條)