散文網 » 生活 »日常 » TimeSformer 自用筆記

TimeSformer 自用筆記

2023-03-23 21:43 作者:flow___ 0人讀過 | 我要投稿

Timesformer

Is Space-Time Attention All You Need for Video Understanding?? - 2021

Video Transformer還未遍地開花時的早些時候的文章，做的實驗比較詳盡。r2+1d的原班人馬，把ViT向視頻領域（Video Transformer）遷移的初步嘗試，且逐漸可以用于處理視頻長度超過1分鐘的視頻，作者做了下述5種嘗試。

最左邊一列起，只在當前幀內自己做，與時間維度無關。
和相鄰的所有幀都做自注意力，很明顯這是不可行的，需要的顯存和計算量都太大。
先在在幀內做全局的自注意力，然后維度降下去后幀間再做時序上的自注意力操作，有點類似于CNN+LSTM做視頻的感覺，把問題變成2+1維的模式，計算復雜度應該是從H^2*W^2*D^2?減到?H^2*W^2 +?D^2。
這里和SwinTransformer很像，分patch做子注意力操作，減少的是幀內的自注意力計算的復雜度。
這里也是減少的幀內的自注意力計算的復雜度，類似于分成3個1*1卷積在做計算，這樣的復雜度將會變得很低很低