TimeSformer 自用筆記
Timesformer
Is Space-Time Attention All You Need for Video Understanding?? - 2021
Video Transformer還未遍地開花時的早些時候的文章,做的實驗比較詳盡。r2+1d的原班人馬,把ViT向視頻領域(Video Transformer)遷移的初步嘗試,且逐漸可以用于處理視頻長度超過1分鐘的視頻,作者做了下述5種嘗試。


最左邊一列起,只在當前幀內自己做,與時間維度無關。
和相鄰的所有幀都做自注意力,很明顯這是不可行的,需要的顯存和計算量都太大。
先在在幀內做全局的自注意力,然后維度降下去后幀間再做時序上的自注意力操作,有點類似于CNN+LSTM做視頻的感覺,把問題變成2+1維的模式,計算復雜度應該是從H^2*W^2*D^2?減到?H^2*W^2 +?D^2。
這里和SwinTransformer很像,分patch做子注意力操作,減少的是幀內的自注意力計算的復雜度。
這里也是減少的幀內的自注意力計算的復雜度,類似于分成3個1*1卷積在做計算,這樣的復雜度將會變得很低很低

。

最后文章選用的第三種方案。
小結:?Transformer在視覺視頻領域的擴展性和穩(wěn)健性都是極佳的,而且視頻本身就是一個多模態(tài)的信號,其中可以提取深度圖,光流圖,音頻信號等等,部分互聯(lián)網視頻甚至也會有字幕,可以可以設計成各種各樣的自監(jiān)督信號,如果使用恰當,就能獲得不錯的成果。