最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

TimeSformer 自用筆記

2023-03-23 21:43 作者:flow___  | 我要投稿

Timesformer

Is Space-Time Attention All You Need for Video Understanding?? - 2021

Video Transformer還未遍地開花時的早些時候的文章,做的實驗比較詳盡。r2+1d的原班人馬,把ViT向視頻領域(Video Transformer)遷移的初步嘗試,且逐漸可以用于處理視頻長度超過1分鐘的視頻,作者做了下述5種嘗試。

和下圖一一對應的5種自注意力計算方法
此圖畫的非常形象
  1. 最左邊一列起,只在當前幀內自己做,與時間維度無關。

  2. 和相鄰的所有幀都做自注意力,很明顯這是不可行的,需要的顯存和計算量都太大。

  3. 先在在幀內做全局的自注意力,然后維度降下去后幀間再做時序上的自注意力操作,有點類似于CNN+LSTM做視頻的感覺,把問題變成2+1維的模式,計算復雜度應該是從H^2*W^2*D^2?減到?H^2*W^2 +?D^2。

  4. 這里和SwinTransformer很像,分patch做子注意力操作,減少的是幀內的自注意力計算的復雜度。

  5. 這里也是減少的幀內的自注意力計算的復雜度,類似于分成3個1*1卷積在做計算,這樣的復雜度將會變得很低很低

上述五種模型的效果表現(xiàn),注意參數(shù)來不等于計算量的增長和內存消耗

作者對比效果較好的2,3模型,其中2的計算代價太大

最后文章選用的第三種方案。


小結:?Transformer在視覺視頻領域的擴展性和穩(wěn)健性都是極佳的,而且視頻本身就是一個多模態(tài)的信號,其中可以提取深度圖,光流圖,音頻信號等等,部分互聯(lián)網視頻甚至也會有字幕,可以可以設計成各種各樣的自監(jiān)督信號,如果使用恰當,就能獲得不錯的成果。


TimeSformer 自用筆記的評論 (共 條)

分享到微博請遵守國家法律
上思县| 武汉市| 耒阳市| 大同市| 陆良县| 四子王旗| 射阳县| 来安县| 雅江县| 且末县| 甘谷县| 正定县| 乌审旗| 县级市| 新竹县| 阿鲁科尔沁旗| 来宾市| 饶阳县| 青冈县| 龙游县| 鄂托克旗| 淮阳县| 西平县| 新蔡县| 偏关县| 和田县| 丽水市| 梁河县| 靖州| 高阳县| 云浮市| 平湖市| 行唐县| 鲜城| 浦县| 兴宁市| 肥乡县| 海丰县| 修武县| 冷水江市| 云安县|