散文網(wǎng) » 科技 »學(xué)習(xí) » Talk預(yù)告 | 騰訊AI Lab童湛&南大談婧：基于注意力機(jī)制的視頻自監(jiān)督表示學(xué)習(xí)和時(shí)序動(dòng)作

Talk預(yù)告 | 騰訊AI Lab童湛&南大談婧：基于注意力機(jī)制的視頻自監(jiān)督表示學(xué)習(xí)和時(shí)序動(dòng)作

2022-12-21 14:50 作者:TechBeat人工智能社區(qū) 0人讀過 | 我要投稿

本期為TechBeat人工智能社區(qū)第465期線上Talk！

北京時(shí)間12月22日(周四)20:00，騰訊AI Lab研究員——童湛&南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系碩士研究生——談婧的Talk將準(zhǔn)時(shí)在TechBeat人工智能社區(qū)開播！

他們與大家分享的主題是:?“基于注意力機(jī)制的視頻自監(jiān)督表示學(xué)習(xí)和時(shí)序動(dòng)作檢測(cè)”，屆時(shí)將分享在視頻理解領(lǐng)域的注意力機(jī)制設(shè)計(jì)和學(xué)習(xí)方法，包括1）視頻掩碼自編碼器VideoMAE，設(shè)計(jì)了高掩碼率的通道掩蔽策略，有效實(shí)現(xiàn)了視頻Transformer的預(yù)訓(xùn)練，在眾多下游任務(wù)展現(xiàn)了優(yōu)異的識(shí)別性能；2）視頻時(shí)序動(dòng)作檢測(cè)器PointTAD，提出了基于稀疏點(diǎn)表示的多類時(shí)序動(dòng)作檢測(cè)框架，通過動(dòng)態(tài)交互和解碼模塊，實(shí)現(xiàn)了多類別并發(fā)動(dòng)作實(shí)例的并行解譯。

Talk·信息

主題：基于注意力機(jī)制的視頻自監(jiān)督表示學(xué)習(xí)和時(shí)序動(dòng)作檢測(cè)

嘉賓：騰訊AI Lab研究員童湛南京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系碩士研究生?談婧

時(shí)間：北京時(shí)間?12月22日(周四) 20:00

地點(diǎn)：TechBeat人工智能社區(qū)

http://www.techbeat.net/

?長(zhǎng)按識(shí)別二維碼，一鍵預(yù)約TALK！

完整版怎么看

掃描下方二維碼，或復(fù)制鏈接https://datayi.cn/w/bR7Dxk2P瀏覽器，一鍵完成預(yù)約！上線后會(huì)在第一時(shí)間收到通知哦

Talk·介紹

基于注意力機(jī)制的視頻自監(jiān)督表示學(xué)習(xí)和時(shí)序動(dòng)作檢測(cè)

視頻理解已經(jīng)成為現(xiàn)階段人工智能領(lǐng)域的研究熱點(diǎn)和難點(diǎn)，視頻自監(jiān)督表示學(xué)習(xí)和時(shí)序動(dòng)作檢測(cè)是其中的關(guān)鍵技術(shù)。注意力機(jī)制（Attention）已經(jīng)在視覺、語音、自然語言處理等領(lǐng)域展現(xiàn)了強(qiáng)大的表示和建模能力。在本次Talk中，我們將介紹在視頻理解領(lǐng)域的注意力機(jī)制設(shè)計(jì)和學(xué)習(xí)方法，包括1）視頻掩碼自編碼器VideoMAE，設(shè)計(jì)了高掩碼率的通道掩蔽策略，有效實(shí)現(xiàn)了視頻Transformer的預(yù)訓(xùn)練，在眾多下游任務(wù)展現(xiàn)了優(yōu)異的識(shí)別性能；2）視頻時(shí)序動(dòng)作檢測(cè)器PointTAD，提出了基于稀疏點(diǎn)表示的多類時(shí)序動(dòng)作檢測(cè)框架，通過動(dòng)態(tài)交互和解碼模塊，實(shí)現(xiàn)了多類別并發(fā)動(dòng)作實(shí)例的并行解譯。

基于掩碼和重建的視頻自監(jiān)督預(yù)訓(xùn)練范式

目前最先進(jìn)的視覺自注意力模型 (Vision Transformer)通常需要先在超大規(guī)模的圖像或視頻數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練, 才能在相對(duì)較小的數(shù)據(jù)集上展示出卓越的性能。在這個(gè)工作中，我們利用掩碼式自監(jiān)督預(yù)訓(xùn)練的方式對(duì)Vision Transformer進(jìn)行預(yù)訓(xùn)練。我們?cè)O(shè)計(jì)了一種帶有極高掩碼比率的管道式掩碼策略，并且提出了視頻掩碼自編碼器（VideoMAE），釋放Vision Transformer在視頻理解相關(guān)任務(wù)上的強(qiáng)大表征能力。

Talk大綱如下：

問題引入
目前領(lǐng)域存在的問題
方法：視頻掩碼自編碼器
實(shí)驗(yàn)：消融實(shí)驗(yàn)與結(jié)果
可視化分析
總結(jié)

基于可學(xué)習(xí)查詢點(diǎn)的多類別時(shí)序動(dòng)作檢測(cè)框架

經(jīng)典時(shí)序動(dòng)作檢測(cè)任務(wù)往往局限于同一個(gè)視頻中只包含單一類別、不重疊動(dòng)作的理想情況。但在現(xiàn)實(shí)場(chǎng)景中，不同類別的動(dòng)作常常同時(shí)發(fā)生。因此，我們關(guān)注多類別場(chǎng)景下的時(shí)序動(dòng)作檢測(cè)，旨在檢測(cè)多類別視頻中所有的動(dòng)作。該任務(wù)具有著細(xì)粒度動(dòng)作識(shí)別和并發(fā)動(dòng)作的精細(xì)定位兩大挑戰(zhàn)。為了應(yīng)對(duì)這些挑戰(zhàn)，我們?cè)贜eurIPS2022提出PointTAD，可以靈活地基于一組可學(xué)習(xí)的查詢點(diǎn)同時(shí)定位動(dòng)作邊界幀和關(guān)鍵幀，構(gòu)建精細(xì)動(dòng)作表征。

Talk大綱如下：

問題引入：時(shí)序動(dòng)作檢測(cè)是什么？為什么要研究多類別場(chǎng)景下的時(shí)序動(dòng)作檢測(cè)？
相關(guān)工作及存在的問題
方法：查詢點(diǎn)的核心思想、PointTAD模型總覽、動(dòng)作查詢量的更新流程、可學(xué)習(xí)查詢點(diǎn)與多層次交互模塊的具體設(shè)計(jì)
實(shí)驗(yàn)：消融實(shí)驗(yàn)與結(jié)果
可視化分析
總結(jié)

Talk·預(yù)習(xí)資料

paper:?https://arxiv.org/abs/2203.12602
code:?https://github.com/MCG-NJU/VideoMAE
paper:?https://arxiv.org/abs/2210.11035
code:?https://github.com/MCG-NJU/PointTAD??

Talk·提問交流

在Talk界面下的【交流區(qū)】參與互動(dòng)！留下你的打call??和問題??，和更多小伙伴們共同討論，被講者直接翻牌解答！

你的每一次貢獻(xiàn)，我們都會(huì)給予你相應(yīng)的i豆積分，還會(huì)有驚喜獎(jiǎng)勵(lì)哦！

Talk·嘉賓介紹

童湛，騰訊AI Lab研究員，碩士畢業(yè)于南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系，導(dǎo)師為王利民。主要研究方向包含計(jì)算機(jī)視覺、深度學(xué)習(xí)、視頻理解、視頻自監(jiān)督表征學(xué)習(xí)等。

談婧，南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系碩士研究生，導(dǎo)師為王利民教授，本科畢業(yè)于南京大學(xué)匡亞明學(xué)院計(jì)算機(jī)方向，未來前往香港中文大學(xué)MMLab攻讀博士。碩士期間在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)頂會(huì)ICCV和NeurIPS上作為第一作者發(fā)表兩篇工作。主要研究方向包含計(jì)算機(jī)視覺、深度學(xué)習(xí)、視頻理解、時(shí)序動(dòng)作檢測(cè)。

-The End-

關(guān)于TechBeat人工智能社區(qū)

TechBeat (www.techbeat.net) 是一個(gè)薈聚全球華人AI精英的成長(zhǎng)社區(qū)。我們希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn)，加速并陪伴其學(xué)習(xí)成長(zhǎng)。期待這里可以成為你學(xué)習(xí)AI前沿知識(shí)的高地，分享自己最新工作的沃土，在AI進(jìn)階之路上的升級(jí)打怪的根據(jù)地！

更多詳細(xì)介紹>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ

標(biāo)簽：