CVPR'21 Talk預(yù)告+交流報(bào)名 | 阿里達(dá)摩院視覺(jué)實(shí)驗(yàn)室(最后一場(chǎng)!)

?由將門-TechBeat人工智能社區(qū)所主辦的CVPR 2021 群星閃耀·云際會(huì)已火熱進(jìn)行兩周,51位分享嘉賓,10場(chǎng)論文解讀Talk,5天10場(chǎng)在線交流活動(dòng),即將接近尾聲啦~本次系列活動(dòng)的最后一場(chǎng)由阿里巴巴達(dá)摩院視覺(jué)實(shí)驗(yàn)室壓軸帶來(lái)!
?北京時(shí)間6月28日(周一)晚8點(diǎn),阿里達(dá)摩院多模態(tài)理解&數(shù)智媒體團(tuán)隊(duì)(簡(jiǎn)稱視覺(jué)實(shí)驗(yàn)室)的論文解讀Talk將準(zhǔn)時(shí)在TechBeat人工智能社區(qū)開播!屆時(shí)團(tuán)隊(duì)負(fù)責(zé)人阿里巴巴達(dá)摩院高級(jí)算法專家唐銘謙將攜其成員黃子淵、卿志武、蔣建文、張士偉一起分享他們發(fā)表在CVPR 2021上的工作以及AVA-Kinetics、HACS和EPIC-Kitchens Challenge的冠軍解決方案。
7月3日(本周六)上午10點(diǎn),這幾位分享嘉賓將與大家進(jìn)行線上的騰訊會(huì)議直播交流,本次直播研討會(huì)沒(méi)有回放視頻,請(qǐng)感興趣的小伙伴定好鬧鐘、實(shí)時(shí)參與!
??點(diǎn)擊【https://datayi.cn/w/QReMGZKR】,直接預(yù)約觀看!
Talk·信息
分享人:阿里達(dá)摩院視覺(jué)實(shí)驗(yàn)室
時(shí)間:北京時(shí)間?6月28日 (周一) 20:00
地點(diǎn):TechBeat人工智能社區(qū)
http://www.techbeat.net/
? 點(diǎn)擊【https://datayi.cn/w/QReMGZKR】,直接預(yù)約觀看!
直播交流活動(dòng)·報(bào)名通道

團(tuán)隊(duì)介紹
阿里達(dá)摩院視覺(jué)實(shí)驗(yàn)室
??阿里達(dá)摩院多模態(tài)理解&數(shù)智媒體團(tuán)隊(duì)長(zhǎng)期致力于視頻領(lǐng)域中多模態(tài)技術(shù)的研究和落地。團(tuán)隊(duì)主要研究方向涵蓋視頻理解、視頻搜索、視頻生成等多模態(tài)融合領(lǐng)域,在大規(guī)模多模態(tài)視頻自監(jiān)督、跨模態(tài)搜索、半監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)、行為檢測(cè)等技術(shù)領(lǐng)域均有長(zhǎng)期投入和積累。
??團(tuán)隊(duì)同學(xué)均畢業(yè)于包括清華、北大、中科大在內(nèi)的知名高校碩博,每年均有來(lái)自國(guó)內(nèi)外的優(yōu)秀博士交流學(xué)習(xí),團(tuán)隊(duì)發(fā)表包括IJCV/CVPR/ICCV/ECCV/TMM等在內(nèi)的論文40余篇,獲得國(guó)內(nèi)外競(jìng)賽冠軍獎(jiǎng)項(xiàng)7項(xiàng),亞軍1項(xiàng),季軍1項(xiàng)。相關(guān)技術(shù)在阿里生態(tài)體系內(nèi)支持大部分視頻應(yīng)用場(chǎng)景,并已通過(guò)具備CNAS和CMA資質(zhì)的第三方認(rèn)證,在端到端性能和處理倍速上均處于行業(yè)領(lǐng)先水平,同時(shí)云上對(duì)外支持傳媒行業(yè)、泛視頻娛樂(lè)行業(yè)等頭部視頻客戶。
??產(chǎn)品體驗(yàn)中心可見(jiàn):http://retina.aliyun.com
唐銘謙
阿里巴巴達(dá)摩院高級(jí)算法專家
唐銘謙,于2014年碩士畢業(yè)于西安電子科技大學(xué),阿里巴巴校招第二屆阿里星,負(fù)責(zé)多模態(tài)理解及數(shù)智媒體中視頻理解技術(shù)研發(fā)和相關(guān)云產(chǎn)品商業(yè)化,涉及音視頻內(nèi)容結(jié)構(gòu)化、多模態(tài)內(nèi)容審核、短視頻自動(dòng)/輔助生產(chǎn)、多模態(tài)搜索、音視頻版權(quán)保護(hù)等相關(guān)產(chǎn)品及應(yīng)用場(chǎng)景。相關(guān)技術(shù)技術(shù)包含視頻實(shí)體理解、視頻內(nèi)容生成、音視頻指紋、視頻多模態(tài)搜索、視頻內(nèi)容審核等。已發(fā)表包括CVPR、ACM MM在內(nèi)的多篇論文,獲得學(xué)術(shù)競(jìng)賽國(guó)際冠軍5項(xiàng),包括AVA-Kinetics、HACS、EPIC-Kitchens等,累計(jì)申請(qǐng)專利30余項(xiàng),深入研究如何通過(guò)視覺(jué)技術(shù)賦能電商、傳媒、泛娛樂(lè)等領(lǐng)域,促進(jìn)行業(yè)規(guī)?;l(fā)展。
①
從圖像中的自監(jiān)督運(yùn)動(dòng)表征學(xué)習(xí)

動(dòng)作的本質(zhì)是不同運(yùn)動(dòng)的組合,而運(yùn)動(dòng)在視頻中則主要表現(xiàn)為像素的移動(dòng)。早期視頻自監(jiān)督表征學(xué)習(xí)工作僅通過(guò)在時(shí)序維度上的增廣來(lái)隱式地對(duì)視頻中的運(yùn)動(dòng)進(jìn)行建模。本文通過(guò)在圖像上構(gòu)建偽運(yùn)動(dòng),從而顯示地對(duì)視頻中的運(yùn)動(dòng)表征進(jìn)行學(xué)習(xí)。實(shí)驗(yàn)表明,這種方式能夠?qū)W習(xí)到有效的視頻的表征,在UCF、HMDB數(shù)據(jù)集上有顯著提升。
論文鏈接:https://arxiv.org/pdf/2104.00240.pdf
黃子淵 | 新加坡國(guó)立大學(xué)在讀博士/阿里巴巴達(dá)摩院學(xué)術(shù)實(shí)習(xí)生
黃子淵,博士二年級(jí),就讀于新加坡國(guó)立大學(xué),高級(jí)機(jī)器人研究中心(Advanced Robotics Centre)。目前研究方向包括單/多模態(tài)視覺(jué)目標(biāo)跟蹤、復(fù)雜視頻理解、單/多模態(tài)的視頻表征學(xué)習(xí)。在CVPR和ACMMM舉辦的多個(gè)國(guó)際挑戰(zhàn)賽上取得6項(xiàng)冠軍,3項(xiàng)亞軍,包括 ActivityNet AVA、EPIC-Kitchens、HACS、Human In Events等。代表作 Learning Aberrance Repressed Correlation Filters for Real-Time UAV Tracking (ICCV19), Self-supervised Motion Learning from Static Images (CVPR21)。
個(gè)人主頁(yè):https://huang-ziyuan.github.io
②
Transformer在時(shí)序行為檢測(cè)中的應(yīng)用

Transformer在分類,檢測(cè),分割等多個(gè)CV任務(wù)中都取得了非常好的性能。在近兩年的比賽中,我們探索了將Transformer應(yīng)用于時(shí)序行為檢測(cè),發(fā)現(xiàn)Transformer用于時(shí)序編碼時(shí)確實(shí)非常有效。盡管Transformer應(yīng)用于視頻分類任務(wù)時(shí)的性能非常不錯(cuò),但是使用Transformer提取出來(lái)的特征進(jìn)行時(shí)序行為檢測(cè)時(shí),效果并不理想。結(jié)合我們?cè)贓PIC-Kitchens競(jìng)賽中的實(shí)驗(yàn)現(xiàn)象, 我們認(rèn)為現(xiàn)有的Transformer骨干網(wǎng)絡(luò)的空間理解能力很強(qiáng),但是時(shí)序建模能力不如CNN。
論文鏈接:https://arxiv.org/pdf/2006.07520.pdf
卿志武 |?華中科技大學(xué)在讀博士/阿里巴巴達(dá)摩院學(xué)術(shù)實(shí)習(xí)生卿志武,目前就讀于華中科技大學(xué)人工智能與自動(dòng)化學(xué)院,博士一年級(jí)。主要研究方向?yàn)闀r(shí)序行為檢測(cè)和視頻自監(jiān)督表征學(xué)習(xí)。在CVPR2020和CVPR2021 Workshop中參加學(xué)術(shù)競(jìng)賽并獲得7次國(guó)際冠軍,1次亞軍,其中在HACS時(shí)序行為檢測(cè)賽道連續(xù)兩年獲得國(guó)際冠軍。在CVPR2021上發(fā)表了1篇關(guān)于時(shí)序行為檢測(cè)的工作。
個(gè)人主頁(yè):https://sites.google.com/view/zwqing
③
時(shí)空行為檢測(cè)中的關(guān)系建模方法

在時(shí)空行為識(shí)別中,需要識(shí)別每個(gè)人當(dāng)前所發(fā)生的行為類別,因?yàn)槿蝿?wù)的復(fù)雜性,依靠人體本身的視覺(jué)特征往往不能得到令人滿意的性能,本工作調(diào)研了人-人關(guān)系、人-物關(guān)系、人-空間上下文關(guān)系、人-時(shí)間上下文關(guān)系在行為識(shí)別中的應(yīng)用以及如何在大規(guī)模數(shù)據(jù)的情況下完成模型訓(xùn)練,該工作同時(shí)取得了CVPR2021年ActivityNet AVA-Kinetics挑戰(zhàn)賽第一名。
論文鏈接:https://arxiv.org/abs/2106.08061
蔣建文 |?阿里達(dá)摩院高級(jí)算法工程師
蔣建文,阿里巴巴達(dá)摩院視覺(jué)技術(shù)部高級(jí)算法工程師,2020年碩士畢業(yè)于清華大學(xué)。研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺(jué)、視頻理解等,以第一作者/主要作者在CVPR、AAAI、IJCAI等國(guó)際會(huì)議上發(fā)表論文多篇。在CVPR舉辦的多個(gè)公開挑戰(zhàn)賽上取得七項(xiàng)冠軍,兩項(xiàng)亞軍,包括 ActivityNet、AVA-Kinetics、Moments in Time、EPIC-Kitchens、HACS Challenge等。
④
基于自監(jiān)督學(xué)習(xí)的半監(jiān)督時(shí)序行為檢測(cè)

自監(jiān)督學(xué)習(xí)在各種視覺(jué)任務(wù)中表現(xiàn)出了優(yōu)秀的性能。在本文中,我們提出了新的算法框架SSTAP以利用自監(jiān)督學(xué)習(xí)來(lái)提升半監(jiān)督行為提名。SSTAP主要包括兩個(gè)分支:時(shí)序感知的半監(jiān)督分支和關(guān)系感知的自監(jiān)督分支。在半監(jiān)督分支中,我們通過(guò)引入時(shí)序特征偏移和翻轉(zhuǎn)兩種擾動(dòng)以提升半監(jiān)督性能;在自監(jiān)督分支中,我們利用特征重構(gòu)和順序預(yù)測(cè)兩個(gè)代理任務(wù)學(xué)習(xí)視頻的時(shí)序關(guān)系。在公開數(shù)據(jù)集THUMOS14和ActivityNet v1.3上,SSTAP取得了明顯的性能提升,甚至可以和全監(jiān)督方法匹配。
論文鏈接:https://arxiv.org/abs/2104.03214
項(xiàng)目鏈接:https://github.com/wangxiang1230/SSTAP
張士偉 |?阿里達(dá)摩院高級(jí)算法工程師張士偉,于2019年博士畢業(yè)于華中科技大學(xué)人工智能與自動(dòng)化學(xué)院,現(xiàn)就職于阿里巴巴的達(dá)摩院視覺(jué)實(shí)驗(yàn)室。主要研究方向包括視頻生成、行為識(shí)別、行為檢測(cè)、自監(jiān)督學(xué)習(xí)、Video Grounding等,在相關(guān)領(lǐng)域發(fā)表包括3CVPR、2TMM、1TSMC在內(nèi)的論文10余篇,在ActivityNet、AVA-Kinetics、HACS、Moments in Time、EPIC-Kitchens Challenge等學(xué)術(shù)競(jìng)賽中累計(jì)獲得國(guó)際冠軍8項(xiàng),亞軍2項(xiàng)。
個(gè)人主頁(yè):
https://www.researchgate.net/profile/Shiwei-Zhang-14/research
??點(diǎn)擊【https://datayi.cn/w/QReMGZKR】,直接預(yù)約觀看!
關(guān)于TechBeat人工智能社區(qū)
TechBeat(www.techbeat.net)是一個(gè)薈聚全球華人AI精英的成長(zhǎng)社區(qū)。我們希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其學(xué)習(xí)成長(zhǎng)。期待這里可以成為你學(xué)習(xí)AI前沿知識(shí)的高地,分享自己最新工作的沃土,在AI進(jìn)階之路上的升級(jí)打怪的根據(jù)地!
更多詳細(xì)介紹>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ