散文網(wǎng) » 科技 »學(xué)習(xí) » 做視頻目標(biāo)分割、人體姿態(tài)跟蹤、語義part分割的同學(xué)看過來，李飛飛最新作品

做視頻目標(biāo)分割、人體姿態(tài)跟蹤、語義part分割的同學(xué)看過來，李飛飛最新作品

2023-10-08 16:08 作者:聽取蛙蛙聲一片 0人讀過 | 我要投稿

SiamMAE：一種從視頻中進行表示學(xué)習(xí)的孿生掩碼自編碼器，在視頻目標(biāo)分割、人體姿態(tài)跟蹤、語義part分割上性能表現(xiàn)出色單位：斯坦福大學(xué)(李飛飛、吳佳俊等人), 普林斯頓大學(xué)(鄧嘉) 在圖像或場景之間建立對應(yīng)關(guān)系是計算機視覺中的一項重大挑戰(zhàn)，尤其是考慮到遮擋、視點變化和不同的對象外觀。在本文中，我們介紹了Siamese 掩碼自編碼器 (SiamMAE)，這是掩碼自編碼器 (MAE) 的簡單擴展，用于從視頻中學(xué)習(xí)視覺對應(yīng)。 SiamMAE 對隨機采樣的視頻幀對進行操作，并對它們進行不對稱屏蔽。這些幀由編碼器網(wǎng)絡(luò)獨立處理，由一系列交叉注意層組成的解碼器負(fù)責(zé)預(yù)測未來幀中丟失的補丁。通過在未來幀中掩碼大部分 (95%) 的patch，同時保持過去的幀不變，SiamMAE 鼓勵網(wǎng)絡(luò)專注于對象運動并學(xué)習(xí)以對象為中心的表示。盡管概念簡單，但通過 SiamMAE 學(xué)習(xí)的特征在視頻目標(biāo)分割、姿勢關(guān)鍵點傳播和語義部分傳播任務(wù)方面優(yōu)于最先進的自監(jiān)督方法。 SiamMAE 在不依賴數(shù)據(jù)增強、基于跟蹤的手工任務(wù)或其他防止表征崩潰的技術(shù)的情況下取得了有競爭力的結(jié)果。主頁：https://siam-mae-video.github.io/ demo：https://siam-mae-video.github.io/resources/attn/koala.webm 論文下載鏈接：https://siam-mae-video.github.io/resources/paper.pdf