【唐宇迪】CV不存在?Meta最新的計算機視覺Segment Anything

視頻1:08:49這里,聊到cross-attention和vise versa(我覺得就是英文語境和中文理解帶來的問題),迪哥這里理解和我的理解有點出入。我看了看代碼的說明:

這邊我畫一個示意圖您看看是不是這個意思:

我的理解就是,point embed這塊在第一個cross attention出Q,image embed出K,V;第二個cross attention反過來,point embed出K,V,image embed出Q?;蛟S會帶來特征維度上的變化(?)換句話說,本質(zhì)上是研究point embed和image embed的“相關(guān)性”(?),這也是某種程度上的對稱性設(shè)計誒,我感覺。
您看是不是這個道理?(圖里省略了很多東西,殘差連接沒畫全)
標(biāo)簽: