最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

Swin Transformer從零詳細(xì)解讀

2022-10-18 17:40 作者:不敗阿豪  | 我要投稿

?
1.SwinTRM整體架構(gòu)解讀 P1 - 00:49
?

整個(gè)視頻四部分


?
1.SwinTRM整體架構(gòu)解讀 P1 - 01:41
?

回顧TRM模型

TRM的encoder并不改變輸入和輸出的形狀,無論vit還是swin都一樣

?
1.SwinTRM整體架構(gòu)解讀 P1 - 02:56
?

左邊是encoder細(xì)節(jié)結(jié)構(gòu),抽象為右邊灰色的框框


?
1.SwinTRM整體架構(gòu)解讀 P1 - 03:46
?

回顧vit模型


?
1.SwinTRM整體架構(gòu)解讀 P1 - 05:28
?

swin相對(duì)于vit的創(chuàng)新


?
1.SwinTRM整體架構(gòu)解讀 P1 - 06:52
?

如何把圖像變成一個(gè)個(gè)token

問題:復(fù)雜度太大

vit問題


?
1.SwinTRM整體架構(gòu)解讀 P1 - 08:53
?

swin vs vit

vit:把一張圖片分為若干patch(共9個(gè)),每個(gè)patch作為一個(gè)token輸入encoder

swin:把一張大圖片分為一個(gè)個(gè)window(共9個(gè)),window里每一個(gè)像素點(diǎn)作為一個(gè)token輸入encoder


?
1.SwinTRM整體架構(gòu)解讀 P1 - 10:34
?

swintrm整體架構(gòu)圖

看一篇論文最好方法:搞清楚每一個(gè)零部件輸入和輸出的數(shù)據(jù)的形狀和變化

?
1.SwinTRM整體架構(gòu)解讀 P1 - 14:19
?

整體形狀變化


?
1.SwinTRM整體架構(gòu)解讀 P1 - 16:04
?

源代碼實(shí)現(xiàn)的時(shí)候和原架構(gòu)圖不同


?
2.相對(duì)位置編碼解析 P2 - 00:37
?

patch partition



?
2.相對(duì)位置編碼解析 P2 - 02:08
?

第二個(gè)紅色框里的重點(diǎn)內(nèi)容:

1、相對(duì)位置編碼如何實(shí)現(xiàn)?

2、移動(dòng)窗口注意力機(jī)制如何實(shí)現(xiàn)?

3、patch融合如何實(shí)現(xiàn)?

?
2.相對(duì)位置編碼解析 P2 - 02:37
?

相對(duì)位置編碼的實(shí)現(xiàn)

1、TRM中的位置編碼:在輸入部分+位置編碼(正余弦函數(shù),不可以學(xué)習(xí))

2、vit模型中劃分為一個(gè)個(gè)patch后沒有使用正余弦函數(shù),而是初始化一個(gè)個(gè)索引,根據(jù)索引得到參數(shù)

3、swinTRM


?
2.相對(duì)位置編碼解析 P2 - 05:06
?

swinTRM相對(duì)位置信息加在哪里

B的形狀是什么

?
2.相對(duì)位置編碼解析 P2 - 06:43
?

一個(gè)例子




?
2.相對(duì)位置編碼解析 P2 - 10:06
?

什么是絕對(duì)位置信息

什么是相對(duì)位置信息


?
2.相對(duì)位置編碼解析 P2 - 11:40
?

網(wǎng)格的絕對(duì)位置和相對(duì)位置

1種絕對(duì)位置信息

4種相對(duì)位置信息


?
2.相對(duì)位置編碼解析 P2 - 12:53
?

怎么把4種相對(duì)位置信息加入attention矩陣


?
2.相對(duì)位置編碼解析 P2 - 18:04
?



?
2.相對(duì)位置編碼解析 P2 - 19:42
?

position embedding

?
3.窗口移動(dòng)注意力機(jī)制 P3 - 00:14
?

原始的窗口注意力機(jī)制

存在問題

移動(dòng)窗口注意力


?
3.窗口移動(dòng)注意力機(jī)制 P3 - 03:09
?

移動(dòng)前

移動(dòng)后


當(dāng)窗口滑動(dòng)到最右端出現(xiàn)同一窗口不相鄰的情況,右下端出現(xiàn)4、5、7、8不相鄰

?
3.窗口移動(dòng)注意力機(jī)制 P3 - 07:40
?

mask符號(hào)

矩陣的信息:0元素代表同一窗口,非0元素代表本不相鄰被框到一起

把非0元素置位-100或負(fù)無窮,得到mask矩陣


?
4.復(fù)雜度解析 P4 - 00:19
?


?
4.復(fù)雜度解析 P4 - 05:12
?

單頭

多頭


?
4.復(fù)雜度解析 P4 - 06:15
?

窗口注意力機(jī)制



?
4.復(fù)雜度解析 P4 - 06:44
?

patch merging降采樣










Swin Transformer從零詳細(xì)解讀的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
监利县| 黄平县| 双辽市| 定边县| 和林格尔县| 本溪市| 凤山县| 包头市| 新邵县| 邵东县| 卢氏县| 台山市| 磐石市| 夏邑县| 铜鼓县| 潼南县| 会同县| 沾益县| 昌图县| 英山县| 庆安县| 柯坪县| 通江县| 富川| 杂多县| 双桥区| 汉中市| 额济纳旗| 东乡县| 林州市| 梅州市| 常山县| 客服| 嘉义市| 涿鹿县| 虞城县| 永宁县| 舟山市| 和静县| 三台县| 凉城县|