Transformer從零詳細(xì)解讀(可能是你見過最通俗易懂的講解)

?
1.從全局角度概括Transformer P1 - 01:26
?
1、2、3、4是encoder-decoder的共同部分
5貫穿于1234中
TRM在做什么

?
1.從全局角度概括Transformer P1 - 02:38
?
?
1.從全局角度概括Transformer P1 - 03:22
?TRM內(nèi)部結(jié)構(gòu)

6個(gè)encoder結(jié)構(gòu)相同,參數(shù)都在獨(dú)立訓(xùn)練
?
1.從全局角度概括Transformer P1 - 05:30
?
剖析encoder細(xì)節(jié)

?
2.位置編碼詳細(xì)解讀 P2 - 00:32
?
?
2.位置編碼詳細(xì)解讀 P2 - 00:50
??
2.位置編碼詳細(xì)解讀 P2 - 01:33
?
?
2.位置編碼詳細(xì)解讀 P2 - 03:17
?總梯度被近距離梯度主導(dǎo),遠(yuǎn)距離梯度忽略不計(jì)
?
2.位置編碼詳細(xì)解讀 P2 - 04:15
?注意力機(jī)制增快了速度,但是忽略了順序關(guān)系
?
2.位置編碼詳細(xì)解讀 P2 - 05:07
?
相加得到最終的512維度作為TRM輸入

?
2.位置編碼詳細(xì)解讀 P2 - 06:46
?為什么位置嵌入有用?

?
3.多頭注意力機(jī)制詳解 P3 - 00:17
?
人在看一張圖的時(shí)候會有最關(guān)注的部位,顏色深表示很受關(guān)注,顏色淺表示不擇么受關(guān)注
嬰兒在干嘛這句話和圖中那些區(qū)域最相思最關(guān)注
?
3.多頭注意力機(jī)制詳解 P3 - 01:24
?
?
3.多頭注意力機(jī)制詳解 P3 - 02:08
?
向量點(diǎn)乘:可以反應(yīng)兩個(gè)向量相似度
得到0.7,0.1,0.1,0.1之后和V矩陣相乘得到最后的attention value
?
3.多頭注意力機(jī)制詳解 P3 - 04:16
?
?
3.多頭注意力機(jī)制詳解 P3 - 05:49
?step 1:矩陣相乘

step 2:計(jì)算attention值,為 value分配權(quán)重

這里只用了一套參數(shù)

多頭注意力,多套參數(shù)


?
4.殘差詳解 P4 - 00:11
?
位置編碼之后的x和attention計(jì)算后的z相加作為殘差結(jié)果傳入LN作為輸出
?
4.殘差詳解 P4 - 02:00
?
緩解了梯度消失的出現(xiàn)
?
4.殘差詳解 P4 - 03:53
??
5.Batch Normal詳解 P5 - 00:48
??
5.Batch Normal詳解 P5 - 01:11
?
BN理解的重點(diǎn):針對整個(gè)batch中的樣本在同一維度特征在做處理

對1班同學(xué)身高做BN、體重做BN、成績做BN
?
5.Batch Normal詳解 P5 - 03:02
?
?
5.Batch Normal詳解 P5 - 03:36
?

?
5.Batch Normal詳解 P5 - 04:34
?
?
6.layer normal 詳解 P6 - 00:35
?
?
6.layer normal 詳解 P6 - 02:36
?
?
7.Decoder詳解 P7 - 00:03
?
?
7.Decoder詳解 P7 - 00:36
??
7.Decoder詳解 P7 - 00:51
?
?
7.Decoder詳解 P7 - 02:48
?
q來自本身,kv來自encoder

標(biāo)簽: