67 自注意力【動手學(xué)深度學(xué)習(xí)v2】

2023-09-08 17:12 作者:月蕪SA 0人讀過 | 我要投稿

自注意力原理：

設(shè)輸入的數(shù)據(jù)為n個長為d的序列。自注意力池化層會把每個序列同時看作key、value、query。

實際上就是抽取輸入數(shù)據(jù)內(nèi)部關(guān)系特征

Self-attention與CNN、RNN對比

圖中d為數(shù)據(jù)序列長度，k為卷積核大小，n為序列數(shù)量。

可以看出self-attention對運算能力的要求特別高，這也是為何如今所有基于self-attention的模型都需要很多GPU才能進行運算。

self-attention里的位置信息處理

知識補充：

位置編碼里的位置在實際中指的是Xi的i。

標簽：

67 自注意力【動手學(xué)深度學(xué)習(xí)v2】的評論 (共條)