67 自注意力【動手學(xué)深度學(xué)習(xí)v2】

自注意力原理:
設(shè)輸入的數(shù)據(jù)為n個長為d的序列。自注意力池化層會把每個序列同時看作key、value、query。
實際上就是抽取輸入數(shù)據(jù)內(nèi)部關(guān)系特征
Self-attention與CNN、RNN對比

圖中d為數(shù)據(jù)序列長度,k為卷積核大小,n為序列數(shù)量。
可以看出self-attention對運算能力的要求特別高,這也是為何如今所有基于self-attention的模型都需要很多GPU才能進行運算。
self-attention里的位置信息處理



知識補充:
位置編碼里的位置在實際中指的是Xi的i。
標簽: