【Attention 注意力機制】激情告白transformer、Bert、GN

2023-02-09 22:14 作者:Siyuejiang 0人讀過 | 我要投稿

神經(jīng)網(wǎng)絡訓練是為了得到最好的權重矩陣

打破只能用encoder單一向量的限制，每一時刻模型都能動態(tài)看到全局信息

隨著硬件發(fā)展，RNN沒法并行運算，

encoder編碼階段計算每個單詞之間的關聯(lián)，加權表示得到新的表示

惹辦公室看到這段有點尷尬

decoder要看encoder+之前的輸出

參數(shù)更少、速度更快、效果更好

Q：相較于RNN的遍歷，attention其實需要每個Q之間實時關聯(lián)，某種程度是加大運算量的？

標簽：

【Attention 注意力機制】激情告白transformer、Bert、GN的評論 (共條)