強(qiáng)烈推薦！臺大李宏毅自注意力機(jī)制和Transformer詳解！

2023-01-16 17:32 作者:夢到死鎖的銀行家 0人讀過 | 我要投稿

word embedding: https//www.youtube.com/watch?v=X7PH3NuYW0Q

self-attention處理整個sequence，F(xiàn)C專注處理某一個位置的資訊，self-attention和FC可以交替使用

transformer架構(gòu)

self-attention的簡單理解

a1~a4可能是input也可以作為中間層的輸入，b1~b4每個向量都會考慮整個input sequence

計(jì)算關(guān)聯(lián)性(例如向量a1和a2的關(guān)聯(lián)性，一般都是使用下圖左邊的方法Dot-product)

計(jì)算a1和a1自身以及a2,a3,a4的關(guān)聯(lián)性，得到a11,a12,a13,a14

得到關(guān)聯(lián)性向量之后，再經(jīng)過softmax處理(和分類是一個softmax)

基于attention scores抽取信息

a1-a4每個向量都可以×Wv得到對應(yīng)的value: v1-v4。然后將關(guān)聯(lián)性向量a11‘-a14’乘上對應(yīng)的value，然后結(jié)果相加得到b1

然后依次計(jì)算b2,b3,b4，所以哪個關(guān)聯(lián)性更大，得到的結(jié)果也就越接近那個關(guān)聯(lián)性數(shù)據(jù)(比如a11'最大，得到的b1也就最接近a11‘，或者說b1的主要構(gòu)成是由a11’構(gòu)成)

概括計(jì)算b2流程

a1~a4乘上martix Wq,得到q1~q4,a1~a4乘上martix Wk,得到k1~k4,q2和k1~k4做dot-product操作，得到self-attention score(可能還會經(jīng)過softmax處理): a21‘,a22‘,a23‘,a24‘,然后各自與v1~v4相乘，然后相加得到b2

從矩陣角度理解計(jì)算過程

我的理解：這樣就很容易提高運(yùn)算速度，因?yàn)椴⑿卸雀?/p>

標(biāo)簽：

強(qiáng)烈推薦！臺大李宏毅自注意力機(jī)制和Transformer詳解！的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

強(qiáng)烈推薦！臺大李宏毅自注意力機(jī)制和Transformer詳解！

強(qiáng)烈推薦！臺大李宏毅自注意力機(jī)制和Transformer詳解！的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

強(qiáng)烈推薦！臺大李宏毅自注意力機(jī)制和Transformer詳解！

本文作者的其他文章

強(qiáng)烈推薦！臺大李宏毅自注意力機(jī)制和Transformer詳解！的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

強(qiáng)烈推薦！臺大李宏毅自注意力機(jī)制和Transformer詳解！

強(qiáng)烈推薦！臺大李宏毅自注意力機(jī)制和Transformer詳解！的評論 (共條)