強(qiáng)烈推薦!臺大李宏毅自注意力機(jī)制和Transformer詳解!

- word embedding: https//www.youtube.com/watch?v=X7PH3NuYW0Q

self-attention處理整個sequence,F(xiàn)C專注處理某一個位置的資訊,self-attention和FC可以交替使用
- transformer架構(gòu)

- self-attention的簡單理解

a1~a4可能是input也可以作為中間層的輸入,b1~b4每個向量都會考慮整個input sequence
- 計(jì)算關(guān)聯(lián)性(例如向量a1和a2的關(guān)聯(lián)性,一般都是使用下圖左邊的方法Dot-product)

- 計(jì)算a1和a1自身以及a2,a3,a4的關(guān)聯(lián)性,得到a11,a12,a13,a14

- 得到關(guān)聯(lián)性向量之后,再經(jīng)過softmax處理(和分類是一個softmax)

- 基于attention scores抽取信息
a1-a4每個向量都可以×Wv得到對應(yīng)的value: v1-v4。然后將關(guān)聯(lián)性向量a11‘-a14’乘上對應(yīng)的value,然后結(jié)果相加得到b1

然后依次計(jì)算b2,b3,b4,所以哪個關(guān)聯(lián)性更大,得到的結(jié)果也就越接近那個關(guān)聯(lián)性數(shù)據(jù)(比如a11'最大,得到的b1也就最接近a11‘,或者說b1的主要構(gòu)成是由a11’構(gòu)成)

- 概括計(jì)算b2流程
a1~a4乘上martix Wq,得到q1~q4,a1~a4乘上martix Wk,得到k1~k4,q2和k1~k4做dot-product操作,得到self-attention score(可能還會經(jīng)過softmax處理): a21‘,a22‘,a23‘,a24‘,然后各自與v1~v4相乘,然后相加得到b2

- 從矩陣角度理解計(jì)算過程
我的理解:這樣就很容易提高運(yùn)算速度,因?yàn)椴⑿卸雀?/p>

標(biāo)簽: