最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

強(qiáng)烈推薦!臺大李宏毅自注意力機(jī)制和Transformer詳解!

2023-01-16 17:32 作者:夢到死鎖的銀行家  | 我要投稿
  • word embedding: https//www.youtube.com/watch?v=X7PH3NuYW0Q

self-attention處理整個sequence,F(xiàn)C專注處理某一個位置的資訊,self-attention和FC可以交替使用

  • transformer架構(gòu)
  • self-attention的簡單理解

a1~a4可能是input也可以作為中間層的輸入,b1~b4每個向量都會考慮整個input sequence

  • 計(jì)算關(guān)聯(lián)性(例如向量a1和a2的關(guān)聯(lián)性,一般都是使用下圖左邊的方法Dot-product)
  • 計(jì)算a1和a1自身以及a2,a3,a4的關(guān)聯(lián)性,得到a11,a12,a13,a14
  • 得到關(guān)聯(lián)性向量之后,再經(jīng)過softmax處理(和分類是一個softmax)
  • 基于attention scores抽取信息

a1-a4每個向量都可以×Wv得到對應(yīng)的value: v1-v4。然后將關(guān)聯(lián)性向量a11‘-a14’乘上對應(yīng)的value,然后結(jié)果相加得到b1

然后依次計(jì)算b2,b3,b4,所以哪個關(guān)聯(lián)性更大,得到的結(jié)果也就越接近那個關(guān)聯(lián)性數(shù)據(jù)(比如a11'最大,得到的b1也就最接近a11‘,或者說b1的主要構(gòu)成是由a11’構(gòu)成)

  • 概括計(jì)算b2流程

a1~a4乘上martix Wq,得到q1~q4,a1~a4乘上martix Wk,得到k1~k4,q2和k1~k4做dot-product操作,得到self-attention score(可能還會經(jīng)過softmax處理): a21‘,a22‘,a23‘,a24‘,然后各自與v1~v4相乘,然后相加得到b2

  • 從矩陣角度理解計(jì)算過程

我的理解:這樣就很容易提高運(yùn)算速度,因?yàn)椴⑿卸雀?/p>


強(qiáng)烈推薦!臺大李宏毅自注意力機(jī)制和Transformer詳解!的評論 (共 條)

分享到微博請遵守國家法律
玉溪市| 曲阳县| 沾化县| 故城县| 汉川市| 英山县| 修文县| 北海市| 南阳市| 庆元县| 岳西县| 丰台区| 台南县| 岳西县| 南漳县| 武汉市| 潼南县| 萨迦县| 安陆市| 襄樊市| 巴青县| 怀柔区| SHOW| 安庆市| 福贡县| 常山县| 勐海县| 台中县| 宝坻区| 鄢陵县| 闽清县| 双鸭山市| 鱼台县| 泽州县| 江川县| 辰溪县| 金溪县| 黄梅县| 错那县| 剑河县| 屯留县|