64 注意力機(jī)制【動手學(xué)深度學(xué)習(xí)v2】

注意力機(jī)制
從心理學(xué)的角度出發(fā)
動物需要在復(fù)雜的環(huán)境下有效地關(guān)注值得注意的點
- 心理學(xué)框架:人類根據(jù)隨意線索(主動、有意識)和不隨意線索選擇注意點
注意力機(jī)制
卷積、全連接、池化層都只考慮不隨意線索(沒有明確的目標(biāo))
- 池化操作通常是將感受野范圍中的最大值提取出來(最大池化)
- 卷積操作通常是對輸入全部通過卷積核進(jìn)行操作,然后提取出一些比較明顯的特征
注意力機(jī)制是顯式地考慮隨意線索
- 隨意線索被稱之為查詢(query)---- 所想要做的事情
- 每個輸入是一個值(value)和不隨意線索(key)的對 ---- 可以理解為環(huán)境,就是一些鍵值對,key 和 value 可以相同,也可以不同
- 通過注意力池化層來有偏向性地選擇某些輸入 ---- 根據(jù) query 有偏向地選擇輸入,跟之前的池化層有所不同,這里顯式地加入了 query,然后根據(jù) query 查詢所需要的東西
非參注意力池化層

- 非參:不需要學(xué)習(xí)參數(shù)
- x -- key
- y -- value
- f(x)-- 對應(yīng)所要查詢的東西
- (x,y) -- key-value對(候選)
- 平均池化:之所以是最簡單的方案,是因為不需要管所查詢的東西(也就是f(x)中的 x ),而只需要無腦地對 y 求和取平均就可以了
Nadaraya-Watson 核回歸:
- 核:K 函數(shù),它可以認(rèn)為是衡量 x 和 xi 之間距離的函數(shù)
- 數(shù)據(jù)就是給定的數(shù)據(jù),對于新給定的值來講,只需要在給定的數(shù)據(jù)中進(jìn)行查詢就可以了(選擇和新給定的值比較相近的數(shù)據(jù),然后將這些數(shù)據(jù)對應(yīng)的 value 值然后進(jìn)行加權(quán)求和,從而得到最終的 query),所以不需要學(xué)習(xí)參數(shù)
K 的選擇:高斯核

- u:代表 x 和 xi 之間的距離
- exp:作用是將最終的結(jié)果變成大于 0 的數(shù)
- softmax:得到 0 到 1 之間的數(shù)作為權(quán)重
- 在上式的基礎(chǔ)上添加一個可以學(xué)習(xí)的 w :

總結(jié)
1、心理學(xué)認(rèn)為人通過隨意線索和不隨意線索選擇注意點
2、注意力機(jī)制中,通過query(隨意線索)和 key(不隨意線索)來有偏向性地選擇輸入,一般可以寫作

- f(x)的 key 和所有的不隨意線索的 key 做距離上的計算(α(x,xi),通常稱為注意力權(quán)重),分別作為所有的 value 的權(quán)重
- 這并不是一個新興的概念,早在 60 年代就已經(jīng)有非參數(shù)的注意力機(jī)制了
----end----
標(biāo)簽: