貪心學院第三階段 · 聯(lián)邦學習與隱私計算
Encoder
分為兩個部分:word embedding?和?position encoding
word embedding:這種技術會把單詞或者短語映射到一個n維的數(shù)值化向量,初始化后跟著訓練或者使用word2vec這種已經(jīng)有的看具體任務的效果.
position encoding:構造一個跟輸入embedding維度一樣的矩陣,然后跟輸入embedding
上述公式表示在每個詞語的詞向量的偶數(shù)位置添加sin變量,奇數(shù)位置添加cos變量,以此來填滿整個PE矩陣,然后加到input embedding中去,這樣便完成位置編碼的引入了。使用sin編碼和cos編碼的原因是可以得到詞語之間的相對位置.
Self-attention
注意力機制(Attention Mechanism)源于對人類視覺的研究。在認知科學中,由于信息處理的瓶頸,人類會選擇性地關注所有信息的一部分,同時忽略其他可見的信息。上述機制通常被稱為注意力機制。人類視網(wǎng)膜不
標簽: