強烈推薦！臺大李宏毅自注意力機制和Transformer詳解！

2023-07-06 17:26 作者:業(yè)撒君 0人讀過 | 我要投稿

tips：這個視頻開始講的講文章分類，文章可能屬于多個不同類別的問題，聯(lián)想到了關(guān)鍵點識別的骨架問題，可不可以把這個交給transformer讓它去決定輸出關(guān)鍵點的數(shù)量

encoder的架構(gòu)

transformer encoder用的就是自注意力，輸入一排向量，輸出同樣長度的向量。

這里的block做了好多l(xiāng)ayer做的事情，輸入一排向量，輸出一排向量。其中block具體組成：

做一個自注意力，輸入向量后，考慮整個sequence的資訊，輸出另外一排向量，再丟到fully connected feed forward network 里面，輸出另外一排向量作為block的輸出。

輸出的每個向量是考慮所有的輸入得到的結(jié)果，在transformer加入了一個設(shè)計：

在輸出的向量加上它的輸入得到新的輸出。

這個架構(gòu)較residual connection。

再進行norm，不是batchnormization，是layernormization，不需要考慮batch的資訊，

batch是對不同example不同的feature的同個dimension去計算mean和standard deviation，layer是對同一個example里不同的dimension去計算mean和standard deviation，輸入一個向量，輸出一個normlize的向量，分號上面的xi不要、。這個輸出才是fc的輸出。

fc里也有一個residual 的架構(gòu)，再做一個layer norm輸出，這個輸出才是residual network里面的block的輸出。

回到論文中對比：

區(qū)別：在輸入前加上positional encoding，因為只用自注意力，沒有位置的資訊。這個

tips:block在之后一個bert的模型里會用到，bert其實就是transformer的encoder。

encoder的架構(gòu)的改進設(shè)計：

1.改為先做residual后做normization，性能更好。

2.為什么不做batch，提出了一個power normiztion?！猵owernorm

decoder——AT的架構(gòu)

先給decoder 一個特殊的符號，代表begin，在decoder 產(chǎn)生的文本里產(chǎn)生一個開始的符號。token用one-hot表示。

decoder會產(chǎn)生一個向量，長度和vocabulary的長度一樣，就是希望識別的詞匯庫的總詞匯數(shù)。

在得到該向量前做一個softmax分類。把新得到的輸出”機“表示一個one-hot向量，作為decoder新的輸入，不斷進行下去。每個輸出

向量，都結(jié)合了在它之前的輸入向量的資訊，比如”學“的輸出是學習了輸入的token、“機”、“器”的資訊。

decoder結(jié)構(gòu)

與encoder比較

主要在于中間的部分。其中的masked部分：

就是從每個輸出都考慮所有輸出變?yōu)橹豢紤]前面的輸入。具體一點：

變?yōu)椋?/strong>

另外的關(guān)鍵點：decoder必須自己決定輸出的長度。

——要讓它輸出一個斷的符號

begin和end可以用同一個符號，因為begin只在輸入，end只在輸出。不同亦可。

decoder-non-autoregressive（NAT）

如何NAT決定輸入的begin數(shù)量：

兩種解決：再加一個預測長度的predictor

輸入一個最大的長度，把預測為end的輸出后的輸出當作無。

好處：

平行化：速度快

能控制輸出長度：比如有個classifer，語音合成2倍速識別就除以2.

壞處：

表現(xiàn)一般不如at（autoregressive）：muti—modality

?
13.【李宏毅機器學習2021】Transformer (下) P4 - 22:18
?

encoder-decoder如何傳遞資訊

cross attention部分，兩個輸入來自encoder，一個來自decoder。

把self-attention輸出的向量乘上一個矩陣作為一個transform得到query，a1，a2，a3產(chǎn)生一個key，q與k1、k2、k3計算attention的分數(shù)，做一下softmax normization。再分別乘以v加起來得到v丟給fc。

decoder產(chǎn)生query到encoder里抽取資訊。

原始論文中decoder 的每一層都是encoder最后一層的輸出，圖右上角。當然還有其他結(jié)構(gòu)，圖下方。

training
計算輸出向量的one-hot與ground truth的one-hot的minimize cross entropy。

teacher force：decoder輸入groud truth，機器要使輸出與ground truch的loss越小越好，要包含end的token。

問題：測試中沒有g(shù)round truth給decoder

訓練的tips：

1、copy mechanism

就是機器并不理解資訊，而是從資訊中復制一些東西。

語音合成念四次發(fā)財沒問題，反而念一次只念出來發(fā)。

2.guided attention

紅色曲線代表attention分數(shù)，越高效果越好。

guided attention要求attention有一個固定的樣貌，比如語音合成、tts的問題，要求attention由左向右。

關(guān)鍵詞匯：monotonic attention

location-aware attention 自己google

Beam Search

假設(shè)只有兩個輸出A,B，每次找輸出分數(shù)最高的路勁，叫做greedly decoding。綠色路徑第一步不好，但總體是最好的。

beam search一直輸出重復的結(jié)果，加入一些隨機性后的結(jié)果反而比較正常。

當目標非常明確時，beam search性能好，如語音辨識。當需要一點創(chuàng)造力時，結(jié)果有多種可能時，需要在decoder中加入隨機性。

反直覺：語音合成（TTS）。一般來說是訓練時加入noise，但是tts需要在測試時加入noise效果才會好。

口訣：

不知道如何去優(yōu)化，用reinforcement learning（RL），遇到無法優(yōu)化的loss function，把它當成RL的 rewo，把decoder當作agen，把它當作RL的reinfore問題硬做

測試沒有g(shù)round truch的問題，測試時decoder會看一些錯的東西，從而帶來的exposure bias：

給decoder一些錯誤的答案，可能會學的更好——scheduled sampling

會損害transformer平行化的能力和細節(jié)，因此transformer對scheduled sampling進行了改進。

標簽：

我喜歡()

本文作者的其他文章

強烈推薦！臺大李宏毅自注意力機制和Transformer詳解！的評論 (共條)

分享到微博請遵守國家法律

業(yè)撒君
 發(fā)短消息
 關(guān)注TA

你可能也喜歡這些文章

終于見識到 Python 的天花板。。你值得擁有
一年級下：小壁虎借尾巴，誰會借尾巴給別人呢？閱讀還得靠自己
unicolonial ants , 從哪里來，到哪里去？（個人渣翻）
【海德教育】邯鄲職稱評審即將申報
劇的質(zhì)量還沒有粉絲的嘴一半硬！吐槽楊洋新劇《你是人間煙火》
守正創(chuàng)新
育碧聯(lián)合多家知名機構(gòu)為《刺客信條：幻景》帶來特色內(nèi)容“巴格達的歷史”
【尋道大千】精怪怎么搭配（內(nèi)附最新禮包碼）
一圖掌控污水廠運營——遠眺污水廠數(shù)字孿生平臺「捷碼精品應用展」
工程咨詢單位的業(yè)務(wù)范圍涵蓋哪些方面？

最新發(fā)布的文章

農(nóng)發(fā)行河津市支行做好年終決算工作
農(nóng)發(fā)行河津市支行持續(xù)加強反洗錢工作管理
農(nóng)發(fā)行河津市支行扎實做好安保工作
農(nóng)發(fā)行河津市支行組織開展憲法主題宣傳活動
農(nóng)發(fā)行河津市支行開展"挺膺擔當，強國復興"主題團日活動
年終總結(jié)2023，布局2024，挑一個目標置頂一整年！
12月20日維護結(jié)束，冰雪嘉年華開啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時尚 | 時尚趨勢是如何做出來的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報
致命公司多人聯(lián)機mod，漢化游戲下載使用安裝教學！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網(wǎng)下載卡在45%登錄失敗提示2045報錯/戰(zhàn)網(wǎng)一鍵下載注冊教程！

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

強烈推薦！臺大李宏毅自注意力機制和Transformer詳解！

本文作者的其他文章

強烈推薦！臺大李宏毅自注意力機制和Transformer詳解！的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

強烈推薦！臺大李宏毅自注意力機制和Transformer詳解！

強烈推薦！臺大李宏毅自注意力機制和Transformer詳解！的評論 (共條)