強(qiáng)烈推薦!臺(tái)大李宏毅自注意力機(jī)制和Transformer詳解!
2023-02-26 11:59 作者:Stereo-seq | 我要投稿


encoder和decoder (seq2seq)的應(yīng)用,

電視劇的 音頻與字幕,通過transformer 訓(xùn)練一個(gè)語音識(shí)別模型
反過來
語音合成 : 輸入文字,輸出語音

通過大量對(duì)話文本,訓(xùn)練聊天機(jī)器人



Seq2seq 從最早的RNN模型,到現(xiàn)在的transformer模型


參差網(wǎng)絡(luò)
- 殘差網(wǎng)絡(luò)(避免梯度消失w3(w2(w1x+b1)+b2)+b3,如果 w1,w2,w3 特別小,0.000000……1,x 就沒了,【w3(w2(w1x+b1)+b2)+b3+x】)
- x1作為殘差結(jié)構(gòu)的直連向量,直接和?z1?相加,之后進(jìn)行 Layer Norm 操作,得到淺粉色向量?z1,z1?經(jīng)過前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward)層,經(jīng)過殘差結(jié)構(gòu)與自身z1相加,之后經(jīng)過 LN 層,得到一個(gè)輸出向量?r1;
- Add & Norm 就是 Residual殘差網(wǎng)絡(luò)和標(biāo)準(zhǔn)化
- 殘差結(jié)構(gòu)的作用:避免出現(xiàn)梯度消失的情況
- Layer Norm 的作用:為了保證數(shù)據(jù)特征分布的穩(wěn)定性,并且可以加速模型的收斂

標(biāo)簽: