什么是transformer?【知多少】

評論里get知識:
RNN -> LSTM GRU ->Attention->Self Attention
RNN(Recurrent Neural Network)是一種循環(huán)神經(jīng)網(wǎng)絡(luò),用于處理序列數(shù)據(jù),并具有反饋連接。它在每一個(gè)時(shí)間步都將前一時(shí)刻的輸出作為當(dāng)前時(shí)刻的輸入,可以實(shí)現(xiàn)對序列信息的建模。然而,傳統(tǒng)的RNN存在梯度消失和梯度爆炸等問題。
LSTM(Long Short-Term Memory)是RNN的一種特殊變體,通過引入門控機(jī)制來解決傳統(tǒng)RNN的問題。LSTM具有輸入門、遺忘門和輸出門,可以選擇性地記住或遺忘之前的信息,并傳遞重要的信息到后續(xù)時(shí)間步。LSTM能夠有效地處理長序列,并捕捉到長距離的依賴關(guān)系。
GRU(Gated Recurrent Unit)也是RNN的一種改進(jìn)模型,類似于LSTM,但它只有兩個(gè)門:更新門和重置門。GRU通過動態(tài)控制信息的更新和重置來實(shí)現(xiàn)對序列的建模,相對于LSTM而言,它具有更少的門控機(jī)制,參數(shù)更少。
Attention(注意力機(jī)制)是一種用于增強(qiáng)模型性能的機(jī)制,特別適用于處理長序列任務(wù)。它允許模型集中關(guān)注序列中不同位置的不同重要性部分,并根據(jù)重要性將不同位置的信息相加。Attention可以使模型更好地理解和利用序列中的重要信息。

Self Attention(自注意力機(jī)制)是一種Attention的特殊形式,用于處理自然語言處理任務(wù)。自注意力機(jī)制允許模型在序列中的每一個(gè)位置計(jì)算一個(gè)加權(quán)和,其中權(quán)重是通過考慮序列中所有位置的相關(guān)性得到的。自注意力機(jī)制能夠在序列中建立全局的依賴關(guān)系,并捕捉到不同位置之間的長距離依賴。

總結(jié)來說,RNN是一種循環(huán)神經(jīng)網(wǎng)絡(luò),用于處理序列數(shù)據(jù)。LSTM和GRU是RNN的改進(jìn)模型,通過引入不同的門控機(jī)制來解決傳統(tǒng)RNN的問題。Attention是一種機(jī)制,允許模型集中關(guān)注不同位置的重要信息。Self Attention是Attention的一種特殊形式,用于處理自然語言處理任務(wù)。