深度之眼NLP Transformer 論文科研小班
2023-07-26 15:25 作者:bili_34189062872 | 我要投稿
編碼器-解碼器框架
??在Transformers模型之前,LSTM等遞歸架構是NLP中最先進的技術。 這些架構在網(wǎng)絡連接中包含一個反饋回路,允許信息從一個步驟傳播到另一個步驟,使它們成為模擬文本等順序數(shù)據(jù)的理想選擇。 如圖1-2左側所示,RNN接收一些輸入(可能是一個詞或字符),通過網(wǎng)絡輸入,并輸出一個稱為隱藏狀態(tài)的矢量。 同時,模型通過反饋回路將一些信息反饋給自己,然后可以在下一步使用。 如果我們 "解開 "循環(huán),可以更清楚地看到這一點,如圖1-2右側所示。 RNN將其每一步的狀態(tài)信息傳遞給序列中的下一個操作。 這使得RNN可以跟蹤以前步驟的信息,并將其用于輸出預測。

標簽: