散文網 » 生活 »日常 » 貪心NLP Transformer研修

貪心NLP Transformer研修

2022-09-08 23:26 作者:rei源義經 0人讀過 | 我要投稿

Transformer 是什么？?

Transformer 和 LSTM 的最大區(qū)別（已報名貪心Transformer底部評），就是 LSTM 的訓練是迭代的、串行的，必須要等當前字處理完，才可以處理下一個字。而 Transformer 的訓練時并行的，即所有字是同時訓練的，這樣就大大增加了計算效率。

Transformer 使用了位置嵌入 (Positional Encoding)?來理解語言的順序，使用自注意力機制（Self Attention Mechanism）和全連接層進行計算。

Transformer 模型主要分為兩大部分，分別是?Encoder?和?Decoder。

Encoder編碼器負責把輸入（語言序列）隱射成隱藏層（下圖中第 2 步用九宮格代表的部分），即把自然語言序列映射為隱藏層的數學表達的過程。
Decoder解碼器再把隱藏層映射為自然語言序列。

例如下圖機器翻譯的例子（Decoder 輸出的時候，是通過 N 層 Decoder Layer 才輸出一個 token，并不是通過一層 Decoder Layer 就輸出一個 token）

標簽：