貪心NLP Transformer研修
Transformer 是什么??
Transformer 和 LSTM 的最大區(qū)別(已報名貪心Transformer底部評),就是 LSTM 的訓練是迭代的、串行的,必須要等當前字處理完,才可以處理下一個字。而 Transformer 的訓練時并行的,即所有字是同時訓練的,這樣就大大增加了計算效率。
Transformer 使用了位置嵌入 (Positional Encoding)?來理解語言的順序,使用自注意力機制(Self Attention Mechanism)和全連接層進行計算。
Transformer 模型主要分為兩大部分,分別是?Encoder?和?Decoder。
Encoder編碼器負責把輸入(語言序列)隱射成隱藏層(下圖中第 2 步用九宮格代表的部分),即把自然語言序列映射為隱藏層的數學表達的過程。
Decoder解碼器再把隱藏層映射為自然語言序列。
例如下圖機器翻譯的例子(Decoder 輸出的時候,是通過 N 層 Decoder Layer 才輸出一個 token,并不是通過一層 Decoder Layer 就輸出一個 token)

標簽: