ChatGPT|Transformer模型|Attention Is All You Need
Abstract
主要的序列轉(zhuǎn)導(dǎo)模型是基于復(fù)雜的循環(huán)或卷積神經(jīng)網(wǎng)絡(luò),其中包括一個(gè)編碼器和一個(gè)解碼器。表現(xiàn)最好的模型還通過(guò)注意機(jī)制連接編碼器和解碼器。我們提出了一個(gè)新的簡(jiǎn)單的網(wǎng)絡(luò)架構(gòu),變壓器,完全基于注意力機(jī)制,完全免除遞歸和卷積。在兩個(gè)機(jī)器翻譯任務(wù)上的實(shí)驗(yàn)表明,這些模型在質(zhì)量上更優(yōu)越,同時(shí)更具有并行性,需要的訓(xùn)練時(shí)間也大大減少。我們的模型在WMT 2014英語(yǔ)-德語(yǔ)翻譯任務(wù)中達(dá)到了28.4 BLEU,比現(xiàn)有的最佳結(jié)果(包括集合)提高了超過(guò)2 BLEU。在WMT 2014英語(yǔ)到法語(yǔ)的翻譯任務(wù)中,我們的模型在8個(gè)gpu上訓(xùn)練3.5天后,建立了一個(gè)新的單模型最先進(jìn)的BLEU評(píng)分41.8,這只是文獻(xiàn)中最好模型訓(xùn)練成本的一小部分。通過(guò)將Transformer成功應(yīng)用于大量和有限訓(xùn)練數(shù)據(jù)的英語(yǔ)選區(qū)解析,我們表明Transformer可以很好地推廣到其他任務(wù)。
1 Introduction
Transformer是一種特殊的Encoder-Decoder模型,由Google Brain團(tuán)隊(duì)在2017年提出,這一模型可以實(shí)現(xiàn)基于RNN模型的Encoder-Decoder模型的所有功能,并且處理效果實(shí)現(xiàn)了大幅度提升,同時(shí)支持并行化操作,因而可以更好地支持GPU矩陣計(jì)算。Transformer模型等價(jià)于一個(gè)有Self-Attention層的Seq2Seq模型。Transformer模型結(jié)構(gòu)如下:


1、傳統(tǒng)RNN模型的問(wèn)題
傳統(tǒng)的RNN模型(包括LSTM以及GRU模型)的計(jì)算是順序的,因此RNN模型的算法只能按照序列的正序或者逆序依次計(jì)算,這樣的算法會(huì)帶來(lái)兩個(gè)問(wèn)題:
1、計(jì)算t時(shí)刻的數(shù)據(jù)依賴(lài)于t時(shí)刻之前的計(jì)算結(jié)果,因此模型很難進(jìn)行并行運(yùn)算。
2、順序計(jì)算過(guò)程中會(huì)造成信息丟失,盡管LSTM以及Attention機(jī)制一定程度上緩解了這一問(wèn)題,但是對(duì)于特別長(zhǎng)的序列(例如序列為一篇文章的情況),上述機(jī)制依然難以解決這樣的問(wèn)題。
因此,有人提出使用CNN網(wǎng)絡(luò)架構(gòu)來(lái)解決并行計(jì)算的問(wèn)題,使用多個(gè)Filer來(lái)采集不同的特征,使用深層網(wǎng)絡(luò)來(lái)增強(qiáng)Filer讀取信息的長(zhǎng)度(即較長(zhǎng)時(shí)間的信息),這樣做的缺點(diǎn)就是如果需要讀取較長(zhǎng)時(shí)間的信息,那么CNN網(wǎng)絡(luò)會(huì)特別深。而Transformer的提出更好的解決了以上兩個(gè)問(wèn)題。