散文網(wǎng) » 生活 »日常 » ChatGPT｜Transformer模型｜Attention Is All You Need

ChatGPT｜Transformer模型｜Attention Is All You Need

2023-09-20 08:51 作者:口算NavierStokes方程 0人讀過(guò) | 我要投稿

Abstract

主要的序列轉(zhuǎn)導(dǎo)模型是基于復(fù)雜的循環(huán)或卷積神經(jīng)網(wǎng)絡(luò)，其中包括一個(gè)編碼器和一個(gè)解碼器。表現(xiàn)最好的模型還通過(guò)注意機(jī)制連接編碼器和解碼器。我們提出了一個(gè)新的簡(jiǎn)單的網(wǎng)絡(luò)架構(gòu)，變壓器，完全基于注意力機(jī)制，完全免除遞歸和卷積。在兩個(gè)機(jī)器翻譯任務(wù)上的實(shí)驗(yàn)表明，這些模型在質(zhì)量上更優(yōu)越，同時(shí)更具有并行性，需要的訓(xùn)練時(shí)間也大大減少。我們的模型在WMT 2014英語(yǔ)-德語(yǔ)翻譯任務(wù)中達(dá)到了28.4 BLEU，比現(xiàn)有的最佳結(jié)果(包括集合)提高了超過(guò)2 BLEU。在WMT 2014英語(yǔ)到法語(yǔ)的翻譯任務(wù)中，我們的模型在8個(gè)gpu上訓(xùn)練3.5天后，建立了一個(gè)新的單模型最先進(jìn)的BLEU評(píng)分41.8，這只是文獻(xiàn)中最好模型訓(xùn)練成本的一小部分。通過(guò)將Transformer成功應(yīng)用于大量和有限訓(xùn)練數(shù)據(jù)的英語(yǔ)選區(qū)解析，我們表明Transformer可以很好地推廣到其他任務(wù)。

1 Introduction

Transformer是一種特殊的Encoder-Decoder模型，由Google Brain團(tuán)隊(duì)在2017年提出，這一模型可以實(shí)現(xiàn)基于RNN模型的Encoder-Decoder模型的所有功能，并且處理效果實(shí)現(xiàn)了大幅度提升，同時(shí)支持并行化操作，因而可以更好地支持GPU矩陣計(jì)算。Transformer模型等價(jià)于一個(gè)有Self-Attention層的Seq2Seq模型。Transformer模型結(jié)構(gòu)如下：

1、傳統(tǒng)RNN模型的問(wèn)題

傳統(tǒng)的RNN模型（包括LSTM以及GRU模型）的計(jì)算是順序的，因此RNN模型的算法只能按照序列的正序或者逆序依次計(jì)算，這樣的算法會(huì)帶來(lái)兩個(gè)問(wèn)題：

1、計(jì)算t時(shí)刻的數(shù)據(jù)依賴(lài)于t時(shí)刻之前的計(jì)算結(jié)果，因此模型很難進(jìn)行并行運(yùn)算。

2、順序計(jì)算過(guò)程中會(huì)造成信息丟失，盡管LSTM以及Attention機(jī)制一定程度上緩解了這一問(wèn)題，但是對(duì)于特別長(zhǎng)的序列（例如序列為一篇文章的情況），上述機(jī)制依然難以解決這樣的問(wèn)題。

因此，有人提出使用CNN網(wǎng)絡(luò)架構(gòu)來(lái)解決并行計(jì)算的問(wèn)題，使用多個(gè)Filer來(lái)采集不同的特征，使用深層網(wǎng)絡(luò)來(lái)增強(qiáng)Filer讀取信息的長(zhǎng)度（即較長(zhǎng)時(shí)間的信息），這樣做的缺點(diǎn)就是如果需要讀取較長(zhǎng)時(shí)間的信息，那么CNN網(wǎng)絡(luò)會(huì)特別深。而Transformer的提出更好的解決了以上兩個(gè)問(wèn)題。

標(biāo)簽：