最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ChatGPT|Transformer模型|Attention Is All You Need

2023-09-20 08:51 作者:口算NavierStokes方程  | 我要投稿

Abstract

主要的序列轉(zhuǎn)導(dǎo)模型是基于復(fù)雜的循環(huán)或卷積神經(jīng)網(wǎng)絡(luò),其中包括一個(gè)編碼器和一個(gè)解碼器。表現(xiàn)最好的模型還通過(guò)注意機(jī)制連接編碼器和解碼器。我們提出了一個(gè)新的簡(jiǎn)單的網(wǎng)絡(luò)架構(gòu),變壓器,完全基于注意力機(jī)制,完全免除遞歸和卷積。在兩個(gè)機(jī)器翻譯任務(wù)上的實(shí)驗(yàn)表明,這些模型在質(zhì)量上更優(yōu)越,同時(shí)更具有并行性,需要的訓(xùn)練時(shí)間也大大減少。我們的模型在WMT 2014英語(yǔ)-德語(yǔ)翻譯任務(wù)中達(dá)到了28.4 BLEU,比現(xiàn)有的最佳結(jié)果(包括集合)提高了超過(guò)2 BLEU。在WMT 2014英語(yǔ)到法語(yǔ)的翻譯任務(wù)中,我們的模型在8個(gè)gpu上訓(xùn)練3.5天后,建立了一個(gè)新的單模型最先進(jìn)的BLEU評(píng)分41.8,這只是文獻(xiàn)中最好模型訓(xùn)練成本的一小部分。通過(guò)將Transformer成功應(yīng)用于大量和有限訓(xùn)練數(shù)據(jù)的英語(yǔ)選區(qū)解析,我們表明Transformer可以很好地推廣到其他任務(wù)。

1 Introduction

Transformer是一種特殊的Encoder-Decoder模型,由Google Brain團(tuán)隊(duì)在2017年提出,這一模型可以實(shí)現(xiàn)基于RNN模型的Encoder-Decoder模型的所有功能,并且處理效果實(shí)現(xiàn)了大幅度提升,同時(shí)支持并行化操作,因而可以更好地支持GPU矩陣計(jì)算。Transformer模型等價(jià)于一個(gè)有Self-Attention層的Seq2Seq模型。Transformer模型結(jié)構(gòu)如下:




1、傳統(tǒng)RNN模型的問(wèn)題

傳統(tǒng)的RNN模型(包括LSTM以及GRU模型)的計(jì)算是順序的,因此RNN模型的算法只能按照序列的正序或者逆序依次計(jì)算,這樣的算法會(huì)帶來(lái)兩個(gè)問(wèn)題:

1、計(jì)算t時(shí)刻的數(shù)據(jù)依賴(lài)于t時(shí)刻之前的計(jì)算結(jié)果,因此模型很難進(jìn)行并行運(yùn)算。

2、順序計(jì)算過(guò)程中會(huì)造成信息丟失,盡管LSTM以及Attention機(jī)制一定程度上緩解了這一問(wèn)題,但是對(duì)于特別長(zhǎng)的序列(例如序列為一篇文章的情況),上述機(jī)制依然難以解決這樣的問(wèn)題。

因此,有人提出使用CNN網(wǎng)絡(luò)架構(gòu)來(lái)解決并行計(jì)算的問(wèn)題,使用多個(gè)Filer來(lái)采集不同的特征,使用深層網(wǎng)絡(luò)來(lái)增強(qiáng)Filer讀取信息的長(zhǎng)度(即較長(zhǎng)時(shí)間的信息),這樣做的缺點(diǎn)就是如果需要讀取較長(zhǎng)時(shí)間的信息,那么CNN網(wǎng)絡(luò)會(huì)特別深。而Transformer的提出更好的解決了以上兩個(gè)問(wèn)題。


ChatGPT|Transformer模型|Attention Is All You Need的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
陆河县| 五指山市| 南宁市| 巴彦县| 七台河市| 嵊泗县| 玉林市| 彭山县| 隆德县| 桑日县| 精河县| 宜都市| 舟曲县| 南涧| 大连市| 黔南| 霍城县| 新龙县| 安龙县| 屯昌县| 炉霍县| 淅川县| 凤台县| 淮南市| 若羌县| 麟游县| 凌源市| 石阡县| 尤溪县| 巴彦淖尔市| 汪清县| 柏乡县| 阿勒泰市| 潜江市| 长顺县| 抚州市| 汝州市| 汝城县| 磐安县| 应用必备| 淮安市|