貪心Transformer與聯(lián)邦學(xué)習(xí)高階研修班
NCODER分兩層:自注意力層、前饋神經(jīng)網(wǎng)絡(luò)層。自注意力層幫助編碼器在對(duì)每個(gè)單詞編碼時(shí)關(guān)注單詞的上下文單詞。
DECODER分三層:自注意力層、編碼-解碼注意力層、前饋神經(jīng)網(wǎng)絡(luò)層。編碼-解碼注意力層用來關(guān)注輸入句子的相關(guān)部分。
到這里,我們已經(jīng)大概知道了Transformer的結(jié)構(gòu)。下面我們從張量的角度來看看一個(gè)輸入句子在模型不同部分的變化,以及最后是如何變成輸出的。
編碼器
?
標(biāo)簽: