一文梳理NLP中的Attention機(jī)制的起源與發(fā)展

2023-03-06 08:00 作者:小牛翻譯NiuTrans 0人讀過 | 我要投稿

本文首發(fā)于網(wǎng)站機(jī)器翻譯學(xué)堂

轉(zhuǎn)載事宜請后臺(tái)詢問哦

作者|Nikolas Adaloglou

譯者|翰宇晨穆永譽(yù)

單位|東北大學(xué)自然語言處理實(shí)驗(yàn)室

引言

今天給大家介紹的外文精品博客是關(guān)于注意力機(jī)制在自然語言處理中發(fā)展脈絡(luò)的整理。博客中包含大量的圖例，講述了Attention的歷史淵源及如何在NLP中產(chǎn)生，并點(diǎn)出了Attention與記憶的關(guān)系。作者Nikolas Adaloglou還總結(jié)了多種經(jīng)典的Attention計(jì)算方法，以及Transformer的關(guān)鍵組件：self-attention。最后作者總結(jié)了Attention的優(yōu)勢，展望了它在其他領(lǐng)域中的前景。

作者介紹

Nikolas Adaloglou 是一名電氣和生物醫(yī)學(xué)工程師，對開發(fā)以人為中心的 AI 解決方案感興趣。他目前是一名機(jī)器學(xué)習(xí)研究工程師，應(yīng)用于癌癥患者的放射治療。他曾參與的研究項(xiàng)目包括希臘手語解決方案系統(tǒng)和殘疾人教育游戲。他的人工智能研究興趣包括 3D 醫(yī)學(xué)成像、圖像和視頻分析、基于圖形的深度學(xué)習(xí)模型和生成深度學(xué)習(xí)。

譯者說

注意力機(jī)制的廣泛應(yīng)用是人工智能領(lǐng)域的一大突破，其靈感來自人類的視覺系統(tǒng)，始于CV領(lǐng)域，通過機(jī)器翻譯任務(wù)被首次引入NLP領(lǐng)域。其出現(xiàn)改變了機(jī)器翻譯的歷史進(jìn)程，使得神經(jīng)機(jī)器翻譯有了超越統(tǒng)計(jì)機(jī)器翻譯的可能。自Transformer針對機(jī)器翻譯任務(wù)被提出后，其最核心的部分——自注意力機(jī)制也逐漸成為了各領(lǐng)域的通用架構(gòu)，有一統(tǒng)江山的趨勢。

我將其核心思想總結(jié)如下：加權(quán)平均，動(dòng)態(tài)賦權(quán)。將其應(yīng)用在序列任務(wù)時(shí)，由于序列元素總有時(shí)間上的先后，對序列的每一個(gè)元素進(jìn)行動(dòng)態(tài)賦權(quán)，就產(chǎn)生了跨越時(shí)間的記憶力。能夠?qū)π蛄兄谐霈F(xiàn)很早，但很重要的元素有更深的記憶，這是以往基于RNN的Seq2Seq模型所難以企及的（文中提到的瓶頸問題）。同時(shí)，通過賦權(quán)操作與整個(gè)序列上的元素直接連接，這也緩解了經(jīng)典的梯度消失問題。

注意力機(jī)制不僅在數(shù)學(xué)上攻克了基于RNN的Seq2Seq的一些歷史問題，還帶來了一個(gè)十分重要的性質(zhì)：可解釋性。有人說，深度學(xué)習(xí)是一個(gè)煉丹爐，把數(shù)據(jù)、模型丟進(jìn)去，調(diào)一調(diào)火候，等著便是了，誰也不知道里邊發(fā)生了什么。那么我想說，注意力機(jī)制便是煉丹爐壁上的一個(gè)監(jiān)控裝置，讓我們盡管看不到爐內(nèi)的變化，但也能對爐內(nèi)發(fā)生的事情有了些許的掌握。

通過分析注意力矩陣，我們可以獲得一些有趣發(fā)現(xiàn)。比如本實(shí)驗(yàn)室發(fā)表在ACL 21的端到端語音翻譯（E2E ST）工作:Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained Models into Speech Translation Encoders。由于“語音-文本”（源語是語音形式，目標(biāo)語是文本形式）這樣的數(shù)據(jù)非常少，所以E2E ST屬于低資源任務(wù)。使用預(yù)訓(xùn)練的語音識(shí)別（ASR）和機(jī)器翻譯（MT）模型對E2E ST模型進(jìn)行初始化，是一個(gè)有效的遷移學(xué)習(xí)策略，通常使用ASR編碼器和MT解碼器分別初始化E2E ST的編碼器和解碼器。

然而，E2E ST涉及到跨模態(tài)和跨語言，ASR編碼器能否很好的完成E2E ST中的編碼任務(wù)呢？基于此，針對E2E ST任務(wù)編碼困難的問題。作者從注意力矩陣入手，對ASR、MT、E2E ST的編碼器進(jìn)行分析，首先定義了局部性的概念——在序列中，一個(gè)位置的局部性為它對周圍位置（序列長度的10%）的注意力之和。結(jié)果如下圖(a)所示，隨著層數(shù)的升高，ASR和E2E ST的局部性也逐漸升高，而MT的局部在逐漸下降，這意味著：翻譯任務(wù)需要捕獲更多的全局（語義）信息；而E2E ST的編碼與ASR一樣，過多地關(guān)注了局部信息，這對翻譯來說是不利的。

由于ASR和E2E ST在訓(xùn)練時(shí)使用了CTC損失函數(shù)，作者對CTC損失的位置對局部性的影響進(jìn)行了比較，圖(b)顯示CTC下面的層有更高的局部性，而其上面的層更能關(guān)注到一些全局信息。

根據(jù)以上分析可以得出，E2E ST編碼器并不是ASR編碼器或MT編碼器的簡單替代。相反，它們是相輔相成的，也就是說：既需要ASR編碼器來處理聲學(xué)輸入，也需要MT編碼器來產(chǎn)生更具有語義信息、并能夠與解碼器更好配合的表示，從而證明了堆疊ASR編碼器和MT編碼器對于E2E ST的重要意義。

更多的論文細(xì)節(jié)可以自行閱讀，這里主要希望以一個(gè)實(shí)際例子，來證明注意力機(jī)制是具有可解釋性的，以及是如何將這種可解釋性加以利用，得到有用的結(jié)論。實(shí)際上，論文中僅針對編碼器的自注意力進(jìn)行了分析，便可以得出很多有趣的發(fā)現(xiàn)。而編碼器-解碼器間的注意力所蘊(yùn)含的對齊信息是更加直觀有趣的，想了解更多關(guān)于注意力的奧秘，就請閱讀這篇博客吧。

原英文博客翻譯

原作者注：我之前一直致力于計(jì)算機(jī)視覺應(yīng)用程序。老實(shí)說，我從未花時(shí)間研究Transformers和基于注意力的方法這些“花哨的東西”。然而，最近它們在 ImageNet [3] 中達(dá)到了最先進(jìn)的性能。在 NLP 中，Transformers 和 attention 已成功地用于許多任務(wù)，包括閱讀理解、抽象摘要、單詞補(bǔ)全等。經(jīng)過大量閱讀和搜索，我認(rèn)為一個(gè)至關(guān)重要的事就是了解注意力是如何從 NLP 和機(jī)器翻譯中產(chǎn)生的，這也是本文的全部內(nèi)容。

什么是注意力，它能產(chǎn)生記憶嗎？

|?記憶是跨越時(shí)間的注意力。~ Alex Graves 2020 [1]

注意力機(jī)制產(chǎn)生于處理時(shí)變數(shù)據(jù)（如序列）的問題。因此，讓我們先從機(jī)器學(xué)習(xí)的角度來表述這類處理"序列"的問題。

1.序列到序列地學(xué)習(xí)

Seq2Seq的目標(biāo)是將輸入（源）序列轉(zhuǎn)換為新（目標(biāo)）序列，這兩個(gè)序列可以具有相同或任意長度。在attention和Transformers之前，其工作方式非常像下圖這樣：

序列的元素 $x_1$ ?, $x_2$ 等通常稱為tokens，它們實(shí)際上可以是任何東西，例如：文字表述、像素，甚至是視頻中的圖像。在早期（2014-2017年），循環(huán)神經(jīng)網(wǎng)絡(luò) (?RNNs?) 在這類任務(wù)中占主導(dǎo)地位，因?yàn)?strong>按順序處理序列很自然、理想，直到Transformers的出現(xiàn)。

編碼器（Encoder）和解碼器（Decoder）僅僅是堆疊的 RNN 層，例如LSTM?(opens new window)。編碼器處理輸入序列并從所有輸入時(shí)間步生成一個(gè)緊湊的表示，稱為上下文向量z，它可以看作是輸入序列的壓縮格式。

另一方面，解碼器接收上下文向量z并生成輸出序列。Seq2Seq 最常見的應(yīng)用是機(jī)器翻譯，我們可以輸入英語句子，而輸出法語句子。

事實(shí)上，基于 RNN 的架構(gòu)在過去工作得非常好，尤其是與LSTM和GRU組件一起使用。但問題在于它僅適用于短序列（<20 個(gè)時(shí)間步）。下面，讓我們進(jìn)一步來看看這一點(diǎn)。

2.RNN's的局限性

我們希望上下文向量?z可以捕獲源句子的所有信息，盡管數(shù)學(xué)證明這是理論上可能的，但實(shí)際上z并不能對來自所有輸入時(shí)間步的信息進(jìn)行編碼，這通常被稱為瓶頸問題。在實(shí)踐中，我們能看到的過去的時(shí)間步（所謂的參考窗口）是有限的，RNN's 傾向于忘記距離現(xiàn)在較遠(yuǎn)的過去時(shí)間步的信息。

讓我們看一個(gè)具體的例子。想象一個(gè)97個(gè)單詞的句子：

“On offering to help the?blind man, the man who then?stole his car, had not, at that precise moment, had any evil intention, quite the contrary, what he did was nothing more than obey those feelings of generosity and altruism which, as everyone knows, are the two best traits of human nature and to be found in much more hardened criminals than this one, a simple?car-thief?without any hope of advancing in his profession, exploited by the real owners of this enterprise, for it is they who take advantage of the needs of the?poor.” ~ Jose Saramago, “Blindness.”

注意到有什么現(xiàn)象嗎？整個(gè)段落的關(guān)鍵詞（粗體的詞）之間的距離很長。

在大多數(shù)情況下，向量z難以壓縮序列最前面的單詞以及第 97 個(gè)單詞的信息。最終，系統(tǒng)會(huì)更加關(guān)注序列的最后部分。然而，這通常不是處理序列任務(wù)的最佳方式，并且與人類翻譯甚至理解語言的方式不兼容。此外，堆疊的 RNN 層通常會(huì)產(chǎn)生眾所周知的梯度消失問題，正如 RNN 的解析文章中可視化的那樣：

要解決此問題，我們可能需要把視野移出標(biāo)準(zhǔn)的Seq2Seq框架。

3.Attention來了

Attention 的誕生是為了解決 Seq2Seq 模型的瓶頸問題和梯度消失問題。其核心思想是：

上下文向量z應(yīng)該可以訪問輸入序列的所有部分，而不僅僅是最后一個(gè)。換句話說，我們需要與每個(gè)時(shí)間步形成直接連接。

這個(gè)想法最初是在計(jì)算機(jī)視覺中萌生的，Larochelle 和 Hinton [5]提出，通過觀察圖像的不同部分（一瞥），我們可以學(xué)習(xí)積累有關(guān)形狀的信息并對圖像進(jìn)行相應(yīng)的分類。同樣的原理后來也被擴(kuò)展到序列上：我們可以同時(shí)查看所有不同的單詞，并學(xué)會(huì)根據(jù)手頭的任務(wù)“注意”正確的單詞。這就是我們現(xiàn)在所說的注意力，它只是記憶的一個(gè)概念，是通過同時(shí)關(guān)注沿著時(shí)間的多個(gè)輸入而獲得的。

理解這個(gè)概念的一般性至關(guān)重要。為此，我們將介紹所有不同類型的注意力機(jī)制。

4.Attention類型：隱式VS顯式

在我們具體說明如何在Seq2Seq中使用注意力之前，需要先澄清一件事：

|?非常深的神經(jīng)網(wǎng)絡(luò)已經(jīng)學(xué)習(xí)了一種形式的隱式注意力[6]。

深度網(wǎng)絡(luò)是非常強(qiáng)大的函數(shù)逼近器。因此，在沒有任何進(jìn)一步修改的情況下，它們往往會(huì)自動(dòng)學(xué)會(huì)忽略部分輸入并專注于其他輸入。例如，在進(jìn)行人體姿態(tài)估計(jì)時(shí)，網(wǎng)絡(luò)將對圖片中人體所在位置的像素更加敏感（“許多激活單元表現(xiàn)出對人體部位和姿勢的偏好?！?~?Misra et al. 2016?）。以下是視頻自監(jiān)督方法的例子：

查看關(guān)于輸入的偏導(dǎo)數(shù)（在數(shù)學(xué)上是雅可比矩陣?）是可視化隱式注意力的一種方法。然而，我們是否可以強(qiáng)制執(zhí)行這種隱式注意力？因?yàn)樽⒁饬κ欠浅Ｖ庇^的，并且對人類的大腦來說是可以解釋的。因此，通過令網(wǎng)絡(luò)根據(jù)先前輸入的記憶來“權(quán)衡”其對新輸入的敏感性，我們引入了顯式注意力。從現(xiàn)在起，我們將其簡稱為注意力。

5.Attention類型：硬VS軟

注意力機(jī)制的另一個(gè)區(qū)分點(diǎn)是硬注意力和軟注意力。在之前的所有例子中，我們都提到了由可微函數(shù)參數(shù)化的注意力，這在文獻(xiàn)中一般被稱為軟注意力

|?軟注意力意味著函數(shù)在其域內(nèi)平滑變化，因此它是可微的。

從歷史上看，有另一個(gè)概念叫做硬注意力。下圖是一個(gè)直觀的例子：你可以想象一個(gè)迷宮中的機(jī)器人必須艱難地決定走哪條路，如紅點(diǎn)所示。

下一個(gè)例子是從圖像中的隨機(jī)位置出發(fā)，嘗試找到“重要像素”并進(jìn)行分類。粗略地說，該算法必須在訓(xùn)練期間選擇進(jìn)入圖像內(nèi)部的方向。

硬注意力可以看作是一種切換機(jī)制來決定是否關(guān)注某個(gè)區(qū)域，這意味著該函數(shù)在其域上有許多突變。

一般來說，硬注意力意味著它可以用離散變量來描述，而軟注意力可以用連續(xù)變量來描述，也可以說硬注意力用隨機(jī)抽樣模型代替了確定性方法。這也導(dǎo)致了硬注意力是不可微的，我們不能使用標(biāo)準(zhǔn)的梯度下降。這就是為什么我們需要使用強(qiáng)化學(xué)習(xí) (?RL?) 技術(shù)來訓(xùn)練它們，例如策略梯度和 REINFORCE 算法[6]?。然而，REINFORCE 算法和類似的 RL 方法的主要問題是它們具有高方差。

實(shí)際上，鑒于已經(jīng)有了序列中所有tokens（譯者注：也就是已經(jīng)有了一個(gè)完整的序列），我們可以放寬對硬注意力的定義。這樣，就有了一個(gè)平滑的可微函數(shù)，可以用反向傳播來進(jìn)行端到端的訓(xùn)練。

講完分類，讓我們回過頭來以具體的例子來介紹注意力。

編碼器-解碼器中的注意力

在Seq2Seq的RNN編碼器-解碼器例子中，設(shè)解碼器的上一個(gè)狀態(tài)為 $y_%7Bi-1%7D$ ，隱藏狀態(tài)（譯者注：編碼器對輸入的每一個(gè)時(shí)間步編碼得到的狀態(tài)）為 $h%3Dh_1%2Ch_2%2C...%2Ch_n$ ，我們有如下公式：

$e_i%3Dattention_%7Bnet%7D(y_%7Bi-1%7D%2Ch)%5Cin%20R%5En%20$

其中下標(biāo) $i$ 代表預(yù)測的步數(shù)。本質(zhì)上，我們在解碼器的當(dāng)前狀態(tài)和編碼器的所有隱藏狀態(tài)之間定義了一個(gè)分?jǐn)?shù)。更具體的說，對于每一個(gè)隱藏狀態(tài)（用 $j$ 標(biāo)記） $h_1%2Ch_2%2C...h_n$ ，我們會(huì)計(jì)算一個(gè)標(biāo)量：

$e_%7Bij%7D%3Dattention_%7Bnet%7D(y_%7Bi-1%7D%2Ch_j)$

下面是一個(gè)圖例：

注意到，我在公式中使用了符號(hào) $e$ ，在圖中使用了? $%5Calpha%20$ 。這是為什么？因?yàn)椋覀冃枰恍╊~外的屬性：a）使其從向量變?yōu)楦怕史植?，b）使分?jǐn)?shù)差距擴(kuò)大，這導(dǎo)致了更自信的預(yù)測。這就是我們眾所周知的softmax函數(shù)?：

$%5Calpha%20%20ij%3D%5Cfrac%7Bexp(e_%7Bij%7D)%7D%7B%5Csum%5Cnolimits_%7Bk%3D1%7D%5E%7BT_x%7D%20exp(e_%7Bik%7D)%7D%20$

最后這里便是注意力發(fā)揮作用的地方：

$z_i%3D%5Csum_%7Bj%3D1%7D%5ET%5Calpha%20_%7Bij%7Dh_j$

理論上，注意力被定義為加權(quán)平均。但在這里，賦權(quán)操作是一個(gè)被學(xué)習(xí)的函數(shù)！直覺上，我們可以想到 $%5Calpha%20_%7Bij%7D$ 作為數(shù)據(jù)相關(guān)的動(dòng)態(tài)權(quán)重。至此，一個(gè)記憶的概念產(chǎn)生了，正如之前所說，注意力權(quán)重存儲(chǔ)了沿著時(shí)間獲得的記憶。

上述所有內(nèi)容都與如何計(jì)算注意力無關(guān)，我們會(huì)在后面具體講。

7.注意力作為可訓(xùn)練權(quán)重對機(jī)器翻譯的意義

在 NLP 任務(wù)中理解注意力最直觀的方法是將其視為單詞之間的（軟）對齊。在機(jī)器翻譯中，我們可以使用如下所示的熱圖來可視化一個(gè)訓(xùn)練好的網(wǎng)絡(luò)的注意力（分?jǐn)?shù)是動(dòng)態(tài)計(jì)算的）。

注意那些顏色較亮的非對角元素中發(fā)生了什么：在標(biāo)記的紅色區(qū)域中，模型學(xué)會(huì)了在翻譯時(shí)交換單詞順序。另外還能發(fā)現(xiàn)，這不是一對一的關(guān)系，而是一對多的關(guān)系，也就是一個(gè)輸出詞受多個(gè)輸入詞的影響（每個(gè)輸入詞具有不同的重要性）。

8.如何計(jì)算注意力

在之前的RNN編碼器-解碼器例子中，我們將注意力表示為 $attention_%7Bnet%7D(y_%7Bi-1%7D%2Ch)$ ，這表明注意力是一個(gè)函數(shù)（小型神經(jīng)網(wǎng)絡(luò)）的輸出，其輸入是decoder的上一個(gè)狀態(tài) $y_%7Bi-1%7D$ 和隱藏狀態(tài) $h%3Dh_1%2Ch_2%2C...h_n$ 。事實(shí)上，我們所需要的只是一個(gè)描述兩個(gè)狀態(tài)之間關(guān)系并捕捉它們的“一致”程度的分?jǐn)?shù)。

多年來，對于該分?jǐn)?shù)的計(jì)算衍生了許多不同的想法。最簡單的一種，如 Luong [7] 所示，將注意力計(jì)算為兩種狀態(tài)之間的點(diǎn)積： $y_%7Bi-1%7Dh$ 。簡單擴(kuò)展此想法，我們可以在兩種狀態(tài)之間加入一個(gè)可訓(xùn)練的權(quán)重矩陣 $W_%7Ba%7D%20$ ，得到 $y_%7Bi-1%7DW_%7Ba%7Dh%20$ 。進(jìn)一步延伸，我們還可以不進(jìn)行點(diǎn)乘，而使用狀態(tài)拼接的方式送入帶有激活函數(shù)的神經(jīng)網(wǎng)絡(luò)，如Bahdanau [2]提出的 $v_a%5ETtanh(W_%7Ba%7D%5Bh%3By_%7Bi-1%7D%5D)%20$ 。在某些情況下，對齊僅受隱藏狀態(tài)位置的影響，這可以簡單地用一個(gè)softmax函數(shù)來表述： $softmax(y_%7Bi-1%7Dh)$ 。最后一個(gè)值得一提的是Graves A. [8]在神經(jīng)圖靈機(jī)背景下，將注意力計(jì)算為余弦相似度 $cosine%5By_%7Bi-1%7D%2Ch%5D$ 。

為了總結(jié)不同的技術(shù)，我將從Lillian Weng的文章?中借用這個(gè)表格。符號(hào) $s_%7Bt%7D%20$ 表示預(yù)測值（即本文中的 $y_%7Bt%7D%20$ ?)，而不同的 $W$ 表示可訓(xùn)練的矩陣。

然而，經(jīng)受住時(shí)間考驗(yàn)的是 Bahdanau 等人[2]提出的方法。他們將注意力參數(shù)化為一個(gè)小的全連接神經(jīng)網(wǎng)絡(luò)（顯然也可以使用更多層），這實(shí)際上意味著注意力現(xiàn)在是一組可訓(xùn)練的權(quán)重，可以使用標(biāo)準(zhǔn)反向傳播算法進(jìn)行調(diào)整，正如 Bahdanau 等人[2]所說的那樣：

“直觀地說，這在解碼器中實(shí)現(xiàn)了一種注意力機(jī)制，解碼器決定要注意哪部分源語句。通過讓解碼器具有注意力機(jī)制，我們減輕了編碼器必須將源語句中的所有信息編碼為固定長度向量的負(fù)擔(dān)。使用這種新方法，信息可以分布在整個(gè)源語句中，解碼器可以相應(yīng)地選擇性地檢索這些信息。” ~?Neural machine translation by jointly learning to align and translate

9.全局注意力VS局部注意力

到目前為止，我們都在假設(shè)注意力是在整個(gè)輸入序列上計(jì)算的（全局注意力），盡管它很簡單，但犧牲了計(jì)算復(fù)雜度 $O(T%5E2)$ 的復(fù)雜度（ $T$ 代表輸入序列和輸出序列的長度）。對于長序列來說，二次復(fù)雜度通常是一個(gè)嚴(yán)重問題（其計(jì)算成本可能很高，有時(shí)甚至是不必要的，除非您擁有 Google 這樣的計(jì)算能力;），因此研究者們也考慮到了局部注意力：

在局部注意力中，我們只考慮輸入單元/tokens的一個(gè)子集。

顯然，這對于非常長的序列有時(shí)會(huì)更好。局部注意力也可以被視為硬注意力，因?yàn)槲覀冃枰紫茸龀鲆粋€(gè)硬性決定，以排除一些輸入單元。讓我們用一個(gè)簡單的圖來總結(jié)這些操作：

注意中的顏色表明這些權(quán)重在不斷變化，而在卷積層和全連接層中，它們通過梯度下降緩慢變化。

最后一個(gè)，也是無可否認(rèn)的最著名的類別便是自注意力機(jī)制。

10.自注意力：Transformer架構(gòu)的關(guān)鍵組件

自注意力是定義在同一個(gè)序列內(nèi)的注意力，它不尋找輸入-輸出序列間的關(guān)系/對齊，而是尋找序列內(nèi)各個(gè)元素之間的關(guān)系，如下所示：

就個(gè)人而言，我喜歡將自注意力視為圖：一個(gè)（k個(gè)節(jié)點(diǎn)）連通的無向帶權(quán)圖（無向表示鄰接矩陣是對稱的）。在數(shù)學(xué)中，我們有： $self-attention_%7Bnet%7D(x%2Cx)$ ，可以用任何剛才提到的可訓(xùn)練的方式來計(jì)算。一句話總結(jié)其意義：在把一個(gè)序列a轉(zhuǎn)換到另一個(gè)序列b之前，先通過上下文學(xué)習(xí)序列a的更有意義的表示。

11.語言翻譯之外的Attention

雖然Transformer被提出時(shí)用于機(jī)器翻譯任務(wù)，但其架構(gòu)被認(rèn)為是通用的 NLP 模型，在文本分類、聊天機(jī)器人、文本生成等任務(wù)上也很有效，如 Google 的BERT或 OpenAI 的GPT-3。

除了自然語言，序列也無處不在，我們可以把目光放在NLP以外。事實(shí)上，最近視覺注意力模型在性能上也超過了最先進(jìn)的 Imagenet 模型[3] 。我們還看到了醫(yī)療保健、推薦系統(tǒng)甚至圖神經(jīng)網(wǎng)絡(luò)中的例子。

簡而言之，注意力遠(yuǎn)不止于Transformers，Transformers也不僅僅是 NLP 方法。

12.總結(jié)

這篇文章主要講對注意力機(jī)制的理解。注意力是一種引入記憶概念的通用機(jī)制，記憶隨著時(shí)間的推移存儲(chǔ)在注意力權(quán)重中，它給了我們一個(gè)關(guān)于看向哪里的指導(dǎo)。

注意力的優(yōu)勢在于：由于它提供了編碼器狀態(tài)和解碼器之間的直接連接（從概念上講，其作用類似于卷積神經(jīng)網(wǎng)絡(luò)中的跳接?），這通常消除了瓶頸問題和梯度消失問題。另一個(gè)方面是可解釋性：通過檢查注意力權(quán)重的分布，我們可以深入了解模型的行為（例如剛剛展示的英法翻譯熱圖中的單詞交換），以及了解其局限性。

最后，我們闡明了注意力的所有可能的類別，并展示了幾種著名的計(jì)算方法。

更多精彩內(nèi)容請參見原文。

References

[1] DeepMind’s deep learning videos 2020 with UCL, Lecture:?Attention and Memory in Deep Learning?, Alex Graves

[2] Bahdanau, D., Cho, K., & Bengio, Y. (2014).?Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.

[3]?an image is worth 16x16 words: transformers for image recognition at scale, Anonymous ICLR 2021 submission

[4] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017).?Attention is all you need. In?Advances in neural information processing systems?(pp. 5998-6008).

[5] Larochelle H., Hinton G, (2010),?Learning to combine foveal glimpses with a third-order Boltzmann machine.

[6] Mnih V., Heess N., Graves A., Kavukcuoglu K., (2014),?Recurrent Models of Visual Attention.

[7] Luong M., Pham H , Manning C. D., (2015),?Effective Approaches to Attention-based Neural Machine Translation.

[8] Graves A., Wayne G. ,Danihelka I., (2014),?Neural turing machines

[9] Weng L., (2018),?Attention? Attention!?, lilianweng.github.io/lil-log

[10] Stanford University School of Engineering, (2017),?Lecture 10: Neural Machine Translation and Models with Attention

原文鏈接：
https://theaisummer.com/attention/#attention-beyond-language-translation

hi，這里是小牛翻譯~

想要看到更多我們的文章，可以關(guān)注下

機(jī)器翻譯學(xué)堂（公號(hào)或網(wǎng)站）

筆芯~

往期精彩文章

標(biāo)簽：自然語言處理注意力機(jī)制優(yōu)質(zhì)博客

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

一文梳理NLP中的Attention機(jī)制的起源與發(fā)展

引言

作者介紹

譯者說

原英文博客翻譯

References