散文網(wǎng) » 科技 »學習 » 通過生成式預(yù)訓(xùn)練來提高語言理解

通過生成式預(yù)訓(xùn)練來提高語言理解

2023-04-01 11:02 作者:ingnaixoah 0人讀過 | 我要投稿

摘要：

自然語言理解包括廣泛的不同任務(wù)，如文本蘊含、問答、語義相似度評估和文檔分類等。盡管大量未標記的文本語料庫豐富多樣，但用于學習這些特定任務(wù)的標記數(shù)據(jù)很少，使得歧視性訓(xùn)練的模型難以達到足夠的性能。我們證明，通過在各種未標記文本語料庫上進行語言模型的生成式預(yù)訓(xùn)練，然后對每個具體任務(wù)進行區(qū)分性微調(diào)，可以實現(xiàn)在這些任務(wù)上的大幅增益。與以往的方法不同，我們在微調(diào)過程中利用任務(wù)感知的輸入轉(zhuǎn)換來實現(xiàn)有效的遷移，同時需要最少量的模型架構(gòu)更改。我們在自然語言理解的廣泛基準測試中展示了我們方法的有效性。我們的通用任務(wù)不可知模型優(yōu)于針對每個任務(wù)專門設(shè)計的架構(gòu)的歧視性訓(xùn)練模型，在研究的12個任務(wù)中，有9個任務(wù)的技術(shù)水平都有顯著提高。例如，在常識推理（Stories Cloze Test）上實現(xiàn)了8.9％的絕對改善，在問答（RACE）上實現(xiàn)了5.7％的絕對改善，在文本蘊含（MultiNLI）上實現(xiàn)了1.5％的絕對改善。

1.介紹：

從原始文本中有效地學習是減輕自然語言處理（NLP）中依賴監(jiān)督學習的重要能力。大多數(shù)深度學習方法需要大量手動標記的數(shù)據(jù)，這限制了它們在許多領(lǐng)域的適用性，這些領(lǐng)域缺乏注釋資源[61]。在這些情況下，能夠利用未標記數(shù)據(jù)中的語言信息的模型為收集更多注釋提供了一種有價值的替代方案，而這可能是耗時且昂貴的。此外，在有相當監(jiān)督的情況下，以無監(jiān)督的方式學習良好的表示方法可以顯著提高性能。目前最令人信服的證據(jù)是廣泛使用預(yù)先訓(xùn)練的單詞嵌入[10, 39, 42]來提高各種NLP任務(wù)的性能[8, 11, 26, 45]。然而，從未標記的文本中利用更多信息而不僅僅是單詞級別信息存在兩個主要挑戰(zhàn)。首先，不清楚哪種優(yōu)化目標最有效地學習對于遷移有用的文本表示。最近的研究考慮了各種目標，例如語言建模[44]、機器翻譯[38]和篇章連貫性[22]，每種方法在不同任務(wù)上的表現(xiàn)都超過了其他方法[1]。其次，在將這些學習到的表示遷移到目標任務(wù)上，沒有達成一致的最有效方法?，F(xiàn)有的技術(shù)涉及對模型架構(gòu)進行任務(wù)特定的更改[43, 44]、使用復(fù)雜的學習方案[21]和添加輔助學習目標[50]的組合。這些不確定性使得難以開發(fā)有效的半監(jiān)督學習方法來處理語言。

本文中，我們探討了一種半監(jiān)督的語言理解任務(wù)方法，使用了無監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)相結(jié)合的方式。我們的目標是學習一種通用的表示形式，能夠在很少調(diào)整的情況下適應(yīng)各種任務(wù)。我們假設(shè)有大量的未標注文本語料庫和多個手動標注的訓(xùn)練數(shù)據(jù)集（目標任務(wù)）。我們的設(shè)置并不要求這些目標任務(wù)與未標注語料庫處于同一個領(lǐng)域。我們采用了一個兩階段的訓(xùn)練過程。首先，我們使用無標注數(shù)據(jù)的語言建模目標來學習神經(jīng)網(wǎng)絡(luò)模型的初始參數(shù)。接著，我們使用相應(yīng)的有監(jiān)督目標將這些參數(shù)適應(yīng)到目標任務(wù)上。

對于我們的模型架構(gòu)，我們使用了Transformer[62]，該模型已經(jīng)在各種任務(wù)中表現(xiàn)出色，如機器翻譯[62]、文檔生成[34]和句法分析[29]。與循環(huán)網(wǎng)絡(luò)等替代方案相比，這種模型選擇為我們提供了一種更為結(jié)構(gòu)化的記憶方式，用于處理文本中的長期依賴性，從而在不同任務(wù)之間實現(xiàn)了穩(wěn)健的轉(zhuǎn)移性能。在轉(zhuǎn)移過程中，我們利用遍歷式方法[52]導(dǎo)出的任務(wù)特定輸入適應(yīng)性，將結(jié)構(gòu)化文本輸入處理為一個連續(xù)的標記序列。正如我們在實驗中所證明的，這些適應(yīng)性使我們能夠在最小程度地改變預(yù)訓(xùn)練模型的架構(gòu)的情況下進行有效的微調(diào)。

我們評估了我們的方法在四種語言理解任務(wù)上的表現(xiàn)——自然語言推理、問答、語義相似性和文本分類。我們的通用任務(wù)無關(guān)模型勝過了使用針對每個任務(wù)專門設(shè)計的架構(gòu)的差異性訓(xùn)練模型，在12個任務(wù)中有9個任務(wù)的表現(xiàn)顯著優(yōu)于目前的最佳水平。例如，我們在常識推理（Stories Cloze Test）[40]上實現(xiàn)了8.9%的絕對提升，在問答（RACE）[30]上實現(xiàn)了5.7%的提升，在文本蘊涵（MultiNLI）[66]上實現(xiàn)了1.5%的提升，以及在最近推出的GLUE多任務(wù)基準測試[64]上實現(xiàn)了5.5%的提升。我們還分析了預(yù)訓(xùn)練模型在四個不同設(shè)置下的零樣本行為，并證明它對下游任務(wù)獲得了有用的語言知識。

2.相關(guān)工作

NLP中的半監(jiān)督學習 我們的工作廣泛地屬于自然語言處理中的半監(jiān)督學習范疇。這種范式引起了相當大的興趣，應(yīng)用于諸如序列標記[24, 33, 57]或文本分類[41, 70]等任務(wù)。最早的方法使用無標記數(shù)據(jù)計算詞級或短語級統(tǒng)計信息，然后將其用作監(jiān)督模型中的特征[33]。在過去的幾年中，研究人員已經(jīng)證明了使用在無標記語料庫上訓(xùn)練的詞嵌入[11, 39, 42]來提高各種任務(wù)的性能的好處[8, 11, 26, 45]。然而，這些方法主要傳遞詞級信息，而我們的目標是捕捉更高層次的語義信息。近年來，有些方法探索了從無標記數(shù)據(jù)中學習和利用更高級別的語義信息。短語級或句子級嵌入可以使用無標記語料庫進行訓(xùn)練，已被用于將文本編碼為適合各種目標任務(wù)的向量表示[28、32、1、36、22、12、56、31]。

無監(jiān)督預(yù)訓(xùn)練 無監(jiān)督預(yù)訓(xùn)練是半監(jiān)督學習的一種特殊情況，其目標是找到一個良好的初始化點，而不是修改監(jiān)督學習目標。早期的研究探討了在圖像分類[20、49、63]和回歸任務(wù)[3]中使用該技術(shù)的可能性。隨后的研究[15]表明，預(yù)訓(xùn)練作為正則化方案，可以使深度神經(jīng)網(wǎng)絡(luò)更好地泛化。在最近的工作中，該方法已被用于幫助深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練各種任務(wù)，如圖像分類[69]、語音識別[68]、實體消歧[17]和機器翻譯[48]。

與我們最接近的研究線路涉及使用語言建模目標預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，然后在有監(jiān)督的情況下微調(diào)目標任務(wù)。Dai等人[13]和Howard和Ruder[21]使用這種方法來改善文本分類。然而，盡管預(yù)訓(xùn)練階段有助于捕捉一些語言信息，但他們使用LSTM模型的預(yù)測能力受限于短范圍。相比之下，我們選擇transformer網(wǎng)絡(luò)可以捕捉更長的語言結(jié)構(gòu)，正如我們的實驗所證明的。此外，我們還展示了我們的模型在更廣泛的任務(wù)上的有效性，包括自然語言推斷、近義詞檢測和故事完成。其他方法[43、44、38]使用預(yù)先訓(xùn)練的語言或機器翻譯模型的隱藏表示作為輔助特征，同時在目標任務(wù)上訓(xùn)練監(jiān)督模型。這涉及每個單獨的目標任務(wù)需要大量的新參數(shù)，而我們在轉(zhuǎn)移時只需要對模型架構(gòu)進行最小的修改。

輔助訓(xùn)練目標 添加輔助的無監(jiān)督訓(xùn)練目標是半監(jiān)督學習的另一種形式。Collobert和Weston的早期工作[10]使用了各種輔助NLP任務(wù)，如POS標記、分塊、命名實體識別和語言建模來改善語義角色標記。最近，Rei[50]在目標任務(wù)目標中增加了輔助語言建模目標，并在序列標記任務(wù)上證明了性能的提高。我們的實驗也使用了一個輔助目標，但正如我們所展示的，無監(jiān)督預(yù)訓(xùn)練已經(jīng)學習到了與目標任務(wù)相關(guān)的多個語言方面。

3.框架

我們的訓(xùn)練過程分為兩個階段。第一階段是在一個大型文本語料庫上學習高容量的語言模型。接下來是微調(diào)階段，在這個階段我們使用有標簽的數(shù)據(jù)將模型調(diào)整到一個判別式任務(wù)上。

3.1 無監(jiān)督預(yù)訓(xùn)練

給定一個無監(jiān)督的標記語料庫 U = {u1, . . . , un}，我們使用標準的語言模型目標函數(shù)最大化以下似然函數(shù)：

其中，k是上下文窗口的大小，條件概率P使用具有參數(shù)Θ的神經(jīng)網(wǎng)絡(luò)建模。這些參數(shù)使用隨機梯度下降[51]進行訓(xùn)練。在我們的實驗中，我們使用多層Transformer解碼器[34]作為語言模型，它是Transformer[62]的一種變體。該模型對輸入上下文令牌應(yīng)用多頭自注意力操作，然后是位置感知的前饋層，以生成對目標令牌的輸出分布。

其中，U = (u_k, . . . , u_1) 是token的上下文向量，n是層數(shù)，We是token的嵌入矩陣，Wp是位置嵌入矩陣。

3.2 監(jiān)督微調(diào)

在使用公式1的目標函數(shù)訓(xùn)練模型后，我們將參數(shù)適應(yīng)于有監(jiān)督的目標任務(wù)。我們假設(shè)存在一個帶有標簽的數(shù)據(jù)集C，其中每個實例都包含一個輸入令牌序列x1，…，xm和一個標簽y。將輸入通過我們預(yù)訓(xùn)練的模型，得到最后的Transformer塊激活 $h_%7Bl%7D%5Em%20$ ，然后將其輸入具有參數(shù)Wy的線性輸出層以預(yù)測y：

這使我們得到了以下的目標函數(shù)來最大化：

我們還發(fā)現(xiàn)將語言建模作為fine-tuning的輔助目標有助于學習，可以提高有監(jiān)督模型的泛化能力，同時加速收斂。這與之前的工作[50, 43]一致，他們也觀察到這種輔助目標的表現(xiàn)有所提高。具體而言，我們最大化以下帶權(quán)重λ的目標函數(shù)：

總的來說，在微調(diào)過程中我們只需要額外的參數(shù)Wy和分隔符令牌的嵌入（在第3.3節(jié)中描述）。

圖1：（左）Transformer架構(gòu)和本研究中使用的訓(xùn)練目標。（右）用于在不同任務(wù)上進行微調(diào)的輸入轉(zhuǎn)換。我們將所有結(jié)構(gòu)化輸入轉(zhuǎn)換為令牌序列，以便由預(yù)訓(xùn)練模型處理，然后進行線性+ softmax層處理。

3.3 任務(wù)特定的輸入轉(zhuǎn)換

對于一些任務(wù)，比如文本分類，我們可以直接按照上述方法對模型進行微調(diào)。而某些其他任務(wù)，比如問答或文本蘊含，有結(jié)構(gòu)化的輸入，如有序的句子對，或文檔、問題和答案的三元組。由于我們的預(yù)訓(xùn)練模型是在連續(xù)的文本序列上進行訓(xùn)練的，因此我們需要對其進行一些修改才能應(yīng)用于這些任務(wù)。以前的工作提出了在轉(zhuǎn)移表示之上學習任務(wù)特定的架構(gòu)的方法 [44]。這種方法重新引入了大量的任務(wù)特定的定制，并且不使用傳遞學習來學習這些額外的架構(gòu)組件。相反，我們采用遍歷式的方法 [52]，將結(jié)構(gòu)化輸入轉(zhuǎn)換為我們的預(yù)訓(xùn)練模型可以處理的有序序列。這些輸入轉(zhuǎn)換允許我們避免在任務(wù)之間對架構(gòu)進行廣泛的更改。我們在下面簡要描述這些輸入轉(zhuǎn)換，并在圖1中提供了一個可視化說明。所有轉(zhuǎn)換都包括添加隨機初始化的開始和結(jié)束標記(<s>,<e>)。
文本蘊含

對于蘊含任務(wù)，我們將前提p和假設(shè)h的令牌序列連接起來，并在它們之間加入一個分隔符令牌($)。

相似度

對于相似度任務(wù)，被比較的兩個句子沒有固定的順序。因此，我們修改輸入序列，包含兩種可能的句子排序（在它們之間加上一個分隔符），并獨立處理每個序列以生成兩個序列表示 $h_%7Bl%7D%5Em%20$ ，然后在饋送到線性輸出層之前對它們進行逐元素相加。

問答和常識推理任務(wù)

對于這些任務(wù)，我們會得到一個上下文文檔 z，一個問題 q 和一組可能的答案 {ak}。我們將文檔上下文和問題與每個可能的答案連接起來，在其中添加一個分隔符標記，以獲取 [z; q; $; ak]。這些序列中的每個都會獨立地通過我們的模型進行處理，然后通過 softmax 層進行歸一化，以產(chǎn)生可能答案的輸出分布。

4.實驗

4.1 設(shè)置

無監(jiān)督預(yù)訓(xùn)練 我們使用BooksCorpus數(shù)據(jù)集 [71] 訓(xùn)練語言模型。它包含來自各種類型（包括冒險、奇幻和浪漫）的超過7,000本獨家未發(fā)表的書籍。至關(guān)重要的是，它包含了連續(xù)的長段文本，這使得生成模型可以學習對長距離信息進行條件編碼。另一個數(shù)據(jù)集1B Word Benchmark，它是ELMo [44]使用的一個類似方法，大小大致相同。

但是，該數(shù)據(jù)集在句子級別上進行了洗牌-破壞了長距離結(jié)構(gòu)。我們的語言模型在這個語料庫上實現(xiàn)了非常低的單詞級困惑度，為18.4。

模型規(guī)范：我們的模型基本上遵循了原始的Transformer工作[62]。我們使用具有掩蔽自注意力頭的12層解碼器Transformer（768維狀態(tài)和12個注意力頭）進行訓(xùn)練。對于位置- 智能前饋網(wǎng)絡(luò)，我們使用3072維內(nèi)部狀態(tài)。我們使用Adam優(yōu)化方案[27]，最大學習率為2.5e-4。學習率在前2000次更新時從零線性增加，并使用余弦計劃調(diào)節(jié)為0。我們在64個隨機抽樣的、連續(xù)的512個標記序列的小批量上進行100個時期的訓(xùn)練。由于layernorm[2]在整個模型中被廣泛使用，因此簡單的權(quán)重初始化N（0，0.02）就足夠了。我們使用帶有40,000次合并的bytepair編碼（BPE）詞匯表[53]，并使用殘差、嵌入和注意力dropout進行正則化，丟失率為0.1。我們還采用了[37]中提出的修改版本的L2正則化，對于所有非偏置或增益權(quán)重，w = 0.01。對于激活函數(shù)，我們使用高斯誤差線性單元（GELU）[18]。我們使用了學習的位置嵌入，而不是原始工作中提出的正弦版本。我們使用ftfy庫2清理BooksCorpus中的原始文本，標準化一些標點符號和空格，并使用spaCy分詞器。

細調(diào)詳情(Fine-tuning details)：除非另有說明，否則我們重復(fù)使用無監(jiān)督預(yù)訓(xùn)練的超參數(shù)設(shè)置。我們將 0.1 的丟棄率添加到分類器中。對于大多數(shù)任務(wù)，我們使用學習速率為 6.25e-5 和批次大小為 32。我們的模型細調(diào)速度快，對大多數(shù)情況，3 個時期的訓(xùn)練就足夠了。我們使用線性學習率衰減時間表，在 0.2% 的訓(xùn)練時間內(nèi)進行預(yù)熱。λ 設(shè)置為 0.5。

4.2 監(jiān)督微調(diào)

我們在各種監(jiān)督任務(wù)上進行實驗，包括自然語言推斷、問答、語義相似性和文本分類。其中一些任務(wù)是作為最近發(fā)布的GLUE多任務(wù)基準測試的一部分提供的，我們利用了這些任務(wù)。圖1提供了所有任務(wù)和數(shù)據(jù)集的概述。

自然語言推斷? 自然語言推斷（NLI）任務(wù)，也稱為識別文本蘊涵，涉及閱讀一對句子并從蘊涵、矛盾或中性中判斷它們之間的關(guān)系。雖然最近有很多關(guān)注[58, 35, 44]，但由于存在諸如詞匯蘊涵、共指和詞匯和句法歧義等各種現(xiàn)象，該任務(wù)仍然具有挑戰(zhàn)性。我們在五個具有不同來源的數(shù)據(jù)集上進行評估，包括圖像標題（SNLI），轉(zhuǎn)錄的演講、流行小說和政府報告（MNLI），維基百科文章（QNLI），科學考試（SciTail）或新聞文章（RTE）。表2詳細介紹了我們的模型和之前最先進方法在不同NLI任務(wù)上的各種結(jié)果。我們的方法在五個數(shù)據(jù)集中的四個中明顯優(yōu)于基準線，在MNLI上的絕對改進高達1.5％，在SciTail上達到5％，在QNLI上達到5.8％，在SNLI上達到0.6％的先前最佳結(jié)果之上。這證明了我們的模型能夠更好地推理多個句子，并處理語言歧義的方面。在RTE上，我們評估的較小數(shù)據(jù)集之一（2490個例子），我們實現(xiàn)了56％的準確度，低于多任務(wù)biLSTM模型報告的61.7％。鑒于我們的方法在更大的NLI數(shù)據(jù)集上的強大表現(xiàn)，我們的模型很可能也會受益于多任務(wù)訓(xùn)練，但目前我們尚未探索此問題。

表2：在自然語言推理任務(wù)上的實驗結(jié)果，將我們的模型與當前最先進的方法進行比較。5x表示使用5個模型進行集成。所有數(shù)據(jù)集都使用準確性作為評估指標。

表格3：問題回答和常識推理的結(jié)果，將我們的模型與當前最先進的方法進行比較。9x表示9個模型的集合。

問題回答和常識推理 單句和多句推理的方面,我們使用最近發(fā)布的 RACE 數(shù)據(jù)集[30]，該數(shù)據(jù)集包含了來自中學和高中考試的英語文章及其相關(guān)問題。這個語料庫已經(jīng)被證明包含了比其他數(shù)據(jù)集（如 CNN [19] 或 SQuaD [47]）更多的推理類問題，為我們的模型提供了完美的評估，因為我們的模型被訓(xùn)練用于處理長距離上下文。此外，我們還在 Story Cloze 測試[40]上進行了評估，該測試涉及從兩個選項中選擇多句故事的正確結(jié)尾。在這些任務(wù)中，我們的模型再次顯著地超過了以前最好的結(jié)果，Story Cloze 上高達 8.9%，在 RACE 上總體上提高了 5.7%。這證明了我們的模型有效地處理長距離上下文的能力。

語義相似性 語義相似性（或釋義檢測）任務(wù)涉及預(yù)測兩個句子是否在語義上等效。挑戰(zhàn)在于識別概念的改寫，理解否定和處理語法歧義。我們使用三個數(shù)據(jù)集進行此任務(wù)——Microsoft Paraphrase語料庫（MRPC）[14]（從新聞來源收集），Quora Question Pairs（QQP）數(shù)據(jù)集[9]和Semantic Textual Similarity基準（STS-B）[6]。我們在三個語義相似性任務(wù)中獲得了最先進的結(jié)果（表4），在STS-B上實現(xiàn)了1個絕對增益。在QQP上的性能差距顯著，與單任務(wù)BiLSTM + ELMo + Attn相比，絕對改進了4.2%。

分類最后，我們還在兩個不同的文本分類任務(wù)上進行了評估。語言可接受性語料庫（CoLA）[65]包含專家對句子是否符合語法的判斷，測試了訓(xùn)練模型的固有語言偏見。另一方面，斯坦福情感樹庫（SST-2）[54]是一個標準的二元分類任務(wù)。我們的模型在CoLA上獲得了45.4的分數(shù)，這特別是躍升，超過了先前的最佳結(jié)果35.0，展示了我們的模型學習到的固有語言偏見。模型還在SST-2上實現(xiàn)了91.3%的準確率，這與最先進的結(jié)果相當。我們還在GLUE基準測試中實現(xiàn)了72.8的總體得分，這顯著優(yōu)于先前的最佳得分68.9。

表格4：語義相似性和分類結(jié)果，將我們的模型與當前最先進的方法進行比較。本表中所有任務(wù)的評估都是使用GLUE基準完成的。（mc=馬修斯相關(guān)系數(shù)，acc=準確率，pc=皮爾遜相關(guān)系數(shù)）

總體而言，我們的方法在我們評估的12個數(shù)據(jù)集中的9個中取得了新的最先進結(jié)果，在許多情況下優(yōu)于集合模型。我們的結(jié)果還表明，我們的方法適用于不同大小的數(shù)據(jù)集，從像STS-B（約5.7k個訓(xùn)練示例）這樣的較小數(shù)據(jù)集到最大的數(shù)據(jù)集SNLI（約550k個訓(xùn)練示例）。

5.分析

層數(shù)對轉(zhuǎn)移的影響 我們觀察了將不同數(shù)量的層從無監(jiān)督預(yù)訓(xùn)練中轉(zhuǎn)移至有監(jiān)督目標任務(wù)對模型性能的影響。圖2（左側(cè)）說明了我們的方法在MultiNLI和RACE上的性能隨轉(zhuǎn)移層數(shù)的變化。我們觀察到標準結(jié)果，即轉(zhuǎn)移嵌入可以提高性能，并且每個Transformer層提供了進一步的好處，對于在MultiNLI上進行全轉(zhuǎn)移，性能提高了9％。這表明預(yù)訓(xùn)練模型中的每個層都包含解決目標任務(wù)的有用功能。

圖2：（左）將預(yù)訓(xùn)練語言模型中的層數(shù)逐步轉(zhuǎn)移對RACE和MultiNLI的影響。（右）顯示在LM預(yù)訓(xùn)練更新的影響下，零-shot表現(xiàn)在不同任務(wù)上的演變的圖表。每個任務(wù)的表現(xiàn)與單個模型的當前最佳表現(xiàn)相對歸一化，基線為隨機猜測。

零-shot行為

我們希望更好地了解transformer的語言模型預(yù)訓(xùn)練為什么有效。一個假設(shè)是，潛在的生成模型學會執(zhí)行我們在評估中進行的許多任務(wù)，以提高其語言建模能力，而且越結(jié)構(gòu)化的任務(wù)，這種學習可能會更加有效。在這里，我們分析了零-shot設(shè)置下的這種行為。在圖2（右）中，我們考慮了10個預(yù)訓(xùn)練更新數(shù)目，并在每個任務(wù)上記錄了該任務(wù)的零-shot性能隨時間的演變。

表格5：不同任務(wù)上各種模型削減的分析。Avg. score是所有結(jié)果的未加權(quán)平均值。（mc=馬修斯相關(guān)性，acc=準確率，pc=皮爾遜相關(guān)性）

我們觀察了將不同數(shù)量的層從無監(jiān)督預(yù)訓(xùn)練中轉(zhuǎn)移至有監(jiān)督目標任務(wù)對性能的影響。圖2（左）以轉(zhuǎn)移層數(shù)的數(shù)量為函數(shù)，展示了我們的方法在MultiNLI和RACE上的性能。我們觀察到轉(zhuǎn)移嵌入可以提高性能，并且每個Transformer層在MultiNLI的完全轉(zhuǎn)移中可以提供高達9％的額外收益。這表明預(yù)訓(xùn)練模型中的每一層都包含了解決目標任務(wù)的有用功能。

圖2：（左）將預(yù)訓(xùn)練語言模型的不同數(shù)量的層轉(zhuǎn)移至RACE和MultiNLI的影響。（右）繪制不同任務(wù)的零-shot性能隨LM預(yù)訓(xùn)練更新次數(shù)的演變情況。每個任務(wù)的性能以隨機猜測基線和使用單個模型的當前最佳性能為基準進行歸一化。

我們希望更好地了解transformer的語言模型預(yù)訓(xùn)練為什么有效。一種假設(shè)是，基礎(chǔ)生成模型學習執(zhí)行我們評估的許多任務(wù)，以提高其語言建模能力，而越結(jié)構(gòu)化的transformer注意力內(nèi)存相對于LSTMs會更有助于轉(zhuǎn)移。我們設(shè)計了一系列啟發(fā)式解決方案，利用基礎(chǔ)生成模型執(zhí)行任務(wù)，而不需要有監(jiān)督的微調(diào)。我們在圖2（右）中可視化了這些啟發(fā)式解決方案的有效性。我們觀察到這些啟發(fā)式的性能穩(wěn)定，并隨著預(yù)訓(xùn)練的進行而穩(wěn)步提高，表明生成預(yù)訓(xùn)練支持學習各種任務(wù)相關(guān)的功能。我們還觀察到LSTM的零-shot性能方差較高，這表明Transformer體系結(jié)構(gòu)的歸納偏差有助于轉(zhuǎn)移。

對于語言可接受性的CoLA，示例的得分是生成模型分配的平均標記對數(shù)概率，并且通過閾值判斷進行預(yù)測。對于情感分析的SST-2，我們在每個示例中添加單詞“very”，并將語言模型的輸出分布限制為僅包括正面和負面單詞，并猜測它分配更高概率的單詞為預(yù)測結(jié)果。對于問答的RACE，我們選擇生成模型在給定文檔和問題的條件下分配的平均標記對數(shù)概率最高的答案。對于DPRD [46]（winograd schemas），我們將定冠詞替換為兩個可能的指代，預(yù)測生成模型在替換后剩余序列分配更高平均標記對數(shù)概率的那個指代。

消融實驗 我們進行了三個不同的消融研究（表5）。首先，我們檢查了在fine-tuning期間沒有輔助LM目標的情況下我們方法的性能。我們觀察到輔助目標在NLI任務(wù)和QQP上有幫助。總體趨勢表明，輔助目標對大型數(shù)據(jù)集有益，但對小型數(shù)據(jù)集則沒有。其次，我們通過將其與使用相同框架的單層2048個單元LSTM進行比較來分析Transformer的影響。我們觀察到，使用LSTM而不是Transformer會導(dǎo)致平均得分下降5.6個百分點。LSTM僅在一個數(shù)據(jù)集（MRPC）上優(yōu)于Transformer。最后，我們還直接比較了在未進行預(yù)訓(xùn)練的情況下，使用監(jiān)督目標任務(wù)直接訓(xùn)練的transformer架構(gòu)與我們的模型。我們觀察到，缺乏預(yù)訓(xùn)練會損害所有任務(wù)的性能，與我們的全模型相比，性能降低了14.8%。

6.結(jié)論

我們通過生成式預(yù)訓(xùn)練和判別式微調(diào)提出了一個框架，通過單個任務(wù)不可知模型實現(xiàn)強大的自然語言理解。通過在一個包含大量連續(xù)文本的多樣化語料庫上進行預(yù)訓(xùn)練，我們的模型獲得了顯著的世界知識和處理長距離依賴的能力，然后成功地將其轉(zhuǎn)化為解決問答、語義相似性評估、蘊含判斷和文本分類等判別性任務(wù)，提高了我們研究的12個數(shù)據(jù)集中的9個數(shù)據(jù)集的最新技術(shù)水平。使用無監(jiān)督（預(yù)）訓(xùn)練來提高判別性任務(wù)的性能長期以來一直是機器學習研究的重要目標。我們的工作表明，確實可以實現(xiàn)顯著的性能提升，并提供了提示，指出哪些模型（Transformers）和數(shù)據(jù)集（具有長距離依賴的文本）最適合這種方法。我們希望這將有助于促進無監(jiān)督學習的新研究，無論是自然語言理解還是其他領(lǐng)域，進一步提高我們對無監(jiān)督學習如何以及何時起作用的理解。

References

[1] S. Arora, Y. Liang, and T. Ma. A simple but tough-to-beat baseline for sentence embeddings. 2016.

[2] J. L. Ba, J. R. Kiros, and G. E. Hinton. Layer normalization. arXiv preprint arXiv:1607.06450, 2016.

[3] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle. Greedy layer-wise training of deep networks. In Advances in neural information processing systems, pages 153–160, 2007.

[4] L. Bentivogli, P. Clark, I. Dagan, and D. Giampiccolo. The fifth pascal recognizing textual entailment challenge. In TAC, 2009.

[5] S. R. Bowman, G. Angeli, C. Potts, and C. D. Manning. A large annotated corpus for learning natural language inference. EMNLP, 2015.

[6] D. Cer, M. Diab, E. Agirre, I. Lopez-Gazpio, and L. Specia. Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation. arXiv preprint arXiv:1708.00055, 2017.

[7] S. Chaturvedi, H. Peng, and D. Roth. Story comprehension for predicting what happens next. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 1603–1614, 2017.

[8] D. Chen and C. Manning. A fast and accurate dependency parser using neural networks. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 740–750, 2014.

[9] Z. Chen, H. Zhang, X. Zhang, and L. Zhao. Quora question pairs. https://data.quora.com/First-QuoraDataset-Release-Question-Pairs, 2018.

[10] R. Collobert and J. Weston. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning, pages 160–167. ACM, 2008.

[11] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu, and P. Kuksa. Natural language processing (almost) from scratch. Journal of Machine Learning Research, 12(Aug):2493–2537, 2011.

[12] A. Conneau, D. Kiela, H. Schwenk, L. Barrault, and A. Bordes. Supervised learning of universal sentence representations from natural language inference data. EMNLP, 2017.

[13] A. M. Dai and Q. V. Le. Semi-supervised sequence learning. In Advances in Neural Information Processing Systems, pages 3079–3087, 2015.

[14] W. B. Dolan and C. Brockett. Automatically constructing a corpus of sentential paraphrases. In Proceedings of the Third International Workshop on Paraphrasing (IWP2005), 2005.

[15] D. Erhan, Y. Bengio, A. Courville, P.-A. Manzagol, P. Vincent, and S. Bengio. Why does unsupervised pre-training help deep learning? Journal of Machine Learning Research, 11(Feb):625–660, 2010.

[16] S. Gray, A. Radford, and K. P. Diederik. Gpu kernels for block-sparse weights. 2017.

[17] Z. He, S. Liu, M. Li, M. Zhou, L. Zhang, and H. Wang. Learning entity representation for entity disambiguation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), volume 2, pages 30–34, 2013.

[18] D. Hendrycks and K. Gimpel. Bridging nonlinearities and stochastic regularizers with gaussian error linear units. arXiv preprint arXiv:1606.08415, 2016.

[19] K. M. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Kay, M. Suleyman, and P. Blunsom. Teaching machines to read and comprehend. In Advances in Neural Information Processing Systems, pages 1693– 1701, 2015.

[20] G. E. Hinton, S. Osindero, and Y.-W. Teh. A fast learning algorithm for deep belief nets. Neural computation, 18(7):1527–1554, 2006.

[21] J. Howard and S. Ruder. Universal language model fine-tuning for text classification. Association for Computational Linguistics (ACL), 2018.

[22] Y. Jernite, S. R. Bowman, and D. Sontag. Discourse-based objectives for fast unsupervised sentence representation learning. arXiv preprint arXiv:1705.00557, 2017.

[23] Y. Ji and J. Eisenstein. Discriminative improvements to distributional sentence similarity. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pages 891–896, 2013.

[24] F. Jiao, S. Wang, C.-H. Lee, R. Greiner, and D. Schuurmans. Semi-supervised conditional random fields for improved sequence segmentation and labeling. In Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, pages 209–216. Association for Computational Linguistics, 2006.

[25] T. Khot, A. Sabharwal, and P. Clark. Scitail: A textual entailment dataset from science question answering. In Proceedings of AAAI, 2018.

[26] Y. Kim. Convolutional neural networks for sentence classification. EMNLP, 2014.

[27] D. P. Kingma and J. Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.

[28] R. Kiros, Y. Zhu, R. R. Salakhutdinov, R. Zemel, R. Urtasun, A. Torralba, and S. Fidler. Skip-thought vectors. In Advances in neural information processing systems, pages 3294–3302, 2015.

[29] N. Kitaev and D. Klein. Constituency parsing with a self-attentive encoder. ACL, 2018.

[30] G. Lai, Q. Xie, H. Liu, Y. Yang, and E. Hovy. Race: Large-scale reading comprehension dataset from examinations. EMNLP, 2017.

[31] G. Lample, L. Denoyer, and M. Ranzato. Unsupervised machine translation using monolingual corpora only. ICLR, 2018.

[32] Q. Le and T. Mikolov. Distributed representations of sentences and documents. In International Conference on Machine Learning, pages 1188–1196, 2014.

[33] P. Liang. Semi-supervised learning for natural language. PhD thesis, Massachusetts Institute of Technology, 2005.

[34] P. J. Liu, M. Saleh, E. Pot, B. Goodrich, R. Sepassi, L. Kaiser, and N. Shazeer. Generating wikipedia by summarizing long sequences. ICLR, 2018.

[35] X. Liu, K. Duh, and J. Gao. Stochastic answer networks for natural language inference. arXiv preprint arXiv:1804.07888, 2018.

[36] L. Logeswaran and H. Lee. An efficient framework for learning sentence representations. ICLR, 2018.

[37] I. Loshchilov and F. Hutter. Fixing weight decay regularization in adam. arXiv preprint arXiv:1711.05101, 2017.

[38] B. McCann, J. Bradbury, C. Xiong, and R. Socher. Learned in translation: Contextualized word vectors. In Advances in Neural Information Processing Systems, pages 6297–6308, 2017.

[39] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems, pages 3111–3119, 2013.

[40] N. Mostafazadeh, M. Roth, A. Louis, N. Chambers, and J. Allen. Lsdsem 2017 shared task: The story cloze test. In Proceedings of the 2nd Workshop on Linking Models of Lexical, Sentential and Discourse-level Semantics, pages 46–51, 2017.

[41] K. Nigam, A. McCallum, and T. Mitchell. Semi-supervised text classification using em. Semi-Supervised Learning, pages 33–56, 2006.

[42] J. Pennington, R. Socher, and C. Manning. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543, 2014.

[43] M. E. Peters, W. Ammar, C. Bhagavatula, and R. Power. Semi-supervised sequence tagging with bidirectional language models. ACL, 2017.

[44] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer. Deep contextualized word representations. NAACL, 2018.

[45] Y. Qi, D. S. Sachan, M. Felix, S. J. Padmanabhan, and G. Neubig. When and why are pre-trained word embeddings useful for neural machine translation? NAACL, 2018.

[46] A. Rahman and V. Ng. Resolving complex cases of definite pronouns: the winograd schema challenge. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 777–789. Association for Computational Linguistics, 2012.

[47] P. Rajpurkar, J. Zhang, K. Lopyrev, and P. Liang. Squad: 100,000+ questions for machine comprehension of text. EMNLP, 2016.

[48] P. Ramachandran, P. J. Liu, and Q. V. Le. Unsupervised pretraining for sequence to sequence learning. arXiv preprint arXiv:1611.02683, 2016.

[49] M. Ranzato, C. Poultney, S. Chopra, and Y. LeCun. Efficient learning of sparse representations with an energy-based model. In Advances in neural information processing systems, pages 1137–1144, 2007.

[50] M. Rei. Semi-supervised multitask learning for sequence labeling. ACL, 2017.

[51] H. Robbins and S. Monro. A stochastic approximation method. The annals of mathematical statistics, pages 400–407, 1951.

[52] T. Rockt?schel, E. Grefenstette, K. M. Hermann, T. Kocisk ˇ y, and P. Blunsom. Reasoning about entailment ` with neural attention. arXiv preprint arXiv:1509.06664, 2015.

[53] R. Sennrich, B. Haddow, and A. Birch. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.

[54] R. Socher, A. Perelygin, J. Wu, J. Chuang, C. D. Manning, A. Ng, and C. Potts. Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 conference on empirical methods in natural language processing, pages 1631–1642, 2013.

[55] S. Srinivasan, R. Arora, and M. Riedl. A simple and effective approach to the story cloze test. arXiv preprint arXiv:1803.05547, 2018.

[56] S. Subramanian, A. Trischler, Y. Bengio, and C. J. Pal. Learning general purpose distributed sentence representations via large scale multi-task learning. arXiv preprint arXiv:1804.00079, 2018.

[57] J. Suzuki and H. Isozaki. Semi-supervised sequential labeling and segmentation using giga-word scale unlabeled data. Proceedings of ACL-08: HLT, pages 665–673, 2008.

[58] Y. Tay, L. A. Tuan, and S. C. Hui. A compare-propagate architecture with alignment factorization for natural language inference. arXiv preprint arXiv:1801.00102, 2017. [59] Y. Tay, L. A. Tuan, and S. C. Hui. Multi-range reasoning for machine comprehension. arXiv preprint arXiv:1803.09074, 2018.

[60] J. Tian, Z. Zhou, M. Lan, and Y. Wu. Ecnu at semeval-2017 task 1: Leverage kernel-based traditional nlp features and neural networks to build a universal model for multilingual and cross-lingual semantic textual similarity. In Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017), pages 191–197, 2017.

[61] Y. Tsvetkov. Opportunities and challenges in working with low-resource languages. CMU, 2017.

[62] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, ?. Kaiser, and I. Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pages 6000–6010, 2017.

[63] P. Vincent, H. Larochelle, Y. Bengio, and P.-A. Manzagol. Extracting and composing robust features with denoising autoencoders. In Proceedings of the 25th international conference on Machine learning, pages 1096–1103. ACM, 2008.

[64] A. Wang, A. Singh, J. Michael, F. Hill, O. Levy, and S. R. Bowman. Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461, 2018.

[65] A. Warstadt, A. Singh, and S. R. Bowman. Corpus of linguistic acceptability. http://nyu-mll.github.io/cola, 2018.

[66] A. Williams, N. Nangia, and S. R. Bowman. A broad-coverage challenge corpus for sentence understanding through inference. NAACL, 2018.

[67] Y. Xu, J. Liu, J. Gao, Y. Shen, and X. Liu. Towards human-level machine reading comprehension: Reasoning and inference with multiple strategies. arXiv preprint arXiv:1711.04964, 2017.

[68] D. Yu, L. Deng, and G. Dahl. Roles of pre-training and fine-tuning in context-dependent dbn-hmms for real-world speech recognition. In Proc. NIPS Workshop on Deep Learning and Unsupervised Feature Learning, 2010.

[69] R. Zhang, P. Isola, and A. A. Efros. Split-brain autoencoders: Unsupervised learning by cross-channel prediction. In CVPR, volume 1, page 6, 2017.

[70] X. Zhu. Semi-supervised learning literature survey. 2005.

[71] Y. Zhu, R. Kiros, R. Zemel, R. Salakhutdinov, R. Urtasun, A. Torralba, and S. Fidler. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. In Proceedings of the IEEE international conference on computer vision, pages 19–27, 2015.

標簽：