最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

NLP 論文領(lǐng)讀|改善意圖識(shí)別的語義表示:有監(jiān)督預(yù)訓(xùn)練中的各向同性正則化方法

2022-06-23 17:14 作者:瀾舟孟子開源社區(qū)  | 我要投稿

theme: smartblue

歡迎關(guān)注「瀾舟 NLP 論文領(lǐng)讀」專欄!關(guān)注我們的公眾號(hào),加入交流群吧~ ID: 瀾舟科技。官網(wǎng):https://langboat.com

本期分享者:甘子發(fā)

瀾舟科技算法實(shí)習(xí)生 鄭州大學(xué)自然語言處理實(shí)驗(yàn)室(ZZUNLP)二年級(jí)碩士生,

目前正在進(jìn)行文本糾錯(cuò)方向的研究。

E-mail: zfganlp@foxmail.com

寫在前面

意圖識(shí)別(intent detection)是面向任務(wù)對(duì)話系統(tǒng)的核心模塊,其標(biāo)注數(shù)據(jù)較少,所以研究怎樣用少量數(shù)據(jù)訓(xùn)練出一個(gè)優(yōu)秀的意圖分類器(few-shot intent detection)有著很高的實(shí)用價(jià)值。

近年來 BERT 等預(yù)訓(xùn)練語言模型(pre-trained language model,PLM)在各 NLP 任務(wù)中處于支配地位,而研究表明,在將PLM應(yīng)用到任務(wù)上之前,用相關(guān)任務(wù)的標(biāo)注數(shù)據(jù)先對(duì) PLM 進(jìn)行有監(jiān)督的預(yù)訓(xùn)練(supervised pre-training,其實(shí)就是fine-tuning),可以有效地提升后續(xù)微調(diào)的效果。對(duì)于意圖識(shí)別,先用少量的公開的對(duì)話標(biāo)注數(shù)據(jù)對(duì) PLM 進(jìn)行微調(diào)(IntentBERT)[1],對(duì)模型有很大的提升。

但是,IntentBERT 有很強(qiáng)的各向異性(anisotropy),各向異性是一個(gè)幾何性質(zhì),在向量空間上的含義就是分布與方向有關(guān)系,語義向量擠在了一個(gè)狹窄的錐形空間內(nèi),這樣向量彼此的余弦相似度都很高,并不是很好的表示,而各向同性(isotropy)就是各個(gè)方向都一樣,分布均勻。各向異性被認(rèn)為是導(dǎo)致 PLM 在各下游任務(wù)中只能達(dá)到次優(yōu)性能(表示退化問題)的一個(gè)重要因素,不過各向同性技術(shù)可以用來調(diào)整嵌入向量空間,而且使模型在眾多任務(wù)上的性能都獲得了極大的提升。之前的各向同性技術(shù),有些對(duì)沒經(jīng)過微調(diào)的 PLM(off-the-shelf PLM)進(jìn)行調(diào)整,但對(duì)于微調(diào)過的 PLM(fine-tuned PLM),這些技術(shù)對(duì)模型性能反而可能會(huì)有負(fù)面效果[2];有的在監(jiān)督訓(xùn)練過程中進(jìn)行 isotropic batch normalization,但需要大量訓(xùn)練數(shù)據(jù)[3],不適合缺少數(shù)據(jù)的意圖識(shí)別任務(wù)。

近日有一篇論文《Fine-tuning Pre-trained Language Models for Few-shot Intent Detection: Supervised Pre-training and Isotropization》,其中提出使用各向同性技術(shù)來改善 few-shot intent detection的supervised pre-training,在這篇工作中,作者先是研究了 isotropization和supervised pre-training (fine-tuning)之間的關(guān)系,然后提出了兩種簡單有效的各向同性正則化方法(isotropization regularizer),如圖 1 所示,并且取得了不錯(cuò)的效果,下面我們一起來看看這篇論文的具體做法吧。

圖片


論文標(biāo)題

Fine-tuning Pre-trained Language Models for Few-shot Intent Detection: Supervised Pre-training and Isotropization

論文作者

Haode Zhang, Haowen Liang, Yuwei Zhang, Liming Zhan, Xiao-Ming Wu, Xiaolei Lu, Albert Y.S. Lam

作者單位

Department of Computing, The Hong Kong Polytechnic University, Hong Kong S.A.R.

University of California, San Diego

Nanyang Technological University, Singapore

Fano Labs, Hong Kong S.A.R.

論文鏈接

https://arxiv.org/abs/2205.07208

項(xiàng)目代碼

https://github.com/fanolabs/isoIntentBert-main


Pilot Study

作者先是做了一些初步實(shí)驗(yàn),以了解各向同性與微調(diào) PLM 之間的相互作用。

論文中使用下列公式計(jì)算各向同性:

? %5Cmathrm%7BI%7D(%5Cmathbf%7BV%7D)%3D%5Cfrac%7B%5Cmin%20_%7B%5Cmathbf%7Bc%7D%20%5Cin%20C%7D%20%5Cmathbf%7BZ%7D(%5Cmathbf%7Bc%7D%2C%20%5Cmathbf%7BV%7D)%7D%7B%5Cmax%20_%7B%5Cmathbf%7Bc%7D%20%5Cin%20C%7D%20%5Cmathbf%7BZ%7D(%5Cmathbf%7Bc%7D%2C%20%5Cmathbf%7BV%7D)%7D?(1)

%5Cmathbf%7BZ%7D(%5Cmathbf%7Bc%7D%2C%20%5Cmathbf%7BV%7D)%3D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%20%5Cexp%20%5Cleft(%5Cmathbf%7Bc%7D%5E%7B%5Ctop%7D%20%5Cmathbf%7Bv%7D_%7Bi%7D%5Cright)(2)

其中%5Cmathbf%7BV%7D%20%5Cin%20%5Cmathbb%7BR%7D%5E%7BN%20%5Ctimes%20d%7D?是有 zero mean 的 N 個(gè)嵌入向量,C%3D%5Cmathbf%7BV%7D%5E%7B%5Ctop%7D%20%5Cmathbf%7BV%7D,%5Cmathbf%7Bv%7D_%7Bi%7D的第%5Cmathbf%7BV%7D行,%5Cmathrm%7BI%7D(%5Cmathbf%7BV%7D)%20%5Cin%20%5B0%2C%201%5D,值為 1 表示有最高的各向同性。

圖片

論文中對(duì)比了 PLM 微調(diào)前后的各向同性,結(jié)果如表 1 所示,可以看到 PLM 經(jīng)微調(diào)后,其各向同性有所下降,即微調(diào)可能導(dǎo)致特征空間變得更加各向異性。

圖片
圖片

然后論文對(duì)比了將之前的兩種各向同性技術(shù):

  • dropout-based contrastive learning [4]

  • whitening transformation [5]

應(yīng)用到 fine-tuned PLM 上的效果,如圖 2、3 所示,可以看到除了 Figure 3(b),其他結(jié)果都是模型的各向同性提高,在任務(wù)上的性能下降,這表明各向同性技術(shù)可能降低 fine-tuned PLM 的性能。

Method

鑒于各向同性技術(shù)可能降低 fine-tuned PLM 的性能,于是作者便將各向同性技術(shù)與訓(xùn)練過程相結(jié)合,并提出了兩種正則化方法,如圖 4?所示,讓模型在訓(xùn)練過程中更加各向同性。

圖片

1. Supervised Pre-training for Few-shot Intent Detection

現(xiàn)在的意圖識(shí)別模型基本上是 PLM 加一個(gè)分類器(一般是線性層),設(shè)輸入句子經(jīng) PLM 后的語義表示為?%5Cmathbf%7Bh%7D_%7Bi%7D?,則分類器的計(jì)算過程可描述為:

?%5Cmathrm%7Bp%7D%5Cleft(y%20%5Cmid%20%5Cmathbf%7Bh%7D_%7Bi%7D%5Cright)%3D%5Coperatorname%7Bsoftmax%7D%5Cleft(%5Cmathbf%7BW%7D%20%5Cmathbf%7Bh%7D_%7Bi%7D%2B%5Cmathbf%7Bb%7D%5Cright)%20%5Cin%20%5Cmathbb%7BR%7D%5E%7BL%7D? (3)

其中,%5Cmathbf%7Bh%7D_%7Bi%7D%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bd%7D%5Cmathbf%7BW%7D%20%5Cin%20%5Cmathbb%7BR%7D%5E%7BL%20%5Ctimes%20d%7D,%5Cmathbf%7Bb%7D%20%5Cin%20%5Cmathbb%7BR%7D%5E%7BL%7D,L是意圖類別的數(shù)量。

模型參數(shù)訓(xùn)練過程可描述為:

%5Ctheta%3D%5Cunderset%7B%5Ctheta%7D%7B%5Carg%20%5Cmin%20%7D%20%5Cmathcal%7BL%7D_%7B%5Cmathrm%7Bce%7D%7D%5Cleft(%5Cmathcal%7BD%7D_%7B%5Ctext%20%7Bsource%20%7D%7D%20%3B%20%5Ctheta%5Cright) (4)

其中%5Cmathcal%7BL%7D_%7B%5Cmathrm%7Bce%7D%7D為交叉熵?fù)p失函數(shù),%5Cmathcal%7BD%7D_%7B%5Ctext%20%7Bsource%20%7D%7D是訓(xùn)練集。

2. Regularizing Supervised Pre-training with Isotropization

論文提出的方法就是給目標(biāo)函數(shù)加上正則項(xiàng)(regularizer),以增加各向同性:

? %5Cmathcal%7BL%7D%3D%5Cmathcal%7BL%7D_%7B%5Ctext%20%7Bce%20%7D%7D%5Cleft(%5Cmathcal%7BD%7D_%7B%5Ctext%20%7Bsource%20%7D%7D%20%3B%20%5Ctheta%5Cright)%2B%5Clambda%20%5Cmathcal%7BL%7D_%7B%5Ctext%20%7Breg%20%7D%7D%5Cleft(%5Cmathcal%7BD%7D_%7B%5Ctext%20%7Bsource%20%7D%7D%20%3B%20%5Ctheta%5Cright)???(5)

其中?? %5Clambda 是權(quán)重參數(shù)。

Contrastive-learning-based Regularizer

第一種正則項(xiàng)用的是上面提到過的 dropout-based contrastive learning loss,不過剛才是應(yīng)用在 fine-tuned PLM 上,這里是用在 fine-tuning 中:

?%5Cmathcal%7BL%7D_%7B%5Cmathrm%7Breg%7D%7D%3D-%5Cfrac%7B1%7D%7BN_%7Bb%7D%7D%20%5Csum_%7Bi%7D%5E%7BN_%7Bb%7D%7D%20%5Clog%20%5Cfrac%7Be%5E%7B%5Coperatorname%7Bsim%7D%5Cleft(%5Cmathbf%7Bh%7D_%7Bi%7D%2C%20%5Cmathbf%7Bh%7D_%7Bi%7D%5E%7B%2B%7D%5Cright)%20%2F%20%5Ctau%7D%7D%7B%5Csum_%7Bj%3D1%7D%5E%7BN_%7Bb%7D%7D%20e%5E%7B%5Coperatorname%7Bsim%7D%5Cleft(%5Cmathbf%7Bh%7D_%7Bi%7D%2C%20%5Cmathbf%7Bh%7D_%7Bj%7D%5E%7B%2B%7D%5Cright)%20%2F%20%5Ctau%7D%7D ?(6)

x_i%5Cmathcal%7BD%7D_%7B%5Ctext%20%7Bsource%20%7D%7D 中的一條數(shù)據(jù), x_i輸入 PLM 兩次,使用不同的 dropout masks 來得到兩個(gè)不同的表示 %5Cmathbf%7Bh%7D_%7Bi%7D%5Cmathbf%7Bh%7D_%7Bi%7D%5E%7B%2B%7D %5Coperatorname%7Bsim%7D%5Cleft(%5Cmathbf%7Bh%7D_%7Bi%7D%2C%20%5Cmathbf%7Bh%7D_%7Bi%7D%5E%7B%2B%7D%5Cright)是余弦相似度,因?yàn)?span id="s0sssss00s" class="span-inline-equation" style=""> %5Cmathbf%7Bh%7D_%7Bi%7D?和?%5Cmathbf%7Bh%7D_%7Bi%7D%5E%7B%2B%7D? 表示同一個(gè)輸入,所以它們算是 positive pair,,%5Cmathbf%7Bh%7D_%7Bi%7D?和?%5Cmathbf%7Bh%7D_%7Bj%7D%5E%7B%2B%7D?就是 negative pair,前面說過,各向異性的特征向量都擠在一起,彼此距離很近,加了正則項(xiàng)后,在訓(xùn)練時(shí),positive pairs 距離變近,negative pairs 距離變遠(yuǎn),特征空間就更加各向同性。

Correlation-matrix-based Regularizer

上面的基于對(duì)比學(xué)習(xí)的正則項(xiàng)屬于隱式的方法,論文還介紹了一種顯式的方法。理想的各向同性是向量在特征空間內(nèi)均勻分布,即特征向量的各維度相互之間具有零協(xié)方差和均勻方差,可以表示為一個(gè)具有均勻?qū)蔷€元素和零非對(duì)角線元素的協(xié)方差矩陣??梢灾苯訉?duì)模型的特征向量加上靜態(tài)特征來達(dá)到各向同性,但尺度不好把握,于是作者將模型特征空間與理想各向同性的差距作為目標(biāo)函數(shù)的正則項(xiàng):

?%5Cmathcal%7BL%7D_%7B%5Cmathrm%7Breg%7D%7D%3D%5C%7C%5Cboldsymbol%7B%5CSigma%7D-%5Cmathbf%7BI%7D%5C%7C? (7)

其中?%5C%7C%5Ccdot%5C%7C是Frobenius norm,%5Cmathbf%7BI%7D%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bd%20%5Ctimes%20d%7D?是單位矩陣,%5Cmathbf%7B%CE%A3%7D%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bd%20%5Ctimes%20d%7D?是相關(guān)矩陣,特征空間與理想各向同性差距越大, %5Cmathcal%7BL%7D_%7B%5Cmathrm%7Breg%7D%7D 越大。

同時(shí)使用上面兩種正則項(xiàng)得到:

%5Cbegin%7Baligned%7D%0A%5Cmathcal%7BL%7D%3D%5Cmathcal%7BL%7D_%7B%5Ctext%20%7Bce%20%7D%7D%5Cleft(%5Cmathcal%7BD%7D_%7B%5Ctext%20%7Bsource%20%7D%7D%20%3B%20%5Ctheta%5Cright)%2B%5Clambda_%7B1%7D%20%5Cmathcal%7BL%7D_%7B%5Ctext%20%7Bcl%20%7D%7D%5Cleft(%5Cmathcal%7BD%7D_%7B%5Ctext%20%7Bsource%20%7D%7D%20%3B%20%5Ctheta%5Cright)%2B%5Clambda_%7B2%7D%20%5Cmathcal%7BL%7D_%7B%5Ctext%20%7Bcor%20%7D%7D%5Cleft(%5Cmathcal%7BD%7D_%7B%5Ctext%20%7Bsource%20%7D%7D%20%3B%20%5Ctheta%5Cright)%0A%5Cend%7Baligned%7D

(8)


論文中實(shí)驗(yàn)結(jié)果表明兩種正則項(xiàng)一起用效果更好。

實(shí)驗(yàn)設(shè)置及結(jié)果

1. 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集

論文中使用了 OOS 數(shù)據(jù)集作為訓(xùn)練和驗(yàn)證數(shù)據(jù)集,其包含 10 個(gè)領(lǐng)域共 150 個(gè)意圖類別,作者去除了其中的“Banking”和“Credit Cards”兩個(gè)領(lǐng)域的數(shù)據(jù),因?yàn)檫@兩個(gè)領(lǐng)域的數(shù)據(jù)跟測試集 BANKING77 在語義上比較相似,剩下的 8 個(gè)領(lǐng)域里,6 個(gè)用作訓(xùn)練集,2 個(gè)用作驗(yàn)證集,如表 2 所示。

圖片


論文使用下面幾個(gè)數(shù)據(jù)集作為測試集,數(shù)據(jù)集的統(tǒng)計(jì)信息如表 3 所示:

  • BANKING77:關(guān)于銀行服務(wù)的意圖識(shí)別數(shù)據(jù)集;

  • HINT3:覆蓋 3 個(gè)領(lǐng)域,“Mattress Products Re- tail”、“Fitness Supplements Retail”和“Online Gaming”;

  • HWU64:包含21個(gè)領(lǐng)域的大規(guī)模數(shù)據(jù)集。

圖片


參數(shù)設(shè)置

論文中方法使用的 PLM 為 BERT 和 RoBERTa,取 [CLS] 位置的輸出作為公式(3)中的表示,用邏輯回歸做分類,通過驗(yàn)證集選擇合適的參數(shù),參數(shù)設(shè)置如表4所示。

圖片


基線模型

基于 BERT 的有 BERT-Freeze(凍結(jié) off-the-shelf PLM)、IntentBERT(用公開的意圖識(shí)別數(shù)據(jù)對(duì) BERT進(jìn)行有監(jiān)督預(yù)訓(xùn)練),IntentBERT-ReImp 是作者為了公平比較而復(fù)現(xiàn)的 IntentBERT,還有下面幾個(gè)用對(duì)話語料或 NLI? 數(shù)據(jù)繼續(xù)預(yù)訓(xùn)練過的模型:

  • CONVBERT

  • TOD-BERT

  • DNNC-BERT

  • USE-ConveRT

  • CPFT-BERT

基于 RoBERTa 的模型有:

  • RoBERTa-Freeze

  • WikiHowRoBERTa

  • DNNC-RoBERTa

  • CPFT-RoBERTa

  • IntentRoBERTa

最后,作者把 whitening transformation 應(yīng)用在 PLM 上,以跟論文方法作對(duì)比:

  • BERT-White

  • RoBERTa-White

  • IntentBERT-White

  • IntentRoBERTa-White

訓(xùn)練細(xì)節(jié)

  • Pytorch、Python

  • Hugging Face的bert-base-uncased和roberta-base

  • Adam 優(yōu)化器,學(xué)習(xí)率 2e-05,weight decay 為 1e-03

  • Nvidia RTX 3090 GPUs

  • 在驗(yàn)證集上 100 步?jīng)]有提升就停止訓(xùn)練

  • 隨機(jī)種子集合 {1, 2, 3, 4, 5}

評(píng)價(jià)

在 C-way K-shot 任務(wù)上做測試,即對(duì)于每個(gè)任務(wù),取其中的 C 個(gè)意圖類別,每個(gè)類別 K 條數(shù)據(jù),用這 C%20%5Ctimes%20K? 條數(shù)據(jù)訓(xùn)練模型。然后每個(gè)類別取 5 條數(shù)據(jù)作為 queries,比較所用的結(jié)果是從 %5Cmathcal%7BD%7D_%7B%5Ctext%20%7Btarget%7D%7D里隨機(jī)選取的 500 個(gè)任務(wù)上的平均準(zhǔn)確率(averaged accuracy)。

2. Main Results

圖片


實(shí)驗(yàn)結(jié)果如表 5、表 6 所示,可以看到論文提出的方法的結(jié)果優(yōu)于其他方法,Cor-Reg 的結(jié)果優(yōu)于 CL-Reg,兩種正則項(xiàng)共同使用又能得到更好的結(jié)果。

圖片

論文中還對(duì)比了用論文方法訓(xùn)練的模型跟一般模型的各向同性的不同,可以看到模型的各向同性和其在任務(wù)上的性能成正比。

3. 消融實(shí)驗(yàn)和分析

Moderate isotropy is helpful

作者探究了各向同性跟 few-shot intent detection 任務(wù)上的性能的關(guān)系,其調(diào)整 Cor-Reg 的權(quán)重得到更高的各向同性,然后測試模型性能,結(jié)果如圖 5 所示,可以看出中等大小各向同性的模型性能較好。

圖片


Correlation matrix is better than covariance matrix as regularizer

作者在 Cor-Reg 里用的是相關(guān)矩陣而不是協(xié)方差矩陣,盡管協(xié)方差矩陣比相關(guān)矩陣多了方差的信息,但正因?yàn)槿绱?,讓人難以決定各個(gè)方差的尺度。在實(shí)驗(yàn)中,作者將相關(guān)矩陣換成協(xié)方差矩陣,原來的單位矩陣?yán)锏姆菍?duì)角線元素設(shè)為 0,對(duì)角線元素設(shè)為 1、0.5 或者協(xié)方差矩陣對(duì)角線元素的平均值,表示為 Cov-Reg-1、Cov-Reg-0.5、和 Cov- Reg-mean,實(shí)驗(yàn)結(jié)果如表8所示,可以看到協(xié)方差矩陣的幾種設(shè)置都比相關(guān)矩陣要差一些。

圖片


The performance gain is not from the reduction in model variance

L1 和 L2 正則化可以通過減小模型方差來提升性能,而作者將表 7 里的性能提升歸因于各向同性的改善。為了探究使用了正則項(xiàng)后性能的提升是來自方差還是各向同性,作者給 L2正 則項(xiàng)設(shè)置不同的權(quán)重,得到多個(gè)結(jié)果,但都不及 CL-Reg 和 Cor-Reg,如圖 6 所示。

圖片


The computational overhead is small

作者統(tǒng)計(jì)了同時(shí)使用 CL-Reg 和 Cor-Reg 的時(shí)候,一個(gè) epoch 里各個(gè)計(jì)算過程的開銷,比例如圖 7 所示,可以看到正則項(xiàng)的計(jì)算開銷占比并不算太大。

圖片


總結(jié)

這篇論文先分析了 PLM 在意圖識(shí)別任務(wù)上微調(diào)后、其特征空間的各向異性,然后提出了分別基于對(duì)比學(xué)習(xí)和相關(guān)矩陣的兩種正則項(xiàng),以在微調(diào)中增加模型特征空間的各向同性,并且給模型在 few-shot intent detection 任務(wù)上的性能帶來了很大的提升。因?yàn)檎撐奶岢龅姆椒ㄊ轻槍?duì) PLM 的,所以也可能用于其他任務(wù)的基于 PLM 的模型上。感興趣的同學(xué)可以自行閱讀論文原文,歡迎留言討論。


NLP 論文領(lǐng)讀|改善意圖識(shí)別的語義表示:有監(jiān)督預(yù)訓(xùn)練中的各向同性正則化方法的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
星子县| 宜都市| 布尔津县| 湘乡市| 湘潭市| 远安县| 隆回县| 舒兰市| 司法| 新田县| 阜新| 离岛区| 阜平县| 衡东县| 杭锦旗| 青州市| 昭觉县| 武汉市| 青海省| 塘沽区| 即墨市| 翁源县| 天气| 平山县| 洛阳市| 龙里县| 神木县| 卓尼县| 花垣县| 克山县| 奎屯市| 屯留县| 都兰县| 广宁县| 恩施市| 晋宁县| 大兴区| 武陟县| 沙雅县| 桐庐县| 丁青县|