【授權(quán)轉(zhuǎn)載】融合主題模型和動(dòng)態(tài)路由的小樣本學(xué)習(xí)方法 [上]
(1.?山東工商學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,煙臺(tái)?264005;2.?山東工商學(xué)院信息與電子工程學(xué)院,煙臺(tái)?264005;3.?山東省高等學(xué)校協(xié)同創(chuàng)新中心:未來(lái)智能計(jì)算,煙臺(tái)?264005;4.?山東省高校智能信息處理重點(diǎn)實(shí)驗(yàn)室(山東工商學(xué)院),煙臺(tái)?264005;5.?大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院,大連?116026)
摘 要:針對(duì)小樣本學(xué)習(xí)標(biāo)注訓(xùn)練樣本過(guò)少,導(dǎo)致特征表達(dá)力弱的問(wèn)題,本文結(jié)合有監(jiān)督主題模型(Supervised LDA,SLDA)和動(dòng)態(tài)路由算法提出一種新的動(dòng)態(tài)路由原型網(wǎng)絡(luò)模型(Dynamic routing prototypical network based on SLDA,DRP?SLDA)。利用SLDA主題模型建立詞匯與類別之間的語(yǔ)義映射,增強(qiáng)詞的類別分布特征,從詞粒度角度編碼獲得樣本的語(yǔ)義表示。提出動(dòng)態(tài)路由原型網(wǎng)絡(luò) (Dynamic routing prototypical network,DR?Proto),通過(guò)提取交叉特征利用樣本之間的語(yǔ)義關(guān)系,采用動(dòng)態(tài)路由算法迭代生成具有類別代表性的動(dòng)態(tài)原型,旨在解決特征表達(dá)問(wèn)題。實(shí)驗(yàn)結(jié)果表明,DRP?SLDA模型能有效提取詞的類別分布特征,且獲取動(dòng)態(tài)原型提高類別辨識(shí)力,從而能夠有效提升小樣本文本分類的泛化性能。
關(guān)鍵詞:小樣本學(xué)習(xí);元學(xué)習(xí);原型網(wǎng)絡(luò);有監(jiān)督主題模型;文本分類
引?? 言
????????有監(jiān)督深度學(xué)習(xí)需要大量的標(biāo)注樣本,然而標(biāo)注樣本獲取代價(jià)昂貴;相反,人類能夠在樣本匱乏的情況下學(xué)習(xí)新知識(shí)。因此小樣本學(xué)習(xí)(Few?shot?learning,F(xiàn)SL)方法的研究得到廣泛關(guān)注,其目標(biāo)是在每個(gè)類別只有少量樣本的情況下訓(xùn)練模型,但是在無(wú)法有效提取特征時(shí),導(dǎo)致模型泛化性能下降,是小樣本學(xué)習(xí)亟待解決的問(wèn)題。早期研究者應(yīng)用遷移學(xué)習(xí)微調(diào)預(yù)訓(xùn)練模型。近年來(lái),元學(xué)習(xí)能夠比較好地解決小樣本學(xué)習(xí)問(wèn)題,主要有基于度量的算法、基于數(shù)據(jù)增強(qiáng)的算法和基于模型優(yōu)化的算法。其中,基于度量的小樣本學(xué)習(xí)簡(jiǎn)單有效,在面向圖像和文本的任務(wù)中得到廣泛關(guān)注。Vinyals等提出匹配網(wǎng)絡(luò),通過(guò)分段訓(xùn)練策略遷移元知識(shí)生成以余弦距離度量的加權(quán)K?近鄰分類器。Snell等提出原型網(wǎng)絡(luò),假設(shè)每個(gè)類的樣本在度量空間中都存在原型,同屬一個(gè)類別的樣本均值向量作為該類的原型。Fort等提出高斯原型網(wǎng)絡(luò),將樣本表示為高斯協(xié)方差矩陣,利用樣本權(quán)重構(gòu)造與類相關(guān)的度量函數(shù)。Gao等提出基于注意力的混合原型網(wǎng)絡(luò),設(shè)計(jì)了樣本級(jí)別和特征級(jí)別的兩種注意力機(jī)制,分別捕捉對(duì)分類更重要的樣本和特征,提高關(guān)系分類模型在噪聲數(shù)據(jù)集上的性能和魯棒性。Sun等提出層次注意力原型網(wǎng)絡(luò),構(gòu)建了特征、單詞和樣本?3種級(jí)別的注意力機(jī)制,分別賦予不同的權(quán)重分?jǐn)?shù),訓(xùn)練每個(gè)類的原型。度量學(xué)習(xí)應(yīng)用于自然語(yǔ)言處理的不同領(lǐng)域,如單詞預(yù)測(cè)、知識(shí)圖譜以及任務(wù)型對(duì)話系統(tǒng)。有效提取不同粒度的詞特征和樣本特征,是基于度量的小樣本學(xué)習(xí)需要解決的難點(diǎn)問(wèn)題。本文從詞粒度考慮不同類別的詞分布特征,動(dòng)態(tài)更新每類的原型,提出一種基于SLDA的動(dòng)態(tài)路由原型網(wǎng)絡(luò)模型(Dynamic?routing?prototypical?network?based?on?SLDA,DRP?SLDA)。利用SLDA主題模型識(shí)別詞與類別之間的精準(zhǔn)語(yǔ)義映射,獲得每個(gè)類別的詞分布特征?;谥С旨筒樵兗?,提出動(dòng)態(tài)路由原型網(wǎng)絡(luò)(Dynamic?routing?prototypical?network,DR?Proto),旨在通過(guò)動(dòng)態(tài)路由算法有效利用樣本之間語(yǔ)義交叉特征訓(xùn)練動(dòng)態(tài)原型,從而提升小樣本文本分類的泛化性能。
1?DRP?SLDA模型
1.?1?DRP?SLDA模型框架
????????C?way K?shot 表示含有個(gè)類別且每類有
個(gè)標(biāo)記樣本的小樣本分類問(wèn)題。令
且
。從訓(xùn)練集
選
個(gè)類別,每類選
個(gè)有標(biāo)簽樣本
??
,作為支持集 ,
表示第
個(gè)樣本,
為
的類標(biāo)簽 ;每類另外選
個(gè)無(wú)標(biāo)簽樣本
??
作為查詢集,
表示第
個(gè)樣本,
為
的類標(biāo)簽。測(cè)試集
由
類的有標(biāo)簽支持集和無(wú)標(biāo)簽查詢集構(gòu)成。元學(xué)習(xí)方法僅從
中采樣1組支持集和查詢集,樣本過(guò)少模型難以學(xué)習(xí)良好特征表示?!綛ao Y ,? Wu M ,? Chang S , et al. Few-shot Text Classification with Distributional Signatures[J].? 2019.】引入源集輔助訓(xùn)練,增強(qiáng)特征表示,如圖1所示。以20newsgroup數(shù)據(jù)集的3?way 2?shot任務(wù)為例,選3個(gè)類作為
,其余 17個(gè)類作為
。元訓(xùn)練時(shí),從
選 3 個(gè)類采樣支持集和查詢集,剩余14個(gè)類作為源集。元測(cè)試時(shí),從
中采樣支持集和查詢集,將
中所有類的樣本作為源集。DRP?SLDA模型框架如圖 2所示,由Encoder和DR?Proto network構(gòu)成。其中,Encoder利用SLDA主題模型增強(qiáng)詞的分布特征,得到詞的特征編碼。DR?Proto network為本文提出的動(dòng)態(tài)路由原型網(wǎng)絡(luò),利用動(dòng)態(tài)路由算法提取支持集和查詢集的樣本交叉特征計(jì)算每類的原型。通過(guò)歐氏距離
度量查詢集與原型的相似性以分類預(yù)測(cè)。


1.?2?基于SLDA編碼方法
????????為獲得每個(gè)類別的詞分布特征,本文提出基于?SLDA?主題模型的詞編碼方法,即圖?2?所示DRP?SLDA?模型框架中Encoder。
1.2.1?SLDA?主題模型
????????SLDA主題模型的概率圖模型如圖3所示。

支持集表示第
個(gè)樣本,
為
的標(biāo)簽。?其中
為樣本數(shù),
為類別數(shù),
為主題數(shù),
為第
個(gè)樣本的長(zhǎng)度。
表示第?
個(gè)樣本中第?
個(gè) 詞,
?表示分配給?
?的主題,
?為主題向量(
?為單詞數(shù))。
?為樣本
的主題概率分布,
為第
個(gè)主題的詞概率分布,
為第
個(gè)主題的類別 概率分布。
?、
和
服從Dirichlet分布,其先驗(yàn)參數(shù)為α、β、γ。獲得詞
的主題標(biāo)號(hào)
后,假設(shè)?
且所在樣本
的類標(biāo)簽
,通過(guò)統(tǒng)計(jì)頻次計(jì)算?
、
和?
,有
? ? ? ? ? ? ? (1)
? ? ? ? ?(2)
? ? ? ? ? ? ??(3)
式中:表示樣本
的詞分配給主題
的概率;
表示主題
分配給詞
的概率;
表示主題
屬于類別
的概率。
表示第
個(gè)樣本被賦予主題
的次數(shù);
表示詞
被賦予主題
的次數(shù);
表示類別
被賦予主題
的次數(shù)。
為主題
的Dirichlet先驗(yàn);
為詞
的Dirichlet先驗(yàn);
為類別
的Dirichlet先驗(yàn)。
。
1.2.2 基于SLDA 的編碼表示
????????小樣本學(xué)習(xí)因樣本匱乏難以較好學(xué)習(xí)詞特征,由于SLDA主題模型的和
識(shí)別詞匯與類別之間的精準(zhǔn)映射,基于SLDA的Encoder旨在從單詞?類別分布中增強(qiáng)特征表示學(xué)習(xí),如圖4所示。SLDA模型提取單詞在特定類分布特征,源集獲取單詞的通用性特征表示。通過(guò)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi?directional long short?term memory,BiLSTM)計(jì)算單詞權(quán)重,將 word2vec后的單詞加權(quán)求和獲得樣本特征表示。

? ? ?(4)

因B站最多允許100張圖片(包括公式),所以將本文拆成兩半。
