融合主題模型和動態(tài)路由的小樣本學(xué)習(xí)方法 [下]

??? ? ? 提取源集中單詞通用性特征有
????????? ? ? (5)
式中:表示第
個樣本中的第
個詞;
為平滑系數(shù);
表示詞頻。
降低源集高頻詞的權(quán)重,獲得
在通用類中的重要性。則
表示為

1.3?DR?Proto網(wǎng)絡(luò)
????????基于SLDA的Encoder,提出動態(tài)路由原型網(wǎng)絡(luò)DR?Proto。利用支持集和查詢集的樣本語義交叉特征獲得原型,使分類邊界更清晰。DR?Proto網(wǎng)絡(luò)如圖5所示,

即圖2所示DRP?SLDA模型框架中的DR?Proto?network。圖5中,DR?Proto網(wǎng)絡(luò)提取支持集和查詢集的樣本交叉特征?,通過動態(tài)路由算法調(diào)整耦合系數(shù)
,更新樣本權(quán)重
,多次迭代獲得動態(tài)原型?
。通過特征共享變換將Encoder的
和
映射到同一空間,有
? ? ? (9)
? ? ? (10)
式中:為支持集類
的第
個樣本;
為查詢集第
個樣本;
為共享參數(shù)。通過特征映射使?
距 離 盡 可 能 近 ,
。
使向量
方向不變且大小取值范圍[0,1),即
? ? ? (11)
????????考慮支持集和查詢集滿足獨立同分布,通過提取交叉特征以利用文本語義關(guān)系,有
? ? ??(12)
式中:為元素積;
表示取絕對值。若
和
屬于同類,樣本間的距離近,則交叉特征多;否則,樣本間的距離遠(yuǎn),則交叉特征少。通過交叉特征
,使樣本特征相應(yīng)增強或弱化。
????????計算權(quán)重,獲得不同樣本對原型的重要性,即有
? ? ? (13)
式中耦合系數(shù)為先驗知識,
為動態(tài)路由迭代次數(shù)。每個樣本訓(xùn)練之前等概率影響原型,從而初始化
使
均勻分布。
????????根據(jù)權(quán)重計算每類的原型,有
? ? ? (14)
式中:為第
次迭代時類
第
個樣本的權(quán)重;
為每個類別的樣本個數(shù)。
為交叉特征計算如式 (12),得到類
的原型?
。
????????為了增大同類樣本相關(guān)性而降低不同類相關(guān)性,自上而下調(diào)整耦合系數(shù),有
? ? ? (15)
式中:若?屬于原型?
則增大耦合系數(shù),增強該樣本對原型的影響;若?
不屬于原型??
,?
則減小耦合系數(shù),使該樣本的影響邊緣化。
????????由融合動態(tài)路由算法的式(12~?15)可知,利用語義關(guān)聯(lián)的支持集和查詢集提取交叉特征,進(jìn)而采用權(quán)重機制獲得動態(tài)原型
。DR?Proto網(wǎng)絡(luò)通過為樣本特征賦予權(quán)重獲得動態(tài)原型,從而改進(jìn)均值原型有效提取類別特征。
1. 4 分類預(yù)測?
????????樣本與第
類原型的相似度計算采用歐氏距離,有
? ? ? (16)
????? ?對樣本的類別預(yù)測,有
? ? ? (17)
式中:表示樣本
與第
類原型的歐氏距離;
表示
預(yù)測為類別
的概率。
。
????????采用均方誤差損失(Mean squared error,MSE)優(yōu)化參數(shù),有
? ? ? (18)
式中:表示查詢集
的真實標(biāo)簽one?hot編碼值;
表示查詢集樣本數(shù)。
2 實驗分析
2.?1?實驗數(shù)據(jù)集
????????為驗證模型有效性,利用20newsgroup英文數(shù)據(jù)集、FewRel關(guān)系數(shù)據(jù)集和Sogou中文數(shù)據(jù)集,采樣支持集和查詢集,構(gòu)建C?way?K?shot分類任務(wù)進(jìn)行對比實驗,數(shù)據(jù)集描述如表1所示。

2.2?實驗結(jié)果及分析
2.2.1 對比實驗結(jié)果及分析
????????對比模型有:(1)Finetune:有監(jiān)督的線性微調(diào)分類器。(2)1?nearest neighbor classifier:有監(jiān)督的最近鄰分類器。(3)Prototypical network:每類支持集樣本的均值特征向量作為類原型的原型網(wǎng)絡(luò)。(4)MAML(Model?agnostic meta?learning):通過梯度求和優(yōu)化不同子任務(wù)初始化參數(shù)的元學(xué)習(xí)模型。(5)RR?D2_LR?D2:采用嶺回歸和邏輯回歸的元學(xué)習(xí)模型。(6)Distributional signatures:將詞匯特征映射成注意力分?jǐn)?shù)衡量文本表示,并使用嶺回歸器分類預(yù)測的元學(xué)習(xí)模型。
????????DRP?SLDA模型與上述6種模型在FewRel和20newsgroup數(shù)據(jù)集上的分類結(jié)果比較如表2所示。

????????由表2可知,相比有監(jiān)督學(xué)習(xí)的 Finetune模型和1?nearest neighbor模型,元學(xué)習(xí)的模型整體效果表現(xiàn)良好。Prototypical networks模型使用歐式距離度量映射空間內(nèi)查詢集與原型之間的距離預(yù)測分類;MAML模型放棄距離度量方式,通過在多個子任務(wù)中使用梯度下降法訓(xùn)練初始參數(shù),微調(diào)參數(shù)以計算不同子任務(wù)的損失快速收斂模型,其在FewRel數(shù)據(jù)集上的準(zhǔn)確率分別是 48.2%、65.8% 。然而,MAML模型缺乏針對各任務(wù)的分析。為此,RR?D2_LR?D2模型對不同任務(wù)生成先驗知識,以可微分回歸作為基分類器。Distributional signatures模型在 RR?D2_LR?D2模型的基礎(chǔ)上,將詞分布特征轉(zhuǎn)成注 意力分?jǐn)?shù),用嶺回歸分類預(yù)測,在兩種數(shù)據(jù)集上,兩種小樣本分類任務(wù)的準(zhǔn)確率都得以提高,如20newsgroup數(shù)據(jù)集上分別提高7.3%、4.0%。
????????DRP?SLDA模型對比模型(1~ 5)在20newsgroup數(shù)據(jù)集上準(zhǔn)確率提升10%~30%,表 明DRP?SLDA 模型引入源集是有效的,能從不同角度提取詞匯特征。DRP?SLDA 模型相較于 Distribu?tional signatures模型在 20newsgroup數(shù)據(jù)集上準(zhǔn)確率分別提高8.6% 、16.6% 。原因在于Distributional signatures模型僅考慮詞匯特征沒有考慮樣本權(quán)重對分類的影響,而 DRP?SLDA 模型利用 SLDA 模型增強詞分布特征且DR?Proto網(wǎng)絡(luò)為樣本賦予權(quán)重獲得動態(tài)原型。
2.2.2?DRP?SLDA 模型消融分析
????????消融方法簡介:(1)DRP?SLDA:本文提出的小樣本分類模型。(2)DRP?SLDA_NR:消融DRP?SLDA模型中源集在數(shù)據(jù)擴充上的影響。(3)DRP?SLDA_NS:消融DRP?SLDA模型中SLDA主題模型對詞分布特征的影響。(4)DRP?SLDA_ND:消融DRP?SLDA模型中交叉特征的影響。(5)DRP?SLDA_NDR:消融DRP?SLDA模型中源集數(shù)據(jù)擴充和交叉特征
的共同影響。(6)DRP?SLDA_NDS:消融DRP?SLDA模型中SLDA主題模型和交叉特征
的共同影響。



????????如圖6所示,在Sogou數(shù)據(jù)集上對于3?way1?shot分類任務(wù)各消融方法結(jié)果,可以看出:(1)DRP?SLDA對比DRP?SLDA_NR方法,各分類指標(biāo)提高0.39%、0.39%和0.40%,表明源集通用性特征表示的有效性,引入源集對模型有積極影響。(2)DRP?SLDA對比DRP?SLDA_NS方法,各分類指標(biāo)提升1.02%、0.57%和0.94%,表明利用SLDA模型能有效增強詞分布特征。(3)DRP?SLDA對比DRP?SLDA_ND方法,各分類指標(biāo)提升0.81%、0.95%和0.91%,表明利用支持集和查詢集樣本,能提取語義增強的交叉特征。
????????如圖7所示,在20newsgroup數(shù)據(jù)集上對于5?way5?shot任務(wù)各消融方法結(jié)果,可以看出:對比DRP?SLDA_NDR方法,DRP?SLDA方法各分類指標(biāo)降低3.06%、4.56%和4.40%;對比DRP?SLDA_NDS方法,DRP?SLDA方法各分類指標(biāo)降低3.86%、4.82%和4.68%。表明在沒有獲取樣本交叉特征時,SLDA模型提取的特定類詞匯特征有助于提升DRP?SLDA模型泛化性能,而源集通過擴充數(shù)據(jù)樣本提取詞匯通用性特征對模型效果微效。
????????圖8是對20newsgroup數(shù)據(jù)集的樣本分布PCA降維,將樣本映射到二維空間,可視化各消融方法的影響。圖8(a)中3個聚類分簇顯著,分類邊界明顯優(yōu)于其他方法,說明DRP?SLDA模型生成具有類別區(qū)分性的樣本表示。

2.?2.?3?動態(tài)路由算法的有效性分析
????????為了驗證DR?Proto網(wǎng)絡(luò)中動態(tài)路由算法對DRP?SLDA模型分類效果的影響,在FewRel數(shù)據(jù)集上進(jìn)行5?way實驗,動態(tài)路由算法的隨不同迭代次數(shù)的可視化如圖9所示,展示在FewRel數(shù)據(jù)集上提取樣本交叉特征可視化結(jié)果。由圖可知,隨著迭代次數(shù)的增加,模型的分類邊界清晰。表明DRP?SLDA模型通過動態(tài)路由算法的多次迭代,能夠有效提取樣本交叉特征,動態(tài)獲得使類別邊界更清晰的原型。綜上所述,所提出的DRP?SLDA模型能有效增強小樣本文本分類的特征表示,提升原型的類別辨識力。

3 結(jié)束語
????????本文提出一種基于SLDA和動態(tài)路由的原型網(wǎng)絡(luò)模型DRP?SLDA,利用SLDA模型獲得詞匯?類別的語義映射增強詞的分布特征,結(jié)合動態(tài)路由算法更新樣本權(quán)重為不同樣本賦予權(quán)重獲得動態(tài)原型,從而有效提升模型的泛化性能。在多個數(shù)據(jù)集上的對比實驗表明了DRP?SLDA模型的有效性。下一步將對多標(biāo)簽小樣本元學(xué)習(xí)方法展開研究。