聲紋識別模型匯聚層很重要嗎
2021-01-04 21:48 作者:加勒比數(shù)學(xué)家 | 我要投稿
??? 端到端聲紋識別模型在骨干層backbone后會接入?yún)R聚層,進(jìn)一步抽象特征。因此匯聚層采用怎樣的方式直接影響到特征抽取和模型訓(xùn)練迭代及性能。因此,匯聚層使用怎么樣網(wǎng)絡(luò)結(jié)構(gòu)是非常重要的。
???? 一般匯聚層會采用average pooling(TAP),或者 netvlad/ghostvlad。average pooling是平均池化,對骨干層輸出的每一幀特征向量加起來求平均(即所有幀的平均向量)。
???? netvlad和ghostvlad是另一種匯聚層的網(wǎng)絡(luò)結(jié)構(gòu)。通過確定匯聚點(diǎn)k(k是超參,k值事先設(shè)定)和殘匯聚點(diǎn)k' ,將幀特征向量映射到匯聚層的匯聚點(diǎn)。
????? 從實(shí)際效果看,netvlad和ghostvlad效果更好,使得模型指標(biāo)acc,eer值有顯著提升。TAP網(wǎng)絡(luò)結(jié)構(gòu)僅僅將幀向量平均化的池化方式提取特征,在抽取幀特征的同時,并沒有突出幀與幀之間特征重要度,從而不能很好的學(xué)習(xí)特征,故對模型分類任務(wù)的指標(biāo)不如netvlad。反觀,netvlad,特征映射可以通過特征權(quán)重體現(xiàn)差異化、重要性。
????ghostvlad效果更佳,通過設(shè)置殘匯聚點(diǎn)k' , 預(yù)留了不起作用的特征匯聚點(diǎn), 更接近實(shí)際。
標(biāo)簽: