聲紋識(shí)別概要介紹
2021-01-03 22:50 作者:加勒比數(shù)學(xué)家 | 我要投稿

??? 嚴(yán)格意義來說,聲紋識(shí)別屬于語音識(shí)別領(lǐng)域,這個(gè)領(lǐng)域包括聲紋識(shí)別,語音辨識(shí),語音切割,語音轉(zhuǎn)文本,文本轉(zhuǎn)語音等。但一般也跟NLP聯(lián)合,應(yīng)用于智能語音交互機(jī)器人,多模態(tài)機(jī)器人上。
??? 聲紋識(shí)別技術(shù)路徑分為傳統(tǒng)的聲學(xué)模型和端到端的深度學(xué)習(xí)模型。
??? 傳統(tǒng)聲學(xué)模型:MFCC或fbank提取語音文件頻譜,在加上xvector+plda
??? 端到端深度學(xué)習(xí)模型:提取頻譜特征后,采用resnet,netvlad,softmax
??? 模型評(píng)價(jià):EER,一般作為聲紋識(shí)別的評(píng)價(jià)指標(biāo)。當(dāng)fa=fr時(shí),eer=E(fa)=E(fr)
??? 模型使用:多分類(辨識(shí)某人),二分類(確認(rèn)某人)。其中辨識(shí)某人是從若干人中識(shí)別出某個(gè)人。而確認(rèn)某人是指確認(rèn)該聲紋是不是屬于某人。
標(biāo)簽: