語音之家聲紋識別與音頻處理
識別類型
1. 按應(yīng)用場景分類
一對一:身份確認(rèn),即在知道是某人身份的情況下,判斷音頻是不是此人的聲音。例如在銀行app,當(dāng)前已經(jīng)登錄賬戶,在進(jìn)行轉(zhuǎn)賬或其它操作時(shí),需要判斷是否本人在操作,這時(shí)候就可以通過一對一場景下的聲紋識別,判斷是不是登錄的賬號本人。
一對多:身份辨認(rèn),在一個(gè)注冊了很多聲紋用戶組中,根據(jù)音頻判斷是其中的哪個(gè)人的聲音。比如很多人用微信注冊了聲紋,然后用聲紋鎖登錄時(shí),需要判斷在所有已注冊聲紋的用戶中,音頻對應(yīng)的是其中哪個(gè)人,在很多的注冊用戶中,找到音頻對應(yīng)的聲音身份。
多對多(聲紋聚類):在一些雜亂的音頻中,找出特征相似(某個(gè)人)的所有音頻,則可以通過音頻之間的對比,把相似的音頻歸為一類,從而選出特征相似(同一個(gè)人)所有音頻。
2. 按音頻內(nèi)容分類
文本相關(guān):文本相關(guān)指的是說出規(guī)定的短句(一般為4到6個(gè)字的短句),用于聲紋識別。例如在智能音箱喚醒的時(shí)候,可以根據(jù)音色判斷喚醒人的身份 ,如果是小孩子喚醒則可以開啟兒童模式,如果是未提前注冊的則不能進(jìn)行喚醒音箱。
文本半相關(guān)(隨機(jī)數(shù)字串):指的是隨機(jī)的6位或8位數(shù)字串,這是一種配合式的聲紋識別模式,需要讀出app或者其它客戶端生成的6位或8位數(shù)字串,也可以結(jié)合語音識別技術(shù)(ASR)判斷讀的數(shù)字串是否正確。目前文本半相關(guān)的聲紋識別模式在生活中接觸到的最多,許多銀行類的APP,以及微信和支付寶聲紋識別都采用的這種方式,方便讀、識別率也高。所以很多APP上的聲紋識別身份認(rèn)證一般都采用一對一的隨機(jī)數(shù)字串。