語音之家asv-subtools 聲紋識別實戰(zhàn)
識別類型
1. 按應(yīng)用場景分類
一對一:身份確認(rèn),即在知道是某人身份的情況下,判斷音頻是不是此人的聲音。例如在銀行app,當(dāng)前已經(jīng)登錄賬戶,在進行轉(zhuǎn)賬或其它操作時,需要判斷是否本人在操作,這時候就可以通過一對一場景下的聲紋識別,判斷是不是登錄的賬號本人。
一對多:身份辨認(rèn),在一個注冊了很多聲紋用戶組中,根據(jù)音頻判斷是其中的哪個人的聲音。比如很多人用微信注冊了聲紋,然后用聲紋鎖登錄時,需要判斷在所有已注冊聲紋的用戶中,音頻對應(yīng)的是其中哪個人,在很多的注冊用戶中,找到音頻對應(yīng)的聲音身份。
多對多(聲紋聚類):在一些雜亂的音頻中,找出特征相似(某個人)的所有音頻,則可以通過音頻之間的對比,把相似的音頻歸為一類,從而選出特征相似(同一個人)所有音頻。
2. 按音頻內(nèi)容分類
文本相關(guān):文本相關(guān)指的是說出規(guī)定的短句(一般為4到6個字的短句),用于聲紋識別。例如在智能音箱喚醒的時候,可以根據(jù)音色判斷喚醒人的身份 ,如果是小孩子喚醒則可以開啟兒童模式,如果是未提前注冊的則不能進行喚醒音箱。
文本半相關(guān)(隨機數(shù)字串):指的是隨機的6位或8位數(shù)字串,這是一種配合式的聲紋識別模式,需要讀出app或者其它客戶端生成的6位或8位數(shù)字串,也可以結(jié)合語音識別技術(shù)(ASR)判斷讀的數(shù)字串是否正確。目前文本半相關(guān)的聲紋識別模式在生活中接觸到的最多,許多銀行類的APP,以及微信和支付寶聲紋識別都采用的這種方式,方便讀、識別率也高。所以很多APP上的聲紋識別身份認(rèn)證一般都采用一對一的隨機數(shù)字串。
文本無關(guān):指的是沒有文本規(guī)定,沒有語言限制,只需要有某人的聲音,就可以進行聲紋識別,有一種場景是需要知道某段音頻說話人的身份,但是音頻是隨機說的一些內(nèi)容,需要對這些音頻進行聲紋識別,這種就是文本無關(guān)的識別方式。像警方的需求就比較多一些,因為警方可以拿到很多案件中關(guān)鍵性的音頻,需要判斷音頻人的身份。以及在電話端的無感知聲紋識別,不管電話里在說什么內(nèi)容,都可以進行識別,判斷對方的身份。