語音之家HI-MIA喚醒詞識(shí)別實(shí)戰(zhàn)
AI工匠
語音喚醒主流方法
keyword spotting分為補(bǔ)白模型與基于樣例的兩個(gè)主要方法
補(bǔ)白模型(Filler Models)
補(bǔ)白模型有時(shí)也被稱為垃圾模型,它將Keyword Spotting問題考慮為一個(gè)逐幀的序列標(biāo)注問題。關(guān)鍵詞定為不同的標(biāo)注,而一個(gè)額外的“補(bǔ)白”標(biāo)注用來匹配所有非關(guān)鍵詞。
基于隱馬爾可夫模型的補(bǔ)白模型最早用于Keyword Spotting。它對(duì)每一個(gè)關(guān)鍵詞建立一個(gè)隱馬爾可夫模型,對(duì)非關(guān)鍵詞額外建立一個(gè)隱馬爾可夫模型,觀測(cè)概率通過混合高斯或神經(jīng)網(wǎng)絡(luò)建模。直接針對(duì)關(guān)鍵詞建模在數(shù)據(jù)稀疏的問題。目前流行的隱馬爾可夫模型則采用子詞單元,如音素,進(jìn)行建模。這種情況下,它與基于HMM混合模型的語音識(shí)別中的聲學(xué)模型就十分類似了,只是解碼圖是手工設(shè)計(jì)的文法,而不是基于統(tǒng)計(jì)語言模型生成的。亞馬遜Alexa語音助手所用的Keyword Spotting系統(tǒng)就是基于這一類方法的,它的隱馬爾可夫模型示意圖如下圖所示:

另一種基于神經(jīng)網(wǎng)絡(luò)分類的方法就更加直接了,如下圖所示,連續(xù)語音流逐段地送入神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。類別為所有的關(guān)鍵詞,和一個(gè)額外的填充類別(Filler),比如有10個(gè)關(guān)鍵詞,就有11類。

分類完成后,由于輸出的概率可能出現(xiàn)“毛刺”,所以進(jìn)行平滑后處理,之后如果某一個(gè)類別概率超過一個(gè)閾值,就認(rèn)為某一個(gè)關(guān)鍵詞唄檢測(cè)到了。這種方法內(nèi)存占用小,不需要解碼搜索,準(zhǔn)確率高。但是由于需要準(zhǔn)備大量包含關(guān)鍵詞的語料,如果更換了關(guān)鍵詞,則需要再另行搜集一批語料,所以也較難實(shí)際使用。相比之下,基于隱馬爾可夫模型的Keyword Spotting由于是針對(duì)子詞單元建模,語料用通用的就可以,所以更常用。