【語音識(shí)別】【李宏毅】2022年最火的深度學(xué)習(xí)內(nèi)容之一,不愧是全網(wǎng)最好的語音識(shí)別

語音識(shí)別:將語音序列轉(zhuǎn)換為文本

- 輸出部分
- phoneme :語音辨識(shí)中常用的token,是發(fā)音的基本單位,和音標(biāo)有點(diǎn)像但比音標(biāo)小。我i們需要用lexicon(字典)將phoneme組合轉(zhuǎn)換為對(duì)應(yīng)的字或者詞。過去深度學(xué)習(xí)沒有流行的時(shí)候,phoneme是一種常見的選擇,但是壞處是需要lexicon(需要大量研究某個(gè)語言才能總結(jié)出lexicon)

- grapheme:書寫的基本單位。在英文中可以是英文字母+空白+標(biāo)點(diǎn),中文可以是方塊字。grapheme不需要lexicon,所以如果沒有l(wèi)excion的話用grapheme做語音辨識(shí)比較方便。,只要拿到語音和文字就可以做語音辨識(shí)了。
- 輸入部分
標(biāo)簽: