關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試(序)
????????NaturalSpeech是微微軟亞洲研究院和微軟 Azure 語(yǔ)音團(tuán)隊(duì)推出的關(guān)于文本生成語(yǔ)音?Text to speech (TTS)的AI合成語(yǔ)音模型。據(jù)說(shuō)在 CMOS 測(cè)試中首次達(dá)到了真人說(shuō)話水準(zhǔn)。

????????這篇文章是UP嘗試復(fù)現(xiàn)論文是所記錄的筆記,希望能夠幫助其他對(duì)TTS感興趣的同學(xué),如果有錯(cuò)誤或不足之處。希望能有大佬在評(píng)論區(qū)指正。閑話就不往下說(shuō)了,開(kāi)始讀論文。
????????跳過(guò)論文中的介紹和其他的一些無(wú)關(guān)內(nèi)容。重點(diǎn)在于模型圖

看似簡(jiǎn)單,實(shí)際上相當(dāng)復(fù)雜。將它與VITS比較,可以看出,兩者都用了條件變分自編碼器(Variational AutoEncoder,VAE),將高維語(yǔ)音 x 壓縮為幀級(jí)表示 z/ q(z|x))。

圖2:vits 系統(tǒng)概覽
VAE之后,NaturalSpeech接了一個(gè)雙向的先驗(yàn)/后驗(yàn)的flow(沒(méi)錯(cuò)它也用了flow),所以除了一些細(xì)節(jié)上的不同,NaturalSpeech和Vits的框架大差不差,都是VAE+Flow+GAN的模式,而VITS是開(kāi)源的,這就降低了復(fù)現(xiàn)NaturalSpeech的難度。
標(biāo)簽: