散文網(wǎng) » 生活 »日常 » 關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試（序）

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試（序）

2023-02-28 18:20 作者:ai筆記菌 0人讀過(guò) | 我要投稿

????????NaturalSpeech是微微軟亞洲研究院和微軟 Azure 語(yǔ)音團(tuán)隊(duì)推出的關(guān)于文本生成語(yǔ)音?Text to speech (TTS)的AI合成語(yǔ)音模型。據(jù)說(shuō)在 CMOS 測(cè)試中首次達(dá)到了真人說(shuō)話水準(zhǔn)。

????????這篇文章是UP嘗試復(fù)現(xiàn)論文是所記錄的筆記，希望能夠幫助其他對(duì)TTS感興趣的同學(xué)，如果有錯(cuò)誤或不足之處。希望能有大佬在評(píng)論區(qū)指正。閑話就不往下說(shuō)了，開(kāi)始讀論文。

????????跳過(guò)論文中的介紹和其他的一些無(wú)關(guān)內(nèi)容。重點(diǎn)在于模型圖

看似簡(jiǎn)單，實(shí)際上相當(dāng)復(fù)雜。將它與VITS比較，可以看出，兩者都用了條件變分自編碼器（Variational AutoEncoder，VAE），將高維語(yǔ)音 x 壓縮為幀級(jí)表示 z/ q(z|x))。

VAE之后，NaturalSpeech接了一個(gè)雙向的先驗(yàn)/后驗(yàn)的flow（沒(méi)錯(cuò)它也用了flow），所以除了一些細(xì)節(jié)上的不同，NaturalSpeech和Vits的框架大差不差，都是VAE+Flow+GAN的模式，而VITS是開(kāi)源的，這就降低了復(fù)現(xiàn)NaturalSpeech的難度。

標(biāo)簽：

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試（序）的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試（序）

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試（序）的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試（序）

本文作者的其他文章

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試（序）的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試（序）的評(píng)論 (共條)