最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試(序)

2023-02-28 18:20 作者:ai筆記菌  | 我要投稿

????????NaturalSpeech是微微軟亞洲研究院和微軟 Azure 語(yǔ)音團(tuán)隊(duì)推出的關(guān)于文本生成語(yǔ)音?Text to speech (TTS)的AI合成語(yǔ)音模型。據(jù)說(shuō)在 CMOS 測(cè)試中首次達(dá)到了真人說(shuō)話水準(zhǔn)。

????????這篇文章是UP嘗試復(fù)現(xiàn)論文是所記錄的筆記,希望能夠幫助其他對(duì)TTS感興趣的同學(xué),如果有錯(cuò)誤或不足之處。希望能有大佬在評(píng)論區(qū)指正。閑話就不往下說(shuō)了,開(kāi)始讀論文。

????????跳過(guò)論文中的介紹和其他的一些無(wú)關(guān)內(nèi)容。重點(diǎn)在于模型圖

圖1:NaturalSpeech 系統(tǒng)概覽

看似簡(jiǎn)單,實(shí)際上相當(dāng)復(fù)雜。將它與VITS比較,可以看出,兩者都用了條件變分自編碼器(Variational AutoEncoder,VAE),將高維語(yǔ)音 x 壓縮為幀級(jí)表示 z/ q(z|x))。


圖2:vits 系統(tǒng)概覽

VAE之后,NaturalSpeech接了一個(gè)雙向的先驗(yàn)/后驗(yàn)的flow(沒(méi)錯(cuò)它也用了flow),所以除了一些細(xì)節(jié)上的不同,NaturalSpeech和Vits的框架大差不差,都是VAE+Flow+GAN的模式,而VITS是開(kāi)源的,這就降低了復(fù)現(xiàn)NaturalSpeech的難度。

關(guān)于NaturalSpeech模型的論文解讀以及復(fù)現(xiàn)嘗試(序)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
钟山县| 黎城县| 北川| 蚌埠市| 郯城县| 响水县| 昌黎县| 彰化县| 上林县| 乌拉特前旗| 绥芬河市| 衢州市| 新营市| 太谷县| 华容县| 报价| 渑池县| 龙胜| 宁津县| 泸水县| 丽水市| 佳木斯市| 江都市| 利川市| 林州市| 英山县| 岑溪市| 读书| 右玉县| 隆昌县| 阿坝| 陵川县| 称多县| 韩城市| 临沧市| 青川县| 邵阳县| 淅川县| 兴海县| 黑水县| 沂源县|