最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

語音合成:基礎(chǔ)與前沿

2020-08-26 15:14 作者:深藍學(xué)院  | 我要投稿

第一章:語音合成綜述(謝磊)

????1.???? 語音合成的定義、歷史及應(yīng)用

????2.???? 基本的語音合成系統(tǒng)構(gòu)成

????3.???? 語音合成中的關(guān)鍵技術(shù)及評價標準

????4.???? 語音合成的資源

????5.???? 課程介紹

語音合成是人機語音交互的出口,其效果直接影響到交互體驗。作為課程的開篇章節(jié),這一部分將概述語音合成的定義、基本的語音合成系統(tǒng)組成、發(fā)展歷程、主流的框架和關(guān)鍵的技術(shù)等,同時介紹一些可用的語音合成資源,最后對本課程的授課內(nèi)容和實踐內(nèi)容進行一個全面介紹。

第二章:語音合成中的前端文本分析(陳云琳)

????1.???? 文本分析基礎(chǔ)知識

????2.???? 文本分析的模塊構(gòu)成與方法

????3.???? 基于CRF的前端文本析模型

????4.???? 基于NN的前端文本分析模型

????5.???? 實踐

????????a.???? 基于CRF的分詞

????????b.???? 基于ngram/rnnlm的g2p多音字模型

前端文本分析是語音合成中不可或缺的一步,它負責(zé)對文本進行正則化,同時抽取文本中的發(fā)音、語法、韻律等信息用以語音合成中的聲學(xué)和時長模型建模。本章首先介紹文本分析的基礎(chǔ)知識,然后梳理文本分析的各個模塊和常用處理方法,最后重點講解基于CRF和NN的注音、分詞和韻律預(yù)測模型。

第三章:傳統(tǒng)語音合成算法(陳云琳)

????1.???? 傳統(tǒng)語音合成概述

????2.???? 基于HMM的統(tǒng)計參數(shù)語音合成

????3.???? 語音合成中的時長建模

????4.???? 基于NN的統(tǒng)計參數(shù)語音合成

????5.???? 傳統(tǒng)聲碼器技術(shù)

????6.???? 單元拼接語音合成

????7.???? 實踐

????????a.???? World vocoder提取與合成

????????b.???? 基于LSTM/GRU的聲學(xué)與時長模型

基于隱馬爾科夫模型(Hidden Markov Model,HMM)的語音合成技術(shù)是在深度學(xué)習(xí)興起前最主流的系統(tǒng)。本章課程首先介紹HMM語音合成方法,包括基于決策樹聚類、高斯混合模型(Gaussian mixture model,GMM)、時長建模等,而后重點講解如何使用不依賴決策樹的神經(jīng)網(wǎng)絡(luò)替代GMM來構(gòu)建基于NN的語音合成系統(tǒng),最后介紹傳統(tǒng)的基于數(shù)字信號處理的聲碼器技術(shù)以及單元拼接合成方法。

第四章:基于序列到序列的語音合成(陽珊)

????1.???? Sequence-to-sequence 和 attention機制

????2.???? 基于Tacotron的端到端語音合成

????3.???? 端到端語音合成的變體(一)

????4.???? 實踐

????????a.???? 實現(xiàn)基于Tacotron的聲學(xué)模型

序列到序列(seq2seq)的語音合成方法將傳統(tǒng)語音合成中的時長模型和聲學(xué)模型整合到一個統(tǒng)一的框架下進行建模,簡化了語音合成系統(tǒng)的搭建流程,同時可以使用較為精簡的文本特征作為輸入,此類技術(shù)又稱為端到端語音技術(shù)(end-to-end TTS)。本章首先介紹序列到序列的語音合成的動機和基于attention的序列到序列算法,然后講解語音合成中被廣泛應(yīng)用的序列到序列模型—Tacotron,最后介紹序列到序列模型的各種變體。

第五章:端到端語音合成進階(陽珊)

????1.???? 端到端語音合成變體(二)

????2.???? Attention機制探索

????3.???? FastSpeech和DurIAN

????4.???? 實踐

????????a.???? 實現(xiàn)基于LSA的attention機制的語音合成

????????b.???? 實現(xiàn)基于其他多種attention機制的語音合成(選做)

雖然序列到序列框架簡化了語音合成的流程,但同時也存在一些穩(wěn)定性問題。本章將深入講解序列到序列模型中更適合語音任務(wù)的attention機制及其應(yīng)用,然后探討結(jié)合了顯式時長指導(dǎo)的FastSpeech和DurIAN框架。

第六章:神經(jīng)聲碼器(張雨超)

????1. 概述

????2. 基于normalizing flow的神經(jīng)聲碼器:WaveNet, WaveRNN, LPCNet, WaveGlow

????3. 基于GAN的神經(jīng)聲碼器:Parallel WaveGAN,MelGAN

????4. 實踐

????????a. 實現(xiàn)基于Mel特征的WaveRNN

????????b. 聲學(xué)模型與神經(jīng)聲碼器的對接

基于數(shù)字信號處理聲碼器的語音合成經(jīng)常存在機械音等問題,音質(zhì)欠佳。神經(jīng)網(wǎng)絡(luò)應(yīng)用于聲碼器之后,音質(zhì)獲得了極大的提升。本章主要講解基于神經(jīng)網(wǎng)絡(luò)的多種高質(zhì)量神經(jīng)聲碼器(neural vocoder)。首先介紹基于WaveNet的聲碼器,然后探討結(jié)合數(shù)字信號處理和神經(jīng)網(wǎng)絡(luò)的WaveRNN和LPCNet聲碼器及其相關(guān)變體,最后介紹基于Flow和GAN的神經(jīng)聲碼器。

第七章:語音合成的高階應(yīng)用(張雨超)

????1.???? 風(fēng)格化語音合成:GST,VAE

????2.???? 多說話人建模和說話人自適應(yīng)技術(shù)

????3.???? 實踐

????????a. 個性化聲音制作

人類語音是富有表現(xiàn)力的,這對語音合成技術(shù)提出了更高的要求,為此本章重點講解風(fēng)格化語音合成技術(shù),包括在端到端框架下基于GST和VAE的風(fēng)格化建模方法。此外,在實際應(yīng)用中,我們往往需要對多個說話人進行統(tǒng)一建模,同時利用少量的目標說話人進行模型自適應(yīng)建模。本章將同時講解多說話人建模和說話人自適應(yīng)技術(shù)。最后本章將介紹語音轉(zhuǎn)換(voice conversion)技術(shù)。

第八章:總結(jié)展望(謝磊)

????1.???? 課程回顧

????2.???? 語音合成的挑戰(zhàn)

????3.???? 語音合成前沿展望

在本課程的最后章節(jié),我們回顧整個課程的知識、梳理總結(jié)語音合成的相關(guān)技術(shù),并討論語音合成面臨的挑戰(zhàn)以及對未來趨勢的展望。

語音合成:基礎(chǔ)與前沿的評論 (共 條)

分享到微博請遵守國家法律
文登市| 中卫市| 虹口区| 门源| 大渡口区| 兴安县| 望江县| 白玉县| 遂宁市| 诏安县| 彰化县| 安丘市| 黄冈市| 山丹县| 长岛县| 抚松县| 临朐县| 东台市| 平舆县| 保德县| 修文县| 大宁县| 大化| 淮北市| 德化县| 贺兰县| 偃师市| 华池县| 营口市| 大庆市| 康乐县| 丽江市| 兴业县| 桐城市| 江西省| 商丘市| 黑龙江省| 孝昌县| 庆云县| 突泉县| 山阳县|