語音合成:基礎(chǔ)與前沿
第一章:語音合成綜述(謝磊)
????1.???? 語音合成的定義、歷史及應(yīng)用
????2.???? 基本的語音合成系統(tǒng)構(gòu)成
????3.???? 語音合成中的關(guān)鍵技術(shù)及評價標準
????4.???? 語音合成的資源
????5.???? 課程介紹
語音合成是人機語音交互的出口,其效果直接影響到交互體驗。作為課程的開篇章節(jié),這一部分將概述語音合成的定義、基本的語音合成系統(tǒng)組成、發(fā)展歷程、主流的框架和關(guān)鍵的技術(shù)等,同時介紹一些可用的語音合成資源,最后對本課程的授課內(nèi)容和實踐內(nèi)容進行一個全面介紹。
第二章:語音合成中的前端文本分析(陳云琳)
????1.???? 文本分析基礎(chǔ)知識
????2.???? 文本分析的模塊構(gòu)成與方法
????3.???? 基于CRF的前端文本析模型
????4.???? 基于NN的前端文本分析模型
????5.???? 實踐
????????a.???? 基于CRF的分詞
????????b.???? 基于ngram/rnnlm的g2p多音字模型
前端文本分析是語音合成中不可或缺的一步,它負責(zé)對文本進行正則化,同時抽取文本中的發(fā)音、語法、韻律等信息用以語音合成中的聲學(xué)和時長模型建模。本章首先介紹文本分析的基礎(chǔ)知識,然后梳理文本分析的各個模塊和常用處理方法,最后重點講解基于CRF和NN的注音、分詞和韻律預(yù)測模型。
第三章:傳統(tǒng)語音合成算法(陳云琳)
????1.???? 傳統(tǒng)語音合成概述
????2.???? 基于HMM的統(tǒng)計參數(shù)語音合成
????3.???? 語音合成中的時長建模
????4.???? 基于NN的統(tǒng)計參數(shù)語音合成
????5.???? 傳統(tǒng)聲碼器技術(shù)
????6.???? 單元拼接語音合成
????7.???? 實踐
????????a.???? World vocoder提取與合成
????????b.???? 基于LSTM/GRU的聲學(xué)與時長模型
基于隱馬爾科夫模型(Hidden Markov Model,HMM)的語音合成技術(shù)是在深度學(xué)習(xí)興起前最主流的系統(tǒng)。本章課程首先介紹HMM語音合成方法,包括基于決策樹聚類、高斯混合模型(Gaussian mixture model,GMM)、時長建模等,而后重點講解如何使用不依賴決策樹的神經(jīng)網(wǎng)絡(luò)替代GMM來構(gòu)建基于NN的語音合成系統(tǒng),最后介紹傳統(tǒng)的基于數(shù)字信號處理的聲碼器技術(shù)以及單元拼接合成方法。
第四章:基于序列到序列的語音合成(陽珊)
????1.???? Sequence-to-sequence 和 attention機制
????2.???? 基于Tacotron的端到端語音合成
????3.???? 端到端語音合成的變體(一)
????4.???? 實踐
????????a.???? 實現(xiàn)基于Tacotron的聲學(xué)模型
序列到序列(seq2seq)的語音合成方法將傳統(tǒng)語音合成中的時長模型和聲學(xué)模型整合到一個統(tǒng)一的框架下進行建模,簡化了語音合成系統(tǒng)的搭建流程,同時可以使用較為精簡的文本特征作為輸入,此類技術(shù)又稱為端到端語音技術(shù)(end-to-end TTS)。本章首先介紹序列到序列的語音合成的動機和基于attention的序列到序列算法,然后講解語音合成中被廣泛應(yīng)用的序列到序列模型—Tacotron,最后介紹序列到序列模型的各種變體。
第五章:端到端語音合成進階(陽珊)
????1.???? 端到端語音合成變體(二)
????2.???? Attention機制探索
????3.???? FastSpeech和DurIAN
????4.???? 實踐
????????a.???? 實現(xiàn)基于LSA的attention機制的語音合成
????????b.???? 實現(xiàn)基于其他多種attention機制的語音合成(選做)
雖然序列到序列框架簡化了語音合成的流程,但同時也存在一些穩(wěn)定性問題。本章將深入講解序列到序列模型中更適合語音任務(wù)的attention機制及其應(yīng)用,然后探討結(jié)合了顯式時長指導(dǎo)的FastSpeech和DurIAN框架。
第六章:神經(jīng)聲碼器(張雨超)
????1. 概述
????2. 基于normalizing flow的神經(jīng)聲碼器:WaveNet, WaveRNN, LPCNet, WaveGlow
????3. 基于GAN的神經(jīng)聲碼器:Parallel WaveGAN,MelGAN
????4. 實踐
????????a. 實現(xiàn)基于Mel特征的WaveRNN
????????b. 聲學(xué)模型與神經(jīng)聲碼器的對接
基于數(shù)字信號處理聲碼器的語音合成經(jīng)常存在機械音等問題,音質(zhì)欠佳。神經(jīng)網(wǎng)絡(luò)應(yīng)用于聲碼器之后,音質(zhì)獲得了極大的提升。本章主要講解基于神經(jīng)網(wǎng)絡(luò)的多種高質(zhì)量神經(jīng)聲碼器(neural vocoder)。首先介紹基于WaveNet的聲碼器,然后探討結(jié)合數(shù)字信號處理和神經(jīng)網(wǎng)絡(luò)的WaveRNN和LPCNet聲碼器及其相關(guān)變體,最后介紹基于Flow和GAN的神經(jīng)聲碼器。
第七章:語音合成的高階應(yīng)用(張雨超)
????1.???? 風(fēng)格化語音合成:GST,VAE
????2.???? 多說話人建模和說話人自適應(yīng)技術(shù)
????3.???? 實踐
????????a. 個性化聲音制作
人類語音是富有表現(xiàn)力的,這對語音合成技術(shù)提出了更高的要求,為此本章重點講解風(fēng)格化語音合成技術(shù),包括在端到端框架下基于GST和VAE的風(fēng)格化建模方法。此外,在實際應(yīng)用中,我們往往需要對多個說話人進行統(tǒng)一建模,同時利用少量的目標說話人進行模型自適應(yīng)建模。本章將同時講解多說話人建模和說話人自適應(yīng)技術(shù)。最后本章將介紹語音轉(zhuǎn)換(voice conversion)技術(shù)。
第八章:總結(jié)展望(謝磊)
????1.???? 課程回顧
????2.???? 語音合成的挑戰(zhàn)
????3.???? 語音合成前沿展望
在本課程的最后章節(jié),我們回顧整個課程的知識、梳理總結(jié)語音合成的相關(guān)技術(shù),并討論語音合成面臨的挑戰(zhàn)以及對未來趨勢的展望。