從華智冰演唱出發(fā)的歌聲合成技術(shù)綜述（殘廢）

2023-01-31 10:20 作者:從冥古宙走來(lái) 0人讀過(guò) | 我要投稿

最后改于 2021.11.26

摘要：清華AI學(xué)生華智冰

關(guān)鍵字：華智冰歌聲合成技術(shù) 波形拼接法隱馬爾科夫模型深度神經(jīng)網(wǎng)絡(luò) X Studio

The research of song synthesis technology starting from Hua Zhibing's singing

0?? 引言

2021年6月，由質(zhì)譜·AI、智源和小冰聯(lián)合研發(fā)的中國(guó)首個(gè)原創(chuàng)虛擬學(xué)生——華智冰入學(xué)清華。6月8日，擁有虛擬歌手功能的華智冰在bilibili平臺(tái)上發(fā)布了她的首支單曲《六月不是離別》。虛擬歌手最先以動(dòng)漫形象在日本得到巨大反響，緊接著，國(guó)內(nèi)各公司也相繼推出自己的虛擬歌手和歌聲合成軟件。近年來(lái)，歌聲合成技術(shù)迅速發(fā)展，歌聲合成軟件層出不窮，如今最先進(jìn)的歌聲合成技術(shù)基于人工智能算法，其實(shí)例就是華智冰的歌聲合成。但由于歌聲合成發(fā)展歷史較短，具有實(shí)用性的歌聲合成軟件基本都是這20年內(nèi)推出，所以該領(lǐng)域中缺乏總結(jié)性的研究。由于虛擬歌手都是依托于歌聲合成軟件而存在，所以本文重點(diǎn)研究歌聲合成相關(guān)技術(shù)發(fā)展和如今歌聲合成軟件的情況，還以華智冰為對(duì)象，探究其歌聲合成方式。

1?? 歌聲合成有關(guān)技術(shù)發(fā)展歷程

1.1???? 樂(lè)音合成技術(shù)

本文研究的歌聲合成（Singing Voice Synthesis，SVS）技術(shù)是利用已有的歌詞文本和樂(lè)譜合成歌聲。歌聲合成技術(shù)的發(fā)展建立在語(yǔ)音合成技術(shù)之上，而此二者都可以追溯到樂(lè)音合成技術(shù)，樂(lè)音合成相關(guān)原理和技術(shù)發(fā)展使歌聲合成技術(shù)的出現(xiàn)成為可能。樂(lè)音合成技術(shù)的發(fā)展可以歸納為以電子模擬合成方法、數(shù)字模擬合成方法、采樣合成方法、物理建模合成方法[1]以及人工智能方法為代表的五個(gè)階段。

1.1.1???? 電子模擬合成階段

最早聲音記錄設(shè)備——聲波記錄儀于1857年出現(xiàn)，這可以被視為電子音樂(lè)發(fā)展起點(diǎn)。在1876年，工程師耶里夏·葛雷（Elisha Gray）發(fā)表了電子機(jī)械震蕩器專(zhuān)利。以此為基礎(chǔ)，湯瑪斯·阿爾瓦·愛(ài)迪生（Thomas Alva Edison）發(fā)明出留聲機(jī)。在20世紀(jì)初期，李·德富雷斯特（Lee de Forest）發(fā)明出三級(jí)真空管，讓電路制造并且放大音樂(lè)訊號(hào)成為可能。緊接著，美國(guó)人克希爾率先運(yùn)用電振蕩的原理來(lái)制造新型樂(lè)器[2]，拉開(kāi)電子樂(lè)器出現(xiàn)的序幕。

從1920年開(kāi)始，隨著第一個(gè)現(xiàn)實(shí)意義上的電子樂(lè)器以太發(fā)聲器(Etherophone)的出現(xiàn)，大量電子樂(lè)器陸續(xù)涌現(xiàn)。但作曲家真正運(yùn)用樂(lè)音合成技術(shù)是在二十世紀(jì)五十年代之后——在這個(gè)時(shí)期，誕生了大型的電子樂(lè)器合成器。

在電子模擬合成階段，電子樂(lè)器采用的是模擬電子合成器，通過(guò)控制振蕩器實(shí)現(xiàn)聲音生成。模擬電子合成器又分為兩類(lèi)：減法合成器和加法合成器。減法合成器以復(fù)雜波形為樣本，濾除其中一些頻率來(lái)生成目標(biāo)波形；加法合成器則更為復(fù)雜，它從樣本波形出發(fā)，加入不同頻率的泛音來(lái)獲得不同音色。

電子模擬合成和數(shù)字模擬合成之間轉(zhuǎn)變的重要過(guò)渡是混合合成（Hybrid Synthesis），混合合成不是完全的模擬或者數(shù)字合成。馬丁·羅斯提出一種混合合成器的分類(lèi)方法，將其分為數(shù)字控制模擬合成參數(shù)、數(shù)字控制振蕩器、擁有模擬調(diào)節(jié)器的數(shù)字振蕩器三類(lèi) [3]。

1.1.2???? 數(shù)字模擬合成階段

與模擬電子合成器控制振蕩器生成音樂(lè)的原理不同，數(shù)字音樂(lè)合成器使用數(shù)字聲音合成技術(shù)生成波形并轉(zhuǎn)換為聲音信息。數(shù)字模擬合成使用的重要組件是數(shù)字信號(hào)處理器（DSP）和中央處理器（CPU），數(shù)字信號(hào)處理器模擬電子模擬合成階段的振蕩器和濾波器的效果，結(jié)合中央處理器對(duì)信號(hào)進(jìn)行處理運(yùn)算獲得合成聲音。

二十世紀(jì)八十年代，集成電路技術(shù)快速發(fā)展，隨著芯片和微處理器的出現(xiàn)，數(shù)字合成器登上舞臺(tái)。新型的數(shù)字合成器突破了樂(lè)音合成的瓶頸，也讓計(jì)算機(jī)合成音樂(lè)技術(shù)進(jìn)入迅速發(fā)展的階段。

數(shù)字模擬合成方法與電子模擬合成方法類(lèi)似之處在于“減法合成法”、“加法合成法”都是其常用方法，此外，其常用的合成方法還有頻率調(diào)制合成法（Frequency Modulation Synthesis）。相比于加減法合成樂(lè)音，頻率調(diào)制法的原理和現(xiàn)象更復(fù)雜。頻率調(diào)制和合成法最先由John Chowning在其論文中闡述[4]，頻率調(diào)制法使用至少兩個(gè)振蕩器，一個(gè)產(chǎn)生原始波形——載波，另外一個(gè)產(chǎn)生調(diào)制波，然后利用產(chǎn)生的調(diào)制波改變載波頻率來(lái)合成新的聲音。隨著調(diào)制波的增加，諧波的數(shù)量也會(huì)隨之增加，當(dāng)配備多個(gè)調(diào)制波振蕩器時(shí)，就能對(duì)諧波進(jìn)行精細(xì)的調(diào)整。原則上，頻率調(diào)制合成方法能夠合成任意聲音信號(hào)[5]。

1.1.3???? 采樣合成（Sample Modulation Synthesis）階段

在二十世紀(jì)九十年代出現(xiàn)的采樣合成法又可以被稱(chēng)為波表合成(Wavetable Synthesis）法或者采樣回放合成（Sample Playback Synthesis）法。在此之前出現(xiàn)的加、減法合成，頻率調(diào)制合成都是以簡(jiǎn)單波形作為原始聲源，而采樣合成是先采集一段真實(shí)樂(lè)器的音頻存儲(chǔ)在固定位置作為聲源，等到使用時(shí)從存儲(chǔ)的波表中尋找對(duì)應(yīng)段利用算法對(duì)其音量、音高、截止頻率等參數(shù)進(jìn)行調(diào)制，以合成所需的聲音[6]。采樣合成與頻率調(diào)制合成的最大區(qū)別就在于采樣合成利用的是真實(shí)的聲音樣本，而不是簡(jiǎn)單的波形調(diào)制模仿，也正是由于這點(diǎn)，采樣合成出來(lái)的音樂(lè)更加真實(shí)，更接近自然樂(lè)器演奏時(shí)的效果。

1.1.4???? 物理建模合成階段

在二十世紀(jì)七十年代初就已經(jīng)出現(xiàn)了物理建模合成的概念，但物理建模這個(gè)概念實(shí)際進(jìn)入應(yīng)用領(lǐng)域是在七十年代末期。物理建模合成技術(shù)的初始技術(shù)是斯坦福大學(xué)的凱文·卡普斯（Kevin Karplus）和亞歷山大·斯特朗（Alexander Strong）在研究模擬撥弦和敲弦產(chǎn)生聲音時(shí)偶然發(fā)現(xiàn)的，他們將其研究稱(chēng)為數(shù)字合成（Digital Synthesis）。同時(shí)，他們提出了一個(gè)模擬撥弦樂(lè)器的算法——Karplus-Strong算法。Karplus-Strong算法的原理非常簡(jiǎn)單，可以被歸納為隨機(jī)生成白噪聲與計(jì)算當(dāng)前采樣點(diǎn)和上一采樣點(diǎn)的平均值這兩步。通過(guò)不斷計(jì)算當(dāng)前采樣點(diǎn)和上一采樣點(diǎn)的平均值，Karplus-Strong算法使產(chǎn)生的聲音發(fā)生動(dòng)態(tài)變化：聲音的高頻成分會(huì)持續(xù)衰減，而其余部分同時(shí)發(fā)生著微小的變化，這使得通過(guò)算法獲得的聲音非常真實(shí)。[7]雖然他們研究的數(shù)字合成技術(shù)仍然歸屬于減法合成的范疇，但他們意識(shí)到這個(gè)算法本質(zhì)上是在模仿振動(dòng)弦產(chǎn)生聲音的物理行為，并且通過(guò)修改算法中一些參數(shù)，能夠模擬改變弦的物理特征，進(jìn)而改變發(fā)聲的效果[8]。

后續(xù)斯坦福大學(xué)研究人員深入研究Karplus-Strong算法后，最終在其基礎(chǔ)上發(fā)展出了數(shù)字波導(dǎo)合成技術(shù)（Digital Waveguide Synthesis），并在1989年與雅馬哈簽署了開(kāi)發(fā)技術(shù)的協(xié)議。數(shù)字波導(dǎo)是聲波傳播物理過(guò)程的有效計(jì)算模型，也構(gòu)成了現(xiàn)代物理建模合成器的主要部分。其基本原理是理解樂(lè)器發(fā)聲過(guò)程，用公式描述其振動(dòng)發(fā)聲的數(shù)學(xué)模型，再將模型整合為樂(lè)器的聲音函數(shù)，從而真正地“制造聲音”。

數(shù)字波導(dǎo)合成技術(shù)從實(shí)驗(yàn)室進(jìn)入商業(yè)生產(chǎn)的標(biāo)志性成果是1994年Yamaha公司發(fā)布的VL1合成器（圖1-1），它具有49鍵鍵盤(pán)、2種聲音，其音響引擎基于物理建模合成技術(shù)。

1.1.5???? 人工智能合成階段

隨著計(jì)算機(jī)技術(shù)和人工智能的發(fā)展，研究者們逐漸使用人工智能算法進(jìn)行音樂(lè)合成。由于此類(lèi)樂(lè)音合成技術(shù)都利用音樂(lè)序列數(shù)據(jù)的特征進(jìn)行訓(xùn)練，再根據(jù)模型生成樂(lè)音輸出，所以本文將其歸納為人工智能合成階段。

人工智能合成階段的早期使用的是淺層結(jié)構(gòu)的合成算法，比如遺傳算法[9]、隱馬爾科夫模型(Hidden Markov Model, HMM)、基于樹(shù)模型（Tree-based Models）和深度信念網(wǎng)絡(luò)(Deep Belief Network, DBN)[10]。其中Frank Drewes和Johanna H¨ogberg在基于樹(shù)模型的基礎(chǔ)上提出了利用代數(shù)以完全基于樹(shù)的方式生成音樂(lè)[11]。該方法由正則樹(shù)文法或者電子鍵盤(pán)產(chǎn)生輸入，經(jīng)過(guò)一系列由音樂(lè)代數(shù)產(chǎn)生的樹(shù)轉(zhuǎn)換器的處理最后產(chǎn)生音樂(lè)。另外，將音樂(lè)作為訓(xùn)練數(shù)據(jù)，通過(guò)馬爾科夫鏈或者隱馬爾科夫模型計(jì)算樂(lè)音合成的相關(guān)參數(shù)的HMM方法同樣可以合成樂(lè)音[13]。

在二十世紀(jì)八十年代中后期，最早的利用神經(jīng)網(wǎng)絡(luò)生成音樂(lè)的作品開(kāi)始出現(xiàn)[14]。隨著深度學(xué)習(xí)模型在數(shù)據(jù)處理，計(jì)算機(jī)視覺(jué)領(lǐng)域迅速發(fā)展，研究者逐漸開(kāi)始利用多種深度學(xué)習(xí)方式對(duì)音樂(lè)進(jìn)行合成，并取得了不錯(cuò)的效果。近年來(lái)應(yīng)用廣泛的神經(jīng)網(wǎng)絡(luò)架構(gòu)有循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent?neural?network，RNN）、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks，GAN)、Transformers模型以及變分自編碼器（Variational Autocoder，VAE）[15]。

RNN是一種短期記憶網(wǎng)絡(luò)，考慮一系列輸入輸出關(guān)系，不僅接受其他層的信息，而且還接受本身的信息，并形成環(huán)形網(wǎng)絡(luò)。傳統(tǒng)的RNN由于存在無(wú)法獲取更高層次語(yǔ)義信息并且不能解決長(zhǎng)程依賴(lài)問(wèn)題[16]，所以不能將模型訓(xùn)練到最優(yōu)?，F(xiàn)在一般將RNN與其他算法結(jié)合使用[17]，或者使用由RNN改進(jìn)產(chǎn)生的模型，比如常用的長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）[18]。

GAN包含生成模型和判別模型，利用兩種模型之間的博弈，生成樂(lè)音合成的最優(yōu)結(jié)果。由其生成樂(lè)音的步驟如圖1-2所示。于2017年提出的MidiNet[19]是應(yīng)用GAN生成音樂(lè)的最早模型之一，它由Generator CNN，Discriminator CNN和Conditioner CNN組成。其中Conditioner CNN的作用是接收前面小節(jié)的信息輸入，再將其輸出信息作為Generator CNN的額外控制輸入。

（來(lái)自《MUSIC COMPOSITION WITH DEEP LEARNING: A REVIEW》）

Google在2017年提出Transformers模型，之后該結(jié)構(gòu)就被廣泛應(yīng)用于自然語(yǔ)言處理(Natural Language Processing，NLP)的各個(gè)領(lǐng)域中。Transformers以編碼器-譯碼器體系架構(gòu)為基礎(chǔ)，其中每個(gè)編、譯碼器層都包含自注意力層（self-attention）和前饋層，在譯碼器的兩個(gè)子層之間還有注意力層[20]。Vaswani 等研究者還在Transformers模型基礎(chǔ)上進(jìn)行改進(jìn)，完成了音樂(lè)的創(chuàng)作[21]。他們?cè)趯?duì)幾種樂(lè)音合成方法對(duì)比測(cè)試后發(fā)現(xiàn)：改良后的模型更具有真實(shí)性。

VAE是從自編碼器（AE）改良而來(lái)，由編碼器和譯碼器構(gòu)成。其基本原理是通過(guò)訓(xùn)練將輸入數(shù)據(jù)轉(zhuǎn)化為編碼數(shù)據(jù)，再由譯碼器接收編碼數(shù)據(jù)，并由其重構(gòu)出原始的輸入。自編碼器利用數(shù)值描述不同的潛在空間，而VAE則是使用概率進(jìn)行描述。VAE的應(yīng)用之一是谷歌在2018年推出的MusicVAE模型，它能用于混合和探索音樂(lè)得分[22]。

1.2???? 語(yǔ)音合成(Speech Synthesis)技術(shù)

語(yǔ)音合成技術(shù)是指以模擬人聲為目的，利用機(jī)械、電子或數(shù)字化裝置合成語(yǔ)音的技術(shù)。語(yǔ)音合成經(jīng)歷了機(jī)械式、電子式和數(shù)字合成三個(gè)發(fā)展階段。

1.2.1???? 機(jī)械式合成階段

語(yǔ)音合成技術(shù)的起源可以追溯到十八、十九世紀(jì)[23]。1779年, Christian Kratzenstein[24]利用蘆葦管作為源、不同共振器作為濾波器制造出與人類(lèi)聲道類(lèi)似，能發(fā)出5個(gè)長(zhǎng)元音的裝置（圖1-2）。但由于其制作出的共振器形狀是由實(shí)驗(yàn)獲得，因此未受到應(yīng)有的重視。這種情況一直持續(xù)到2006年，由Christian Korpiun重新證明克拉贊斯坦工作的意義。1791年，沃爾夫?qū)ゑT·肯柏林(Wolfgang von Kempelen)發(fā)布了他制作的“說(shuō)話(huà)機(jī)器”，該機(jī)器用風(fēng)箱模擬肺部、用簧片模擬聲帶、用皮管模擬聲道，還模擬出舌頭和嘴唇。通過(guò)控制機(jī)器的“舌頭”和“嘴唇”，創(chuàng)作者可以讓機(jī)器發(fā)出單個(gè)聲音或聲音組合[25]。在十九世紀(jì)中葉，查爾斯·惠特斯通(Charles Wheatstone)對(duì)之前版本進(jìn)行改進(jìn)，使新版的機(jī)器（圖1-3）能夠發(fā)出元音和大部分輔音。

圖1-4 Wheatstone改進(jìn)后的“說(shuō)話(huà)機(jī)器”

1.2.2???? 電子式合成階段

從十九世紀(jì)末、二十世紀(jì)初發(fā)展起來(lái)的電子技術(shù)極大地推動(dòng)了語(yǔ)音合成技術(shù)的發(fā)展，當(dāng)時(shí)的電子技術(shù)不僅使電子音樂(lè)合成器得以誕生，還被用于語(yǔ)音合成技術(shù)研究。

盡管很多人認(rèn)為，在1939年，由貝爾實(shí)驗(yàn)室的荷馬·達(dá)德利(Homer Dudley)發(fā)明的電子發(fā)聲器——VODER (Voice Operating Demonstrator)是第一個(gè)通過(guò)電子手段合成人聲的裝置，但在1922年，斯圖爾特（Stewart）已經(jīng)在其論文中介紹了最早的全電子合成設(shè)備[26]。斯圖爾特的合成裝置含有一個(gè)作為激勵(lì)的蜂鳴器和兩個(gè)用來(lái)模擬聲道的聲學(xué)共振電路。第一個(gè)被認(rèn)為是語(yǔ)音合成器的設(shè)備是VODER（圖1-4），它的靈感來(lái)自于三十年代中期由貝爾實(shí)驗(yàn)室開(kāi)發(fā)的VOCEDER聲碼器。

1.2.3???? 數(shù)字式合成階段

在對(duì)聲音的研究過(guò)程中，研究者發(fā)現(xiàn)聲音頻譜中能量集中的區(qū)域的變化能夠改變音色，創(chuàng)造出共振峰合成 (Formant Synthesis) 的方法以模擬發(fā)聲。其中共振峰的參數(shù)可以對(duì)應(yīng)聲道的參數(shù)，因此利用共振峰原理建立的模型能夠較為精準(zhǔn)地模擬聲道，合成較為真實(shí)的語(yǔ)音。第一個(gè)共振峰合成器由三個(gè)并聯(lián)的電子諧振器組成，是Walter Lawrence在1953年提出[27]。由此開(kāi)始，語(yǔ)音合成技術(shù)逐漸進(jìn)入由共振峰合成技術(shù)主導(dǎo)的階段。同時(shí)，隨著計(jì)算機(jī)技術(shù)的快速發(fā)展，語(yǔ)音合成技術(shù)也逐漸步入數(shù)字合成的階段，這使得共振峰合成技術(shù)得以與計(jì)算機(jī)技術(shù)融合，以數(shù)字化方式呈現(xiàn)。

在利用共振峰合成技術(shù)進(jìn)行語(yǔ)音合成的實(shí)踐過(guò)程中，人們也發(fā)現(xiàn)了這項(xiàng)技術(shù)的一些缺點(diǎn)，比如共振峰模型不能表示出語(yǔ)音中很多細(xì)節(jié)、模擬聲道的不準(zhǔn)確性影響語(yǔ)音合成的質(zhì)量以及合成器組成復(fù)雜等[28]。因此，研究者又創(chuàng)造出波形拼接（Concatenative Synthesis）技術(shù)。

波形拼接和共振峰合成等技術(shù)有著本質(zhì)上的不同：它是將事先錄制好的語(yǔ)音單元拆分為合適的合成單元并建立語(yǔ)音庫(kù)，在合成時(shí)選取語(yǔ)音庫(kù)中適合的合成單元進(jìn)行分析處理和拼接而形成完整的語(yǔ)音。在八十年代末提出的基音同步疊加 (Pitch Synchronous Overlap and Add，PSOLA)算法很好地解決了語(yǔ)音拼接合成中出現(xiàn)的一些問(wèn)題，是波形拼接法中最常見(jiàn)的算法[29]。該算法的基本步驟可以被概括為：① 基音同步分析。② 對(duì)原始語(yǔ)音處理得到的短時(shí)信號(hào)進(jìn)行基于時(shí)域、頻域或線(xiàn)性預(yù)測(cè)的變換，得到短時(shí)合成信號(hào)。③ 將短時(shí)合成信號(hào)疊加合成為語(yǔ)音 [30]。已有的PSOLA算法可以被分為3種：時(shí)域基音同步疊加（TD-PSOLA）、頻域基音同步疊加（FD-PSOLA）以及線(xiàn)性預(yù)測(cè)基音同步疊加（LP-PSOLA）算法[31]。通過(guò)PSOLA算法合成后的聲音能夠保持其原始的主要音段特征，又能擁有高清晰度和自然度，讓語(yǔ)音合成質(zhì)量得到很大的提高。

雖然波形拼接法能夠合成真實(shí)度很高的語(yǔ)音，但制作其語(yǔ)音庫(kù)的過(guò)程較為繁瑣，需要消耗極大的人力、物力。所以在二十世紀(jì)末期，研究者們將目光轉(zhuǎn)向了可訓(xùn)練的語(yǔ)音合成(Trainable TTS)技術(shù)。其基本原理是獲取從語(yǔ)音庫(kù)取出的語(yǔ)音單元的特征參數(shù)，再對(duì)提取出的參數(shù)進(jìn)行建模，通過(guò)算法對(duì)參數(shù)或者模型進(jìn)行訓(xùn)練，利用結(jié)果構(gòu)建語(yǔ)音合成系統(tǒng)[32,33]。在可訓(xùn)練的語(yǔ)音合成技術(shù)中，使用得最多的是HMM。該模型能夠自動(dòng)構(gòu)建新的合成系統(tǒng)（圖1-5），對(duì)不同語(yǔ)音具有普適性，但由于其生成的語(yǔ)音是根據(jù)預(yù)測(cè)的聲學(xué)特征合成的，所以相較于正常聲音音質(zhì)較差，清晰度也存在缺憾。

（來(lái)自《基于隱馬爾科夫模型的語(yǔ)音合成技術(shù)研究》吳義堅(jiān)??）

隨著人工智能技術(shù)迅猛發(fā)展，深度學(xué)習(xí)逐漸被應(yīng)用到語(yǔ)音合成領(lǐng)域，深度學(xué)習(xí)網(wǎng)絡(luò)（DNN）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）等深度學(xué)習(xí)模型都得到了成功的實(shí)踐。深度學(xué)習(xí)構(gòu)建多個(gè)隱含層，利用大量數(shù)據(jù)來(lái)學(xué)習(xí)聲音中有用的特征，還建立文本特征和聲學(xué)特征之間的映射關(guān)系，最終實(shí)現(xiàn)語(yǔ)音的預(yù)測(cè)與合成[34]。深度學(xué)習(xí)中常用訓(xùn)練好的DNN對(duì)輸入的文本進(jìn)行聲學(xué)參數(shù)的預(yù)測(cè)，其具體流程如圖1-6所示。

（來(lái)自《語(yǔ)音合成方法和發(fā)展綜述》張斌）

近年來(lái)為實(shí)現(xiàn)高質(zhì)量的語(yǔ)音合成而使用的深度學(xué)習(xí)方法包括WaveNet、Deep Voice、Tacotron、VoiceLoop等[35]。WaveNet利用卷積神經(jīng)網(wǎng)絡(luò)，通過(guò)自回歸的方式預(yù)測(cè)與合成波形；Deep Voice 方法里面，語(yǔ)音合成的各個(gè)模塊中都融入了深度學(xué)習(xí)；Tacotron是一種端到端的語(yǔ)音合成方式，包括編碼器、解碼器和后處理網(wǎng)絡(luò)，采用輸入文本到特征矢量，再由特征矢量還原為語(yǔ)音波形的合成方法[36]；VoiceLoop構(gòu)建緩沖區(qū)短時(shí)間地存儲(chǔ)語(yǔ)音，這樣的緩沖區(qū)用于估計(jì)注意力、計(jì)算輸出語(yǔ)音以及更新緩沖區(qū)本身內(nèi)容。其結(jié)構(gòu)也變得更加簡(jiǎn)單[37]。

1.3???? 歌聲合成技術(shù)

在唱歌過(guò)程中產(chǎn)生的絕大多數(shù)聲音(大約90%)都是發(fā)聲的，而語(yǔ)音中則包含更多的不發(fā)聲的聲音(英語(yǔ)中大約60%發(fā)聲、40%不發(fā)聲)[38]；唱歌時(shí)音域往往較寬，高音會(huì)突破語(yǔ)音的音域范圍，需要使用假聲；歌聲中還常常要求使用混聲，以實(shí)現(xiàn)高低音的統(tǒng)一；除此之外，不同的發(fā)聲技巧會(huì)產(chǎn)生不同的歌聲效果。這些都使得普通的語(yǔ)音合成模型不能直接就轉(zhuǎn)變?yōu)楦杪暫铣赡Ｐ?。歌聲合成技術(shù)的發(fā)展建立在樂(lè)音合成技術(shù)和語(yǔ)音合成技術(shù)發(fā)展的基礎(chǔ)之上，更著重于控制音高、節(jié)奏和歌曲的旋律等方面。為在歌聲中融入情感表達(dá)，顫音也是歌聲合成中的重點(diǎn)研究?jī)?nèi)容。因此，歌聲合成技術(shù)比樂(lè)音合成以及語(yǔ)音合成技術(shù)發(fā)展歷史更短，技術(shù)實(shí)現(xiàn)更加復(fù)雜。

歌聲合成的有關(guān)實(shí)驗(yàn)可以追溯到二十世紀(jì)五十年代，貝爾實(shí)驗(yàn)室當(dāng)時(shí)發(fā)明了很多能夠唱歌的語(yǔ)音合成系統(tǒng)，其中之一是由Kelly和Lochbaum在1962年描述的聲管模型（Acoustic Tube Model）。接著Max Mathews與他們一起研究了一些早期的歌聲合成技術(shù)[39]38-46。

在語(yǔ)音合成技術(shù)發(fā)展過(guò)程中出現(xiàn)的VOCODER語(yǔ)音合成器[40]和線(xiàn)性預(yù)測(cè)編碼（Linear Predictive Coding，LPC）也被運(yùn)用到歌聲合成中[41,42]。在VOCEDER中，通過(guò)調(diào)整子頻段的參數(shù)能夠改變聲音的音高、音長(zhǎng)或者頻譜形狀，因此能夠簡(jiǎn)單地模擬歌聲。LPC的基本原理是建立模擬發(fā)聲器官的模型，根據(jù)之前的樣本預(yù)測(cè)接下來(lái)的信號(hào)并進(jìn)行參數(shù)調(diào)節(jié)，從而合成聲音。

隨著樂(lè)音技術(shù)中頻率調(diào)制合成（FM）技術(shù)的發(fā)展成熟，研究者們也嘗試將其應(yīng)用到歌聲合成技術(shù)中并獲得了一定的成果[39]40。作為聲道模型中的一種，共振峰波函數(shù)（Formant Wave Function，F(xiàn)OF）是可以直接計(jì)算信號(hào)波形振幅的時(shí)域函數(shù)。FOF具有計(jì)算快速簡(jiǎn)便、建模時(shí)不需要將激勵(lì)函數(shù)和濾波過(guò)程拆開(kāi)的優(yōu)點(diǎn)，這極大地推動(dòng)了FOF的發(fā)展[29]。如同共振峰聲碼器，F(xiàn)OF難以識(shí)別和表征共振峰，其參數(shù)估計(jì)較難。因此，F(xiàn)OF主要用于歌聲合成方面[44]，其中一個(gè)實(shí)例就是由Xavier Rodet等人開(kāi)發(fā)的CHANT系統(tǒng)[45]。

在1986年，McAulay和Quatieri提出正弦語(yǔ)音模型（Sinusoidal Speech Modeling）用于語(yǔ)音合成。其基本原理是：將語(yǔ)音信號(hào)描述為激勵(lì)信號(hào)通過(guò)線(xiàn)性時(shí)變?yōu)V波器的輸出，過(guò)程中使用峰值拾取算法（Peak-picking Algorithm），由短時(shí)傅里葉變換（Short-time Fourier Transform）得到分量正弦波的頻率、相位和振幅，并利用正弦波的產(chǎn)生和消失跟蹤高分辨率分量的快速變化后進(jìn)行平滑處理[46]。研究者們繼續(xù)拓展McAulay和Quatieri的研究發(fā)現(xiàn)：該模型能夠分離出和聲、時(shí)間和音調(diào)，進(jìn)行音高等參數(shù)的調(diào)整，并且能夠得到精確的合成結(jié)果[47]。正弦語(yǔ)音模型由此能夠在歌聲合成技術(shù)領(lǐng)域得到應(yīng)用。

以上基于參數(shù)合成的歌聲合成技術(shù)雖然能夠生成很好的歌聲，但這些合成技術(shù)所需采集的參數(shù)個(gè)數(shù)較多，計(jì)算過(guò)程比較繁瑣復(fù)雜，所以研究者們將目光投向波形拼接技術(shù)，希望波形拼接技術(shù)能夠提高合成歌聲的真實(shí)性和質(zhì)量。

歌聲合成中的波形拼接技術(shù)基本原理和語(yǔ)音合成中的相似，也是從已有的語(yǔ)音庫(kù)中挑選并調(diào)節(jié)語(yǔ)音單元，再進(jìn)行拼接合成。由于合成出的歌聲源于錄制好的真實(shí)語(yǔ)音，波形拼接技術(shù)合成出來(lái)的歌聲更具有真實(shí)性。1997年推出的LYRICOS系統(tǒng)應(yīng)用正弦模型，允許用戶(hù)指定樂(lè)譜和歌詞，以及如顫音和頻譜傾斜等其他所需的音樂(lè)參數(shù)。在收到包含各項(xiàng)參數(shù)指令的MIDI文件后，LYRICOS系統(tǒng)選擇語(yǔ)音單元表現(xiàn)分段語(yǔ)音特征以及協(xié)同發(fā)音效果，然后使用正弦模型修改指定的語(yǔ)音特征，最后輸出拼接合成后的歌聲[48]。語(yǔ)音合成技術(shù)中的基音同步疊加（PSOLA）和波形相似性疊加（WSOLA）技術(shù)也有應(yīng)用于歌聲合成的過(guò)程中，如今國(guó)內(nèi)一項(xiàng)目組正在開(kāi)發(fā)的Infinity Studio歌聲合成軟件就是基于PSOLA技術(shù)。 2008年，J. Bonada介紹了一種寬帶諧波正弦建模（Wide-Band Harmonic Sinusoidal Modeling，WBHSM）技術(shù)，該技術(shù)能夠在寬帶條件下估計(jì)并變換諧波分量，獲得的聲音質(zhì)量能夠媲美PSOLA方法合成的結(jié)果[49]。對(duì)這項(xiàng)技術(shù)進(jìn)行深入研究后，J. Bonada又提出了一種利用WBHSM算法，通過(guò)拼接從聲庫(kù)中獲取的短波形單元以合成歌聲的單元選擇方法[50]。

雖然波形拼接技術(shù)在歌聲合成領(lǐng)域應(yīng)用廣泛，并且保存了歌聲的原始特征，但波形拼接技術(shù)不能保證各個(gè)單元都能順利拼接，也需要大容量的歌聲語(yǔ)料庫(kù)，以覆蓋各種歌聲數(shù)據(jù)，這導(dǎo)致了制作語(yǔ)料庫(kù)的過(guò)程復(fù)雜，成本高昂。因此，基于統(tǒng)計(jì)參數(shù)的歌聲合成技術(shù)開(kāi)始受到重視，而其中最具有代表性的是基于HMM的歌聲合成技術(shù)。其步驟可以分為訓(xùn)練和合成兩個(gè)部分。在訓(xùn)練部分，對(duì)聲庫(kù)中的歌聲提取聲學(xué)相關(guān)特征，再將參數(shù)輸入HMM進(jìn)行訓(xùn)練獲得模型；在合成部分，將輸入的歌詞文本通過(guò)訓(xùn)練好的模型生成合成所需的聲學(xué)特征，最后聲碼器利用預(yù)測(cè)獲得的聲學(xué)特征合成歌聲[51]。具體流程如圖1-7所示。

（https://zhuanlan.zhihu.com/p/144724789）

HMM將聲庫(kù)中的原始語(yǔ)音轉(zhuǎn)換為統(tǒng)計(jì)信息再進(jìn)行合成的方法免不了使合成后的歌聲變得模糊，同時(shí)還存在過(guò)度平滑致使真實(shí)度下降的問(wèn)題。為解決這類(lèi)問(wèn)題，近年來(lái)的歌聲合成技術(shù)逐漸引入深度學(xué)習(xí)算法。在2016年左右，研究者們注意到DNN作為參數(shù)合成的聲學(xué)模型應(yīng)用效果非常好，大量研究表明使用DNN比使用HMM合成有更加優(yōu)異的性能[52]?，F(xiàn)在的歌聲合成（Singing Voice Synthesis,SVS）系統(tǒng)已經(jīng)在使用的深度神經(jīng)網(wǎng)絡(luò)包括帶有長(zhǎng)短期記憶功能的遞歸神經(jīng)網(wǎng)絡(luò)（RNNs）[53]、卷積神經(jīng)網(wǎng)絡(luò)（CNNs）[54]、GANs[55]和深度自回歸模型（Deep Autoregressive Models）[56]2593等。融入深度學(xué)習(xí)的SVS系統(tǒng)需要在給定有歌詞的樂(lè)譜的情況下準(zhǔn)確合成歌聲，因此，研究者近年來(lái)提出了數(shù)據(jù)增強(qiáng)（Data Augmentation）和音高歸一化（Pitch Normalization）等方法用于生成音高的基頻[57]。從PixelCNN模型演變而來(lái)的WaveNet深度神經(jīng)網(wǎng)絡(luò)在2016年被提出，是一個(gè)完全的概率自回歸模型，其預(yù)測(cè)音頻樣本的概率分布方法是基于已經(jīng)生成的所有樣本[58]。一種對(duì)WaveNet改進(jìn)后的歌聲合成模型不再采用對(duì)原始波形進(jìn)行建模的方式，而是對(duì)能夠?qū)⒁舾吆鸵羯蛛x的參數(shù)聲碼器生成的特征進(jìn)行建模。它所需的訓(xùn)練數(shù)據(jù)和訓(xùn)練時(shí)間較少，并能方便地修改音高和生成旋律[59]。由WaveNet發(fā)展而來(lái)的還有WaveGlow和WaveRNN，它們也都被應(yīng)用于SVS模型中[60]。其中基于流的WaveGlow不需要自回歸過(guò)程，以單網(wǎng)絡(luò)，單損失函數(shù)進(jìn)行訓(xùn)練。相比于自回歸模型，它可以使用GPU和TPU進(jìn)行加速運(yùn)算；相比于非自回歸模型，它訓(xùn)練過(guò)程簡(jiǎn)單、易于實(shí)現(xiàn)[61]。WaveRNN由Google提出，應(yīng)用多種技術(shù)不僅簡(jiǎn)化了WaveNet模型，還能使合成速度和質(zhì)量?jī)?yōu)于WaveNet[62]。

歌聲合成與語(yǔ)音合成的一個(gè)重要區(qū)別是顫音的生成，顫音不被包含在樂(lè)譜信息中，但為追求歌聲合成的真實(shí)性，需要根據(jù)上下文改變顫音的強(qiáng)度。YuanHao Yi團(tuán)隊(duì)提出的深度自回歸模型應(yīng)用于中文語(yǔ)料庫(kù)能夠有效地生成顫音[56]2593，2596。與這種模擬基頻的波動(dòng)不同，Yukiya Hono團(tuán)隊(duì)推出的Sinsy系統(tǒng)將顫音與基頻部分分離并變換成正弦參數(shù)進(jìn)行研究[63]。

由于波形拼接合成或者使用人工智能方法合成歌聲都需要大型的聲庫(kù)，獲取完整的聲庫(kù)成本高昂，限制了歌聲合成的研究和應(yīng)用。為降低成本，快速構(gòu)建低廉的數(shù)據(jù)庫(kù)，Yi Ren等人開(kāi)發(fā)出多語(yǔ)言多歌手SVS系統(tǒng)——DeepSinger[64]。該系統(tǒng)先使用網(wǎng)絡(luò)爬蟲(chóng)獲取線(xiàn)上的歌曲數(shù)據(jù)，再分離歌曲中的歌聲和伴奏，在獲取時(shí)長(zhǎng)信息后篩選數(shù)據(jù)進(jìn)行訓(xùn)練。

（來(lái)自《DeepSinger: Singing Voice Synthesis with Data Mined From the Web》）

1.4????? 歌聲語(yǔ)料庫(kù)構(gòu)建標(biāo)注技術(shù)

注：以下都是參考資料，現(xiàn)在沒(méi)有時(shí)間學(xué)習(xí)后寫(xiě)論文，先列舉。

https://zhuanlan.zhihu.com/p/20103646?from_voters_page=true

不論何種技術(shù)路線(xiàn)，都需要語(yǔ)音數(shù)據(jù)的儲(chǔ)備。如何錄制盡量少的數(shù)據(jù)來(lái)覆蓋盡量多的語(yǔ)境組合，涉及到語(yǔ)料庫(kù)設(shè)計(jì)(Corpus Design)的問(wèn)題；

語(yǔ)料庫(kù)錄制好以后，為了能夠選取樣本進(jìn)行拼接，或者訓(xùn)練一個(gè)統(tǒng)計(jì)參數(shù)模型，必須實(shí)現(xiàn)標(biāo)注好語(yǔ)料庫(kù)里每個(gè)音素的起始和結(jié)束時(shí)間。這個(gè)問(wèn)題叫做自動(dòng)語(yǔ)音分段(Automatic Speech Segmentation)或文語(yǔ)對(duì)齊(Text-to-Speech Alignment)；

直接以波形存儲(chǔ)的語(yǔ)音數(shù)據(jù)并不適合音高和時(shí)長(zhǎng)修改，因此需要將語(yǔ)音轉(zhuǎn)換成某種中間參數(shù)的形式，對(duì)中間參數(shù)進(jìn)行變換后，再轉(zhuǎn)換回波形數(shù)據(jù)。這稱(chēng)作分析-合成(Analysis-Synthesis)，應(yīng)用這種分析-合成技術(shù)對(duì)語(yǔ)音進(jìn)行編碼和解碼的裝置叫聲碼器(Vocoder)；

也有不需要轉(zhuǎn)換中間參數(shù)直接對(duì)語(yǔ)音進(jìn)行音高、時(shí)長(zhǎng)修改的方法，廣義上就是語(yǔ)音時(shí)長(zhǎng)/音高修改(關(guān)鍵字：Speech Duration/Pitch Modification)；

許多語(yǔ)音修改算法或分析算法需要事先知道語(yǔ)音的基頻曲線(xiàn)，這就涉及到基頻提取(Fundamental Frequency Estimation/F0 Estimation)。許多基頻提取算法不僅適用于語(yǔ)音，也適用于其它音頻信號(hào)例如各種樂(lè)器；

如何從文本/曲譜生成出各個(gè)音節(jié)音素的時(shí)長(zhǎng)和基頻的變化曲線(xiàn)，即韻律生成/建模(Prosody Generation/Modelling)，在歌聲合成方面主要集中于基頻曲線(xiàn)生成(F0 Contour Generation)。研究這一課題往往會(huì)用到機(jī)器學(xué)習(xí)手段；

如何將文本轉(zhuǎn)換成一串音標(biāo)或分割成一串音節(jié)、如何把語(yǔ)音中的阿拉伯?dāng)?shù)字、日期、貨幣符號(hào)等等轉(zhuǎn)換成單詞的形式、如何判斷重音(Stress)的位置……這一系列我們一般劃入語(yǔ)音合成前端(Front End)的工作，稱(chēng)作文本分析(Textual Analysis)。一般用到自然語(yǔ)言處理等機(jī)器學(xué)習(xí)手段(這里面水很深)；

語(yǔ)音轉(zhuǎn)換(Voice Conversion)：把一個(gè)人說(shuō)話(huà)的聲音轉(zhuǎn)換成另一個(gè)人說(shuō)話(huà)的聲音，有時(shí)還包括說(shuō)話(huà)風(fēng)格(比如語(yǔ)調(diào)、停頓)的轉(zhuǎn)換。在統(tǒng)計(jì)參數(shù)合成的框架里這一般被稱(chēng)作Speaker Adaption。

廣義上整個(gè)語(yǔ)音合成系統(tǒng)的設(shè)計(jì)。無(wú)論拼接合成還是統(tǒng)計(jì)參數(shù)語(yǔ)音合成，往往都是若干技術(shù)的組合(從上面提到的語(yǔ)料庫(kù)設(shè)計(jì)到文本分析到分析-合成到基元選擇算法等等)。選擇哪些技術(shù)進(jìn)行組合、怎么組合這些技術(shù)當(dāng)然也是門(mén)學(xué)問(wèn)。

高引用量論文：Hunt, Andrew J., and Alan W. Black. "Unit selection in a concatenative speech synthesis system using a large speech database." Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE International Conference on. Vol. 1. IEEE, 1996. 使用動(dòng)態(tài)規(guī)劃進(jìn)行大語(yǔ)料庫(kù)拼接合成，將基元選擇看作狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)，提出誤差權(quán)重的自動(dòng)預(yù)測(cè)方法

1.? 劉豫軍,夏聰.語(yǔ)音合成音庫(kù)自動(dòng)標(biāo)注方法研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2015(02):65-66. （簡(jiǎn)單看看了解標(biāo)注就行，價(jià)值不大）

2.? 楊辰雨. 語(yǔ)音合成音庫(kù)自動(dòng)標(biāo)注方法研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2014.

3.? 白雪冰,韓志峰,蔣龍泉,黃云剛,馮瑞.音視頻數(shù)據(jù)半自動(dòng)化標(biāo)注方法[J].微型電腦應(yīng)用,2021,37(08):9-13+17.

4.? 劉亞斌. 漢語(yǔ)自然口語(yǔ)的韻律分析和自動(dòng)標(biāo)注研究[D].中國(guó)社會(huì)科學(xué)院研究生院,2003.

5.? 鄒法欣. 語(yǔ)音語(yǔ)料庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[D].廣西師范大學(xué),2012.

6.? 知乎語(yǔ)音標(biāo)注的工作怎么樣？（了解標(biāo)注過(guò)程）

7.? 沒(méi)看見(jiàn)英文的論文，可以在之后的工作中找找

2?? 常見(jiàn)歌聲合成軟件介紹

2.1???? 國(guó)外歌聲合成軟件

2.1.1???? Vocaloid

老牌歌姬軟件（最早進(jìn)入國(guó)內(nèi)推廣的、知名度最高的歌聲合成工具）

每一個(gè)由Vocaloid授權(quán)的音源庫(kù)或數(shù)據(jù)庫(kù)都采樣于真人實(shí)錄片段。

電子合唱音重

拼接合成引擎會(huì)通過(guò)諸如快速傅里葉逆變換(IFFT)等技術(shù)輸出合成聲音

2.1.2???? Synthesizer V

2018 年圣誕節(jié)推出? Dreamtonics 開(kāi)發(fā)

免費(fèi)試用版，編輯器試用版，付費(fèi)版（增加更多音軌和使用插件）

華侃如（中國(guó)人）編寫(xiě)了 SynthV 引擎的架構(gòu)、算法和后端，并擁有 SynthV 的所有權(quán)。

日文，英文試用版聲庫(kù)多，中文少

質(zhì)量參考2021百年祭《萬(wàn)象霜天》鏈接如下：

https://www.bilibili.com/festival/2021bnj?bvid=BV1zN411d7dG&;from=search&seid=7406844439974930069&spm_id_from=333.337.0.0

該曲目的歌手赤羽是以語(yǔ)音合成引擎Synthesizer V為基礎(chǔ)打造的虛擬女性歌手。
“像火一樣的少女。有著明亮而高亢的聲線(xiàn)，以及勇敢而率真的性格。”

Synthesizer V采用自主研發(fā)的基于人工神經(jīng)網(wǎng)絡(luò)及拼接合成算法的LLSM (底層語(yǔ)音模型) 技術(shù)，僅使用少量采樣數(shù)據(jù)即能生成自然的聲音。

鏈接：

https://www.bilibili.com/video/BV1eh411J74T?from=search&;seid=17138165903443630956&spm_id_from=333.337.0.0

2.1.3?????? CeVIO Creative Studio

2013年 ?介紹：https://zh.moegirl.org.cn/CeVIO

CeVIO Creative Studio 是基于HTS Engine引擎（語(yǔ)音）/Sinsy引擎（歌唱）制作的新型語(yǔ)音和歌唱合成軟件，在算法本質(zhì)上與VOCALOID/UTAU等軟件的大聲庫(kù)“拼接算法”不同，是采用HMM（隱馬爾可夫模型）的語(yǔ)音合成技術(shù)，因此聲庫(kù)體積較?。ㄍǔＶ挥袔?/span>MB，而VOCALOID通常是幾百MB），卻可以簡(jiǎn)單而自然地合成語(yǔ)音和歌唱，語(yǔ)音合成可以調(diào)整參數(shù)使她說(shuō)話(huà)更加近人，歌聲合成時(shí)自動(dòng)加入呼吸聲，并能生成比較自然的自動(dòng)參數(shù)，同時(shí)也能夠通過(guò)多種參數(shù)進(jìn)行仔細(xì)調(diào)教。其效果可以媲美VOCALOID甚至更加接近人聲。免費(fèi)版本CeVIO Creative Studio FREE自發(fā)布以來(lái)深受好評(píng)（目前FREE版已經(jīng)停止配布）。CeVIO Creative Studio正式版提供30天免費(fèi)試用，可在官網(wǎng)下載。

目前的cevio ai 基于wavenet和wavednn

https://www.bilibili.com/video/BV12b41157xg#reply5800563875 看堅(jiān)實(shí)的蝴蝶飛呀的評(píng)論

https://cevio.fandom.com/wiki/CeVIO_AI? CeVIO AI

https://km4osm.com/cevioaikafu9800/

https://www.bilibili.com/read/cv13157789/

2.1.4?????? Sinsy

2009.12（支持中日英三語(yǔ)的開(kāi)源聲音合成引擎，使用和CeVIO Creative Studio相同的HTS Engine后端。）( 先把聲音拆分成基頻，共振峰頻譜，噪聲數(shù)據(jù)，再進(jìn)入HMM訓(xùn)練 )

音高轉(zhuǎn)換逼真，銜接/滑音偶爾有問(wèn)題

《Recent Development of the DNN-based Singing Voice Synthesis System — Sinsy》

《Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System》

http://www.sinsy.jp/ （這個(gè)似乎不是官網(wǎng)的鏈接）

2.1.5?????? UTAU

一款由飴屋/菖蒲氏開(kāi)發(fā)的免費(fèi)的歌聲合成軟件，2010年1月份(v0.2.60版之后)改為共享軟件。?多種合成算法：psola，world，llsm，Vocaloid和SynthV等商業(yè)軟件也從UTAU中吸收了很多設(shè)計(jì)思路。UTAU大大推動(dòng)了歌聲合成技術(shù)的發(fā)展。

工作原理：

1.?????? 用戶(hù)點(diǎn)擊播放后，UTAU生成一個(gè)臨時(shí)的bat腳本

2.?????? 腳本調(diào)用resampler，傳入當(dāng)前音符的原音設(shè)定、長(zhǎng)度、音高曲線(xiàn)、flag等信息。resampler從音源中取出對(duì)應(yīng)音頻，變調(diào)后存放在臨時(shí)文件夾

3.?????? 腳本調(diào)用wavtool，傳入原音設(shè)定、音量包絡(luò)等信息。wavtool將resampler合成的音頻拼接到輸出音頻末尾

4.?????? 對(duì)每個(gè)音符重復(fù)2、3步驟，直到音軌結(jié)尾

5.?????? UTAU播放輸出的音頻

2.1.6?????? NEUTRINO

由來(lái)自日本名古屋工業(yè)大學(xué)的SHACHI所開(kāi)發(fā)的、基于卷積神經(jīng)網(wǎng)絡(luò)→音頻合成深度學(xué)習(xí)模型（例如WaveNet，WaveRNN）與Morise開(kāi)發(fā)的NSF（原本用的WORLD程序）（一種神經(jīng)源濾波器模型，高速合成接近真人語(yǔ)音質(zhì)量的語(yǔ)音）來(lái)完成合成唱歌任務(wù)、免費(fèi)的虛擬人聲合成軟件。使用神經(jīng)網(wǎng)絡(luò)，NEUTRINO可以估算發(fā)聲時(shí)間、音調(diào)、語(yǔ)音質(zhì)量和語(yǔ)音模糊，再經(jīng)由語(yǔ)音由聲碼器合成最終的聲音。只需要輸入一個(gè)帶有歌詞的musicxml文件，就可以將其啟動(dòng)轉(zhuǎn)化為已經(jīng)“唱好”的wav音頻文件。

有關(guān)介紹：

https://zh.moegirl.org.cn/index.php?mobileaction=toggle_view_desktop&title=NEUTRINO

https://www.bilibili.com/read/cv4775686/? https://zhuanlan.zhihu.com/p/129055225

2.1.7?????? Emvoice

100-200美元 ?

通常，人聲合成需要在主機(jī)上運(yùn)行的復(fù)雜合成和建模算法。結(jié)果可能令人印象深刻，但這項(xiàng)技術(shù)還沒(méi)有達(dá)到現(xiàn)實(shí)主義的水平，并且已經(jīng)停滯了一段時(shí)間。
Emvoice另辟蹊徑，把演唱的人聲分解成細(xì)微的層次，錄制了構(gòu)成多個(gè)音高的單個(gè)音素采樣，然后通過(guò)一個(gè)復(fù)雜的云端引擎在互聯(lián)網(wǎng)上重建數(shù)千個(gè)采樣，并以閃電般的速度向你的系統(tǒng)返饋經(jīng)過(guò)處理的完整人聲。所以說(shuō)，用戶(hù)使用Emvoice One得到的聲音并不是人造的，它是通過(guò)把真實(shí)歌手的人聲采樣重新組合來(lái)詮釋所輸入的歌詞的（機(jī)器學(xué)習(xí)技術(shù)）

鏈接：基于機(jī)器學(xué)習(xí)技術(shù)的 Emvoice One 新虛擬男歌手聲庫(kù) Jay 發(fā)布 - midifan：我們關(guān)注電腦音樂(lè)

2.1.8?????? Piapro Studio

官網(wǎng)：https://piaprostudio.com/

由C社開(kāi)發(fā)

“初音未來(lái) V4X”WEB 價(jià)格17,600日元??（含稅）

初音未來(lái)（初音ミク/Hatsune Miku），是2007年8月31日由CRYPTON FUTURE MEDIA以Yamaha的VOCALOID系列語(yǔ)音合成程序?yàn)榛A(chǔ)開(kāi)發(fā)的音源庫(kù)，C社就是CRYPTON FUTURE MEDIA這個(gè)公司

使用Vocaloid的API 在嘗試做自己的引擎

2.2???? 國(guó)內(nèi)歌聲合成軟件

2.2.1?????? AiSingers

基于深度神經(jīng)網(wǎng)絡(luò)，原理與VOCALOID類(lèi)似自動(dòng)調(diào)教參數(shù)，上傳云端合成

裊裊是第一款中國(guó)人自主研發(fā)的歌聲合成軟件，由長(zhǎng)春迪聲軟件有限公司開(kāi)發(fā)。

2016 年 4 月被廈門(mén)優(yōu)他動(dòng)漫科技（MUTA）收購(gòu)

2.2.2?????? DeepVocal

國(guó)產(chǎn)歌聲合成引擎中使用得最多的（根據(jù)B站月刊國(guó)產(chǎn)歌聲合成引擎排行榜傳送門(mén)中數(shù)據(jù)）

2.2.3?????? Muta

采樣聲音的發(fā)音原理，進(jìn)行模擬后通過(guò)造音還原合成聲音，試圖解決中文咬字問(wèn)題，提高發(fā)音的自然度

效果中等，音高轉(zhuǎn)換較為生硬，銜接與發(fā)音不錯(cuò)

Muta 4.0 鏈接：https://www.bilibili.com/video/BV1EV41117H9?p=1 聽(tīng)不出合成的痕跡?。。?/p>

2.2.4?????? X Studio

情感表達(dá)不充沛，不如調(diào)教（我覺(jué)得還行）

從學(xué)習(xí)歌聲本身，到學(xué)習(xí)歌聲產(chǎn)生的過(guò)程

Xstudio2.0版本在10月22日正式發(fā)布（其實(shí)10.30時(shí)都沒(méi)發(fā)布）

官網(wǎng)：https://singer.xiaoice.com/

2.2.5?????? Infinity Studio

改進(jìn)了TD-PSOLA算法

Infinity歌聲合成框架有多個(gè)組件構(gòu)成，其中Infinity Studio編輯器作為首個(gè)多軌道多引擎編輯器，對(duì)于各種引擎的參數(shù)提供了很好的支持。其引擎接口經(jīng)過(guò)特殊設(shè)計(jì)，引擎只需處理與當(dāng)前解析的渲染任務(wù)相關(guān)的內(nèi)容，無(wú)需考慮環(huán)境和渲染時(shí)機(jī)相關(guān)的問(wèn)題，移植簡(jiǎn)便。編輯器在給各種引擎提供一個(gè)統(tǒng)一的調(diào)教方式的同時(shí)極大程度的保留了各引擎的合成效果特性，可以創(chuàng)造出風(fēng)格多樣的作品。Infinity Studio的參數(shù)曲線(xiàn)使用控制點(diǎn)與插值算法，可以快速地構(gòu)建平滑的參數(shù)曲線(xiàn)，同時(shí)對(duì)于局部的參數(shù)片段可以進(jìn)行保存與載入，提高工作效率。https://www.bilibili.com/read/cv12073521?from=search&;spm_id_from=333.337.0.0

2.2.6?????? ACE虛擬歌姬

目前只支持移動(dòng)端，AI自動(dòng)調(diào)教

《ACE虛擬歌姬》的初始定位是一款音游產(chǎn)品，現(xiàn)在其性質(zhì)介于游戲和創(chuàng)作工具之間，開(kāi)發(fā)者們正在為其構(gòu)建一個(gè)完善的音樂(lè)內(nèi)容社區(qū)，讓創(chuàng)作者們能在社區(qū)中自由發(fā)布交流創(chuàng)作出作品。

2.2.7?????? SharpKey

新策劃是DeepVocal

2.2.8?????? Fool sing

在線(xiàn)使用無(wú)需安裝

2019年分布內(nèi)測(cè)，2020年沒(méi)消息了，官網(wǎng)進(jìn)不去了? b站內(nèi)測(cè)做出的音樂(lè)聲音真實(shí)，接近人聲，效果非常好。咬字不清。試聽(tīng)鏈接：https://www.bilibili.com/video/av47249751?

2.2.9?????? 其他

米哈游逆熵人工智能研究院新研究出的聲音合成技術(shù)在2021年2月7日通過(guò)bilibili平臺(tái)中的虛擬up主：yoyo鹿鳴_Lumi的作品《想聽(tīng)我講野豬公主的故事嗎？》向公眾展示。

視頻鏈接：https://www.bilibili.com/video/BV1GV411i7wR?from=search&;seid=17961740307844798509&spm_id_from=333.337.0.0

ByteSing 字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室研究，沒(méi)有公開(kāi)的軟件

2.3????? 軟件&虛擬歌手分析

AI自動(dòng)調(diào)教的優(yōu)點(diǎn)：

1.???? 創(chuàng)作更加簡(jiǎn)便，成本更低廉

2.???? 手工調(diào)教的門(mén)檻較高，創(chuàng)作者們需要花費(fèi)大量時(shí)間精力去學(xué)習(xí)使用； AI自動(dòng)調(diào)教能降低歌曲創(chuàng)作對(duì)創(chuàng)作者們樂(lè)理知識(shí)的要求，使創(chuàng)作者們學(xué)習(xí)使用愈發(fā)便利，這些技術(shù)的受眾也會(huì)變得更廣，有利于推廣虛擬音樂(lè)創(chuàng)作，讓音樂(lè)更好地服務(wù)于人。

3.???? 相較于需要手動(dòng)調(diào)教的軟件，引入了深度學(xué)習(xí)功能的軟件需要的采樣數(shù)據(jù)更少，使軟件輕量化。

AI自動(dòng)調(diào)教的缺陷：

1.???? 在手動(dòng)調(diào)教階段，利用相同的聲庫(kù)，創(chuàng)作者們也可以令虛擬歌姬們展現(xiàn)出多種多樣的調(diào)教風(fēng)格。隨著AI自動(dòng)調(diào)教的出現(xiàn)，豐富的調(diào)教風(fēng)格會(huì)有趨同的趨勢(shì)。即使各種帶有AI自動(dòng)調(diào)教功能的軟件還具備各種調(diào)參功能，但在歌曲已經(jīng)被AI調(diào)教好的基礎(chǔ)上，它們風(fēng)格逐漸趨同的趨勢(shì)很難避免。

2.???? 經(jīng)歷過(guò)手動(dòng)調(diào)教時(shí)代的創(chuàng)作者們與各自的聲庫(kù)有深厚的情感基礎(chǔ)。 AI自動(dòng)調(diào)教雖然節(jié)省了創(chuàng)作者們的時(shí)間，但與此同時(shí)，簡(jiǎn)便的創(chuàng)作過(guò)程也會(huì)損害他們之間的情感羈絆，甚至使虛擬歌姬逐漸淪為他們眼中的工具。

歌聲合成簡(jiǎn)便化、低成本化是其發(fā)展以來(lái)不可避免的發(fā)展趨勢(shì)。

https://wenda.so.com/q/1512331932211876

虛擬歌手的優(yōu)勢(shì)：

1、人類(lèi)在生理上存在語(yǔ)速、肺活量等的限制，而虛擬歌姬沒(méi)有，因此能在一些方面超過(guò)人類(lèi)的極限。

2、正常情況下，真人歌手要唱出高音需要從低音緩慢上升，而虛擬歌姬可以迅速?gòu)淖畹鸵羯阶罡咭簦又俳迪聛?lái)，如此重復(fù)多次也能保質(zhì)保量。

3、虛擬歌姬的音準(zhǔn)非常優(yōu)秀，調(diào)教好之后不會(huì)跑調(diào)，而真人歌手則不能保證。

虛擬歌手如今的劣勢(shì)：

1.?????? 獲取虛擬歌手的音源庫(kù)較為困難。為獲得優(yōu)質(zhì)的音源，需要專(zhuān)業(yè)歌手、專(zhuān)業(yè)錄音棚和高質(zhì)量的干聲，完成錄制后還需要對(duì)獲取的歌聲進(jìn)行標(biāo)注，致使成本高昂，僅有較大型的公司和研究所能夠承擔(dān)，妨礙虛擬歌手的發(fā)展。

2.?????? 虛擬歌手合成后的聲音與現(xiàn)實(shí)人類(lèi)的聲音仍然有區(qū)別，缺乏唱歌時(shí)體現(xiàn)的情感，在滑音、銜接處不夠自然。

?

相比于傳統(tǒng)拼接式合成技術(shù)，AI合成在歌手風(fēng)格差異化、還原度、演唱細(xì)節(jié)上都有一定優(yōu)勢(shì)，但也會(huì)造成一些音準(zhǔn)、音色的穩(wěn)定性問(wèn)題（目前仍在調(diào)整）

?? ?

3?? 華智冰演唱分析（時(shí)間有限，具體要結(jié)合軟件及其他渠道消息分析）

使用的是X Studio軟件合成演唱時(shí)的歌聲，利用XiaoiceSing歌聲合成系統(tǒng)。

使用FastSpeech系統(tǒng)架構(gòu)，聲碼器為world vocoder。FastSpeech是Transformer的一種新型前饋網(wǎng)絡(luò)，兼具快速、魯棒、可控等特點(diǎn)。與自回歸的Transformer TTS相比，F(xiàn)astSpeech將梅爾譜的生成速度提高了近270倍，將端到端語(yǔ)音合成速度提高了38倍，單GPU上的語(yǔ)音合成速度達(dá)到了實(shí)時(shí)語(yǔ)音速度的30倍。

參考：https://blog.csdn.net/lbg198808/article/details/103583575 全新語(yǔ)音合成系統(tǒng)FastSpeech——更好的聲音自然度

為了將FastSpeech應(yīng)用到歌聲合成中，做出了如下改動(dòng)：

1.?????? 除了歌詞的音素序列之外，所有的樂(lè)譜信息，例如，音節(jié)長(zhǎng)度（note duration), 音高(note pitch)都被編碼為輸入；

2.?????? 為了避免所謂“out-of-tune”問(wèn)題，在音高和預(yù)測(cè)出來(lái)的F0之間增加了一個(gè)殘差連接；

3.?????? 除了音素長(zhǎng)度loss，在訓(xùn)練階段，還加入了音節(jié)長(zhǎng)度loss（syllable duration loss），目的是增強(qiáng)節(jié)奏感（rhythm enhancement）；

4.?????? vocoder特征包括，mel-generalized cepstrum?(MGC)，以及band aperiodicity?(BAP)，而不是梅爾譜；使用的是WORLD vocoder。

XiaoiceSing的工作流程及其架構(gòu)具體見(jiàn)下圖。

使用從樂(lè)譜中提取的音素、音高和持續(xù)時(shí)長(zhǎng)進(jìn)行輸入，具體如下圖所示。

實(shí)驗(yàn)結(jié)果表明，XiaoiceSing在音質(zhì)方面的性能優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)的基線(xiàn)系統(tǒng)，在音質(zhì)方面超過(guò)1.44 MOS，在發(fā)音準(zhǔn)確性（pronunciation accuracy）上超過(guò)1.18，在自然度（naturalness）上超過(guò)1.38。在兩次A / B測(cè)試中，所提出的F0和持續(xù)時(shí)間建模方法分別比基線(xiàn)達(dá)到97.3％和84.3％的偏好性(preference rate)，這表明XiaoiceSing具有壓倒性的優(yōu)勢(shì)。

參考：https://zhuanlan.zhihu.com/p/357253522

https://zhuanlan.zhihu.com/p/340413809

XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System

( Lu, Peiling & Wu, Jie & Luan, Jian & Tan, Xu & Zhou, Li. (2020). XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System. )

參? 考? 文? 獻(xiàn)

[1]王瑞年.當(dāng)代計(jì)算機(jī)音樂(lè)技術(shù)發(fā)展概覽[J].中國(guó)音樂(lè)學(xué),2003(04):120-125.

[2]王毅.電子音樂(lè)發(fā)展史[J].科學(xué)大眾(科學(xué)教育),2012(02):173.

[3] Martin Russ. Sound Synthesis and Sampling[M].Taylor and Francis:2012-11-12.

[4]Chowning, John M. “The Synthesis of Complex Audio Spectra by Means of Frequency Modulation.” Computer Music Journal 1.2 (1977): 46-54. Ccrma.stanford.edu. Ccrma.stanford.edu, 2007. Web. June-July 2017.

[5]劉明哲. 聲音合成技術(shù)在電子音樂(lè)創(chuàng)作中的若干應(yīng)用[D].吉林藝術(shù)學(xué)院,2017.

[6]李琦.淺析MIDI音樂(lè)中的波表合成技術(shù)[J].科技廣場(chǎng),2005(05):124-126.

[7] Karplus, Kevin, and Alex Strong, "Digital Synthesis of Plucked-String and Drum Timbres" in Computer Music Journal, Vol. 7, No. 2, Summer 1983. Reprinted in the Music Machine (MIT Press).

[8] https://musictech.com/guides/essential-guide/understanding-physical-modelling-synthesis/

[9] Horner, A., Goldberg, D.E.: Genetic algorithms and computer-assisted music composition. In: Proc. Fourth Int. Conference on Genetic Algorithms, San Diego, CA. (1991) 437–441

[10]王程,周婉,何軍.面向自動(dòng)音樂(lè)生成的深度遞歸神經(jīng)網(wǎng)絡(luò)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(10):2412-2416.

[11] Drewes F., H?gberg J. (2007) An Algebra for Tree-Based Music Generation. In: Bozapalidis S., Rahonis G. (eds) Algebraic Informatics. CAI 2007. Lecture Notes in Computer Science, vol 4728. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-75414-5_11

[12] Horner, A., Goldberg, D.E.: Genetic algorithms and computer-assisted music composition. In: Proc. Fourth Int. Conference on Genetic Algorithms, San Diego, CA. (1991) 437–441

[13] Van Der Merwe A, Schulze W.Music generation with markov models[J].IEEE Multi Media, 2011, 3 (18) :78-85.[8]Van Der Merwe A, Schulze W.Music generation with markov models[J].IEEE Multi Media, 2011, 3 (18) :78-85.

[14] Jamshed J Bharucha and Peter M Todd. Modeling the perception of tonal structure with neural nets. Computer Music Journal, 13(4):44–53, 1989.

[15] 劉奡智,韓寶強(qiáng).人工智能音樂(lè)發(fā)展現(xiàn)狀與面臨的挑戰(zhàn)[J].人民音樂(lè),2020(09):74-77.

[16] Bretan M , Weinberg G , Heck L . A Unit Selection Methodology for Music Generation Using Deep Neural Networks[J]. 2016.

[17] Olof Mogren. C-RNN-GAN: continuous recurrent neural networks with adversarial training. CoRR, abs/1611.09904, 2016.

[18] Automatic Music Generator Using Recurrent Neural Network | Atlantis Press (atlantis-press.com)?

[19] Yang, Li-Chia & Chou, Szu-Yu & Yang, yi-hsuan. (2017). MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions.

[20] Vaswani A , Shazeer N , Parmar N , et al. Attention Is All You Need[J]. arXiv, 2017.

[21] Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Noam Shazeer, Curtis Hawthorne, Andrew M Dai, Matthew D Hoffman, and Douglas Eck. Music transformer: Generating music with long-term structure. arXiv preprint arXiv:1809.04281, 2018.

[22] MusicVAE: Creating a palette for musical scores with machine learning. (tensorflow.org)

[23]Flanagan J., Rabiner L. (Editors) (1973). Speech Synthesis. Dowden, Hutchinson & Ross, Inc., Pennsylvania.

[24] Hoffmann R., Birkholz P., Gabriel F., J?ckel R. (2018) From Kratzenstein to the Soviet Vocoder: Some Results of a Historic Research Project in Speech Technology. In: Karpov A., Jokisch O., Potapova R. (eds) Speech and Computer. SPECOM 2018. Lecture Notes in Computer Science, vol 11096. Springer, Cham. https://doi.org/10.1007/978-3-319-99579-3_23

[25]Schroeder M. (1993). A Brief History of Synthetic Speech. Speech Communication vol. 13, pp. 231-237.

[26] Stewart, J. Q. (1922). "An Electrical Analogue of the Vocal Organs," Nature 110, 311-312.

[27] Klatt D. (1987) Review of Text-to-Speech Conversion for English. Journal of the Acoustical Society of America, JASA vol. 82 (3), pp.737-793.

[28] 張雪英. 數(shù)字語(yǔ)音處理及MATLAB仿真[M].第2版.北京：電子工業(yè)出版社，2016.

[29] 楊心祎. 歌聲合成技術(shù)與應(yīng)用探究[D].南京藝術(shù)學(xué)院,2015.

[30]劉浩杰,杜利民.語(yǔ)音合成技術(shù)的發(fā)展與展望[J].微計(jì)算機(jī)應(yīng)用,2007(07):726-730.

[31] 張斌,全昌勤,任福繼.語(yǔ)音合成方法和發(fā)展綜述[J].小型微型計(jì)算機(jī)系統(tǒng)，2016,37(01):186-192.

[32] Xuedong Huang, Alex Acero, Jim Adcock, Hsiao-wuen Hon, John Goldsmith, Jingsong Liu, Mike Plumpe. Whistler: A trainable text-to-speech system. In Spoken Language. 1996. ICSLP 96. Proceedings. Fourth International Conference on, volume 4, pages 2387-2390. IEEE, 1996.

[33]殷翔. 語(yǔ)音合成中的神經(jīng)網(wǎng)絡(luò)聲學(xué)建模方法研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2016.

[34] Chen L, Yang H, Wang H. Research on Dungan speech synthesis based on Deep Neural Network[C]//11th? International? Symposium? on? Chinese? Spoken? Language? Processing (ISCSLP). IEEE, 2018: 46-50.

[35]張小峰,謝鈞,羅健欣,俞璐.深度學(xué)習(xí)語(yǔ)音合成技術(shù)研究[J].計(jì)算機(jī)時(shí)代,2020(09):24-28.

[36] Wang Y ,? Skerry-Ryan R J ,? Stanton D , et al. Tacotron: Towards End-to-End Speech Synthesis[J]. Interspeech 2017, 2017.

[37] Taigman Y , Wolf L , Polyak A , et al. VoiceLoop: Voice Fitting and Synthesis via a Phonological Loop[J]. 2017.

[38] Kim, Y. E. (2008). Singing Voice Analysis, Synthesis, and Modeling. In?Handbook of Signal Processing in Acoustics?(pp. 359–374). Springer New York. https://doi.org/10.1007/978-0-387-30441-0_23

[39] Cook P R. Singing voice synthesis: History, current work, and future directions[J]. Computer Music Journal, 1996, 20(3).

[40] Dudley,H. 1939. “The Vocoder.” Bell Laboratories Record, December.

[41]Moorer, A. 1978.”The Use of the Phase Vocoder in Computer Music Applications.” Journal of the Audio Engineering Society 26(1/2):42-45.

[42]Moorer, A. 1979,”The Use of Linear Prediction of Speech in Computer Music Applications.” Journal of the Audio Engineering Society 27(3):134-140.

[43] Rodet, Xavier. “Time-Domain Formant-Wave-Function Synthesis.”?Computer Music Journal, vol. 8, no. 3, The MIT Press, 1984, pp. 9–14, https://doi.org/10.2307/3679809.

[44] Kim Y E . Singing Voice Analysis, Synthesis, and Modeling[J]. Handbook of Signal Processing in Acoustics, 2008.

[45] Rodet, Xavier, et al. “The CHANT Project: From the Synthesis of the Singing Voice to Synthesis in General.”?Computer Music Journal, vol. 8, no. 3, The MIT Press, 1984, pp. 15–31, https://doi.org/10.2307/3679810.

[46] R. McAulay and T. Quatieri, "Speech analysis/Synthesis based on a sinusoidal representation," in?IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 34, no. 4, pp. 744-754, August 1986, doi: 10.1109/TASSP.1986.1164910.

[47] J. Smith III, X. Serra. “PARSHL: An Analysis/Synthesis Program for Non-Harmonic Sounds Based on a Sinusoidal Representation”. Tokyo, Proceedings of the International Computer Music Conference (ICMC-87), pp. 290 – 297, 1987.

[48] Macon M W, Jensen-Link L, Oliverio J, et al. A singing voice synthesis system based on

sinusoidal modeling[C]//1997 IEEE International Conference on Acoustics, Speech, and Signal

Processing. IEEE, 1997, 1: 435-438.

[49] J. Bonada, “Wide-band harmonic sinusoidal modeling,” in International Conference on Digital Audio Effects, Helsinki, Finland, 2008.

[50] J. Bonada, M. Umbert, and M. Blaauw, “Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016,” in Proc. Interspeech, 2016, pp. 1230–1234.

[51]周蕓. 基于深度學(xué)習(xí)的普通話(huà)歌聲合成的研究[D].西北師范大學(xué),2021.

[52] O. Watts, G. E. Henter, T. Merritt, Z. Wu, and S. King, “From HMMs to DNNs: where do the improvements come from?” Proceedings of ICASSP 2016, pp. 5505–5509, 2016.

[53] J. Kim, H. Choi, J. Park, M. Hahn, S. Kim, and J.-J. Kim, “Korean singing voice synthesis system based on an LSTM recurrent neural network,” in Proc. Interspeech, 2018, pp. 1551–1555.

[54] K. Nakamura, S. Takaki, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Fast and high-quality singing voice synthesis system based on convolutional neural networks,” in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2020, pp. 7239–7243.

[55] Chen, J., Tan, X., Luan, J., Qin, T., & Liu, T. Y. (2020).?HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis. arXiv preprint arXiv:2009.01776.

[56] Y.-H. Yi, Y. Ai, Z.-H. Ling, and L.-R. Dai, “Singing voice synthesis using deep autoregressive neural networks for acoustic modeling,” in Proc. Interspeech, 2019, pp. 2593–2597.

[57] Y. Hono, K. Hashimoto, K. Oura, Y. Nankaku and K. Tokuda, "Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System," in?IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 2803-2815, 2021, doi: 10.1109/TASLP.2021.3104165.

[58] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals et al., “Wavenet: A generative model for raw audio,” arXiv preprint arXiv:1609.03499, 2016.

[59] M. Blaauw and J. Bonada, “A neural parametric singing synthesizer modeling timbre and expression from natural songs,” Applied Sciences, vol. 7, no. 12, 2017.

[60] Y. Gu?et al., "ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders,"?2021 12th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2021, pp. 1-5, doi: 10.1109/ISCSLP49672.2021.9362104.

[61] R. Prenger, R. Valle and B. Catanzaro, "Waveglow: A Flow-based Generative Network for Speech Synthesis,"?ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 3617-3621, doi: 10.1109/ICASSP.2019.8683143.

[62] Kalchbrenner, N., Elsen, E., Simonyan, K., Noury, S., Casagrande, N., Lockhart, E., Stimberg, F., Oord, A., Dieleman, S. & Kavukcuoglu, K.. (2018). Efficient Neural Audio Synthesis. Proceedings of the 35th International Conference on Machine Learning, in Proceedings of Machine Learning Research 80:2410-2419

[63] Y. Hono et al., “Recent development of the DNN-based singing voice synthesis system - sinsy,” in Proc. Asia-Pacific Signal and Inf. Process. Assoc. Annu. Summit Conf., 2018, pp. 1003–1009.

[64] Y. Ren, X. Tan, T. Qin, J. Luan, Z. Zhao, and T. Liu (2020b)?DeepSinger: singing voice synthesis with data mined from the web.?arXiv preprint arXiv:2007.04590.?

以上為第一部分（歷史發(fā)展）參考文獻(xiàn)

標(biāo)簽：

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

從華智冰演唱出發(fā)的歌聲合成技術(shù)綜述（殘廢）

注：以下都是參考資料，現(xiàn)在沒(méi)有時(shí)間學(xué)習(xí)后寫(xiě)論文，先列舉。

米哈游逆熵人工智能研究院新研究出的聲音合成技術(shù)在2021年2月7日通過(guò)bilibili平臺(tái)中的虛擬up主：yoyo鹿鳴_Lumi的作品《想聽(tīng)我講野豬公主的故事嗎？》向公眾展示。

視頻鏈接：https://www.bilibili.com/video/BV1GV411i7wR?from=search&;seid=17961740307844798509&spm_id_from=333.337.0.0

?

相比于傳統(tǒng)拼接式合成技術(shù)，AI合成在歌手風(fēng)格差異化、還原度、演唱細(xì)節(jié)上都有一定優(yōu)勢(shì)，但也會(huì)造成一些音準(zhǔn)、音色的穩(wěn)定性問(wèn)題（目前仍在調(diào)整）