最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

WaveNet論文翻譯

2023-03-15 22:15 作者:xhy2023  | 我要投稿

論文下載:https://arxiv.org/pdf/1609.03499.pdf

  • ABSTRACT

這篇論文提出了 WaveNet,一個生成原始音頻波形的深度神經(jīng)網(wǎng)絡(luò)。這是一個完全的概率自回歸模型,它基于之前已經(jīng)生成的所有樣本,來預(yù)測當(dāng)前音頻樣本的概率分布;不過,我們將會展示它可以在每秒數(shù)萬采樣率的音頻數(shù)據(jù)上高效地進(jìn)行訓(xùn)練。將其應(yīng)用到語音合成,它獲得了當(dāng)前業(yè)界最佳的性能,不管是英語還是中文普通話,相比之前最好的參數(shù)式和拼接式系統(tǒng),人類聽眾評價其在自然度上有大幅度進(jìn)步。單一模型的 WaveNet 可以以相同的保真度捕獲很多說話人的特征,并可以針對說話者進(jìn)行訓(xùn)練后在多人之間切換。當(dāng)訓(xùn)練對音樂建模,我們發(fā)現(xiàn)它可以產(chǎn)生新穎的高度真實的音樂片段。同時,我們也會展示它可以作為判別模型應(yīng)用在音素識別中,獲得有可觀前景的結(jié)果。

  • 1 INTRODUCTION

近來對圖像(van den Oord et al., 2016a;b)和文本(Jozefowicz et al., 2016)等復(fù)雜分布進(jìn)行建模的神經(jīng)自回歸生成模型有了進(jìn)展,受這些進(jìn)展的啟發(fā),我們研究了原始音頻生成技術(shù)。使用神經(jīng)架構(gòu),把像素或者單詞的聯(lián)合概率視作條件概率分布的乘積的建模方法,取得了業(yè)界最佳的成績。特別是,這些架構(gòu)可以對上千個隨機(jī)變量(例如,在 PixelRNN 中 64x64 像素 (van den Oord et al., 2016a))的概率分布進(jìn)行建模。這篇論文要解決的問題是,同樣的方法是否可以在寬帶原始音頻波形的生成中奏效,這些音頻波形信號具有非常高的時間分辨率,至少每秒 16000 個樣本(參照圖 1)。這篇論文介紹 WaveNet,一個基于 PixelCNN (van den Oord et al., 2016a;b) 架構(gòu)的音頻生成模型。這份研究的主要貢獻(xiàn)如下:

  1. 我們展示了 WaveNet 可以生成在語音合成(TTS)領(lǐng)域前所未有的主觀自然度的原始語音信號,這是由人類打分員進(jìn)行評價的。

  2. 為了處理原始音頻生成中所需的大跨度時間依賴,我們基于擴(kuò)大因果卷積開發(fā)了新的架構(gòu),它具有非常大的感受野。

  3. 我們展示了如果基于說話人身份進(jìn)行訓(xùn)練,單個模型可以生成不同風(fēng)格的語音。

  4. 同樣的架構(gòu)在小規(guī)模語音識別數(shù)據(jù)集的測試中獲得了很好的結(jié)果,同時用于音樂等其他形態(tài)的音頻生成中也有很好的前景。

我們相信 WaveNet 為很多依賴于音頻生成的應(yīng)用(如語音合成,音樂,語音增強(qiáng),語音轉(zhuǎn)換,聲源分離),提供了一個通用的靈活的框架。

  • 2 WAVENET

這篇論文中,我們提出一個新的生成模型,它能直接產(chǎn)生原始音頻波形。音頻波形的聯(lián)合概率?x={x1,...,xT}?可以分解成如下條件概率分布的乘積:

因此每一個音頻樣本xt都依賴之前所有步驟產(chǎn)生的樣本。與 PixelCNNs 類似,條件概率分布由若干卷積層堆疊進(jìn)行建模。網(wǎng)絡(luò)中沒有池化層,模型的輸出與輸入具有相同的時間維度。模型使用 softmax 層輸出下一個值?xt?的類別分布,使用最大對數(shù)似然方法對參數(shù)進(jìn)行優(yōu)化。由于對數(shù)似然易于處理,我們在驗證集上對超參數(shù)進(jìn)行調(diào)優(yōu),可以容易地測定模型過擬合或者欠擬合。

  • 2.1 DILATED CAUSAL CONVOLUTIONS

WaveNet 的主要成分是因果卷積。因果卷積確保了模型輸出不會違反數(shù)據(jù)的順序:模型在 t 時刻輸出的預(yù)測?p(xt+1|x1,...,xt)?不會依賴任何一個未來時刻的數(shù)據(jù)?xt+1,xt+2,...,xT,如圖 2 所示。對圖像來說,因果卷積等價于一個遮蔽卷積(van den Oord et al., 2016a),可以在使用前通過構(gòu)建一個遮蔽張量與卷積核進(jìn)行點乘來實現(xiàn)。對于音頻這樣的一維數(shù)據(jù)來說實現(xiàn)起來更簡單,將正常卷積的輸出偏移幾個時間步即可。在訓(xùn)練階段,由于標(biāo)定真實數(shù)據(jù) x 的所有時間步都是已知的,因此所有時間步的條件概率預(yù)測可以并行進(jìn)行。在推斷階段,預(yù)測結(jié)果是串行的:每一個預(yù)測出的樣本都反饋給網(wǎng)絡(luò)用于預(yù)測下一個樣本。由于使用因果卷積的模型中沒有循環(huán)連接,通常訓(xùn)練起來比 RNN 更快,特別是對于很長句子的訓(xùn)練。因果卷積存在的一個問題是它需要很多層,或者很大的卷積核來增大其感受野。例如,在圖 2 中,感受野只有 5(= 層數(shù) + 卷積核長度 - 1)。在這篇論文中,我們使用擴(kuò)大卷積(dilated convolution)使感受野增大幾個數(shù)量級,同時不會顯著增加計算成本。

擴(kuò)大卷積(也稱為帶洞卷積),是卷積核在比自身大的數(shù)據(jù)上進(jìn)行卷積時跳步的卷積方法。這與通過用零補(bǔ)邊使卷積核擴(kuò)大的效果是一樣的,但是這樣效率更高。與正常卷積相比,擴(kuò)大卷積有效地使網(wǎng)絡(luò)可以執(zhí)行粗粒度的卷積操作。這與池化或者跳步卷積類似,只是這里的輸出保持與輸入大小相同。作為特例,擴(kuò)大因子 = 1 的擴(kuò)大卷積就是標(biāo)準(zhǔn)卷積。圖 3 描繪了擴(kuò)大因子為 1,2,4,8 的擴(kuò)大因果卷積。擴(kuò)大卷積之前在不同的上下文中被使用過,如信號處理 (Holschneider et al., 1989; Dutilleux, 1989),圖像分割 (Chen et al., 2015; Yu & Koltun, 2016)。堆疊式擴(kuò)大卷積使得網(wǎng)絡(luò)只通過少數(shù)幾層便擁有了非常大的感受野,同時保留了輸入分辨率和計算效率。本論文中,擴(kuò)大系數(shù)每層都翻倍直到上限,然后重復(fù)循環(huán)。這種配置其背后的直覺有兩個。首先隨著深度增加,擴(kuò)大因子的指數(shù)增長可以使感受野呈指數(shù)級增大 (Yu & Koltun, 2016)。例如每一組 1,2,4,…,512 這樣的卷積模塊都擁有 1024 大小的感受野, 可視為與 1x1024 卷積對等的更高效的(非線性)判別式卷積操作 。其次,將多組這樣的卷積模塊堆疊起來會進(jìn)一步增大模型容量和感受野大小。

  • 2.2 SOFTMAX DISTRIBUTIONS

對單個音頻樣本的條件概率分布?p(xt+1|x1,...,xt)?進(jìn)行建模的一個方法是使用混合模型,如混合密度網(wǎng)絡(luò) (Bishop, 1994) 或者條件高斯尺度混合模型 (MCGSM) (Theis & Bethge, 2015)。然而,van den Oord et al. (2016a) 指出 softmax 分布傾向于更有效,即便數(shù)據(jù)是隱含式的連續(xù)數(shù)據(jù)(圖像的像素亮度或者音頻采樣值),該方法同樣有效。原因之一是類別分布更靈活,并且由于對數(shù)據(jù)的形狀沒有假定前提,所以它更容易對任意分布進(jìn)行建模。因為原始音頻通常保存為 16 位整數(shù)序列(每個時間步驟一個值),對每個時間步驟的所有可能值,softmax 層將需要輸出 65536 個概率,為了更容易處理,我們先對數(shù)據(jù)實施一個 μ 律壓擴(kuò)變換(ITU-T, 1988),然后量化成 256 個可能值:

其中?,?1<xt<1,μ=255。與簡單的線性量化相比,這個非線性量化處理可以對數(shù)據(jù)進(jìn)行更好的重構(gòu)。特別是對于語音數(shù)據(jù),我們發(fā)現(xiàn)這樣重構(gòu)后的信號聽起來非常接近原始信號。

  • 2.3 GATED ACTIVATION UNITS

我們使用與 gated PixelCNN (van den Oord et al., 2016b) 中相同的門控激活單元:

其中???代表卷積操作,?代表點乘操作,σ(.)?是 sigmoid 函數(shù),k 是層索引,f 和 g 是各自的濾波器和門,W 是可學(xué)習(xí)的卷積核。我們在最初的試驗中觀察到,對于音頻信號建模,這個非線性操作顯著優(yōu)于 ReLU 激活函數(shù) (Nair & Hinton, 2010)。

  • 2.4 RESIDUAL AND SKIP CONNECTIONS

網(wǎng)絡(luò)中使用了殘差 (He et al., 2015) 和參數(shù)化跳步連接,以加速收斂并允許更深的模型訓(xùn)練。 在圖 4 中我們展示了模型中的一個殘差模塊,網(wǎng)絡(luò)中會將多個這樣的模塊堆疊在一起。

  • 2.5 CONDITIONAL WAVENETS

給定一個額外輸入 h,WaveNets 可以由這個給定輸入,建模音頻的條件分布?p(x|h)。這時公式 (1) 就變成了:

基于其他的輸入變量進(jìn)行條件建模,我們可以引導(dǎo) WaveNet 產(chǎn)生要求特征的音頻。例如,在多人對話場景中,通過把說話人身份作為額外的條件輸入給模型,我們可以從模型中選擇某個說話人進(jìn)行音頻輸出。類似的,在 TTS 任務(wù)中,我們需要額外的關(guān)于文本的信息輸入給模型?;谄渌斎脒M(jìn)行條件建模有兩種方式:全局條件和局部條件。全局條件的特點是,通過單一的隱式表征 h,在所有時間步驟上影響輸出分布,例如 TTS 模型中的說話人嵌入。公式 (2) 的激活函數(shù)現(xiàn)在變成了:

其中,V?,k?是可學(xué)習(xí)的線性映射,向量?V?,kTh?是在時間維度的廣播。局部條件建模,我們有第二個時間序列?ht,可能有比音頻信號更低的采樣頻率,比如 TTS 模型中的語言學(xué)特征。我們首先用轉(zhuǎn)置卷積網(wǎng)絡(luò)(上采樣)將其映射到一個新的時間序列 y = f (h),使其具有與音頻信號相同的分辨率,然后交由激活單元處理,如下:

其中?Vf,k?y?現(xiàn)在是一個 1x1 卷積。作為轉(zhuǎn)置卷積網(wǎng)絡(luò)的替代方法,也可以使用?Vf,k?h,然后沿時間重復(fù)這些值。但是在我們的實驗中,這個方法的表現(xiàn)稍差一些。

  • 2.6 CONTEXT STACKS

我們提出了多種方法來增加 WaveNet 的感受野大小:增加擴(kuò)大卷積模塊數(shù),模塊內(nèi)使用更多的擴(kuò)大卷積層,更大的卷積核,更大的擴(kuò)大因子,或者他們的組合。增加感受野的另外一個補(bǔ)充方法是,使用一個獨立的更小的上下文堆棧來處理語音信號的長跨度信息,并局部調(diào)試一個更大的 WaveNet 只用來處理語音信號的更短的局部信息(在結(jié)尾處截斷)??梢允褂枚鄠€變長的具有不同數(shù)量隱藏單元的上下文堆棧,擁有越大感受野的堆棧其每層含有的隱藏單元越少。上下文堆棧還可以使用池化層來降低頻率,這使得計算成本被控制在合理范圍,也與用更長的跨度對時間相關(guān)性建模會使體量更小的直覺相吻合。

  • 3 EXPERIMENTS

為了測量 WaveNet 音頻建模的性能,我們在三個不同的任務(wù)上對其進(jìn)行評估:多說話人語音生成(沒有基于文本訓(xùn)練),文本合成語音,音樂音頻建模。我們在附隨的網(wǎng)站上公布了實驗中 WaveNet 生成的音頻樣本:https://www.deepmind.com/blog/wavenet-generative-model-raw-audio/

  • 3.1 MULTI-SPEAKER SPEECH GENERATION

第一個實驗進(jìn)行自由格式的語音生成(沒有基于文本進(jìn)行調(diào)節(jié)訓(xùn)練)。我們使用 VCTK (Yamagishi, 2012) 數(shù)據(jù)集中的英文多人語料,并基于說話人進(jìn)行了條件建模,通過將說話人 ID 以 one hot 編碼的形式輸入進(jìn)行條件建模。數(shù)據(jù)集總共包含 109 位不同說話人的 44 小時語音數(shù)據(jù)。由于模型沒有基于文本進(jìn)行建模,因此它會產(chǎn)生不存在的但是聽起來很像人類語言的詞語,而且很流暢,語調(diào)逼真。這與語言或圖像的生成模型很相似,其生成的樣本咋一看很逼真,細(xì)看就不自然了。生成的語音在長跨度上缺乏連貫性,部分是由于受模型感受野大小的限制(大概 300 毫秒),這意味著模型只能記住它產(chǎn)生的之前 2-3 個音素。單個 WaveNet 可以通過 one-hot 編碼對任意一個說話人的語音進(jìn)行建模。這確認(rèn)了單個模型也能夠從數(shù)據(jù)中捕獲所有 109 人特征的足夠強(qiáng)大的能力。我們觀察到,與在單人數(shù)據(jù)集上訓(xùn)練相比,增加訓(xùn)練集的說話人數(shù)量可以在驗證集上獲得更好的性能。這提示我們,WaveNet 的內(nèi)部表征在多個說話人中是共享的。最后,我們觀察到除了聲音本身之外,該模型還提取了音頻中的其他特征。例如,它還模仿了聲學(xué)和錄音質(zhì)量,以及揚(yáng)聲器的呼吸和嘴巴動作。

  • 3.2 TEXT-To-SPEECH

第二個實驗選擇了 TTS。我們使用 Google 北美英語和中文普通話 TTS 系統(tǒng)構(gòu)建相同的單說話人語音數(shù)據(jù)集。北美英語數(shù)據(jù)集包含 24.6 小時語音數(shù)據(jù),中文普通話數(shù)據(jù)集包含 34.8 小時,兩個數(shù)據(jù)集都由專業(yè)女播音員錄制。在 TTS 任務(wù)中,首先基于從輸入文本獲得的語言學(xué)特征進(jìn)行局部調(diào)節(jié)訓(xùn)練 WaveNet。另外還在語言學(xué)特征 + 對數(shù)基頻(log F0)上調(diào)節(jié)訓(xùn)練了 WaveNet。兩種語言都訓(xùn)練了外部模型,用來從語言學(xué)特征預(yù)測對數(shù)基頻和音長。WaveNet 的感受野是 240 毫秒。還構(gòu)建了 HMM 單元選擇拼接 (Gonzalvo et al., 2016) 語音合成器作為基于例句的基線,以及 LSTM-RNN 統(tǒng)計參數(shù) (Zen et al., 2016) 語音合成器作為基于模型的基線。由于使用相同的數(shù)據(jù)集和語言學(xué)特征來訓(xùn)練基線語音合成器和 WaveNet 模型,對結(jié)果的性能比較應(yīng)該是公平的。為了評估 TTS 任務(wù)中 WaveNet 的性能,我們實施了主觀配對比較測試和平均意見得分(MOS)測試。在主觀配對比較測試中,聽完每一對樣本,評分者會選擇他們更喜歡哪一個樣本,如果沒有傾向也可以選擇中立。在 MOS 測試中,聽完每一個合成結(jié)果,評分者會對語音的自然度進(jìn)行 5 分制打分(1:很差,2:差,3:一樣,4:好,5:很好),詳細(xì)情況請參考附錄 B。

圖 5 展示了主觀配對比較測試的部分結(jié)果(全部測試結(jié)果請看附錄 B)。從結(jié)果來看,WaveNet 在兩種語言上都優(yōu)于基線的參數(shù)式和拼接式語音合成器。我們發(fā)現(xiàn)只用語言學(xué)特征調(diào)節(jié)訓(xùn)練的 WaveNet,其合成的語音有很自然的斷句,但有時候會弄錯重音而使韻律不自然。這可能是由于 F0 輪廓的大跨度依賴造成的:WaveNet 的感受野只有 240 毫秒,不能捕獲這么大跨度的依賴。而同時用語言學(xué)特征和 F0 訓(xùn)練的 WaveNet 就沒有這個問題:預(yù)測 F0 的外部模型以低頻(200Hz)運(yùn)行,所以它可以學(xué)到存在于 F0 輪廓中的大跨度依賴。

表 1 展示了 MOS 測試結(jié)果。從表中可以看出 WaveNet 的自然度在 5 分制 MOS 評分中超過了 4 分,比基線系統(tǒng)高出一大截。它們是這些訓(xùn)練集和測試句子上目前 MOS 得分的最高紀(jì)錄。合成語音與人類自然語音的 MOS 得分差距,在美式英語中從 0.69 下降到 0.34(51%),中文普通話從 0.42 下降到 0.13(69%)。

  • 3.3 MUSIC

盡管模型評估難以量化,但是可以通過傾聽生成的樣本進(jìn)行主觀評價。我們發(fā)現(xiàn)擴(kuò)大感受野是獲取悅耳音頻的關(guān)鍵。即使把感受野增加到數(shù)秒長,模型也沒能取得長時間的一致性,每秒的流派,樂器,音量和聲音質(zhì)量都有變化。然而,即使是非條件建模產(chǎn)生的音樂樣本,聽起來也很和諧,令人愉悅。一個特殊的興趣是進(jìn)行條件建模,使模型產(chǎn)生特定標(biāo)簽的音頻,如不同流派或樂器的音樂。與條件語音生成模型類似,每個音樂片段都有關(guān)聯(lián)的音樂標(biāo)簽,把這些標(biāo)簽用二進(jìn)制向量表達(dá),然后給模型插入一個依賴于這些二進(jìn)制向量的偏置參數(shù)。這樣通過給模型傳入一個編碼了想要屬性的二進(jìn)制向量,就使得在模型生成合成樣本時可以控制輸出的不同特性。我們在 MagnaTagAtune 數(shù)據(jù)集上訓(xùn)練模型,盡管數(shù)據(jù)標(biāo)簽有噪聲和遺漏,經(jīng)過清洗合并類似標(biāo)簽并移除相關(guān)音樂片段過少的標(biāo)簽,訓(xùn)練結(jié)果還是不錯的。

  • 3.4 SPEECH RECOGNITION

最后一個實驗,我們在 TIMIT (Garofolo et al., 1993) 數(shù)據(jù)集上用 WaveNet 進(jìn)行語音識別。這個實驗中我們在擴(kuò)大卷積后面增加了一個平均池化層,它把激活輸出聚合成 10 毫秒的幀(160× 下采樣)。池化層后接幾個非因果卷積。損失函數(shù)包含兩項,一項是下一個樣本的預(yù)測損失,另一項是數(shù)據(jù)幀分類損失,兩項損失比單項損失的泛化能力更好,在測試集上獲得了 18.8 PER,據(jù)我們所知,這是從 TIMIT 原始音頻直接訓(xùn)練的模型中獲得最佳分?jǐn)?shù)。

  • 4 CONCLUSION

這篇論文提出了 WaveNet,一個可直接在波形級別運(yùn)行的音頻數(shù)據(jù)的深度生成模型。WaveNet 是自回歸的,它結(jié)合了因果卷積和擴(kuò)大卷積,讓感受野隨著模型深度增加而指數(shù)級增加。感受野的增加對建模音頻信號的長時依賴非常重要。我們還展示了 WaveNet 如何基于其他輸入進(jìn)行全局(例如,說話人身份)和局部(例如,語言學(xué)特征)條件建模。應(yīng)用到 TTS 中,WaveNet 生成的語音樣本在主觀自然度上優(yōu)于目前的最佳合成系統(tǒng)。最后,WaveNet 在音樂建模和語音識別上也很有前景。

WaveNet論文翻譯的評論 (共 條)

分享到微博請遵守國家法律
涞水县| 石景山区| 岳普湖县| 大渡口区| 寿光市| 诸城市| 甘谷县| 类乌齐县| 陆川县| 苏尼特左旗| 雅安市| 普陀区| 靖州| 拉萨市| 遂昌县| 肇庆市| 湘阴县| 赞皇县| 家居| 梓潼县| 台南市| 崇礼县| 天津市| 敖汉旗| 淄博市| 张家港市| 连南| 凤台县| 江油市| 全椒县| 淮滨县| 屏东县| 微山县| 乌鲁木齐县| 拉孜县| 维西| 青田县| 甘肃省| 余姚市| 民乐县| 夏津县|