MUSICGEN:簡單可控的音樂生成
摘要
論文連接:https://arxiv.org/pdf/2306.05284v1.pdf 我們解決了條件音樂生成的任務(wù)。我們引入MUSICGEN,這是一個單一的語言模型(LM),它可以在幾個壓縮的離散音樂表示流(即token)上操作。與之前的工作不同,MUSICGEN由單級變壓器LM和有效的Token交錯模式組成,這消除了層疊多個模型的需要,例如,分層或上采樣。按照這種方法,我們將演示MUSICGEN如何生成高質(zhì)量的樣本,同時以文本描述或旋律特征為條件,從而更好地控制生成的輸出。我們進行了廣泛的經(jīng)驗評估,考慮到自動和人類研究,表明所提出的方法優(yōu)于標(biāo)準(zhǔn)文本到音樂基準(zhǔn)的評估基線。通過消融研究,我們闡明了組成MUSICGEN的每個組件的重要性。音樂示例、代碼和模型可在https://github.com/facebookresearch/audiocraft上獲得。

1、簡介
文本到音樂是指在給定文本描述的情況下生成音樂作品的任務(wù),例如,“90年代吉他即興搖滾歌曲”。生成音樂是一項具有挑戰(zhàn)性的任務(wù),因為它需要對長序列進行建模。與語音不同,音樂需要使用全頻譜[Müller, 2015]。這意味著以更高的速率對信號進行采樣,即音樂錄音的標(biāo)準(zhǔn)采樣率為44.1 kHz或48 kHz,而語音的采樣率為16 kHz。此外,音樂包含來自不同樂器的和聲和旋律,這創(chuàng)造了復(fù)雜的結(jié)構(gòu)。人類聽眾對不和諧非常敏感[Fedorenko等人,2012,Norman-Haignere等人,2019],因此生成音樂不會給旋律錯誤留下太多空間。最后,以多種方法控制生成過程的能力,如鍵、樂器、旋律、流派等,對音樂創(chuàng)作者來說是必不可少的。
自監(jiān)督音頻表示學(xué)習(xí)[Balestriero等人,2023]、序列建模[Touvron等人,2023]和音頻合成[Tan等人,2021]方面的最新進展為開發(fā)此類模型提供了條件。為了使音頻建模更容易處理,最近的研究提出將音頻信號表示為表示同一信號的多個離散token流[Défossez等人,2022]。這使得高質(zhì)量的音頻生成和有效的音頻建模成為可能。然而,這是以聯(lián)合建模幾個并行的依賴流為代價的。
Kharitonov等人[2022],Kreuk等人[2022]提出了采用延遲方法并行建模語音token的多流,即在不同流之間引入偏移量。Agostinelli等人[2023]提出使用不同粒度的多個離散標(biāo)記序列來表示音樂片段,并使用自回歸模型的層次結(jié)構(gòu)對其進行建模。與此同時,Donahue等人[2023]采用了類似的方法,但針對的是演唱到伴奏生成的任務(wù)。最近,Wang等人[2023]提出分兩個階段解決這個問題:(i)只對第一個token流建模;(ii)然后,應(yīng)用后網(wǎng)絡(luò)以非自回歸的方式聯(lián)合建模其余流。

本文提出MUSICGEN,一種簡單、可控的音樂生成模型,能在給定文本描述的情況下生成高質(zhì)量的音樂。本文提出一個對多個并行聲學(xué)token流進行建模的通用框架,作為以前研究的概括(見圖1)。為提高生成樣本的可控性,本文還引入了無監(jiān)督旋律條件,使模型能夠生成匹配給定和聲和旋律結(jié)構(gòu)的音樂。對MUSICGEN進行了廣泛的評估,所提出的方法在很大程度上優(yōu)于評估基線,MUSICGEN的主觀評分為84.8(滿分100分),而最佳基線為80.5。還提供了一項消融研究,闡明了每個組件對整體模型性能的重要性。最后,人工評估表明,MUSICGEN產(chǎn)生了高質(zhì)量的樣本,這些樣本在旋律上更好地與給定的和聲結(jié)構(gòu)對齊,同時符合文本描述。
本文貢獻:(i)提出了一個簡單高效的模型,可以在32khz產(chǎn)生高質(zhì)量的音樂。MUSICGEN可以通過有效的碼本交錯策略,用單階段語言模型生成一致的音樂。(ii)提出一個單一的模型,來進行文本和旋律條件生成,并證明生成的音頻與提供的旋律是一致的,并忠實于文本條件信息。(iii)對所提出方法背后的關(guān)鍵設(shè)計選擇進行了廣泛的客觀和人工評估。
完整譯文: https://blog.csdn.net/m0_47867638/article/details/131298847