免費(fèi)AI寫歌軟件Stable Audio發(fā)布!
著名的開源平臺Stability AI近日發(fā)布了其音頻生成式AI產(chǎn)品——Stable Audio。用戶只需通過文本提示,即可生成包括搖滾、爵士、電子、嘻哈等在內(nèi)的20多種類型的背景音樂。例如,輸入“迪斯科”、“鼓機(jī)”等關(guān)鍵詞,就能生成相應(yīng)的背景音樂。Stable Audio提供免費(fèi)和付費(fèi)兩個(gè)版本。
其中免費(fèi)版每月可生成20首音樂,最大時(shí)長為45秒,而付費(fèi)版每月11.99美元,可生成500首音樂,最大時(shí)長為90秒。Stable Audio使用了一種先進(jìn)的模型,允許用戶控制生成音頻的內(nèi)容和長度,能夠在不到一秒的時(shí)間內(nèi)渲染出95秒的立體聲音頻。
官網(wǎng):https://www.stableaudio.com/

詳細(xì)的來說模型結(jié)構(gòu)——Stable Audio的模型結(jié)構(gòu)如下:
1. 主要組件:
變分自動編碼器 (Variational Autoencoder, VAE): VAE允許模型通過接受輸入音頻數(shù)據(jù)并以壓縮形式輸出,其中包含足夠的信息進(jìn)行轉(zhuǎn)換,從而更高效地學(xué)習(xí)和操作。
文本編碼器 (Text Encoder): 該編碼器名為CLAP,從零開始在研究人員策劃的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這確保文本特征包含足夠的信息來建立單詞和聲音之間的連接。CLAP編碼器的倒數(shù)第二層的文本特征通過U-Net的注意力層進(jìn)行傳遞。
擴(kuò)散模型結(jié)構(gòu) (Diffusion Model Architecture of U-Net): 該模型是基于Mo?sai模型的U-Net架構(gòu),擁有907百萬參數(shù)。它使用殘差層、自注意力層和交叉注意力層的組合,基于文本和時(shí)間嵌入對輸入數(shù)據(jù)進(jìn)行去噪。為了增強(qiáng)長序列的可擴(kuò)展性,已經(jīng)整合了高效的注意力機(jī)制。
2. 文本提示的集成:
文本提示使用名為CLAP的凍結(jié)文本編碼器進(jìn)行集成,該編碼器從零開始在研究人員策劃的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這確保文本特征包含足夠的信息來建立單詞和聲音之間的聯(lián)系。CLAP編碼器的倒數(shù)第二層的文本特征通過U-Net的注意力層進(jìn)行傳遞。
3. 時(shí)間嵌入的創(chuàng)建:
為了創(chuàng)建時(shí)間嵌入的音頻片段,計(jì)算了片段的開始秒數(shù)(稱為“seconds_start”)和原始音頻文件中的總秒數(shù)(稱為“seconds_total”)。這些值被轉(zhuǎn)換為離散學(xué)習(xí)的嵌入,并與查詢令牌連接在一起,然后傳遞給U-Net的注意力層。在推斷過程中,提供相同的值作為條件,允許用戶指定輸出音頻的總長度。

最后聊聊我的看法:
Stable Audio為內(nèi)容創(chuàng)作者提供了一個(gè)高效、低成本的音樂生成工具,特別是對于那些沒有音樂背景但需要背景音樂的創(chuàng)作者。華語樂壇會不會有救了?
特邀作者:早稻田大學(xué)計(jì)算機(jī)系在讀博士 王軍杰?