最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

免費(fèi)AI寫歌軟件Stable Audio發(fā)布!

2023-09-15 16:32 作者:ReadPaper論文閱讀  | 我要投稿

著名的開源平臺Stability AI近日發(fā)布了其音頻生成式AI產(chǎn)品——Stable Audio。用戶只需通過文本提示,即可生成包括搖滾、爵士、電子、嘻哈等在內(nèi)的20多種類型的背景音樂。例如,輸入“迪斯科”、“鼓機(jī)”等關(guān)鍵詞,就能生成相應(yīng)的背景音樂。Stable Audio提供免費(fèi)和付費(fèi)兩個(gè)版本。

其中免費(fèi)版每月可生成20首音樂,最大時(shí)長為45秒,而付費(fèi)版每月11.99美元,可生成500首音樂,最大時(shí)長為90秒。Stable Audio使用了一種先進(jìn)的模型,允許用戶控制生成音頻的內(nèi)容和長度,能夠在不到一秒的時(shí)間內(nèi)渲染出95秒的立體聲音頻。

官網(wǎng):https://www.stableaudio.com/

詳細(xì)的來說模型結(jié)構(gòu)——Stable Audio的模型結(jié)構(gòu)如下:

1. 主要組件:

變分自動編碼器 (Variational Autoencoder, VAE): VAE允許模型通過接受輸入音頻數(shù)據(jù)并以壓縮形式輸出,其中包含足夠的信息進(jìn)行轉(zhuǎn)換,從而更高效地學(xué)習(xí)和操作。

文本編碼器 (Text Encoder): 該編碼器名為CLAP,從零開始在研究人員策劃的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這確保文本特征包含足夠的信息來建立單詞和聲音之間的連接。CLAP編碼器的倒數(shù)第二層的文本特征通過U-Net的注意力層進(jìn)行傳遞。

擴(kuò)散模型結(jié)構(gòu) (Diffusion Model Architecture of U-Net): 該模型是基于Mo?sai模型的U-Net架構(gòu),擁有907百萬參數(shù)。它使用殘差層、自注意力層和交叉注意力層的組合,基于文本和時(shí)間嵌入對輸入數(shù)據(jù)進(jìn)行去噪。為了增強(qiáng)長序列的可擴(kuò)展性,已經(jīng)整合了高效的注意力機(jī)制。

2. 文本提示的集成:

文本提示使用名為CLAP的凍結(jié)文本編碼器進(jìn)行集成,該編碼器從零開始在研究人員策劃的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這確保文本特征包含足夠的信息來建立單詞和聲音之間的聯(lián)系。CLAP編碼器的倒數(shù)第二層的文本特征通過U-Net的注意力層進(jìn)行傳遞。

3. 時(shí)間嵌入的創(chuàng)建:

為了創(chuàng)建時(shí)間嵌入的音頻片段,計(jì)算了片段的開始秒數(shù)(稱為“seconds_start”)和原始音頻文件中的總秒數(shù)(稱為“seconds_total”)。這些值被轉(zhuǎn)換為離散學(xué)習(xí)的嵌入,并與查詢令牌連接在一起,然后傳遞給U-Net的注意力層。在推斷過程中,提供相同的值作為條件,允許用戶指定輸出音頻的總長度。

最后聊聊我的看法:

Stable Audio為內(nèi)容創(chuàng)作者提供了一個(gè)高效、低成本的音樂生成工具,特別是對于那些沒有音樂背景但需要背景音樂的創(chuàng)作者。華語樂壇會不會有救了?


特邀作者:早稻田大學(xué)計(jì)算機(jī)系在讀博士 王軍杰?

免費(fèi)AI寫歌軟件Stable Audio發(fā)布!的評論 (共 條)

分享到微博請遵守國家法律
梧州市| 慈利县| 时尚| 容城县| 福州市| 丹东市| 平泉县| 个旧市| 辽宁省| 新平| 万源市| 易门县| 饶河县| 蛟河市| 嘉鱼县| 永平县| 灯塔市| 嘉峪关市| 广宗县| 临城县| 梁平县| 玛纳斯县| 威海市| 敦化市| 扎兰屯市| 临夏县| 梅河口市| 大同县| 永和县| 福清市| 五常市| 堆龙德庆县| 犍为县| 淮滨县| 高密市| 永定县| 合作市| 香格里拉县| 清水县| 富宁县| 安平县|