散文網(wǎng) » 科技 »學(xué)習(xí) » GitHub 開(kāi)源神器 Bark模型，讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單！

GitHub 開(kāi)源神器 Bark模型，讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單！

2023-04-23 20:28 作者:py愛(ài)好loer 0人讀過(guò) | 我要投稿

今天跟大家分享一個(gè)文本轉(zhuǎn)語(yǔ)音的開(kāi)源模型：Bark

Bark 是由Suno創(chuàng)建的基于轉(zhuǎn)換器的文本到音頻模型。Bark 可以生成高度逼真的多語(yǔ)言語(yǔ)音以及其他音頻 - 包括音樂(lè)、背景噪音和簡(jiǎn)單的音效。該模型還可以產(chǎn)生非語(yǔ)言交流，如大笑、嘆息和哭泣。

該項(xiàng)目剛開(kāi)源不久， GitHub Star 數(shù)也達(dá)到了 4500+，估計(jì)很快就破萬(wàn)了?，F(xiàn)在詳細(xì)介紹下該項(xiàng)目的功用吧。

功能概況：

非常真實(shí)自然的語(yǔ)音
英文效果最佳，其他語(yǔ)言還欠佳
支持通過(guò)文本生成歌曲
支持生成背景噪音、簡(jiǎn)單的音效
支持大笑、嘆息、哭泣

??安裝

或者

???硬件和推理速度

Bark 經(jīng)過(guò)測(cè)試，可在 CPU 和 GPU（pytorch 2.0+、CUDA 11.7 和 CUDA 12.0）上運(yùn)行。運(yùn)行 Bark 需要運(yùn)行 >100M 的參數(shù)轉(zhuǎn)換器模型。在現(xiàn)代 GPU 和 PyTorch nightly 上，Bark 可以大致實(shí)時(shí)地生成音頻。在較舊的 GPU、默認(rèn) colab 或 CPU 上，推理時(shí)間可能會(huì)慢 10-100 倍。

支持的語(yǔ)言

英語(yǔ) (zh)?

德語(yǔ) (de)?

西班牙語(yǔ)?

法語(yǔ) (fr)?

印地語(yǔ)（嗨）?

意大利語(yǔ)（它）?

日語(yǔ) (ja)?

韓文 (ko)?

波蘭語(yǔ)（復(fù)數(shù)）?

葡萄牙語(yǔ) (pt)?

俄語(yǔ) (ru)?

土耳其語(yǔ) (tr)?

簡(jiǎn)體中文 (zh)?

??用法

要保存audio_array為 WAV 文件：

Bark 支持開(kāi)箱即用的各種語(yǔ)言，并自動(dòng)根據(jù)輸入文本確定語(yǔ)言。當(dāng)出現(xiàn)代碼轉(zhuǎn)換文本提示時(shí)，Bark 將嘗試使用相應(yīng)語(yǔ)言的本地口音。英語(yǔ)質(zhì)量目前是最好的。

??音樂(lè)

Bark 可以生成所有類(lèi)型的音頻，并且原則上看不出語(yǔ)音和音樂(lè)之間的區(qū)別。有時(shí) Bark 選擇將文本生成為音樂(lè)，可以通過(guò)在歌詞周?chē)砑右舴麃?lái)幫助它。

??揚(yáng)聲器提示

您可以提供特定的演講者提示，例如旁白、男人、女人等。請(qǐng)注意，這些提示并不總是得到尊重，尤其是在給出沖突的音頻歷史提示時(shí)。

注意：使用Python執(zhí)行代碼時(shí)，會(huì)默認(rèn)識(shí)別電腦上有無(wú)GPU，如果沒(méi)有GPU則會(huì)下載可用于CPU的訓(xùn)練模型，默認(rèn)模型文件下載地址為當(dāng)前用戶(hù)目錄.cache文件夾下，可以通過(guò)配置XDG_CACHE_HOME環(huán)境變量指定模型下載位置

趕快給你的同行朋友們安利一波，一起體驗(yàn)一下它的神奇功用吧。

標(biāo)簽：開(kāi)源文本轉(zhuǎn)語(yǔ)音開(kāi)源項(xiàng)目 AI模型