GitHub 開(kāi)源神器 Bark模型,讓文本轉(zhuǎn)語(yǔ)音更簡(jiǎn)單!
今天跟大家分享一個(gè)文本轉(zhuǎn)語(yǔ)音的開(kāi)源模型:Bark
創(chuàng)建的基于轉(zhuǎn)換器的文本到音頻模型。Bark 可以生成高度逼真的多語(yǔ)言語(yǔ)音以及其他音頻 - 包括音樂(lè)、背景噪音和簡(jiǎn)單的音效。該模型還可以產(chǎn)生非語(yǔ)言交流,如大笑、嘆息和哭泣。
該項(xiàng)目剛開(kāi)源不久, GitHub Star 數(shù)也達(dá)到了 4500+,估計(jì)很快就破萬(wàn)了?,F(xiàn)在詳細(xì)介紹下該項(xiàng)目的功用吧。
功能概況:
非常真實(shí)自然的語(yǔ)音
英文效果最佳,其他語(yǔ)言還欠佳
支持通過(guò)文本生成歌曲
支持生成背景噪音、簡(jiǎn)單的音效
支持大笑、嘆息、哭泣
??安裝
或者
???硬件和推理速度
Bark 經(jīng)過(guò)測(cè)試,可在 CPU 和 GPU(pytorch 2.0+
、CUDA 11.7 和 CUDA 12.0)上運(yùn)行。運(yùn)行 Bark 需要運(yùn)行 >100M 的參數(shù)轉(zhuǎn)換器模型。在現(xiàn)代 GPU 和 PyTorch nightly 上,Bark 可以大致實(shí)時(shí)地生成音頻。在較舊的 GPU、默認(rèn) colab 或 CPU 上,推理時(shí)間可能會(huì)慢 10-100 倍。
支持的語(yǔ)言
英語(yǔ) (zh)?
德語(yǔ) (de)?
西班牙語(yǔ)?
法語(yǔ) (fr)?
印地語(yǔ)(嗨)?
意大利語(yǔ)(它)?
日語(yǔ) (ja)?
韓文 (ko)?
波蘭語(yǔ)(復(fù)數(shù))?
葡萄牙語(yǔ) (pt)?
俄語(yǔ) (ru)?
土耳其語(yǔ) (tr)?
簡(jiǎn)體中文 (zh)?
??用法
要保存audio_array
為 WAV 文件:
Bark 支持開(kāi)箱即用的各種語(yǔ)言,并自動(dòng)根據(jù)輸入文本確定語(yǔ)言。當(dāng)出現(xiàn)代碼轉(zhuǎn)換文本提示時(shí),Bark 將嘗試使用相應(yīng)語(yǔ)言的本地口音。英語(yǔ)質(zhì)量目前是最好的。
??音樂(lè)
Bark 可以生成所有類(lèi)型的音頻,并且原則上看不出語(yǔ)音和音樂(lè)之間的區(qū)別。有時(shí) Bark 選擇將文本生成為音樂(lè),可以通過(guò)在歌詞周?chē)砑右舴麃?lái)幫助它。
??揚(yáng)聲器提示
您可以提供特定的演講者提示,例如旁白、男人、女人等。請(qǐng)注意,這些提示并不總是得到尊重,尤其是在給出沖突的音頻歷史提示時(shí)。
注意:使用Python執(zhí)行代碼時(shí),會(huì)默認(rèn)識(shí)別電腦上有無(wú)GPU,如果沒(méi)有GPU則會(huì)下載可用于CPU的訓(xùn)練模型,默認(rèn)模型文件下載地址為當(dāng)前用戶(hù)目錄.cache文件夾下,可以通過(guò)配置XDG_CACHE_HOME環(huán)境變量指定模型下載位置