MockingBird:快速克隆自己的聲音,實(shí)現(xiàn)文本轉(zhuǎn)語(yǔ)音,本地安裝教程
之前給大家介紹過(guò)一些克隆自己聲音的工具,大部分可能是需要付費(fèi)的,這次給大家介紹一個(gè)開(kāi)源程序MockingBird,可以在本地安裝克隆自己的聲音,用自己的聲音實(shí)現(xiàn)文本轉(zhuǎn)語(yǔ)音功能。github項(xiàng)目地址:https://github.com/babysor/MockingBird,號(hào)稱(chēng)5秒內(nèi)克隆您的聲音并生成任意語(yǔ)音內(nèi)容,下面是本地具體安裝步驟。
1、安裝Python
照舊先安裝Python,打開(kāi)Python官網(wǎng)下載鏈接:https://www.python.org/downloads/,你是什么系統(tǒng),就下載那個(gè)對(duì)應(yīng)版本就可以。
我們下載Python 3.10.11穩(wěn)定版
下載到電腦上之后,雙擊運(yùn)行安裝Python,先點(diǎn)擊勾選add python.exe to path,在點(diǎn)擊install now安裝。
2、安裝PyTorch
打開(kāi)pytorch官網(wǎng)鏈接:https://pytorch.org/get-started/locally/,選擇適合自己的操作系統(tǒng),我的是Windows系統(tǒng),NVIDIA顯卡選CUDA,其它顯卡選CPU。然后復(fù)制下面的代碼。
如果你的系統(tǒng)和顯卡跟我一樣的話,可以直接復(fù)制下面的代碼:
pip3?install?torch?torchvision?torchaudio?--index-url?https://download.pytorch.org/whl/cu118
按鍵盤(pán)上的Windows+R鍵啟動(dòng)終端,在終端內(nèi)鼠標(biāo)右鍵點(diǎn)擊,自動(dòng)粘貼命令,然后回車(chē),安裝pytorch,
3、安裝ffmpeg
首先打開(kāi)ffmpeg官網(wǎng):https://ffmpeg.org/download.html,下載對(duì)應(yīng)系統(tǒng)的文件,這里以Windows為例
將壓縮包下載到本地電腦上解壓,然后打開(kāi)bin文件夾,復(fù)制路徑,
然后鼠標(biāo)右鍵點(diǎn)擊我的電腦-屬性-高級(jí)系統(tǒng)設(shè)置-環(huán)境變量-選中Path點(diǎn)擊編輯-新建,然后在輸入框內(nèi)輸入上面的文件夾路徑,然后確定。
這時(shí)在cmd里輸入如下命令:
ffmpeg
出現(xiàn)ffmpeg詳細(xì)信息就表示ffmpeg安裝成功。
4、下載并安裝MockingBird
打開(kāi)MockingBird項(xiàng)目地址,點(diǎn)擊綠色code按鈕,點(diǎn)擊【Download ZIP】將程序文件下載到本地電腦,如果你電腦上安裝了git了,也可以通過(guò)如下命令下載:
git?clone?https://github.com/babysor/MockingBird.git
打開(kāi)MockingBird文件夾,找到requirements.txt文件并打開(kāi),將monotonic-align==0.0.3這條數(shù)據(jù)刪除“==0.0.3”,僅保留文本“monotonic-align”,保存并關(guān)閉當(dāng)前文檔
點(diǎn)擊上方的地址欄,輸入cmd,回車(chē),啟動(dòng)終端。
依次運(yùn)行如下兩條命令:
pip?install?-r?requirements.txt
pip?install?webrtcvad-wheels
5、準(zhǔn)備語(yǔ)言模型
可以自己訓(xùn)練,也可以下載下方別人分享的模型。
作者下載鏈接預(yù)覽說(shuō)明@author百度網(wǎng)盤(pán)?提取碼:4j5d75k steps 用3個(gè)開(kāi)源數(shù)據(jù)集混合訓(xùn)練@author百度網(wǎng)盤(pán)?提取碼:om7f25k steps 用3個(gè)開(kāi)源數(shù)據(jù)集混合訓(xùn)練, 切換到tag v0.0.1使用@FawenYosharepointinput?output200k steps 臺(tái)灣口音需切換到tag v0.0.1使用@miven百度網(wǎng)盤(pán)?提取碼: 2021150k steps 注意:根據(jù)issue修復(fù) 并切換到tag v0.0.1使用
將下載的模型文件放到MockingBird根目錄下data\ckpt\synthesizer文件夾內(nèi),你需要先新建synthesizer這個(gè)文件夾。
如果使用下面三個(gè)模型,你需要使用0.0.1版本才行,github里點(diǎn)擊main按鈕再點(diǎn)擊tags,再點(diǎn)擊v0.0.1,切換到0.0.1版本,再點(diǎn)擊綠色code按鈕,再點(diǎn)擊download ZIP將程序文件下載下來(lái),再依上面步驟安裝v0.0.1版本。
6、啟動(dòng)webui
在MockingBird文件夾內(nèi)上方地址欄里輸入cmd回車(chē),進(jìn)入終端內(nèi)輸入如下命令,看到有輸出URL地址信息就可以了,
python?web.py
你看到的URL地址可能和我的不一樣,這個(gè)不是固定的不用在意,復(fù)制你的URL到瀏覽器地址欄打開(kāi)。在【文本內(nèi)容】里輸入待合成語(yǔ)音的文本,選擇模型,點(diǎn)擊合成按鈕,右側(cè)就會(huì)顯示合成結(jié)果音頻,可播放或下載。
7、啟動(dòng)GUI
如果你想運(yùn)行如下MockingBird應(yīng)用程序界面的話,在MockingBird文件夾內(nèi)點(diǎn)擊上方地址欄輸入cmd,回車(chē),啟動(dòng)終端,輸入下方命令,回車(chē)。
python?demo_toolbox.py
先點(diǎn)擊按鈕【Browse打開(kāi)本地】選擇一個(gè)音頻文件,時(shí)長(zhǎng)要短,選擇synthesizer模型為75k,輸入待合成語(yǔ)音的文本內(nèi)容,點(diǎn)擊合成按鈕,導(dǎo)出合成后的音頻。
這個(gè)軟件上手還是有些難度的,不光安裝麻煩,使用起來(lái)也有些麻煩,除非有這個(gè)需求,比如做解說(shuō)配音或想研究代碼及軟件之類(lèi)的,如果用的不太多還是用其它配音或是克隆聲音軟件簡(jiǎn)單些。有感興趣的可以去試試。
原文:https://dyss.top/1066