AI聲音克隆又進化了,10分鐘學會聲音克??!一鍵啟動包發(fā)布!

搞了一晚上,終于跑起來了。
簡單總結(jié)一下我干了啥:
- 安裝自己顯卡對應(yīng)版本的cuda
- 解決報錯1:F:\Code\xxx ... ?????
執(zhí)行以下兩條命令(新版啟動包可能沒這個問題)
.\venv\python.exe -m pip uninstall demucs
.\venv\python.exe -m pip install demucs -i https://pypi.tuna.tsinghua.edu.cn/simple
- 解決報錯2:找不到文件路徑

需要安裝ffmpeg并配置到系統(tǒng)環(huán)境變量中
- 解決報錯3:頁面文件太小,無法完成操作
修改虛擬內(nèi)存大小,可以百度搜,修改后重啟電腦。
展示一下訓(xùn)練截圖

在寫這個筆記的過程中100個epochs就結(jié)束了(up說下面這個提示是正常情況,不算報錯)


然后回到根目錄運行:預(yù)測一鍵啟動.bat
發(fā)現(xiàn)一個新問題config找不到
- 解決報錯4:主要是修改了
--config_dir 后面的路徑
修改后的文件:
@echo off
set path=.\venv\Scripts;.\venv;%path%
::.\venv\python.exe VC_inference.py --model_dir ./OUTPUT_MODEL/G_latest.pth --config_dir ./configs/modified_finetune_speaker.json --share False
.\venv\python.exe VC_inference.py --model_dir ./OUTPUT_MODEL/G_latest.pth --config_dir ./configs/modified_finetune_speaker.json
?--share False
pause
修改完成后,再次運行,就可以啦

PS:機器是4060 8GB,這個是臨時錄的5分鐘語音,在small模型下訓(xùn)練了100個epochs的效果,加載上模型后,生成30秒的語音只要2秒不到,非常快。不過效果嘛,只能說是能聽懂你在說啥,不像人類的聲音,回頭換medium重新訓(xùn)練一下