AI翻唱變聲軟件DDSP-SVC教程,低配電腦可用,so-vits-svc替代品
前幾天給大家介紹了一個非常強(qiáng)大的翻唱歌曲軟件so-vits-svc,文章鏈接:《AI孫燕姿:人人都是翻唱高手,so-vits-svc4.0一鍵整合包下載及本地安裝部署教程》,但是那個軟件對電腦配置要求比較高,一般人顯卡達(dá)不到要求,訓(xùn)練效果可能不是很理想?,F(xiàn)在給大家介紹另外一個AI變聲軟件DDSP-SVC,這個軟件對電腦配置要求要低一些,但是轉(zhuǎn)換效果也會比so-vits-svc差了點(diǎn),但是軟件還是在優(yōu)化升級中,目前合成音頻效果也是不錯的。DDSP-SVC github項目地址:https://github.com/yxlllc/DDSP-SVC,下面給大家具體演示一下操作步驟。
github上有安裝使用步驟,大佬可以參考步驟安裝使用,我們這里使用羽毛布団大佬制作的整合包,方便新手小白使用。百度網(wǎng)盤下載鏈接: https://pan.baidu.com/s/1KBGJP4F1i5OthGCoAohz9Q?pwd=35ps 提取碼: 35ps
首先準(zhǔn)備聲音素材,最好是在安靜的環(huán)境中錄制的純?nèi)寺暩咔逡纛l素材,如果你是用來轉(zhuǎn)換歌曲的話,你錄制的聲音最好有高音和低音部分,這樣轉(zhuǎn)換出來的歌聲效果更好,不然的話高音部分可能會沙啞變音,如果你錄制的聲音不夠干凈,可以使用UVR5這個軟件來提取干凈人聲。這個軟件在網(wǎng)盤里也有。聲音素材總時長建議在1個小時以上。
打開UVR5軟件,如上圖所示,input里選擇待提取純?nèi)寺暤囊纛l文件,output選擇輸出文件夾,下面選中GPU Conversion 和vocals only只保留人聲,然后點(diǎn)擊按鈕start processing提取即可。單個音頻文件不要太大,時長最好20分鐘以內(nèi),否則軟件可能會因顯存不足報錯。將所有純?nèi)寺曇纛l文件提取完畢后待用。
將DDSP-SVC軟件下載到電腦上解壓,運(yùn)行【啟動WebUI.bat】文件啟動webui頁面,選擇智能音頻切片選項卡,原始音頻文件夾里輸入準(zhǔn)備好的干凈人聲音頻文件所在的文件夾,文件夾路徑復(fù)制進(jìn)來,然后點(diǎn)擊按鈕【加載原始音頻】,看看是不是提示加載成功,音頻列表里的音頻文件和你文件夾里的音頻文件是否一致,然后選擇分割后的音頻輸入文件夾,點(diǎn)擊【開始切片】開始分割音頻。輸出信息成功即代表分割完成。
音頻分割完成之后,將分割好的音頻片段復(fù)制到data\train\audio文件夾下,再點(diǎn)擊【一鍵劃分?jǐn)?shù)據(jù)集】按鈕,選出驗證集音頻文件
下面是數(shù)據(jù)預(yù)處理,選擇編碼器和f0提取算法,頁面上有明確的說明,可以根據(jù)自己的需求選擇,然后點(diǎn)擊【數(shù)據(jù)預(yù)處理】按鈕,這一步根據(jù)選擇算法不同,文件數(shù)量不同消耗時間也不一定。等到進(jìn)度條100%,沒有報錯的話就是預(yù)處理成功了。
下面是設(shè)置訓(xùn)練參數(shù),總共需要訓(xùn)練兩個模型一個是DDSP模型另一個是擴(kuò)散模型,下面大部分參數(shù)保持默認(rèn)即可,如果你的顯卡顯存比較低比如2G,可以在緩存數(shù)據(jù)這里選擇CPU,同時batch_size也要適當(dāng)降低,大顯存可以不用修改。擴(kuò)散模型配置里訓(xùn)練數(shù)據(jù)類型,如果你的顯卡是20系列或更高,可以選擇fp16或bf16,可以加快訓(xùn)練速度,如果訓(xùn)練時提示RuntimeError: Current CUDA Device does not support bfloat16. Please switch dtype to float16,就是不支持bf16,可以選擇前面的fp16,如果還是不支持就再朝前選擇fp32,注意更換選擇訓(xùn)練數(shù)據(jù)類型之后要點(diǎn)擊按鈕【寫入配置文件】,然后再去點(diǎn)擊下面的訓(xùn)練模型按鈕,都設(shè)置完成后點(diǎn)擊按鈕寫入配置文件。
下面選擇從頭開始訓(xùn)練,然后點(diǎn)擊訓(xùn)練DDSP模型,然后系統(tǒng)就會打開終端窗口輸出訓(xùn)練信息,如果不想訓(xùn)練了的話可以按住ctrl+c終止訓(xùn)練,DDSP模型和擴(kuò)散模型是分開獨(dú)立訓(xùn)練的,
你可以打開tendorboard查看訓(xùn)練狀態(tài),選中正在訓(xùn)練的模型點(diǎn)擊打開tensorboard按鈕,等到終端輸入如下圖http://localhost:6006/信息的時候?qū)⒕W(wǎng)址復(fù)制到瀏覽器地址欄打開就可以。
訓(xùn)練步數(shù)越大越好,在訓(xùn)練過程中終端會輸出loss值,當(dāng)值很低不再變的時候就可以停止訓(xùn)練了,可以轉(zhuǎn)去訓(xùn)練下一個模型。如果停止后想接著訓(xùn)練,可以選擇繼續(xù)上一次的訓(xùn)練進(jìn)度接著訓(xùn)練。
兩個模型都訓(xùn)練完成之后,切換到推理選項卡,點(diǎn)擊刷新選項,選擇模型訓(xùn)練步數(shù)最大的模型文件。
點(diǎn)擊上傳待轉(zhuǎn)換的純?nèi)寺曇纛l文件,其它設(shè)置保持默認(rèn)即可,點(diǎn)擊下面的音頻轉(zhuǎn)換按鈕開始轉(zhuǎn)換音頻。如果轉(zhuǎn)換后的音頻聲音嘶啞或是聲音異常,可能是模型里沒有高音待轉(zhuǎn)換的音頻里面有高音無法達(dá)到轉(zhuǎn)換效果,或是f0提取算法問題,你可以換個算法。聲音轉(zhuǎn)換完成后可以播放試聽或是點(diǎn)擊下載保存轉(zhuǎn)換后的音頻文件。
在終端里面輸入workenv\python.exe gui_diff.py運(yùn)行,可以開啟實(shí)時聲音轉(zhuǎn)換功能,選擇想用的模型,選擇輸入輸出設(shè)備,點(diǎn)擊開始音頻轉(zhuǎn)換按鈕即可。
注意請訓(xùn)練自己的聲音,如果訓(xùn)練別人的聲音請獲得授權(quán),僅限個人研究學(xué)習(xí)及娛樂使用,切勿違規(guī)使用該軟件。
原文:https://dyss.top/897