RVC AI翻唱保姆級教程

1.軟件準(zhǔn)備
? ? 首先需要RVC 軟件,它是SVC軟件的一種,特點就是門檻低效果好,作者是B站的花兒不哭大佬,最新整合包在這里:【AI變聲器】RVC AI實時變聲器717版,新增GPU系rmvpe算法,胎教級使用教程_嗶哩嗶哩_bilibili
提醒:RVC軟件作為AI翻唱軟件的一種,對電腦的配置要求比較高,你的電腦需要是N卡,且顯存4GB以上才能順暢推理(不是模型訓(xùn)練),配置差的朋友也不是沒有路可走,可以使用autodl.com這個網(wǎng)站租用顯卡,下面會講使用教程。
????然后需要一個人聲伴奏分離軟件,我使用的是UVR5,當(dāng)然你使用別的如ripx什么的也沒問題。最強伴奏人聲提取工具 - 開源免費,一鍵安裝,直接使用!| Ultimate Vocal Remover | UVR5_嗶哩嗶哩_bilibili
夸克網(wǎng)盤:https://pan.quark.cn/s/816a932fc26c
123云盤:https://www.123pan.com/s/RiyA-Z5U03 提取碼:hjhj
人聲伴奏得合并對吧,這里使用的是Adobe Audition,也可以用OneStudio等軟件做多軌混音。這里Bing一下就容易搞到軟件,我就不多贅述了
然后就可以開始了。
2.RVC的Windows本地使用
????當(dāng)你下載好了RVC整合包,將其解壓

先別怕,往下翻

如果找不到的話,可以新建一個文本文件,然后鍵入
并把文件后綴改成.bat運行即可。
如果雙擊沒反應(yīng),就把pause刪掉試試。

等一會會彈出一個網(wǎng)頁,這就是軟件的界面,你可以在這邊進行模型推理和伴奏人聲分離(雖然RVC用的也是UVR,但是獨立的UVR軟件畢竟模型更多更干凈)

1.模型推理
準(zhǔn)備好干聲文件,選擇推理音色(沒有模型的話點我動態(tài),置頂有TTF2模型和APEX模型)
模型下載好后放進RVC軟件的weights文件夾內(nèi)(不是UVR_weights)


選擇好你喜歡的音色后,輸入音頻完整路徑(最好音頻文件名字不要帶中文,而且包括擴展名一并輸入)

現(xiàn)在講解一下各個參數(shù)什么意思


這個值越大轉(zhuǎn)換輸出的人聲越接近你模型的音色


然后就可以點轉(zhuǎn)換按鈕了!


Chromium內(nèi)核的瀏覽器應(yīng)該都能下載吧(如Edge/Chrome)

下載完長這樣,記得重命名一下
2.模型訓(xùn)練
注意,模型訓(xùn)練極度吃顯存大小,顯存8GB以下的就只能觀望了(或者云端租用顯卡訓(xùn)練)
模型訓(xùn)練,你需要準(zhǔn)備模型的訓(xùn)練集,由于目前只支持單人語音訓(xùn)練,訓(xùn)練集要求3分鐘以上單人干凈的說話語音(不帶背景音),訓(xùn)練集可以是多個文件,只要在同一文件夾內(nèi)即可。

然后打開RVC軟件

“實驗名”就是模型名字,支持中文。采樣率影響不大(主要是對顯存占用的影響,咱反正聽不出區(qū)別),用默認的就好了,V1V2的話我趨向于選擇V2,當(dāng)然也有人說V2不如V1什么的,看你實際效果啦。

他這里有Step 1 2這樣的,咱可以不用理step2

由于RVC訓(xùn)練每保存一次模型就會吃1GB左右空間,你可以提高一點保存頻率。救救硬盤空間
Epoch我一般是60起步,120左右。
Batch Size指的是AI在學(xué)習(xí)的過程中一次學(xué)習(xí)參照的音頻文件數(shù)量,越大越吃顯存,我這里拿云端的3060 12G煉的話batch size選8基本上能吃滿
別的軟件本身介紹挺詳細的,自己看一下應(yīng)該也懂了。
OK然后點一鍵訓(xùn)練即可

3.RVC的云端訓(xùn)練(autodl.com)

租顯卡嘛,鼠標(biāo)懸停到用戶名上,你就可以看見充值按鈕了,先充10塊錢試試也行。
(這個平臺也是可以讓你跑AI繪畫的)
充值好后點擊算力市場
(煉這個顯卡不用多強,顯存大就行,所以挑個便宜一點的玩玩就行,3090 1.66元一小時左右。)
這個手速得快,機子得搶的,別愣著。
提醒:別選北京地區(qū)的,因為部分原因,你點不開自定義服務(wù),還要端口映射什么的,比較麻煩。
搶完馬上選"社區(qū)鏡像"

選完點立即創(chuàng)建

點擊JupyterLab




由于它默認的端口號是7865,不是autodl自定義服務(wù)的6006,因此我們需要先修改文件




好,現(xiàn)在返回終端





點模型訓(xùn)練

上傳訓(xùn)練集:



接下來的操作和本地訓(xùn)練沒有太大區(qū)別,唯一區(qū)別是云端是Linux系統(tǒng),文件路徑會有所區(qū)別,在JupyterLab里上傳好訓(xùn)練集,復(fù)制訓(xùn)練集路徑

路徑前面都要加/root/,不然識別不到,會報錯
然后照前面的方式就可以開始訓(xùn)練了
保存模型:


然后把模型pth文件轉(zhuǎn)移到本地的RVC軟件的weights文件夾里就行了
4.UVR伴奏人聲分離軟件的使用





然后拿處理好后的人聲

再處理一遍時,需更換模型,我們已經(jīng)將人聲分離出來了,但是人聲依舊帶和聲和混響,這是我們應(yīng)該去除的。


注意:因為我已經(jīng)下載了Deverb模型所以下載中心中并沒有顯示MDX-Net Model:Deverb HQ-By FoxJoy,不要下錯了

然后再處理一遍,最后拿Karaoke模型再對這種(No Other)后綴的處理一遍


得到最后的干凈人聲和和聲(上面是和聲,下面是人聲)
然后就可以丟進RVC里面進行推理了。
5.混音
這個可能得看一些教程學(xué)Au 不過Au用起來也不難
打開Au

2.


把推理好的人聲、伴奏、和聲和混響拖進去就行
3.保存文件

選格式、路徑導(dǎo)出即可