AI歌手,主流SVC項(xiàng)目效果對(duì)比
電腦配置:
操作系統(tǒng)名稱 Microsoft Windows 11 家庭中文版
處理器 AMD Ryzen 7 5800H with Radeon Graphics
顯卡 RTX 3060 6G?
內(nèi)存 DDR4 3200 24G?
一共測(cè)試了3個(gè)項(xiàng)目,RVC,DiffusionSVC,DDSP-SVC
sovits-svc-4.1由于顯存不夠,沒(méi)有更好的硬件,暫時(shí)沒(méi)有進(jìn)行測(cè)試
1.RVC (618版本)
優(yōu)點(diǎn):
【訓(xùn)練要求】配置要求中等,對(duì)數(shù)據(jù)集大小要求低,10分鐘數(shù)據(jù)也可訓(xùn)練
【合成效果】沒(méi)有音域限制,效果中規(guī)中矩,歌聲轉(zhuǎn)換還行
缺點(diǎn):
【訓(xùn)練要求】數(shù)據(jù)集需人聲混響處理干凈,不然會(huì)出現(xiàn)電音訓(xùn)練失敗。
【合成效果】咬字不清,語(yǔ)音變聲會(huì)出現(xiàn)很多錯(cuò)誤發(fā)音,比如yi ou之類(lèi)的會(huì)發(fā)e,經(jīng)測(cè)試,更換或增大數(shù)據(jù)集并不能解決此類(lèi)問(wèn)題
有時(shí)會(huì)出現(xiàn)聲音感情很奇怪的現(xiàn)象,比如輸入音很正常,但合成出來(lái)會(huì)很兇(通過(guò)篩選數(shù)據(jù)集感情又會(huì)變化),貌似是模型泛化能力不夠造成的
索引會(huì)占用大量CPU,且在小數(shù)據(jù)集訓(xùn)練的模型上無(wú)法完全杜絕音色泄露
2.DiffusionSVC(1.0)(naive+淺擴(kuò)散100step)
優(yōu)點(diǎn):
【訓(xùn)練要求】配置要求低,數(shù)據(jù)集可帶混響
【合成效果】中低音合成效果非常棒,咬字清晰,感情不變,無(wú)音色泄露,且推理性能好,占電腦資源少。
缺點(diǎn):有音域限制,對(duì)于F5以上高音的合成效果是【很虛,音量很小】
3.DDSP-SVC(3.0)
3.1【DDSP+預(yù)訓(xùn)練聲碼器增強(qiáng)器】
【訓(xùn)練要求】配置要求低,2G顯存都能跑,數(shù)據(jù)集可帶混響
【合成效果】
優(yōu)點(diǎn):在使用預(yù)訓(xùn)練聲碼器增強(qiáng)器的情況下,合成效果略微差于DiffusionSVC,好于RVC
有音域限制,但是推理時(shí)可以添加-eak <enhancer_adaptive_key (semitones)>參數(shù),將增強(qiáng)器適配于更高的音域
且推理性能好,占電腦資源少
缺點(diǎn):咬字較DiffusionSVC稍顯不清晰,附帶一點(diǎn)電音
3.2【DDSP + Diff-SVC 重構(gòu)版】
【合成效果】有音域限制,無(wú)法使用-eak參數(shù)?適配更高音域,其他特點(diǎn)與(DDSP+預(yù)訓(xùn)練聲碼器)增強(qiáng)器差不多