D3SP個(gè)人筆記

項(xiàng)目名稱:DDSP-SVC 3.0(DDDSP, D3SP)
項(xiàng)目地址:https://github.com/yxlllc/DDSP-SVC
整合包來(lái)源:https://www.bilibili.com/video/BV1rs4y1Q7BQ
使用軟件
wavmp3cvt:轉(zhuǎn)換格式+合并音頻??//很有用
audacity:修音頻+雙聲道轉(zhuǎn)單聲道
UVR5:分離伴奏+修復(fù)干音?//UVR5,謝謝你
FanselineVisualizer:音頻可視化??BV1AD4y1D7fd?//超棒!
PR::)
訓(xùn)練素材信息
--
格式:wav,時(shí)長(zhǎng)3~15S,44100Hz,PCM-16,單聲道(劃重點(diǎn))
總時(shí)長(zhǎng):19分鐘
切片數(shù)量:180(丟棄短音)
驗(yàn)證集數(shù)量:3
錄制軟件:華為錄音機(jī)(使用人聲增強(qiáng))
//合并-切片-粗選-再合并-uvr5-單聲道-再切片
模型信息
--
?編碼器:contentvec(768l12)
f0提取算法:parselmouth
DDSP模型:424000步,loss值0.843
擴(kuò)散模型:3500步,loss值0.015
//主觀感受是contentvec(768l12) +C的收斂效果似乎不如+P
//原2h素材收斂有問(wèn)題,減少后效果提升
UVR5:推理干聲提取參數(shù)設(shè)置
方法來(lái)源:BV1rs4y1Q7BQ
--
去伴奏
1. Process Method: Demucs
2. Stem: Vocals
3. Demucs Model: v3|UVR-Model-1
去混響
1.輸入純?nèi)寺曀夭?/p>
2. Process Method: VR Architecture
3. Window Size: 320
4. Aggression: 10
5. VR Model: 5_HP_Karaoke_UVR
6.Vocals Only
//對(duì)推理干音進(jìn)行切片處理時(shí)不要丟棄短音(劃重點(diǎn))
//工作量無(wú)端增加
推理參數(shù)
--
主觀的常用設(shè)置:
f0提取算法:crepe
采樣方式:dpm-solver
淺擴(kuò)散步數(shù):20
擴(kuò)散加速倍數(shù):10
響應(yīng)閾值:-60
主觀的其他問(wèn)題解決方法:
①高音出錯(cuò)/讀音變調(diào):
修改f0提取算法(dio或harvest)
//主觀感受是harvest更還原讀音,dio夾在harvest和crepe中間
②出現(xiàn)噪音:
下調(diào)淺擴(kuò)散步數(shù)(5或10)
?修改f0提取算法(dio或harvest)
//總結(jié):好耶!ヽ(??▽?)ノ