基于So-vits的第一次云端訓(xùn)練總結(jié)
共計(jì)1500ep(批次數(shù)),總計(jì)有效步數(shù)180000。
在200ep,400ep,600ep,800ep,1000ep,1200ep,1400ep,1500ep分別試聽監(jiān)控語音和嘗試推理 共推理12次
訓(xùn)練集來自游戲《賽博朋克2077》角色 強(qiáng)尼 銀手(英配)原cv里維斯【截取】
推理集來自歌曲《Alone》原歌手Alan Walker【翻唱】
經(jīng)檢驗(yàn)推理效果不佳,多啞音,電音,確認(rèn)炸爐,現(xiàn)總結(jié)如下,
出現(xiàn)的問題:
1.重新回去聽訓(xùn)練集所有音頻 發(fā)現(xiàn)音頻大多原先就是沙啞配音 嚴(yán)重懷疑此原因(聲音不清晰飽滿導(dǎo)致)
2.訓(xùn)練集所有音頻質(zhì)量不高,有些有回音,有些有和聲,嚴(yán)重影響訓(xùn)練質(zhì)量
3.學(xué)習(xí)率 超參數(shù)設(shè)置不對(duì)導(dǎo)致(此原因?yàn)椴孪?對(duì)本次訓(xùn)練沒有太大關(guān)系)
4.推理集是女生唱的 音高較高,而強(qiáng)尼的聲音是男聲 非常低沉,模型無法正確推理(其實(shí)男生唱的歌也試過了也不行)
5.推理集音頻質(zhì)量不高,推理時(shí)池化無效
**6.過度訓(xùn)練模型 造成過擬合 從而導(dǎo)致炸爐
*7.訓(xùn)練模型時(shí)訓(xùn)練集元素過少
8.聚合模型和本地云端推理問題(猜想)
可能解決的辦法:
1->4+2.更換模型 嘗試換成女生的音頻模型
2->2+1.改善模型質(zhì)量,用工具將回聲和聲完全摳除 避免影響訓(xùn)練
3->3+7.加角色音頻元素 至1k及以上
4->4+5.同2 只不過是推理集音頻摳干凈
5->6+8.避免過多訓(xùn)練模型 每150ep需要驗(yàn)證一次后重新開始訓(xùn)練 推理嘗試在本地運(yùn)行(猜想)
補(bǔ)充:將唱歌和說話語音揉在一起訓(xùn)練 以顯示最好訓(xùn)練結(jié)果
總結(jié)結(jié)束。
最后,訓(xùn)練集是什么語種就盡量推理也用此語種,除非訓(xùn)練結(jié)果真的很出色的話。
在訓(xùn)練質(zhì)量得不到保證的情況下,跨語種推理可能會(huì)導(dǎo)致非常混沌和生草的效果!
