基于So-vits的第二次云端訓(xùn)練總結(jié)

2023-06-09 15:19 作者:蝙蝠貓BatBattery 0人讀過 | 我要投稿

共計250ep（批次數(shù)），總計有效步數(shù)...忘記了。

每50ep分別試聽監(jiān)控語音和嘗試推理共推理7次后封爐

訓(xùn)練集來自游戲《Vampires' Melody》(吸血鬼的旋律) 夜萊·萊斯特原cv佐倉杏【截取】

推理集來自歌曲?《十字路口》原歌手洛天依

經(jīng)檢驗推理效果良好，無啞音，電音，確認(rèn)煉成，視頻在下面，現(xiàn)總結(jié)如下

可能導(dǎo)致本次成功的原因：

1.重回訓(xùn)練集聽所有聲音發(fā)現(xiàn)分離良好所有音頻均大致不存在明顯的回音和其他音素

2.訓(xùn)練集分離的比較干凈導(dǎo)致整體訓(xùn)練集質(zhì)量較高即便總loss在25%左右和第一次相近

3.訓(xùn)練集均為女聲? 不會有太多錯誤（猜想）

4.訓(xùn)練集元素數(shù)量適宜且沒有過度訓(xùn)練同時成功訓(xùn)練聚合模型

5.推理音頻分離的比較干凈從而使模型正確推理

6.將唱歌，說話等元素混合訓(xùn)練加上良好的編碼器和改進(jìn)過的底膜使得本次訓(xùn)練效果良好

可能還能改進(jìn)的方面：

1.在制作訓(xùn)練集過程中分離音頻用了太長的時間這部分可以學(xué)習(xí)專業(yè)軟件后更好的分離

2.制作推理集同理

3.訓(xùn)練步數(shù)可以稍微多點試試效果這次太怕過擬合所以提前封爐了

4.跨語言推理成功但是由于音域限制（這個確實沒辦法），可以嘗試試試多聲線練習(xí)（但是有音色泄露風(fēng)險），以打破音域局限性

5.暑假我試試我自己的聲音不知道能不能行先試試這個音色模型我先放在一邊我試試別的不同聲線技術(shù)方面挑戰(zhàn)一下要是炸爐了我也會寫報告的qwq

總結(jié)結(jié)束。

這次沒有ai圖或者loss圖第二次就成功了有點激動把loss圖刪了（

基于So-vits的第二次云端訓(xùn)練總結(jié)的評論 (共條)