基于So-vits的第二次云端訓(xùn)練總結(jié)
共計250ep(批次數(shù)),總計有效步數(shù)...忘記了。
每50ep分別試聽監(jiān)控語音和嘗試推理 共推理7次后封爐
訓(xùn)練集來自游戲《Vampires' Melody》(吸血鬼的旋律) 夜萊·萊斯特 原cv佐倉杏【截取】
推理集來自歌曲?《十字路口》原歌手洛天依
經(jīng)檢驗推理效果良好,無啞音,電音,確認(rèn)煉成,視頻在下面,現(xiàn)總結(jié)如下


可能導(dǎo)致本次成功的原因:
1.重回訓(xùn)練集聽所有聲音 發(fā)現(xiàn)分離良好 所有音頻均大致不存在明顯的回音和其他音素
2.訓(xùn)練集分離的比較干凈導(dǎo)致整體訓(xùn)練集質(zhì)量較高 即便總loss在25%左右 和第一次相近
3.訓(xùn)練集均為女聲? 不會有太多錯誤(猜想)
4.訓(xùn)練集元素數(shù)量適宜 且沒有過度訓(xùn)練 同時成功訓(xùn)練聚合模型
5.推理音頻分離的比較干凈 從而使模型正確推理
6.將唱歌,說話等元素混合訓(xùn)練 加上良好的編碼器和改進(jìn)過的底膜 使得本次訓(xùn)練效果良好
可能還能改進(jìn)的方面:
1.在制作訓(xùn)練集過程中分離音頻用了太長的時間 這部分可以學(xué)習(xí)專業(yè)軟件后更好的分離
2.制作推理集同理
3.訓(xùn)練步數(shù)可以稍微多點 試試效果 這次太怕過擬合所以提前封爐了
4.跨語言推理成功 但是由于音域限制(這個確實沒辦法),可以嘗試試試多聲線練習(xí)(但是有音色泄露風(fēng)險),以打破音域局限性
5.暑假我試試我自己的聲音 不知道能不能行 先試試 這個音色模型我先放在一邊 我試試別的不同聲線 技術(shù)方面挑戰(zhàn)一下 要是炸爐了我也會寫報告的qwq
總結(jié)結(jié)束。
這次沒有ai圖或者loss圖 第二次就成功了有點激動 把loss圖刪了(
