個人記錄VITS使用問題(先發(fā)一些,持續(xù)摸索)
不要感覺配置高就堆batch
之前看教程,別人演示的batch=2,說顯存高可以配置高點,我想我的24G顯存不能浪費,直接填了12。
在so-vits-svc環(huán)境安裝和AI訓練提供的文檔中,up主提到,global-step每1000步存一次,global-step=訓練集數(shù) * epoch / batch-size。
訓練集數(shù)是固定的,batch_size越高,達成同樣global-step就需要越多的epoch,在8 batch-size下,我推理1000個global_step用了15分鐘,而我換成2 batch-size后,洗個澡出來就7000global-step了,增加了迭代速度可以更容易的分辨出訓練結(jié)果的好壞。
同時提供一個不確定的觀點:數(shù)據(jù)集少的情況下,batch-size不要調(diào)太大。我在看diffusion ai生成圖片教程5分20秒時,up主提到過,batch還要根據(jù)訓練集數(shù)量來決策,我是從游戲和官方互動視頻提取的音源,數(shù)據(jù)集不多,加起來不到30分鐘,分成10秒片段,也就不到200個,因此我在batch-size=8時,訓練到G10000,感覺效果不如batch-size=2時,訓練到G7000。
音高的調(diào)整
女翻唱男時,音高不變的情況下很難聽出是女聲,一般會提高3-7個音高。但提高音高后會出現(xiàn)高音嘶啞、破桑唱不出來等情況。
不太懂AU的操作,我能想到的是多推理幾種音高,然后用AU合成。
或者可以試試AU的頻譜頻率顯示器(Shift+D),明顯的瑕疵一般能在頻域內(nèi)發(fā)現(xiàn),比如有些混音能在低頻區(qū)發(fā)現(xiàn)多一些亮的片段,擦除就能恢復正常;有的是聲音頻率不對,高頻區(qū)跑低頻區(qū)去了,這個我不知道怎么修復。