最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

個人記錄VITS使用問題(先發(fā)一些,持續(xù)摸索)

2023-02-27 02:30 作者:末夜の十字  | 我要投稿
  1. 不要感覺配置高就堆batch

    之前看教程,別人演示的batch=2,說顯存高可以配置高點,我想我的24G顯存不能浪費,直接填了12。

    so-vits-svc環(huán)境安裝和AI訓練提供的文檔中,up主提到,global-step每1000步存一次,global-step=訓練集數(shù) * epoch / batch-size。

    訓練集數(shù)是固定的,batch_size越高,達成同樣global-step就需要越多的epoch,在8 batch-size下,我推理1000個global_step用了15分鐘,而我換成2 batch-size后,洗個澡出來就7000global-step了,增加了迭代速度可以更容易的分辨出訓練結(jié)果的好壞。

    同時提供一個不確定的觀點:數(shù)據(jù)集少的情況下,batch-size不要調(diào)太大。我在看diffusion ai生成圖片教程5分20秒時,up主提到過,batch還要根據(jù)訓練集數(shù)量來決策,我是從游戲和官方互動視頻提取的音源,數(shù)據(jù)集不多,加起來不到30分鐘,分成10秒片段,也就不到200個,因此我在batch-size=8時,訓練到G10000,感覺效果不如batch-size=2時,訓練到G7000。

  2. 音高的調(diào)整

    女翻唱男時,音高不變的情況下很難聽出是女聲,一般會提高3-7個音高。但提高音高后會出現(xiàn)高音嘶啞、破桑唱不出來等情況。

    不太懂AU的操作,我能想到的是多推理幾種音高,然后用AU合成。

    或者可以試試AU的頻譜頻率顯示器(Shift+D),明顯的瑕疵一般能在頻域內(nèi)發(fā)現(xiàn),比如有些混音能在低頻區(qū)發(fā)現(xiàn)多一些亮的片段,擦除就能恢復正常;有的是聲音頻率不對,高頻區(qū)跑低頻區(qū)去了,這個我不知道怎么修復。


個人記錄VITS使用問題(先發(fā)一些,持續(xù)摸索)的評論 (共 條)

分享到微博請遵守國家法律
仲巴县| 双桥区| 平果县| 桦川县| 利津县| 江陵县| 湄潭县| 永平县| 波密县| 民丰县| 响水县| 金寨县| 东安县| 云南省| 马尔康县| 囊谦县| 信宜市| 明星| 奉节县| 棋牌| 黄浦区| 云和县| 三都| 平乡县| 江津市| 仁寿县| 台北县| 昭通市| 顺平县| 南通市| 佛学| 进贤县| 九江县| 水富县| 丰都县| 清原| 神农架林区| 临洮县| 湖北省| 嘉定区| 体育|