零基礎(chǔ)煉丹 - vits版補(bǔ)充
注:本文僅用于技術(shù)愛好交流,非商用,不對讀者的行為負(fù)責(zé),請自覺遵守有關(guān)法律法規(guī),保護(hù)版權(quán),尊重他人勞動(dòng)成果。
封面[0]來自推特用戶空に青。@Sorani___Ao
本文發(fā)布了基于原筆記本[1]定制的可用于訓(xùn)練vits單人或多人模型的colab筆記本。由于提取數(shù)據(jù)集等部分和tacotron2部分大致相同,這里只簡略介紹vits數(shù)據(jù)集制作的不同 ,以及介紹vits合成語音的大致流程。
vits筆記本地址:https://colab.research.google.com/drive/1eEwa5KmHrwZ06vM4CxkQyq6DAT_rSUMW?usp=sharing
tacotron2版本:

第一部分? 數(shù)據(jù)集制作的不同
? 訓(xùn)練vits單人模型,數(shù)據(jù)集制作與tacotron2完全相同。
? 訓(xùn)練vits多人模型,數(shù)據(jù)集中的語音列表文件略有變化,變化如下。[2]
中間多了一欄,是多人模型中人物的id標(biāo)號,代表這是哪個(gè)人物的語音。同一個(gè)人物用同一個(gè)id。注意臺詞左邊不要有空格。這部分需要和speakers的填寫對應(yīng)。

第二部分 語音合成的步驟
以使用MoeTTS[3]和日語vits單人模型為例:


1. VITS單角色模型選擇下載下來的G.pth文件。
2. 在G.pth文件所在目錄下需要放置config.json配置文件。

3.? 待合成的文本需要提前用cleaners轉(zhuǎn)換。cleaners必須是訓(xùn)練模型時(shí)使用的cleaners。

參考資料:
0. https://twitter.com/Sorani___Ao/status/1537723123218644992
1. https://github.com/CjangCjengh/vits/blob/main/vits.ipynb
2. https://raw.githubusercontent.com/CjangCjengh/vits/main/filelists/hamidashi_train_filelist.txt
3. https://github.com/luoyily/MoeTTS
4. 使用到的庫:https://github.com/CjangCjengh/vits
5. vits原庫:https://github.com/jaywalnut310/vits
6. vits論文:Kim, Jaehyeon, Jungil Kong, and Juhee Son. "Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech." International Conference on Machine Learning. PMLR, 2021.
論文地址: https://arxiv.org/abs/2106.06103