散文網(wǎng) » 科技 »數(shù)碼 » 零基礎(chǔ)煉丹 - vits版補(bǔ)充

零基礎(chǔ)煉丹 - vits版補(bǔ)充

2022-08-30 09:31 作者:夏夜有輕風(fēng) 0人讀過 | 我要投稿

注：本文僅用于技術(shù)愛好交流，非商用，不對讀者的行為負(fù)責(zé)，請自覺遵守有關(guān)法律法規(guī)，保護(hù)版權(quán)，尊重他人勞動(dòng)成果。

封面[0]來自推特用戶空に青。@Sorani___Ao

本文發(fā)布了基于原筆記本[1]定制的可用于訓(xùn)練vits單人或多人模型的colab筆記本。由于提取數(shù)據(jù)集等部分和tacotron2部分大致相同，這里只簡略介紹vits數(shù)據(jù)集制作的不同，以及介紹vits合成語音的大致流程。

vits筆記本地址：https://colab.research.google.com/drive/1eEwa5KmHrwZ06vM4CxkQyq6DAT_rSUMW?usp=sharing

tacotron2版本：

第一部分? 數(shù)據(jù)集制作的不同

? 訓(xùn)練vits單人模型，數(shù)據(jù)集制作與tacotron2完全相同。
? 訓(xùn)練vits多人模型，數(shù)據(jù)集中的語音列表文件略有變化，變化如下。[2]

中間多了一欄，是多人模型中人物的id標(biāo)號，代表這是哪個(gè)人物的語音。同一個(gè)人物用同一個(gè)id。注意臺詞左邊不要有空格。這部分需要和speakers的填寫對應(yīng)。

第二部分語音合成的步驟

以使用MoeTTS[3]和日語vits單人模型為例：

1. VITS單角色模型選擇下載下來的G.pth文件。

2. 在G.pth文件所在目錄下需要放置config.json配置文件。

3.? 待合成的文本需要提前用cleaners轉(zhuǎn)換。cleaners必須是訓(xùn)練模型時(shí)使用的cleaners。

參考資料：

0. https://twitter.com/Sorani___Ao/status/1537723123218644992

1. https://github.com/CjangCjengh/vits/blob/main/vits.ipynb

2. https://raw.githubusercontent.com/CjangCjengh/vits/main/filelists/hamidashi_train_filelist.txt

3. https://github.com/luoyily/MoeTTS

4. 使用到的庫：https://github.com/CjangCjengh/vits

5. vits原庫：https://github.com/jaywalnut310/vits

6. vits論文：Kim, Jaehyeon, Jungil Kong, and Juhee Son. "Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech." International Conference on Machine Learning. PMLR, 2021.

論文地址: https://arxiv.org/abs/2106.06103

標(biāo)簽：