散文網(wǎng) » 科技 »學習 » Tacotron2語音合成之復刻主播聲音

Tacotron2語音合成之復刻主播聲音

2022-08-31 14:42 作者:秋之雪華 0人讀過 | 我要投稿

最近在阿B看到許多語音合成的視頻，效果比小愛的聲音定制略勝一籌，不能說和本人一模一樣，但是也相當近似。

從實現(xiàn)方式講，有阿里云商用閉源方案，有Tacotron2和VIST開源方案，以及更早的MockingBird。目前我用了Tacotron2，自我感覺上手難度較低，但是時間開銷有些大。

在這里總結(jié)一下經(jīng)驗并作一個技術分享。

背景

目前的多數(shù)示例是使用游戲音頻素材做訓練和合成的。游戲音頻素材已經(jīng)是每句一個錄音文件，發(fā)音吐字清晰，沒有不必要的停頓和重讀，錄音音量穩(wěn)定，無噪音和背景音，而主播錄播內(nèi)容恰恰相反，唯一的優(yōu)勢是錄播素材多，可以手動精選。

準備

?一臺電腦
訪問外網(wǎng)的工具
一個谷歌賬戶
預先下載錄播（首選雜談類型的錄播，畢竟游戲、歌回、同步視聽不是話說的少就是干擾因素多；雜談也盡量選擇純音樂做BGM的錄播）

MockingBird

先簡單說一下MockingBird，MockingBird的上手難度短和時間開銷低，但是實際效果很不理想。簡單講，MockingBird需要內(nèi)置一個模型，然后你提供一條10秒左右錄音文件，MockingBird從錄音文件學習，然后合成新的聲音。

當內(nèi)置模型和錄音文件差異很大時，合成的結(jié)果就會翻車。

其次這種學習是無法學到平翹舌、前后鼻音之類的不標準的發(fā)音的。

因此不推薦使用這個工具。

簡介

主要使用了?@梅雨初霽?的工具包進行訓練

https://t.bilibili.com/695241886813650984

也參考了這個視頻對錄播的處理

https://www.bilibili.com/video/BV1dq4y137pH

文件準備

錄播的錄音文件需要做一定的預處理。我在處理過程中均使用wav文件格式，不一定非wav不可，但是理論上這可以減少重復編碼解碼造成的信息損失。

?切割

由于直播間通常有背景音樂，需要使用工具去除背景音；而錄音文件越大，工具對內(nèi)存就有更高的需求，因此錄音文件需要根據(jù)具體情況預先切割。

通常來說10分鐘是不會有問題的

1小時的錄音去除背景音樂時占用內(nèi)存5G，但是并非剩余內(nèi)存大于6G就一定能夠運行成功

切割錄音文件使用的工具我推薦QuickCut??

https://github.com/HaujetZhao/QuickCut/releases

重命名音頻后綴為wav，拖文件到輸入路徑；選擇一個輸出文件夾，設置片段時長（秒），點擊運行

2.?去除背景音樂

下載并使用Spleeter為核心二次開發(fā)的程序，并處理已經(jīng)切割后的文件。我推薦（個人感覺資源開銷低，其他工具可能真的只能處理切割為10分鐘的片段）? https://github.com/wudicgi/SpleeterMsvcExe/releases/? ，也可以使用https://github.com/otomad/SpleeterGui?或者?https://github.com/Anjok07/ultimatevocalremovergui/releases

處理結(jié)束，文件名包含vodal的就是去除了背景音樂的純?nèi)寺曚浺?，其他文件都可以刪除。

由于主播通常使用單通道麥克風錄音，而背景音樂通常是立體聲，可以使用音頻處理軟件（比如golden?wave的立體聲通道處理功能，選擇“提升人聲”或者“提升中央”，對錄音文件中的噪音再次消除。