手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » so-vits-svc使用報告

so-vits-svc使用報告

2023-08-12 16:28 作者:在下先通 0人讀過 | 我要投稿

目前我所使用的是羽毛布団的整合包，sovits版本號為4.1。

經(jīng)過一段時間測試之后，僅對女聲（刻晴）的測試總結(jié)了一些經(jīng)驗，該報告僅為個人使用紀錄。

一、干聲的質(zhì)量對推理的影響最大

干聲的聲音要清晰透亮。

1. 干聲提取問題

首先聲音的清晰透亮，意味著干聲提取時，不能帶有其他的雜音，包括伴奏、較強的混響（但聲音也不能太過干燥）、和聲等。

干聲的提取要根據(jù)情況對癥下藥。目前我主要使用UVR5提取干聲，偶爾輔助RipX、RX10以及AU進行降噪。

2. 口胡及發(fā)音出錯問題

其次是口胡以及發(fā)音出錯的問題。這是一個很有意思的現(xiàn)象，經(jīng)過我反復(fù)驗證測試，發(fā)現(xiàn)問題還是出現(xiàn)在干聲身上。

2.1 對于僅有個別字發(fā)音出錯的時候，主要有兩種情況。

一個是原曲本身的發(fā)音有問題，也許帶音樂的時候聽著不明顯，但單獨提取出人聲之后會發(fā)現(xiàn)發(fā)音出錯的讀音本身帶有一定誤導(dǎo)傾向，即不夠清晰。如我所做的《赤伶》，“亂”字讀音錯誤就是因為發(fā)音的誤導(dǎo)性。站在人類的角度來說就是“空耳”。

第二種情況沒甚么好說，就是干擾，這個干擾可以說是因為噪音，也可以是因為氣息不穩(wěn)。在這里，聲音大小的變化以及顫音都歸于氣息不穩(wěn)。噪音包括伴奏、其它雜音以及其他人的和聲。

2.2 對于大范圍的發(fā)音出錯就更有意思了，問題還是出在“空耳”上面。

這種情況有兩種可能，一種還是干聲問題，另一種可能與硬件設(shè)備有關(guān)。硬件設(shè)備問題放到后面描述。

大范圍的發(fā)音出錯大概率是因為干聲的聲音較為沉悶。在頻譜圖上表現(xiàn)為聲音在低頻段過于集中。

根據(jù)最近的學(xué)習(xí)總結(jié)，我注意到了最重要的四個頻段（我并非專業(yè)的音樂人，只是為了這個研究進行了粗淺的了解，所以也許描述會有些差異）：

200hz附近；

800hz附近；

1000-2000hz附近；

9000-12000hz附近。

前兩個為低音頻段，后兩個為高音。若想讓干聲的聲音變得清晰，就必須使用參數(shù)均衡器，我常用的有兩種方法。

第一種如圖1所示，使用高通濾波器，切掉低音頻段，這個范圍我一般都調(diào)整為大于70，但小于100hz，然后提升200hz附近、2000Hz附近以及10000-12000附近頻率的聲音大小。

第二種辦法則是對癥下藥，依然是高通濾波器起手，然后適當(dāng)降低低頻段（200hz、800hz）的聲音大小然后稍稍提升2000hz的聲音大小，大約1、2dB，或者根據(jù)需求調(diào)整，參數(shù)不是死的，最后大幅度提升11000hz到12000hz的聲音大小。實際參數(shù)以自己聽到的情況為準，直到聲音變得足夠清晰透亮，并大幅降低了AI口胡概率即可（可能并不能完全消除口胡）。

二、硬件可能造成的影響

如果覺得干聲已經(jīng)足夠清晰了，但是會莫名其妙口胡，這一點可以說是相當(dāng)玄學(xué)了。我之所以會把矛頭指向硬件，原因就是因為我偶爾會用不同的設(shè)備進行推理，也有可能不是硬件問題，而是更加玄學(xué)的可能？

因為AI的推理主要用到GPU，所以可能出現(xiàn)的問題可能主要出在顯卡上，當(dāng)然也不排除CPU的問題。

我所使用的兩臺電腦：

一臺為臺式機，AMD的CPU，搭載2060丐板（不排除礦卡的可能）；

另一臺為筆記本，Intel的CPU，搭載了4060的顯卡。

為保證實驗結(jié)果的準確性，推理時使用了同一個AI模型，同一個干聲文件，設(shè)置了相同的推理參數(shù)，最后卻得到了不同的推理結(jié)果。

搭載了4060的筆記本推理結(jié)果明顯要優(yōu)于2060的臺式機，后者的結(jié)果出現(xiàn)了大范圍口胡，而前者的聲音卻很好，只有少量發(fā)音出錯。真是相當(dāng)神奇的結(jié)果，也許由于時代的原因，4060針對AI算法在硬件上進行了優(yōu)化，但這也只是猜測。

三、推理參數(shù)對推理結(jié)果的影響

推理結(jié)果不理想，有一部分可以通過調(diào)整推理參數(shù)解決。

1. 啞音

若使用了F0預(yù)測的crepe濾波器依舊出現(xiàn)啞音可適當(dāng)增大參數(shù)，個人經(jīng)驗，0.05或0.06為最佳，或根據(jù)實際情況調(diào)整，若出現(xiàn)跑調(diào)的情況應(yīng)降低該值。

2. 滑音失敗

由于sovits連貫性不好，因此滑音時AI可能會讀成另外一個音或是出現(xiàn)怪聲。該問題可通過增大淺擴散步數(shù)解決。如過去我所作的《歲月神偷》，在淺擴散步數(shù)為100時出現(xiàn)了很多怪音。將100增大到350時，得到了意外的結(jié)果。但這依然沒能徹底解決問題。如“看云淡風(fēng)輕”，“輕”字在其中一個干聲源被拉的很長，AI把“輕”讀成了“qiong”。

經(jīng)過實際測試發(fā)現(xiàn)，淺擴散模型的步數(shù)并不能設(shè)置的過大，尤其是擴散模型訓(xùn)練的不好的時候，步數(shù)大反而會起到反效果，增加啞音出現(xiàn)的概率。

3.特征檢索模型與聚類模型

考慮到音色還原程度，我更的是使用特征檢索模型，該參數(shù)0.3和0.5最為合適，過大會導(dǎo)致咬字不清晰。

4. NSF-HIFIGAN增強器

訓(xùn)練數(shù)據(jù)集較小時開啟可以有效提高推理結(jié)果的質(zhì)量，但推理參數(shù)對結(jié)果影響不大。

標(biāo)簽：