so-vits-svc使用報告
目前我所使用的是羽毛布団的整合包,sovits版本號為4.1。
經(jīng)過一段時間測試之后,僅對女聲(刻晴)的測試總結(jié)了一些經(jīng)驗,該報告僅為個人使用紀錄。
一、干聲的質(zhì)量對推理的影響最大
干聲的聲音要清晰透亮。
1. 干聲提取問題
首先聲音的清晰透亮,意味著干聲提取時,不能帶有其他的雜音,包括伴奏、較強的混響(但聲音也不能太過干燥)、和聲等。
干聲的提取要根據(jù)情況對癥下藥。目前我主要使用UVR5提取干聲,偶爾輔助RipX、RX10以及AU進行降噪。
2. 口胡及發(fā)音出錯問題
其次是口胡以及發(fā)音出錯的問題。這是一個很有意思的現(xiàn)象,經(jīng)過我反復(fù)驗證測試,發(fā)現(xiàn)問題還是出現(xiàn)在干聲身上。
2.1 對于僅有個別字發(fā)音出錯的時候,主要有兩種情況。
一個是原曲本身的發(fā)音有問題,也許帶音樂的時候聽著不明顯,但單獨提取出人聲之后會發(fā)現(xiàn)發(fā)音出錯的讀音本身帶有一定誤導(dǎo)傾向,即不夠清晰。如我所做的《赤伶》,“亂”字讀音錯誤就是因為發(fā)音的誤導(dǎo)性。站在人類的角度來說就是“空耳”。
第二種情況沒甚么好說,就是干擾,這個干擾可以說是因為噪音,也可以是因為氣息不穩(wěn)。在這里,聲音大小的變化以及顫音都歸于氣息不穩(wěn)。噪音包括伴奏、其它雜音以及其他人的和聲。
2.2 對于大范圍的發(fā)音出錯就更有意思了,問題還是出在“空耳”上面。
這種情況有兩種可能,一種還是干聲問題,另一種可能與硬件設(shè)備有關(guān)。硬件設(shè)備問題放到后面描述。
大范圍的發(fā)音出錯大概率是因為干聲的聲音較為沉悶。在頻譜圖上表現(xiàn)為聲音在低頻段過于集中。
根據(jù)最近的學(xué)習(xí)總結(jié),我注意到了最重要的四個頻段(我并非專業(yè)的音樂人,只是為了這個研究進行了粗淺的了解,所以也許描述會有些差異):
200hz附近;
800hz附近;
1000-2000hz附近;
9000-12000hz附近。
前兩個為低音頻段,后兩個為高音。若想讓干聲的聲音變得清晰,就必須使用參數(shù)均衡器,我常用的有兩種方法。
第一種如圖1所示,使用高通濾波器,切掉低音頻段,這個范圍我一般都調(diào)整為大于70,但小于100hz,然后提升200hz附近、2000Hz附近以及10000-12000附近頻率的聲音大小。

第二種辦法則是對癥下藥,依然是高通濾波器起手,然后適當(dāng)降低低頻段(200hz、800hz)的聲音大小然后稍稍提升2000hz的聲音大小,大約1、2dB,或者根據(jù)需求調(diào)整,參數(shù)不是死的,最后大幅度提升11000hz到12000hz的聲音大小。實際參數(shù)以自己聽到的情況為準,直到聲音變得足夠清晰透亮,并大幅降低了AI口胡概率即可(可能并不能完全消除口胡)。
二、硬件可能造成的影響
如果覺得干聲已經(jīng)足夠清晰了,但是會莫名其妙口胡,這一點可以說是相當(dāng)玄學(xué)了。我之所以會把矛頭指向硬件,原因就是因為我偶爾會用不同的設(shè)備進行推理,也有可能不是硬件問題,而是更加玄學(xué)的可能?
因為AI的推理主要用到GPU,所以可能出現(xiàn)的問題可能主要出在顯卡上,當(dāng)然也不排除CPU的問題。
我所使用的兩臺電腦:
一臺為臺式機,AMD的CPU,搭載2060丐板(不排除礦卡的可能);
另一臺為筆記本,Intel的CPU,搭載了4060的顯卡。
為保證實驗結(jié)果的準確性,推理時使用了同一個AI模型,同一個干聲文件,設(shè)置了相同的推理參數(shù),最后卻得到了不同的推理結(jié)果。
搭載了4060的筆記本推理結(jié)果明顯要優(yōu)于2060的臺式機,后者的結(jié)果出現(xiàn)了大范圍口胡,而前者的聲音卻很好,只有少量發(fā)音出錯。真是相當(dāng)神奇的結(jié)果,也許由于時代的原因,4060針對AI算法在硬件上進行了優(yōu)化,但這也只是猜測。
三、推理參數(shù)對推理結(jié)果的影響
推理結(jié)果不理想,有一部分可以通過調(diào)整推理參數(shù)解決。
1. 啞音
若使用了F0預(yù)測的crepe濾波器依舊出現(xiàn)啞音可適當(dāng)增大參數(shù),個人經(jīng)驗,0.05或0.06為最佳,或根據(jù)實際情況調(diào)整,若出現(xiàn)跑調(diào)的情況應(yīng)降低該值。
2. 滑音失敗
由于sovits連貫性不好,因此滑音時AI可能會讀成另外一個音或是出現(xiàn)怪聲。該問題可通過增大淺擴散步數(shù)解決。如過去我所作的《歲月神偷》,在淺擴散步數(shù)為100時出現(xiàn)了很多怪音。將100增大到350時,得到了意外的結(jié)果。但這依然沒能徹底解決問題。如“看云淡風(fēng)輕”,“輕”字在其中一個干聲源被拉的很長,AI把“輕”讀成了“qiong”。
經(jīng)過實際測試發(fā)現(xiàn),淺擴散模型的步數(shù)并不能設(shè)置的過大,尤其是擴散模型訓(xùn)練的不好的時候,步數(shù)大反而會起到反效果,增加啞音出現(xiàn)的概率。
3.特征檢索模型與聚類模型
考慮到音色還原程度,我更的是使用特征檢索模型,該參數(shù)0.3和0.5最為合適,過大會導(dǎo)致咬字不清晰。
4. NSF-HIFIGAN增強器
訓(xùn)練數(shù)據(jù)集較小時開啟可以有效提高推理結(jié)果的質(zhì)量,但推理參數(shù)對結(jié)果影響不大。