最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

so-vits-svc使用報告

2023-08-12 16:28 作者:在下先通  | 我要投稿

目前我所使用的是羽毛布団的整合包,sovits版本號為4.1。

經(jīng)過一段時間測試之后,僅對女聲(刻晴)的測試總結(jié)了一些經(jīng)驗,該報告僅為個人使用紀錄。

一、干聲的質(zhì)量對推理的影響最大

干聲的聲音要清晰透亮。

1. 干聲提取問題

首先聲音的清晰透亮,意味著干聲提取時,不能帶有其他的雜音,包括伴奏、較強的混響(但聲音也不能太過干燥)、和聲等。

干聲的提取要根據(jù)情況對癥下藥。目前我主要使用UVR5提取干聲,偶爾輔助RipX、RX10以及AU進行降噪。

2. 口胡及發(fā)音出錯問題

其次是口胡以及發(fā)音出錯的問題。這是一個很有意思的現(xiàn)象,經(jīng)過我反復(fù)驗證測試,發(fā)現(xiàn)問題還是出現(xiàn)在干聲身上。

2.1 對于僅有個別字發(fā)音出錯的時候,主要有兩種情況。

一個是原曲本身的發(fā)音有問題,也許帶音樂的時候聽著不明顯,但單獨提取出人聲之后會發(fā)現(xiàn)發(fā)音出錯的讀音本身帶有一定誤導(dǎo)傾向,即不夠清晰。如我所做的《赤伶》,“亂”字讀音錯誤就是因為發(fā)音的誤導(dǎo)性。站在人類的角度來說就是“空耳”。

第二種情況沒甚么好說,就是干擾,這個干擾可以說是因為噪音,也可以是因為氣息不穩(wěn)。在這里,聲音大小的變化以及顫音都歸于氣息不穩(wěn)。噪音包括伴奏、其它雜音以及其他人的和聲。

2.2 對于大范圍的發(fā)音出錯就更有意思了,問題還是出在“空耳”上面。

這種情況有兩種可能,一種還是干聲問題,另一種可能與硬件設(shè)備有關(guān)。硬件設(shè)備問題放到后面描述。

大范圍的發(fā)音出錯大概率是因為干聲的聲音較為沉悶。在頻譜圖上表現(xiàn)為聲音在低頻段過于集中。

根據(jù)最近的學(xué)習(xí)總結(jié),我注意到了最重要的四個頻段(我并非專業(yè)的音樂人,只是為了這個研究進行了粗淺的了解,所以也許描述會有些差異):

200hz附近;

800hz附近;

1000-2000hz附近;

9000-12000hz附近。

前兩個為低音頻段,后兩個為高音。若想讓干聲的聲音變得清晰,就必須使用參數(shù)均衡器,我常用的有兩種方法。

第一種如圖1所示,使用高通濾波器,切掉低音頻段,這個范圍我一般都調(diào)整為大于70,但小于100hz,然后提升200hz附近、2000Hz附近以及10000-12000附近頻率的聲音大小。

圖1 第一種均衡器調(diào)整辦法

第二種辦法則是對癥下藥,依然是高通濾波器起手,然后適當(dāng)降低低頻段(200hz、800hz)的聲音大小然后稍稍提升2000hz的聲音大小,大約1、2dB,或者根據(jù)需求調(diào)整,參數(shù)不是死的,最后大幅度提升11000hz到12000hz的聲音大小。實際參數(shù)以自己聽到的情況為準,直到聲音變得足夠清晰透亮,并大幅降低了AI口胡概率即可(可能并不能完全消除口胡)。

二、硬件可能造成的影響

如果覺得干聲已經(jīng)足夠清晰了,但是會莫名其妙口胡,這一點可以說是相當(dāng)玄學(xué)了。我之所以會把矛頭指向硬件,原因就是因為我偶爾會用不同的設(shè)備進行推理,也有可能不是硬件問題,而是更加玄學(xué)的可能?

因為AI的推理主要用到GPU,所以可能出現(xiàn)的問題可能主要出在顯卡上,當(dāng)然也不排除CPU的問題。

我所使用的兩臺電腦:

一臺為臺式機,AMD的CPU,搭載2060丐板(不排除礦卡的可能);

另一臺為筆記本,Intel的CPU,搭載了4060的顯卡。

為保證實驗結(jié)果的準確性,推理時使用了同一個AI模型,同一個干聲文件,設(shè)置了相同的推理參數(shù),最后卻得到了不同的推理結(jié)果。

搭載了4060的筆記本推理結(jié)果明顯要優(yōu)于2060的臺式機,后者的結(jié)果出現(xiàn)了大范圍口胡,而前者的聲音卻很好,只有少量發(fā)音出錯。真是相當(dāng)神奇的結(jié)果,也許由于時代的原因,4060針對AI算法在硬件上進行了優(yōu)化,但這也只是猜測。

三、推理參數(shù)對推理結(jié)果的影響

推理結(jié)果不理想,有一部分可以通過調(diào)整推理參數(shù)解決。

1. 啞音

若使用了F0預(yù)測的crepe濾波器依舊出現(xiàn)啞音可適當(dāng)增大參數(shù),個人經(jīng)驗,0.05或0.06為最佳,或根據(jù)實際情況調(diào)整,若出現(xiàn)跑調(diào)的情況應(yīng)降低該值。

2. 滑音失敗

由于sovits連貫性不好,因此滑音時AI可能會讀成另外一個音或是出現(xiàn)怪聲。該問題可通過增大淺擴散步數(shù)解決。如過去我所作的《歲月神偷》,在淺擴散步數(shù)為100時出現(xiàn)了很多怪音。將100增大到350時,得到了意外的結(jié)果。但這依然沒能徹底解決問題。如“看云淡風(fēng)輕”,“輕”字在其中一個干聲源被拉的很長,AI把“輕”讀成了“qiong”。

經(jīng)過實際測試發(fā)現(xiàn),淺擴散模型的步數(shù)并不能設(shè)置的過大,尤其是擴散模型訓(xùn)練的不好的時候,步數(shù)大反而會起到反效果,增加啞音出現(xiàn)的概率。

3.特征檢索模型與聚類模型

考慮到音色還原程度,我更的是使用特征檢索模型,該參數(shù)0.3和0.5最為合適,過大會導(dǎo)致咬字不清晰。

4. NSF-HIFIGAN增強器

訓(xùn)練數(shù)據(jù)集較小時開啟可以有效提高推理結(jié)果的質(zhì)量,但推理參數(shù)對結(jié)果影響不大。


so-vits-svc使用報告的評論 (共 條)

分享到微博請遵守國家法律
苍山县| 吐鲁番市| 建阳市| 新丰县| 宝坻区| 开原市| 娱乐| 松滋市| 青海省| 长垣县| 武隆县| 满洲里市| 大名县| 文登市| 焦作市| 合山市| 彭泽县| 宝山区| 柞水县| 宜昌市| 北辰区| 杂多县| 三亚市| 沙坪坝区| 安顺市| 黎平县| 遵义县| 望江县| 呼玛县| 屯留县| 巍山| 大关县| 沙坪坝区| 彝良县| 洪雅县| 当阳市| 东平县| 信丰县| 正镶白旗| 元氏县| 民和|