手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 【測試版】utau中文CVVC錄音方案

【測試版】utau中文CVVC錄音方案

2023-06-25 01:49 作者:小白菌菌 0人讀過 | 我要投稿

直接上鏈接：

鏈接：https://pan.baidu.com/s/1k6WZ61Op2um1IiJsmjMdvQ?pwd=0720?

提取碼：0720?

以下內(nèi)容在壓縮包的txt文本里都有

首先聲明本錄音表只是我個人使用的錄音表，分享出來而已，不要有太高的要求

其次，我放棄任何權(quán)利，你隨便怎么弄都行，幫我修復(fù)BUG謝謝

然后要重重的說明當(dāng)前版本0.4版本，沒有示范音源，也沒有測試過可行性，所以說謹(jǐn)慎錄制

PS:如果你測完了，發(fā)現(xiàn)了問題，上報給我謝謝，然后我把你掛在這里當(dāng)示范音源，謝謝

然后本錄音表是一個針對偏說話腔的風(fēng)格化錄音制作的錄音表，如果你是想錄唱腔最好是別用這個表，會有很多錄音浪費可能。

文件預(yù)覽：共2305行錄音，2723條oto

1.read me,共2243行錄音.txt

錄音方式：

順序：CV.txt→VC.txt→VV.txt→擴充.txt

? ? ? ?或CV.txt→擴充.txt→VC.txt→VV.txt

名詞解釋：

CV：是歌聲合成中，每一個字的開頭部分和每一句的開頭第一個字的采集

VC：是歌聲合成中每一個字的? 結(jié)尾部分到下一個字輔音的采集

VV：是歌聲合成中元音到元音的采集

擴充：擴充錄音部分

本表音素采集：

CV只采集前兩個音

VC只采集第二個音的結(jié)尾和第三個音的開頭

VV只采集第二個音的結(jié)尾和第三個音的整個音

擴充只采集第二個音的結(jié)尾

錄音注意：

錄音表中存在一些可能不存在的音或者生僻的音，按照標(biāo)準(zhǔn)的元音和輔音發(fā)音錄制即可

VV部分請將最后一個音，請根據(jù)錄音習(xí)慣，拉長一些，因為要采集

擴充中的R表示空白，用做采集每一句的結(jié)尾音

錄音表中的1是用作提示錄音者一段錄音的結(jié)束

錄音注意2：

本表支持說話腔，和半說話腔錄音，同時也支持特殊咬字，也支持正常唱錄

特色就是對說話腔和半說話腔有很好的兼容

對唱錄也較為自然流暢

是很好的高質(zhì)量音素采集錄音表

特殊：

如果CV部分使用哈魯式三字錄法，也完全可以

避坑??：

本表錄音量較大，不適合新人使用，新人建議找錄音量更小的錄音表錄制

如果你對音源質(zhì)量沒有極致的追求，并且你也不理解為什么這樣采集，請選擇錄音量更小的錄音表

oto制作：

注意：

如果沒有制作經(jīng)驗，請找一個有經(jīng)驗的協(xié)助你完成音源制作

其實并不難，只是細(xì)節(jié)操作比較多，弄不好，就跑不通

或者說你找一個中文cvvc音源，

看別人的oto是如何放置的，看別人的音源信息怎么寫，看別人的presamp是怎么放置的

CVVC的oto標(biāo)記請根據(jù)自己音源情況，進行實驗后，再進行標(biāo)記

（制作oto需要有調(diào)教經(jīng)驗，如果你甚至都沒用過utau，都不知道怎么用，那建議委托給別人

? ? 或者先了解utau的使用方法與合成原理，再考慮進行標(biāo)記）

本表暫時不能提供參考音源

制作方法：

本表提供了oto模板

但由于您的BGM曲速是未知的（甚至你可能拿去錄了連呼）

所以請使用：記事本→編輯→替換

將后綴【,左邊界,固定,右邊界,預(yù)發(fā)聲,重疊】

變更為【,對應(yīng)數(shù)值,對應(yīng)數(shù)值,對應(yīng)數(shù)值,對應(yīng)數(shù)值,對應(yīng)數(shù)值】

請在setParam.exe中定位五條線的位置，再把數(shù)值批量替換，制成模板

需要制作的oto：

CVoto或CVoto2（二選一，看個人喜好進進行選擇）

VCoto

VVoto

擴充oto

最后：

本表制作參考了大量現(xiàn)有的拆音表，在這里說一聲感謝！

本表制作者小白菌已經(jīng)放棄了所有權(quán)力，您可以隨意修改，參考，二次發(fā)布。甚至您可以商用等等。

【新建文件夾】內(nèi)有完整的制作流程產(chǎn)物，修改需要一定的能力，請使用【Execl插件：方方格子】和【notepad++】進行修改更為方便

要點：Excel可以快速的將文本轉(zhuǎn)換為表格，方便進行批量處理，方方格子可以根據(jù)規(guī)則批量替換內(nèi)容，還支持一系列復(fù)雜操作，notepad++可以快速的使用\n進行字符替換換行

使用這三個個工具，就已經(jīng)足夠你完成大部分utau音源制作流程了

當(dāng)然【python】的功能更強大，但是不夠方便，且學(xué)習(xí)成本較高，如果能掌握，對于大量的數(shù)據(jù)處理能力，會更上一層樓，有余力的utau音制先生可以考慮學(xué)習(xí)

小聲：僅僅utau就已經(jīng)快把我熬夜熬死了，我沒時間學(xué)，不能給你們做全自動工作流了

碎碎念：

請快快來代替我更新吧，可能會有BUG，更多引擎的字典，我也沒空做啦，V#我用阿學(xué)老師的開源工具自動轉(zhuǎn)換了一個。

2.新人錄音建議.txt

首先這個表不推薦新人使用，然后希望你是老手，當(dāng)然你都看到這里了，說明你很想錄這個了，那么教你快速避坑。

一些讓新人錄音也能變得不那么難聽的技巧

如果你唱歌本身就很差，那么請這樣錄

如果你想錄唱腔，建議你就錄risku式CVVC就好了，那個錄音表只要你錄對了發(fā)音，就是很標(biāo)準(zhǔn)的唱腔。

如果你唱歌不好聽那么請：

1.輔音一定不要錄得含糊不清，要用力咬清楚，一般比較長的輔音都會比較悅耳。（但是像s，ch，這種連續(xù)的清輔音，別斷開，像y和w這種濁輔音的話，允許輔音音量比較小比較長的，這個完全不影響，只要不是徹底斷開。錄得想要清晰，錄長一點就清晰了）

PS:不要太在乎連貫性，你只要是cvvc，字與字沒有斷的超級開，那么肯定是不會不連貫的鴨。

（也希望一些音制不要把人家的d，g輔音切的那么短了，切長會有雜音是會有，但是太短的輔音無參真的好難受）

PS:也建議音制對openutau進行適配，utau是常用的，但其實我平時都直接用openutau無參偷懶。utau拆音方法也很多，但只要適配openutau那么autocvvc也同樣不會出錯的

2.元音不要斷開讀，連讀，連讀是會音色模糊，但也沒有什么辦法。

在開頭的元音（a，i，u，e，o，ei等等）可以錄出一點氣泡，意思就是要用力咬清楚，這樣音色會更好聽。

3.韻腹（ang的a，eng的e等等），盡量不要介于中間態(tài)。

4.這個錄音表本身音素劃分的很細(xì)，所以說即使是你用咬字腔去錄，也不會有問題。

? ?但是請你統(tǒng)一一下你的口型，比如同樣是a，那么ba的口型就要保持跟其他a一樣。

? ?但是可以看看【presamp】里面的音素劃分，ua和a不是一個音

? ?所以即使你的ua錄得非常的ua，也沒問題，但你要保證在ua之內(nèi)，你的口型不能忽大忽小?。?！

? ?如果發(fā)音口型很崩壞很隨機，那么就算是輔音咬的很清晰，元音也會很奇怪。

5.不用在乎【presamp】里面的輔音的音素劃分，按照你的喜好錄就行。

輔音沒有劃的很細(xì)，因為其實已經(jīng)夠用了，而且要劃分的很細(xì)，那么能分的太細(xì)了，錄音量還得+++。

PS:一般來說劃分更多輔音更多，是為了控制前一個元音的結(jié)束音的口型的，因為輔音類型也就那么多，但chuang和chang同樣都是ch為輔音，但是因為后面跟隨的元音不同，所以前一個音結(jié)束的口型和輔音的聲音，也有不同。所以就會劃分開來。但是例如cheng，chuang，chang，等要劃分好多個音素了，像h行的音ha，hang，huang，hao，hou，每個都不太一樣，越劃越多，暫時不劃了。每個人習(xí)慣也不一樣，定制也不太現(xiàn)實，對說話腔音源，影響沒那么大就不劃了。

6.如果有能力的話，就在元音穩(wěn)定的基礎(chǔ)上去半唱錄，讓自己去以一種不累的狀態(tài)發(fā)聲。

輔音的音色更取決于先天條件（氣流穿過你的身體所產(chǎn)生的一系列事情），但元音的音色更多是共鳴發(fā)聲，但其實只要你能夠把輔音咬清晰咬準(zhǔn)了，大概率你的元音也不會太難聽。

6.這個輔音清晰，其實可能你不會唱歌和配音的話，是不太懂是一種什么感覺，輔音能夠真正清晰的情況下，大概率你的元音咬字和發(fā)音也不會出問題。（我思考了一下，基本上沒有什么唱法，是會要求你輔音讀的很模糊不清的。（劃掉）

所以說如果你實在是覺得自己錄不好，就去找配音教程或者練一練唱歌，找找共鳴。

雖然我沒學(xué)過配音，但是我覺得配音可能學(xué)起來更系統(tǒng)一些，唱歌太雜了，通過配音教學(xué)找到了發(fā)聲和共鳴的感覺，并且咬字也清晰準(zhǔn)確了，那么錄一個好的音源你還差什么呢？什么都不差了。

而且你還能混混什么繪圈之類的，多養(yǎng)幾個孩子（不，不要鴨，你是來做音樂的）

7.按照輔音清晰，同類元音口型發(fā)音穩(wěn)定的思路去錄制音源，基本上不會出錯。

如果你想錄唱腔：

其實唱腔就按照自己唱某種類型的曲風(fēng)，會怎么唱，去設(shè)計一下自己每個音階要用什么樣子的發(fā)音咬字。那么你就可以錄了，還是推薦risku式CVVC。較少的元音類型劃分，能幫你校準(zhǔn)唱腔發(fā)音（劃），錄音量也比較少，直接去錄制八字表即可。

我這個方案主要是針對風(fēng)格化虛擬歌手的，錄音量大，但聲音會更加自然準(zhǔn)確。也更好錄。唱腔錄這個的話，你的一些采樣可能會雷同，導(dǎo)致有浪費產(chǎn)生。

當(dāng)然我這個字典可以完美向下兼容risku式CVVC，所以說你可以只錄risku式CVVC中有的音素。這就需要自己修改錄音表了。

對不起我有點忙，所以說比較倉促，我一直很忙。

很對不起。我不是不想做示例音源，也不是不想全流程測試。也不是不想三引擎字典+聲庫兼容性測試。

而且這個表本身。。。不是為配布做的準(zhǔn)備。

標(biāo)簽：錄音表配布 UATU