水音中之人未來的工作計劃(2022年版)

2022年3月29日 僅作搬運和機翻
我也試著組織自己的思想。
ーーーーーーーーーーーーーーーーーーーー
?為什么先為談話軟件錄制音頻?
最近(上月底~本月初)我錄制了一個ITA語料庫和一個名為ROHAN4600的聲音,用于TTS(文本到語音轉(zhuǎn)換)。
原因是
如何使用水音的說明
(1)在視頻中,
(2)對水聲拉爾,
你不想讓我解釋如何嗎? 我以為。
└創(chuàng)建教程
所以我首先關(guān)注歌唱聲源,并優(yōu)先考慮它。
?此外,例如,如果您可以輕松生成“上帝般的”說話部分,那會更容易...... 還有那個。
?目前,Boilero和VOICEVOX等談話軟件在niconico很熱門。
(此外,還有一個人此時已經(jīng)使用使用 ROHAN4600 的模型啟用了語音合成。 我不使用語調(diào)信息,所以第二個看起來像糞便。 (我認為它可以在 DTM 中使用))
https://colab.research.google.com/drive/1VqrxXQS2koUlE8Y7weMlx5n6apXyW9AG?usp=sharing
ーーーーーーーーーーーーーーーーーーーー
? 關(guān)于站立圖片
目前,我們尚未能夠收集到關(guān)于需要什么樣的東西的信息。
如果您想將其作為談話軟件進行操作,是否方便支持PSDtoolKit...?
我不知道。。。
ーーーーーーーーーーーーーーーーーーーー
?NNSVS(ENUNU)庫(AI合成)
有跡象表明AI合成的質(zhì)量正在顯著提高,因此我正在測試CVVC聲源的原始聲源,這對于很久以前(4年前)錄制的UTAU很難使用。
嗯,有動機,但目前,質(zhì)量是一條微妙的線,可以接受與否,所以很有可能被擁有。
(或者更確切地說,錄音量是非凡的。 在大約 15 個連續(xù)音調(diào)時,連續(xù)音階的質(zhì)量終于...... 這是我的印象。 但它會自動適應(yīng)是的感覺,所以有未來......
(這是撰寫本文時NNSVS的官方質(zhì)量)
https://soundcloud.com/r9y9/20220323-kiritan-test-svs-digimon
ーーーーーーーーーーーーーーーーーーーー
?UTAU音源
?已記錄但未分發(fā)的項目
└聲音嘶?。ǖ谝灰綦A)(原始聲音設(shè)置尚不可用)
由于它是一個微妙的音源,我們計劃使其成為FANBOX限定的聲源。
?錄音
└嘗試解析
這是一個帶有新麥克風的 Parse 再現(xiàn)聲源。
我認為它可能是一個與 Parse2 沒有太大區(qū)別的聲源,所以我們計劃讓它成為 FANBOX 有限的聲源...... 但是,語音質(zhì)量很微妙,所以我可能會按原樣將其存放。
(這是本封面中使用的聲源)
https://www.nicovideo.jp/watch/sm40071704
?測試階段
└簡體中文
該名單尚未確定。
我想把它區(qū)分為一個可以區(qū)分通風和未吸氣聲音的列表,但由于我自己的需求、周圍人的需求和 ARPABET 的便利性之間的平衡,以及“英語太自由了,不是嗎??
└中文
我正在錄音,但麥克風是新的,所以它被重新錄制了。
雖然我有一些動力,但它的卡路里很重,所以錄音太難激勵了......
(如果要錄制中文CVVC 1音調(diào),最好連續(xù)錄制10個日語音符,這是一種懺悔水平。
?概念階段
我說,“添加一條線來浮動。
https://minelaru.fanbox.cc/posts/1948285
因為麥克風是新的,所以我認為將聲音較弱的聲源作為具有全新日語列表的新聲源發(fā)布會更現(xiàn)實。
但是,我認為還有很長的路要走。
此外,由于采用了新的麥克風,我正在考慮再次錄制相當于 14 音連續(xù)聲音的聲音。
這很難不是嗎
?低于預(yù)期
相反,我沒有任何想法,因為我覺得沒有其他需要用 UTAU 聲源錄制的東西。
ーーーーーーーーーーーーーーーーーーーー
?兼容蘋果電腦
?除非您手動輸入前綴,否則它不起作用。
似乎 Windows 上的 UTAU 和 UTAU-Synth 具有神秘不同的規(guī)格,因此您必須在筆記本中完整輸入所有內(nèi)容,例如“a# 3a”才能工作。
(UTAU-Synth似乎具有自動連續(xù)聲音,但由于周圍的規(guī)范,似乎沒有應(yīng)用前綴.map,而且它不會自動變成連續(xù)聲音似乎是地獄。
不,即使它被稱為“prefix.map”(前綴),在UTAU中有許多相關(guān)軟件由于某種原因不考慮前綴。
就我個人而言,我認為[ToneName][preVowel](空格)[Lyric][Variation]的形式更聰明,所以我想記住它。 )
?壓縮方法
考慮到壓縮率,我指定 rar 作為聲源,但這也更接近 Windows。
*解決策
- 準備前綴.map和所有oto.ini的修改版本。
└老實說,我想準備一個程序,可以從更改每個程序的麻煩中批量轉(zhuǎn)換...... (準備數(shù)據(jù)→更改為“a#1a ki1”“a#3a”,并將前綴.map的規(guī)范更改為后綴而不是前綴。 )
?將壓縮設(shè)置為7z或其他東西
ーーーーーーーーーーーーーーーーーーーー
?首頁
老實說,我忙于其他事情,我沒有任何構(gòu)建的愿景,因為我無法激勵自己學(xué)習 HTML/CSS/Javascript...... (???)
我也有一部分想知道在上述HowTo的維護進行時是否會將其作為旁注進行維護,但是仍然有很多地方的任務(wù)充滿了聲源和標簽,這是完全不可能的。
ーーーーーーーーーーーーーーーーーーーー
?軟件
?重采樣器覆蓋寫入器
這里我在想,我想添加一個可以強制原始聲音設(shè)置的功能...... 我在想。。。
通過能夠強制維護每個深度參數(shù),您將能夠使用從 UTAU 神奇修改的原始聲音設(shè)置的聲源......
換句話說,一種使連續(xù)音調(diào)中的“a-ki”和音符中的“i-ka”聲音的技術(shù)。
... 但是,對于那些不太了解此示例的人來說,這將是一個胡言亂語的功能,因此優(yōu)先級相當?shù)?.....
ーーーーーーーーーーーーーーーーーーーー
這更難(^言^)
●您可以制作通話軟件...
如果您使用所有完整上下文標簽將 ROHAN4600 標記為“幾乎全部手動”,并為其提供語調(diào)信息以在 NNSVS 中學(xué)習,
是不是可以合成與 VOICEVOX 兼容的語音(語調(diào)和音調(diào)長度可以調(diào)整)...... 這對我來說都是一個熱門話題。
ーーーーーーーーーーーーーーーーーーーー
● 使用 NNSVS 庫容易嗎? 我想知道是否可以制作英語聲源...
AI合成具有“微調(diào)”的概念。
錄制很多聲源(大約 100 個連續(xù)音調(diào)),學(xué)習日語錄制一點英語(或中文)語音并應(yīng)用它,然后以良好的方式合成“復(fù)音英語聲源”,這已經(jīng)成為我的一個話題。
如果僅僅通過錄制一次英語就能合成一種良好的感覺,而不是在經(jīng)歷苦澀的同時強行錄制外語聲源的多音階,那不是更容易嗎?
我不知道該怎么做^~
贊