手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 水音中之人未來的工作計劃（2022年版）

水音中之人未來的工作計劃（2022年版）

2023-07-24 18:35 作者:我還是沒有睡 0人讀過 | 我要投稿

2022年3月29日僅作搬運和機翻

我也試著組織自己的思想。

ーーーーーーーーーーーーーーーーーーーー

?為什么先為談話軟件錄制音頻？

最近（上月底~本月初）我錄制了一個ITA語料庫和一個名為ROHAN4600的聲音，用于TTS（文本到語音轉(zhuǎn)換）。

原因是

如何使用水音的說明

（1）在視頻中，

（2）對水聲拉爾，

你不想讓我解釋如何嗎？我以為。

└創(chuàng)建教程

所以我首先關(guān)注歌唱聲源，并優(yōu)先考慮它。

?此外，例如，如果您可以輕松生成“上帝般的”說話部分，那會更容易...... 還有那個。

?目前，Boilero和VOICEVOX等談話軟件在niconico很熱門。

（此外，還有一個人此時已經(jīng)使用使用 ROHAN4600 的模型啟用了語音合成。我不使用語調(diào)信息，所以第二個看起來像糞便。（我認為它可以在 DTM 中使用））

https://colab.research.google.com/drive/1VqrxXQS2koUlE8Y7weMlx5n6apXyW9AG?usp=sharing

ーーーーーーーーーーーーーーーーーーーー

? 關(guān)于站立圖片

目前，我們尚未能夠收集到關(guān)于需要什么樣的東西的信息。

如果您想將其作為談話軟件進行操作，是否方便支持PSDtoolKit...？

我不知道。。。

ーーーーーーーーーーーーーーーーーーーー

?NNSVS（ENUNU）庫（AI合成）

有跡象表明AI合成的質(zhì)量正在顯著提高，因此我正在測試CVVC聲源的原始聲源，這對于很久以前（4年前）錄制的UTAU很難使用。

嗯，有動機，但目前，質(zhì)量是一條微妙的線，可以接受與否，所以很有可能被擁有。

（或者更確切地說，錄音量是非凡的。在大約 15 個連續(xù)音調(diào)時，連續(xù)音階的質(zhì)量終于...... 這是我的印象。但它會自動適應(yīng)是的感覺，所以有未來......

（這是撰寫本文時NNSVS的官方質(zhì)量）

https://soundcloud.com/r9y9/20220323-kiritan-test-svs-digimon

ーーーーーーーーーーーーーーーーーーーー

?UTAU音源

?已記錄但未分發(fā)的項目

└聲音嘶?。ǖ谝灰綦A）（原始聲音設(shè)置尚不可用）

由于它是一個微妙的音源，我們計劃使其成為FANBOX限定的聲源。

?錄音

└嘗試解析

這是一個帶有新麥克風的 Parse 再現(xiàn)聲源。

我認為它可能是一個與 Parse2 沒有太大區(qū)別的聲源，所以我們計劃讓它成為 FANBOX 有限的聲源...... 但是，語音質(zhì)量很微妙，所以我可能會按原樣將其存放。

（這是本封面中使用的聲源）

https://www.nicovideo.jp/watch/sm40071704

?測試階段

└簡體中文

該名單尚未確定。

我想把它區(qū)分為一個可以區(qū)分通風和未吸氣聲音的列表，但由于我自己的需求、周圍人的需求和 ARPABET 的便利性之間的平衡，以及“英語太自由了，不是嗎？？

└中文

我正在錄音，但麥克風是新的，所以它被重新錄制了。

雖然我有一些動力，但它的卡路里很重，所以錄音太難激勵了......

（如果要錄制中文CVVC 1音調(diào)，最好連續(xù)錄制10個日語音符，這是一種懺悔水平。

?概念階段

我說，“添加一條線來浮動。

https://minelaru.fanbox.cc/posts/1948285

因為麥克風是新的，所以我認為將聲音較弱的聲源作為具有全新日語列表的新聲源發(fā)布會更現(xiàn)實。

但是，我認為還有很長的路要走。

此外，由于采用了新的麥克風，我正在考慮再次錄制相當于 14 音連續(xù)聲音的聲音。

這很難不是嗎

?低于預(yù)期

相反，我沒有任何想法，因為我覺得沒有其他需要用 UTAU 聲源錄制的東西。

ーーーーーーーーーーーーーーーーーーーー

?兼容蘋果電腦

?除非您手動輸入前綴，否則它不起作用。

似乎 Windows 上的 UTAU 和 UTAU-Synth 具有神秘不同的規(guī)格，因此您必須在筆記本中完整輸入所有內(nèi)容，例如“a# 3a”才能工作。

（UTAU-Synth似乎具有自動連續(xù)聲音，但由于周圍的規(guī)范，似乎沒有應(yīng)用前綴.map，而且它不會自動變成連續(xù)聲音似乎是地獄。

不，即使它被稱為“prefix.map”（前綴），在UTAU中有許多相關(guān)軟件由于某種原因不考慮前綴。

就我個人而言，我認為[ToneName][preVowel]（空格）[Lyric][Variation]的形式更聰明，所以我想記住它。）

?壓縮方法

考慮到壓縮率，我指定 rar 作為聲源，但這也更接近 Windows。

*解決策

- 準備前綴.map和所有oto.ini的修改版本。

└老實說，我想準備一個程序，可以從更改每個程序的麻煩中批量轉(zhuǎn)換...... （準備數(shù)據(jù)→更改為“a#1a ki1”“a#3a”，并將前綴.map的規(guī)范更改為后綴而不是前綴。）

?將壓縮設(shè)置為7z或其他東西

ーーーーーーーーーーーーーーーーーーーー

?首頁

老實說，我忙于其他事情，我沒有任何構(gòu)建的愿景，因為我無法激勵自己學(xué)習 HTML/CSS/Javascript...... （???）

我也有一部分想知道在上述HowTo的維護進行時是否會將其作為旁注進行維護，但是仍然有很多地方的任務(wù)充滿了聲源和標簽，這是完全不可能的。

ーーーーーーーーーーーーーーーーーーーー

?軟件

?重采樣器覆蓋寫入器

這里我在想，我想添加一個可以強制原始聲音設(shè)置的功能...... 我在想。。。

通過能夠強制維護每個深度參數(shù)，您將能夠使用從 UTAU 神奇修改的原始聲音設(shè)置的聲源......

換句話說，一種使連續(xù)音調(diào)中的“a-ki”和音符中的“i-ka”聲音的技術(shù)。

... 但是，對于那些不太了解此示例的人來說，這將是一個胡言亂語的功能，因此優(yōu)先級相當?shù)?.....

ーーーーーーーーーーーーーーーーーーーー

這更難（^言^）

●您可以制作通話軟件...

如果您使用所有完整上下文標簽將 ROHAN4600 標記為“幾乎全部手動”，并為其提供語調(diào)信息以在 NNSVS 中學(xué)習，

是不是可以合成與 VOICEVOX 兼容的語音（語調(diào)和音調(diào)長度可以調(diào)整）...... 這對我來說都是一個熱門話題。

ーーーーーーーーーーーーーーーーーーーー

● 使用 NNSVS 庫容易嗎？我想知道是否可以制作英語聲源...

AI合成具有“微調(diào)”的概念。

錄制很多聲源（大約 100 個連續(xù)音調(diào)），學(xué)習日語錄制一點英語（或中文）語音并應(yīng)用它，然后以良好的方式合成“復(fù)音英語聲源”，這已經(jīng)成為我的一個話題。

如果僅僅通過錄制一次英語就能合成一種良好的感覺，而不是在經(jīng)歷苦澀的同時強行錄制外語聲源的多音階，那不是更容易嗎？

我不知道該怎么做^~

贊

標簽：