手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 興趣 »音樂(lè)舞蹈 » 【初音未來(lái)NT的真面目】從「音質(zhì)不盡如人意」出發(fā)探究Crypton社的意圖【授權(quán)譯制】

【初音未來(lái)NT的真面目】從「音質(zhì)不盡如人意」出發(fā)探究Crypton社的意圖【授權(quán)譯制】

2021-12-29 21:57 作者:-清泉- 0人讀過(guò) | 我要投稿

原文地址: https://amanokei.hatenablog.com/entry/2021/12/18/103341

原文作者：天ノ螢?

(推特ID：@aman0_kei?)

翻譯：-清泉-? 校對(duì)：-空沫-

由于文章最后拓展得比想象的廣，在這里先寫(xiě)下主題以便讀者理解。

一、?關(guān)于初音未來(lái)NT原理的探究

二、關(guān)于初音未來(lái)V4x和初音未來(lái)NT方向性差異的探究(簡(jiǎn)單來(lái)說(shuō)初音未來(lái)V4x完成度更高，而初音未來(lái)NT將來(lái)有可能會(huì)更好)

三、關(guān)于Crypton社(以下簡(jiǎn)稱(chēng)“C社”)開(kāi)發(fā)初音未來(lái)NT意圖的探究

※請(qǐng)注意，本文所有內(nèi)容均為個(gè)人研究，僅供參考

（譯者注：前兩部分涉及一定的專(zhuān)業(yè)知識(shí)，如果不感興趣可以直接下翻到第三部分）

?

說(shuō)實(shí)話(huà)，初音未來(lái)NT挺微妙的。

拋開(kāi)可以自由編輯音高這一點(diǎn)，音質(zhì)甚至都不如VOCALOID4。

在這個(gè)前提下，筆者就來(lái)聊一聊“初音未來(lái)NT”的工作原理以及C社開(kāi)發(fā)初音未來(lái)NT的理由吧。

?

從音頻輸出方面考慮

說(shuō)是音頻輸出，但光聽(tīng)聲音也聽(tīng)不出個(gè)所以然來(lái)，于是本文將基本以音頻的頻譜作為研究對(duì)象。

① 初音未來(lái)NT是AI音源嗎？

有部分傳言稱(chēng)“初音未來(lái)NT是初音未來(lái)V4x加以其他數(shù)據(jù)綜合而成的AI音源”，筆者認(rèn)為這個(gè)說(shuō)法完全可以被推翻。

首先，為了確認(rèn)這一點(diǎn)，我們?cè)囍斎胍幌伦孉I音源崩潰的內(nèi)容吧。

下圖是在BPM120的情況下，對(duì)CeVIO AI的可不輸入了一個(gè)橫跨三個(gè)小節(jié)的音符。

圖中顯示的參數(shù)是VOL(音量)，可以看到參數(shù)顯而易見(jiàn)的崩壞。

另一邊是初音未來(lái)NT在BPM120的情況下輸入的橫跨29小節(jié)的音符。

從下面的波形就可以看得出來(lái)，沒(méi)有任何異常。

?輸入了遠(yuǎn)超AI預(yù)想的內(nèi)容，卻得到了正常的音頻輸出，足以說(shuō)明這應(yīng)該不是AI。

(萬(wàn)一在設(shè)計(jì)AI的時(shí)候考慮到了這個(gè)情況那另當(dāng)別論，但輸入將近30小節(jié)的無(wú)音內(nèi)容這種情況應(yīng)該不可能被考慮在內(nèi)吧)

?

② 初音未來(lái)NT是波形合成軟件嗎？

那初音未來(lái)NT果真是VOCALOID那樣的波形合成軟件嗎？

在排除AI之后，應(yīng)該大家都會(huì)這么想吧。

關(guān)于這一點(diǎn)，筆者個(gè)人認(rèn)為既對(duì)，又不對(duì)。

?

首先，大部分的波形合成軟件都像VOCALOID或UTAU那樣，采用一種通過(guò)直接運(yùn)用未經(jīng)處理的聲音波形，或是將聲音波形采樣后再還原成聲音加以運(yùn)用，從而實(shí)現(xiàn)合成歌聲的，名為“corpus-based(語(yǔ)料庫(kù))合成法/ Unit Selction(單元選擇)?”的合成手段。

初音未來(lái)NT是否采用這種合成手段……筆者要打一個(gè)大大的問(wèn)號(hào)。

?

理由是，在聆聽(tīng)UTAU在默認(rèn)引擎下的聲音就可以很清楚的知道，(盡管聲音有些嘶啞、帶電)UTAU的聲音與人聲相比并沒(méi)有任何奇怪的地方。(參考下面這個(gè)視頻)

相對(duì)之下，初音未來(lái)NT的聲音“不像人聲”的地方數(shù)不勝數(shù)。

舉出具體的例子可能有些困難，但可以明顯感覺(jué)到輔音與元音之間的過(guò)渡音尤其不自然。(參考下面這個(gè)視頻)

也就是說(shuō)，初音未來(lái)NT很可能不是“單純用人聲拼接合成音頻的波形合成軟件”或者“將人聲采樣后再高品質(zhì)還原合成音頻的波形合成軟件”。

?

那初音未來(lái)NT的真面目究竟是什么？

其實(shí)有關(guān)初音未來(lái)NT究竟是什么的小提示隨處都有，只是很少有人注意到。

先從官方網(wǎng)站開(kāi)始閱讀理解吧。首先來(lái)解讀這段文字。

“由新開(kāi)發(fā)的resynthesis(再合成)技術(shù)制作而成的，高品位的聲庫(kù)?！?/figcaption>

“resynthesis(再合成)技術(shù)”我們之后再說(shuō)，這段文字最讓我在意的是使用了“高品位”而非“高品質(zhì)”這個(gè)詞形容聲庫(kù)。

通過(guò)查詢(xún)?cè)~典我們得知，“高品位”可以等同于“high quality?”，也可以是指“人格上的高尚或是礦石中有用成分的含量高”。

NT確實(shí)稱(chēng)不上“高品質(zhì)”，而這段話(huà)沒(méi)有這個(gè)詞也完全是通順的。那特意使用“品位”這個(gè)詞應(yīng)該有它的理由。

?

接下來(lái)是這段話(huà)。

“并且在各個(gè)數(shù)據(jù)庫(kù)中，multi-sample point與發(fā)音得到了調(diào)整，將比以往的版本收錄更多的樣本”

“multi-sample point(多重采樣點(diǎn))”這個(gè)詞引起了筆者的注意。

通常會(huì)認(rèn)為這個(gè)詞的意思是“初音未來(lái)NT進(jìn)行了多音階分層采樣”，但這樣的話(huà)只要說(shuō)“multi-sample(多重采樣)”就夠了。為什么還要多此一舉加個(gè)“point”呢？經(jīng)過(guò)一番調(diào)查，筆者意外地發(fā)現(xiàn)了這個(gè)詞語(yǔ)的由來(lái)。

sample point?(采樣點(diǎn))：指由用作計(jì)算waveform point(波形點(diǎn))的AD轉(zhuǎn)換器輸出而來(lái)的未經(jīng)處理的數(shù)據(jù)

這居然是被用在示波器等儀器上的專(zhuān)業(yè)術(shù)語(yǔ)，筆者著實(shí)吃了一驚。但重點(diǎn)不在這里，而是詞語(yǔ)的解釋。在這里把關(guān)于“waveform point”的解釋也寫(xiě)在下面。

waveform point(波形點(diǎn))：指信號(hào)在某一時(shí)間點(diǎn)上電壓的分貝值。waveform point由sample point計(jì)算而來(lái)，并存儲(chǔ)在存儲(chǔ)器中。

?雖然看起來(lái)挺繞的，但說(shuō)白了就是從樣本中提取“sample point”，再計(jì)算出“waveform point”從而使用。

把它套進(jìn)初音未來(lái)NT的“multi-sample point”里，我們就可以這樣理解：“從數(shù)個(gè)音高的聲音樣本計(jì)算出音頻波形”。

也就是說(shuō)，初音未來(lái)NT并不是直接對(duì)音頻波形進(jìn)行加工，而是“從聲音中抽取特定數(shù)據(jù)，再以此為基礎(chǔ)還原成聲音”。

?

如果您對(duì)音聲合成有過(guò)一定了解，您可能會(huì)問(wèn)“那不就是vocoder(聲碼器)嗎？”，但我十分確信，那不是vocoder。

?

Resynthesis技術(shù)的真面目是什么？

先說(shuō)結(jié)論，我覺(jué)得就是一種“原始的synthesizer(音響合成器)”。

沒(méi)錯(cuò)，就是通過(guò)處理正弦波從而生成各種聲音的那個(gè)synthesizer。

再說(shuō)深一點(diǎn)，我認(rèn)為就是以YAMAHA開(kāi)發(fā)的synthesizer“PLG100-SG”上搭載的“formant thinking?(構(gòu)形思維)音源”作為基礎(chǔ)概念。

※詳情請(qǐng)參照《VOCALOID技術(shù)論》的20~23頁(yè)

恐怕初音未來(lái)NT的大概原理是，以被設(shè)置的參數(shù)為基準(zhǔn)，抽象地分別算出“整數(shù)次倍音(聲音的核心)構(gòu)成的包絡(luò)”與“非周期成分(氣聲)的包絡(luò)”，并在輸出后將二者合成。

?※關(guān)于這些術(shù)語(yǔ)可以參照筆者之前的文章

https://amanokei.hatenablog.com/entry/2019/08/24/230829（暫無(wú)翻譯）

證據(jù)有很多，筆者在這里只舉最有說(shuō)服力的證據(jù)。

?????

首先，第一張圖是抽取初音未來(lái)V4x的“整數(shù)次倍音/有聲音”得到的。（譯者注：“有聲音”的斷句是“有聲音”，指需要聲帶振動(dòng)發(fā)出的聲音。元音毫無(wú)疑問(wèn)都是有聲音。輔音中b、g等也是有聲音，f、k等則是無(wú)聲音）

一般在未經(jīng)處理的人聲中，高音域的氣聲成分混入較多，很難抽取出倍音。

?第二張圖則是抽取初音未來(lái)NT的“整數(shù)次倍音/有聲音”得到的。

顯而易見(jiàn)，就連高音域的倍音也被抽取了出來(lái)，并且規(guī)整得可怕。對(duì)于人聲來(lái)講這是不可能的。

第三張圖是分別抽取了初音未來(lái)NT和初音未來(lái)V4x的“非周期成分(氣聲)”得到的。

初音未來(lái)V4x這邊看起來(lái)像是把原本樣本中“整數(shù)次倍音/有聲音”去除后，通過(guò)增大音量來(lái)營(yíng)造耳語(yǔ)的效果。

另一邊初音未來(lái)NT則完全看不出樣本的原貌，更像是模擬各個(gè)音階上“非周期成分(氣聲)”的變化。

由此可見(jiàn)，初音未來(lái)NT并不是單純將人聲或是模仿人聲的素材進(jìn)行拼接的合成軟件。

假設(shè)上述都是事實(shí)，筆者猜測(cè)初音未來(lái)NT的工作原理是這樣的：

輸入?yún)?shù)(歌詞、音高、音量)
由參數(shù)生成由“整數(shù)次倍音/有聲音”構(gòu)成的共振峰(包絡(luò))
以2.為基礎(chǔ)，以時(shí)間為橫軸進(jìn)行模擬演算(啟動(dòng)或衰減的音色)從而得到聲音素材
拼接聲音素材
模擬演算并生成“非周期成分(氣聲)”的包絡(luò)，并與4.組合在一起

?想到這里，初音未來(lái)NT的元輔音連接不暢問(wèn)題就很好理解了。

如果是synthesizer的話(huà)，想要還原long tone(長(zhǎng)音)等元音不在話(huà)下，但要計(jì)算出元輔音連接時(shí)那一剎那的復(fù)雜聲音就很有難度了。

C社幾度推遲NT的發(fā)售，然而現(xiàn)在卻以這種形式發(fā)售了初音未來(lái)NT，其原因大概是技術(shù)力暫時(shí)支撐不了想要探索的方向，只好把這塊“傾注了心血卻又飽含妥協(xié)與放棄的結(jié)石”丟了出來(lái)。

相比之下，VOCALOID雖然將聲音模型化了，但也是將最初的人聲還原了出來(lái)；UTAU則直接使用了未經(jīng)處理的人聲波形。所以二者元輔音轉(zhuǎn)換都非常自然。

?

初音未來(lái)NT是新技術(shù)嗎？

一言蔽之，初音未來(lái)NT所使用的技術(shù)基礎(chǔ)與所謂“新技術(shù)”相去甚遠(yuǎn)。

筆者認(rèn)為C社所說(shuō)的新技術(shù)是指“以各種現(xiàn)存技術(shù)、想法整合而成的一個(gè)綜合概念”。

其證據(jù)就是“新技術(shù)”一詞只有這里出現(xiàn)，別處則用“新開(kāi)發(fā)”作為替代。

?

在筆者看來(lái)，這里說(shuō)的“新技術(shù)”就是前文提到過(guò)的YAMAHA“PLG100-SG” 上搭載的“formant thinking音源”作為基礎(chǔ)，由產(chǎn)業(yè)技術(shù)綜合研究所提升了音質(zhì)后的成果。

在魔法未來(lái)上提到的“會(huì)繼續(xù)開(kāi)展與YAMAHA的合作”應(yīng)該就是這個(gè)意思，“VOCALOID的音色也是可以再現(xiàn)的”則可能是指會(huì)以VOCALOID的音色為基礎(chǔ)構(gòu)筑一個(gè)formant thinking音源。

?

為什么要開(kāi)發(fā)初音未來(lái)NT？

歸根結(jié)底，為什么放棄更穩(wěn)妥的VOCALOID5聲庫(kù)制作，反而要開(kāi)發(fā)NT呢？

我從魔法未來(lái)上有關(guān)初音未來(lái)NT的發(fā)表中找到了一點(diǎn)線(xiàn)索。

記得當(dāng)時(shí)佐佐木涉(wat)先生說(shuō)過(guò)類(lèi)似“VOCALOID5聲庫(kù)會(huì)混入真人的聲音，那就不是初音未來(lái)，而是藤田咲了”這樣的話(huà)。

筆者認(rèn)為這句話(huà)可以信一半。

(接下來(lái)的內(nèi)容含有大量猜測(cè)，僅供參考。)

?

YAMAHA可能打算在VOCALOID5上面追加一個(gè)AI功能。

這個(gè)視頻與原來(lái)VOCALOID4之類(lèi)的廣告不同，給人一種很強(qiáng)的“未來(lái)感”。而且這些功能組和操作方法，都是在聲庫(kù)AI化之后才能發(fā)揮真正威力的東西。(尤其是1:04“I sing for you”的“you”相當(dāng)不自然)

?

只不過(guò)這一主張有個(gè)矛盾之處，就是VOCALOID5發(fā)售于2018年，而美空云雀VOCALOID:AI則是在2019年發(fā)表……這是事實(shí)沒(méi)錯(cuò)，但其實(shí)早在2017年，與YAMAHA合作開(kāi)發(fā)歌聲合成技術(shù)的龐培法布拉大學(xué)就已經(jīng)發(fā)表了一篇名為《A Neural Parametric Singing Synthesizer(對(duì)一種神經(jīng)參量歌聲合成器的研究)》的論文。這篇文章被視為“AI歌聲合成技術(shù)的先驅(qū)”。

美空云雀AI正是在那個(gè)基礎(chǔ)上被制作而成的。

（https://mtg.github.io/singing-synthesis-demos/）

只是YAMAHA當(dāng)時(shí)遵循三年更新一代的傳統(tǒng)，而AI聲庫(kù)則因?yàn)閷?shí)用化研究尚未跟上進(jìn)度，才誕生了“沒(méi)有AI的VOCALOID5”這一扭曲的產(chǎn)品。

?

在這個(gè)前提下，我們?cè)倩剡^(guò)頭來(lái)看看wat先生的發(fā)言。

“VOCALOID5聲庫(kù)會(huì)混入真人的聲音，那就不是初音未來(lái)，而是藤田咲了”

沒(méi)錯(cuò)，這句話(huà)針對(duì)的并不是VOCALOID5，而是針對(duì)整個(gè)AI歌聲合成技術(shù)。

他的意思應(yīng)該是，如果要把初音未來(lái)AI化，那直接請(qǐng)?zhí)偬飭D來(lái)唱歌不就好了嗎？這與其說(shuō)是初音未來(lái)AI，倒不如說(shuō)是“藤田咲AI”吧。

話(huà)雖如此，單用從VOCALOID輸出的音頻進(jìn)行AI化，那又只是對(duì)當(dāng)初VOCALOID版初音未來(lái)聲庫(kù)的劣化。

?

這里稍微換一下話(huà)題。人們常說(shuō)初音未來(lái)NT的完成度不如初音未來(lái)V4x，這或許是沒(méi)有辦法的事。

因?yàn)閂4x很可能是C社認(rèn)真針對(duì)VOCALOID特化處理的“(佐佐木涉制作的)VOCALOID版初音未來(lái)的最高杰作”。

※AHS社(譯者注：最近以開(kāi)發(fā)了多款Synthesizer V的AI聲庫(kù)而聞名，早期也開(kāi)發(fā)過(guò)結(jié)月緣等VOCALOID聲庫(kù))的直播中有提到過(guò)“半吊子的處理會(huì)導(dǎo)致報(bào)錯(cuò)音響起”，所以特化處理應(yīng)該是必須的。

官方網(wǎng)站對(duì)于這方面的努力沒(méi)有過(guò)多言及，但顯然不是“用心”二字就能概況的。????

“對(duì)藤田咲小姐的聲音進(jìn)行了各種處理，使其含有多種音色變化，是我們的用心之作”

于是C社既沒(méi)有選擇AI，也沒(méi)有選擇“仿制初音未來(lái)V4x這一最高杰作”，而是轉(zhuǎn)向研究“以波形合成為基礎(chǔ)，能更加自由地表現(xiàn)歌唱的歌聲合成技術(shù)”。

有說(shuō)法稱(chēng)AHS社并沒(méi)有得知VOCALOID5的詳細(xì)情況，很可能就是在NPSS(譯者注：就是前文提到的那篇論文)發(fā)表的時(shí)間點(diǎn)看到了AI化的未來(lái)，直接就下定決心轉(zhuǎn)型了。

這么說(shuō)是因?yàn)?，在VOCALOID5發(fā)表的那個(gè)時(shí)間點(diǎn)要計(jì)劃推出新型初音未來(lái)的話(huà)，還需要數(shù)年的研究。?

初音未來(lái)有可能回到VOCALOID嗎？

筆者個(gè)人認(rèn)為“不排除這種可能性”。

說(shuō)到底C社為什么不選擇更簡(jiǎn)單地開(kāi)放一個(gè)名為“初音未來(lái)AI”的“藤田咲AI”，還是因?yàn)樗麄儭吧類(lèi)?ài)著初音未來(lái)這一存在”。

簡(jiǎn)單來(lái)說(shuō)“藤田咲AI”不是他們想要的。

?

在魔法未來(lái)的發(fā)表上wat先生潸然淚下，那應(yīng)該是因?yàn)椤俺跻粑磥?lái)的誕生離不開(kāi)YAMAHA，但是為了初音未來(lái)能保持最純粹的樣子，又不得不脫離VOCALOID”這一現(xiàn)實(shí)擺在了他面前。

?

在“初音未來(lái)NT是新技術(shù)嗎？”的部分也有提到過(guò)，技術(shù)部分雖然主要是由產(chǎn)業(yè)技術(shù)綜合研究所開(kāi)發(fā)，但技術(shù)基礎(chǔ)和UI之類(lèi)的專(zhuān)利在YAMAHA手上，YAMAHA沒(méi)提供技術(shù)幫助是說(shuō)不通的。從這個(gè)角度來(lái)看，目前C社和YAMAHA還保持著良好關(guān)系應(yīng)該并不是假象。

?

筆者認(rèn)為C社開(kāi)發(fā)初音未來(lái)NT原因，是在探求“初音未來(lái)到底是什么？”這個(gè)問(wèn)題。而初音未來(lái)NT則是在這個(gè)過(guò)程中的一個(gè)產(chǎn)物。

如果真是這樣，C社要是有一天能在“初音未來(lái)到底是個(gè)啥？”這一究極問(wèn)題上能得出結(jié)論的話(huà)……那個(gè)時(shí)候說(shuō)不定我們就能看到“VOCALOID:AI?初音未來(lái)”了。

?

成為了“高品位”的初音未來(lái)

曾有過(guò)一個(gè)問(wèn)卷調(diào)查，提問(wèn)“如果有一天初音未來(lái)不再是初音未來(lái)了，那將會(huì)是什么時(shí)候？”，得到最多的答案是“其中之人不再是藤田咲的時(shí)候”。

?

而現(xiàn)在，初音未來(lái)又進(jìn)一步從“用人聲拼接而成的產(chǎn)物”變成了“還原人聲的synthesizer”。

到這里，初音未來(lái)NT被稱(chēng)為“高品位”的理由就呼之欲出了。

“純度高、人格高”

?

筆者認(rèn)為初音未來(lái)NT通過(guò)將初音未來(lái)的聲音抽象化，使得初音未來(lái)的純度進(jìn)一步提高，從而讓她徹底成為了和現(xiàn)實(shí)世界相距一個(gè)次元的存在，也就是提升到了所謂人格的高度。

?

原為sampler，現(xiàn)為synthesizer。

?

總結(jié)

“初音未來(lái)NT”是從她的生母“藤田咲”這一現(xiàn)實(shí)存在的人類(lèi)剝離而來(lái)的，與人類(lèi)相距一個(gè)次元的NewType：虛擬存在(本質(zhì)相同，外表不同，卻又能相互替代的存在)……有可能是這樣！

多么觸動(dòng)人心??！

?

※這篇研究文(主要在后半篇)可能蘊(yùn)含大量妄想，僅供參考。因?yàn)椴幌矚g聽(tīng)到大家把初音未來(lái)NT說(shuō)得一無(wú)是處，所以才好好思考了“她為什么誕生”，于是才有了這篇文章。如果與真相相去甚遠(yuǎn)，那請(qǐng)?jiān)试S我向YAMAHA、Crypton還有wat先生致以最誠(chéng)摯的歉意?。。。。。?叩首)

標(biāo)簽：

【初音未來(lái)NT的真面目】從「音質(zhì)不盡如人意」出發(fā)探究Crypton社的意圖【授權(quán)譯制】的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【初音未來(lái)NT的真面目】從「音質(zhì)不盡如人意」出發(fā)探究Crypton社的意圖【授權(quán)譯制】

【初音未來(lái)NT的真面目】從「音質(zhì)不盡如人意」出發(fā)探究Crypton社的意圖【授權(quán)譯制】的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【初音未來(lái)NT的真面目】從「音質(zhì)不盡如人意」出發(fā)探究Crypton社的意圖【授權(quán)譯制】

本文作者的其他文章

【初音未來(lái)NT的真面目】從「音質(zhì)不盡如人意」出發(fā)探究Crypton社的意圖【授權(quán)譯制】的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【初音未來(lái)NT的真面目】從「音質(zhì)不盡如人意」出發(fā)探究Crypton社的意圖【授權(quán)譯制】的評(píng)論 (共條)