【初音未來(lái)NT的真面目】從「音質(zhì)不盡如人意」出發(fā)探究Crypton社的意圖【授權(quán)譯制】
原文地址: https://amanokei.hatenablog.com/entry/2021/12/18/103341
原文作者:天ノ螢?
(推特ID:@aman0_kei?)
由于文章最后拓展得比想象的廣,在這里先寫(xiě)下主題以便讀者理解。
一、?關(guān)于初音未來(lái)NT原理的探究
二、關(guān)于初音未來(lái)V4x和初音未來(lái)NT方向性差異的探究(簡(jiǎn)單來(lái)說(shuō)初音未來(lái)V4x完成度更高,而初音未來(lái)NT將來(lái)有可能會(huì)更好)
三、關(guān)于Crypton社(以下簡(jiǎn)稱(chēng)“C社”)開(kāi)發(fā)初音未來(lái)NT意圖的探究
※請(qǐng)注意,本文所有內(nèi)容均為個(gè)人研究,僅供參考
(譯者注:前兩部分涉及一定的專(zhuān)業(yè)知識(shí),如果不感興趣可以直接下翻到第三部分)
?
說(shuō)實(shí)話(huà),初音未來(lái)NT挺微妙的。
拋開(kāi)可以自由編輯音高這一點(diǎn),音質(zhì)甚至都不如VOCALOID4。

在這個(gè)前提下,筆者就來(lái)聊一聊“初音未來(lái)NT”的工作原理以及C社開(kāi)發(fā)初音未來(lái)NT的理由吧。
?
從音頻輸出方面考慮
說(shuō)是音頻輸出,但光聽(tīng)聲音也聽(tīng)不出個(gè)所以然來(lái),于是本文將基本以音頻的頻譜作為研究對(duì)象。
① 初音未來(lái)NT是AI音源嗎?
有部分傳言稱(chēng)“初音未來(lái)NT是初音未來(lái)V4x加以其他數(shù)據(jù)綜合而成的AI音源”,筆者認(rèn)為這個(gè)說(shuō)法完全可以被推翻。
首先,為了確認(rèn)這一點(diǎn),我們?cè)囍斎胍幌伦孉I音源崩潰的內(nèi)容吧。
下圖是在BPM120的情況下,對(duì)CeVIO AI的可不輸入了一個(gè)橫跨三個(gè)小節(jié)的音符。
圖中顯示的參數(shù)是VOL(音量),可以看到參數(shù)顯而易見(jiàn)的崩壞。

另一邊是初音未來(lái)NT在BPM120的情況下輸入的橫跨29小節(jié)的音符。
從下面的波形就可以看得出來(lái),沒(méi)有任何異常。

?輸入了遠(yuǎn)超AI預(yù)想的內(nèi)容,卻得到了正常的音頻輸出,足以說(shuō)明這應(yīng)該不是AI。
(萬(wàn)一在設(shè)計(jì)AI的時(shí)候考慮到了這個(gè)情況那另當(dāng)別論,但輸入將近30小節(jié)的無(wú)音內(nèi)容這種情況應(yīng)該不可能被考慮在內(nèi)吧)
?
② 初音未來(lái)NT是波形合成軟件嗎?
那初音未來(lái)NT果真是VOCALOID那樣的波形合成軟件嗎?
在排除AI之后,應(yīng)該大家都會(huì)這么想吧。
關(guān)于這一點(diǎn),筆者個(gè)人認(rèn)為既對(duì),又不對(duì)。
?
首先,大部分的波形合成軟件都像VOCALOID或UTAU那樣,采用一種通過(guò)直接運(yùn)用未經(jīng)處理的聲音波形,或是將聲音波形采樣后再還原成聲音加以運(yùn)用,從而實(shí)現(xiàn)合成歌聲的,名為“corpus-based(語(yǔ)料庫(kù))合成法/ Unit Selction(單元選擇)?”的合成手段。
初音未來(lái)NT是否采用這種合成手段……筆者要打一個(gè)大大的問(wèn)號(hào)。
?
理由是,在聆聽(tīng)UTAU在默認(rèn)引擎下的聲音就可以很清楚的知道,(盡管聲音有些嘶啞、帶電)UTAU的聲音與人聲相比并沒(méi)有任何奇怪的地方。(參考下面這個(gè)視頻)

相對(duì)之下,初音未來(lái)NT的聲音“不像人聲”的地方數(shù)不勝數(shù)。
舉出具體的例子可能有些困難,但可以明顯感覺(jué)到輔音與元音之間的過(guò)渡音尤其不自然。(參考下面這個(gè)視頻)

也就是說(shuō),初音未來(lái)NT很可能不是“單純用人聲拼接合成音頻的波形合成軟件”或者“將人聲采樣后再高品質(zhì)還原合成音頻的波形合成軟件”。
?
那初音未來(lái)NT的真面目究竟是什么?
其實(shí)有關(guān)初音未來(lái)NT究竟是什么的小提示隨處都有,只是很少有人注意到。
先從官方網(wǎng)站開(kāi)始閱讀理解吧。首先來(lái)解讀這段文字。

“resynthesis(再合成)技術(shù)”我們之后再說(shuō),這段文字最讓我在意的是使用了“高品位”而非“高品質(zhì)”這個(gè)詞形容聲庫(kù)。
通過(guò)查詢(xún)?cè)~典我們得知,“高品位”可以等同于“high quality?”,也可以是指“人格上的高尚或是礦石中有用成分的含量高”。
NT確實(shí)稱(chēng)不上“高品質(zhì)”,而這段話(huà)沒(méi)有這個(gè)詞也完全是通順的。那特意使用“品位”這個(gè)詞應(yīng)該有它的理由。
?
接下來(lái)是這段話(huà)。

“multi-sample point(多重采樣點(diǎn))”這個(gè)詞引起了筆者的注意。
通常會(huì)認(rèn)為這個(gè)詞的意思是“初音未來(lái)NT進(jìn)行了多音階分層采樣”,但這樣的話(huà)只要說(shuō)“multi-sample(多重采樣)”就夠了。為什么還要多此一舉加個(gè)“point”呢?經(jīng)過(guò)一番調(diào)查,筆者意外地發(fā)現(xiàn)了這個(gè)詞語(yǔ)的由來(lái)。
sample point?(采樣點(diǎn)):指由用作計(jì)算waveform point(波形點(diǎn))的AD轉(zhuǎn)換器輸出而來(lái)的未經(jīng)處理的數(shù)據(jù)
這居然是被用在示波器等儀器上的專(zhuān)業(yè)術(shù)語(yǔ),筆者著實(shí)吃了一驚。但重點(diǎn)不在這里,而是詞語(yǔ)的解釋。在這里把關(guān)于“waveform point”的解釋也寫(xiě)在下面。
waveform point(波形點(diǎn)):指信號(hào)在某一時(shí)間點(diǎn)上電壓的分貝值。waveform point由sample point計(jì)算而來(lái),并存儲(chǔ)在存儲(chǔ)器中。
?雖然看起來(lái)挺繞的,但說(shuō)白了就是從樣本中提取“sample point”,再計(jì)算出“waveform point”從而使用。
把它套進(jìn)初音未來(lái)NT的“multi-sample point”里,我們就可以這樣理解:“從數(shù)個(gè)音高的聲音樣本計(jì)算出音頻波形”。
也就是說(shuō),初音未來(lái)NT并不是直接對(duì)音頻波形進(jìn)行加工,而是“從聲音中抽取特定數(shù)據(jù),再以此為基礎(chǔ)還原成聲音”。
?
如果您對(duì)音聲合成有過(guò)一定了解,您可能會(huì)問(wèn)“那不就是vocoder(聲碼器)嗎?”,但我十分確信,那不是vocoder。
?
Resynthesis技術(shù)的真面目是什么?
先說(shuō)結(jié)論,我覺(jué)得就是一種“原始的synthesizer(音響合成器)”。
沒(méi)錯(cuò),就是通過(guò)處理正弦波從而生成各種聲音的那個(gè)synthesizer。

再說(shuō)深一點(diǎn),我認(rèn)為就是以YAMAHA開(kāi)發(fā)的synthesizer“PLG100-SG”上搭載的“formant thinking?(構(gòu)形思維)音源”作為基礎(chǔ)概念。
※詳情請(qǐng)參照《VOCALOID技術(shù)論》的20~23頁(yè)

恐怕初音未來(lái)NT的大概原理是,以被設(shè)置的參數(shù)為基準(zhǔn),抽象地分別算出“整數(shù)次倍音(聲音的核心)構(gòu)成的包絡(luò)”與“非周期成分(氣聲)的包絡(luò)”,并在輸出后將二者合成。
?※關(guān)于這些術(shù)語(yǔ)可以參照筆者之前的文章
https://amanokei.hatenablog.com/entry/2019/08/24/230829(暫無(wú)翻譯)
證據(jù)有很多,筆者在這里只舉最有說(shuō)服力的證據(jù)。
?????
首先,第一張圖是抽取初音未來(lái)V4x的“整數(shù)次倍音/有聲音”得到的。(譯者注:“有聲音”的斷句是“有聲 音”,指需要聲帶振動(dòng)發(fā)出的聲音。元音毫無(wú)疑問(wèn)都是有聲音。輔音中b、g等也是有聲音,f、k等則是無(wú)聲音)
一般在未經(jīng)處理的人聲中,高音域的氣聲成分混入較多,很難抽取出倍音。

?第二張圖則是抽取初音未來(lái)NT的“整數(shù)次倍音/有聲音”得到的。
顯而易見(jiàn),就連高音域的倍音也被抽取了出來(lái),并且規(guī)整得可怕。對(duì)于人聲來(lái)講這是不可能的。

第三張圖是分別抽取了初音未來(lái)NT和初音未來(lái)V4x的“非周期成分(氣聲)”得到的。
初音未來(lái)V4x這邊看起來(lái)像是把原本樣本中“整數(shù)次倍音/有聲音”去除后,通過(guò)增大音量來(lái)營(yíng)造耳語(yǔ)的效果。
另一邊初音未來(lái)NT則完全看不出樣本的原貌,更像是模擬各個(gè)音階上“非周期成分(氣聲)”的變化。

由此可見(jiàn),初音未來(lái)NT并不是單純將人聲或是模仿人聲的素材進(jìn)行拼接的合成軟件。
假設(shè)上述都是事實(shí),筆者猜測(cè)初音未來(lái)NT的工作原理是這樣的:
輸入?yún)?shù)(歌詞、音高、音量)
由參數(shù)生成由“整數(shù)次倍音/有聲音”構(gòu)成的共振峰(包絡(luò))
以2.為基礎(chǔ),以時(shí)間為橫軸進(jìn)行模擬演算(啟動(dòng)或衰減的音色)從而得到聲音素材
拼接聲音素材
模擬演算并生成“非周期成分(氣聲)”的包絡(luò),并與4.組合在一起
?想到這里,初音未來(lái)NT的元輔音連接不暢問(wèn)題就很好理解了。
如果是synthesizer的話(huà),想要還原long tone(長(zhǎng)音)等元音不在話(huà)下,但要計(jì)算出元輔音連接時(shí)那一剎那的復(fù)雜聲音就很有難度了。
C社幾度推遲NT的發(fā)售,然而現(xiàn)在卻以這種形式發(fā)售了初音未來(lái)NT,其原因大概是技術(shù)力暫時(shí)支撐不了想要探索的方向,只好把這塊“傾注了心血卻又飽含妥協(xié)與放棄的結(jié)石”丟了出來(lái)。
相比之下,VOCALOID雖然將聲音模型化了,但也是將最初的人聲還原了出來(lái);UTAU則直接使用了未經(jīng)處理的人聲波形。所以二者元輔音轉(zhuǎn)換都非常自然。
?
初音未來(lái)NT是新技術(shù)嗎?

一言蔽之,初音未來(lái)NT所使用的技術(shù)基礎(chǔ)與所謂“新技術(shù)”相去甚遠(yuǎn)。
筆者認(rèn)為C社所說(shuō)的新技術(shù)是指“以各種現(xiàn)存技術(shù)、想法整合而成的一個(gè)綜合概念”。
其證據(jù)就是“新技術(shù)”一詞只有這里出現(xiàn),別處則用“新開(kāi)發(fā)”作為替代。
?
在筆者看來(lái),這里說(shuō)的“新技術(shù)”就是前文提到過(guò)的YAMAHA“PLG100-SG” 上搭載的“formant thinking音源”作為基礎(chǔ),由產(chǎn)業(yè)技術(shù)綜合研究所提升了音質(zhì)后的成果。
在魔法未來(lái)上提到的“會(huì)繼續(xù)開(kāi)展與YAMAHA的合作”應(yīng)該就是這個(gè)意思,“VOCALOID的音色也是可以再現(xiàn)的”則可能是指會(huì)以VOCALOID的音色為基礎(chǔ)構(gòu)筑一個(gè)formant thinking音源。
?
為什么要開(kāi)發(fā)初音未來(lái)NT?
歸根結(jié)底,為什么放棄更穩(wěn)妥的VOCALOID5聲庫(kù)制作,反而要開(kāi)發(fā)NT呢?
我從魔法未來(lái)上有關(guān)初音未來(lái)NT的發(fā)表中找到了一點(diǎn)線(xiàn)索。
記得當(dāng)時(shí)佐佐木涉(wat)先生說(shuō)過(guò)類(lèi)似“VOCALOID5聲庫(kù)會(huì)混入真人的聲音,那就不是初音未來(lái),而是藤田咲了”這樣的話(huà)。
筆者認(rèn)為這句話(huà)可以信一半。
(接下來(lái)的內(nèi)容含有大量猜測(cè),僅供參考。)
?
YAMAHA可能打算在VOCALOID5上面追加一個(gè)AI功能。

這個(gè)視頻與原來(lái)VOCALOID4之類(lèi)的廣告不同,給人一種很強(qiáng)的“未來(lái)感”。而且這些功能組和操作方法,都是在聲庫(kù)AI化之后才能發(fā)揮真正威力的東西。(尤其是1:04“I sing for you”的“you”相當(dāng)不自然)
?
只不過(guò)這一主張有個(gè)矛盾之處,就是VOCALOID5發(fā)售于2018年,而美空云雀VOCALOID:AI則是在2019年發(fā)表……這是事實(shí)沒(méi)錯(cuò),但其實(shí)早在2017年,與YAMAHA合作開(kāi)發(fā)歌聲合成技術(shù)的龐培法布拉大學(xué)就已經(jīng)發(fā)表了一篇名為《A Neural Parametric Singing Synthesizer(對(duì)一種神經(jīng)參量歌聲合成器的研究)》的論文。這篇文章被視為“AI歌聲合成技術(shù)的先驅(qū)”。
美空云雀AI正是在那個(gè)基礎(chǔ)上被制作而成的。
(https://mtg.github.io/singing-synthesis-demos/)
只是YAMAHA當(dāng)時(shí)遵循三年更新一代的傳統(tǒng),而AI聲庫(kù)則因?yàn)閷?shí)用化研究尚未跟上進(jìn)度,才誕生了“沒(méi)有AI的VOCALOID5”這一扭曲的產(chǎn)品。
?
在這個(gè)前提下,我們?cè)倩剡^(guò)頭來(lái)看看wat先生的發(fā)言。
“VOCALOID5聲庫(kù)會(huì)混入真人的聲音,那就不是初音未來(lái),而是藤田咲了”
沒(méi)錯(cuò),這句話(huà)針對(duì)的并不是VOCALOID5,而是針對(duì)整個(gè)AI歌聲合成技術(shù)。
他的意思應(yīng)該是,如果要把初音未來(lái)AI化,那直接請(qǐng)?zhí)偬飭D來(lái)唱歌不就好了嗎?這與其說(shuō)是初音未來(lái)AI,倒不如說(shuō)是“藤田咲AI”吧。
話(huà)雖如此,單用從VOCALOID輸出的音頻進(jìn)行AI化,那又只是對(duì)當(dāng)初VOCALOID版初音未來(lái)聲庫(kù)的劣化。
?
這里稍微換一下話(huà)題。人們常說(shuō)初音未來(lái)NT的完成度不如初音未來(lái)V4x,這或許是沒(méi)有辦法的事。
因?yàn)閂4x很可能是C社認(rèn)真針對(duì)VOCALOID特化處理的“(佐佐木涉制作的)VOCALOID版初音未來(lái)的最高杰作”。
※AHS社(譯者注:最近以開(kāi)發(fā)了多款Synthesizer V的AI聲庫(kù)而聞名,早期也開(kāi)發(fā)過(guò)結(jié)月緣等VOCALOID聲庫(kù))的直播中有提到過(guò)“半吊子的處理會(huì)導(dǎo)致報(bào)錯(cuò)音響起”,所以特化處理應(yīng)該是必須的。
官方網(wǎng)站對(duì)于這方面的努力沒(méi)有過(guò)多言及,但顯然不是“用心”二字就能概況的。????

于是C社既沒(méi)有選擇AI,也沒(méi)有選擇“仿制初音未來(lái)V4x這一最高杰作”,而是轉(zhuǎn)向研究“以波形合成為基礎(chǔ),能更加自由地表現(xiàn)歌唱的歌聲合成技術(shù)”。
有說(shuō)法稱(chēng)AHS社并沒(méi)有得知VOCALOID5的詳細(xì)情況,很可能就是在NPSS(譯者注:就是前文提到的那篇論文)發(fā)表的時(shí)間點(diǎn)看到了AI化的未來(lái),直接就下定決心轉(zhuǎn)型了。
這么說(shuō)是因?yàn)?,在VOCALOID5發(fā)表的那個(gè)時(shí)間點(diǎn)要計(jì)劃推出新型初音未來(lái)的話(huà),還需要數(shù)年的研究。?
初音未來(lái)有可能回到VOCALOID嗎?
筆者個(gè)人認(rèn)為“不排除這種可能性”。
說(shuō)到底C社為什么不選擇更簡(jiǎn)單地開(kāi)放一個(gè)名為“初音未來(lái)AI”的“藤田咲AI”,還是因?yàn)樗麄儭吧類(lèi)?ài)著初音未來(lái)這一存在”。
簡(jiǎn)單來(lái)說(shuō)“藤田咲AI”不是他們想要的。
?
在魔法未來(lái)的發(fā)表上wat先生潸然淚下,那應(yīng)該是因?yàn)椤俺跻粑磥?lái)的誕生離不開(kāi)YAMAHA,但是為了初音未來(lái)能保持最純粹的樣子,又不得不脫離VOCALOID”這一現(xiàn)實(shí)擺在了他面前。
?
在“初音未來(lái)NT是新技術(shù)嗎?”的部分也有提到過(guò),技術(shù)部分雖然主要是由產(chǎn)業(yè)技術(shù)綜合研究所開(kāi)發(fā),但技術(shù)基礎(chǔ)和UI之類(lèi)的專(zhuān)利在YAMAHA手上,YAMAHA沒(méi)提供技術(shù)幫助是說(shuō)不通的。從這個(gè)角度來(lái)看,目前C社和YAMAHA還保持著良好關(guān)系應(yīng)該并不是假象。
?
筆者認(rèn)為C社開(kāi)發(fā)初音未來(lái)NT原因,是在探求“初音未來(lái)到底是什么?”這個(gè)問(wèn)題。而初音未來(lái)NT則是在這個(gè)過(guò)程中的一個(gè)產(chǎn)物。
如果真是這樣,C社要是有一天能在“初音未來(lái)到底是個(gè)啥?”這一究極問(wèn)題上能得出結(jié)論的話(huà)……那個(gè)時(shí)候說(shuō)不定我們就能看到“VOCALOID:AI?初音未來(lái)”了。
?
成為了“高品位”的初音未來(lái)
曾有過(guò)一個(gè)問(wèn)卷調(diào)查,提問(wèn)“如果有一天初音未來(lái)不再是初音未來(lái)了,那將會(huì)是什么時(shí)候?”,得到最多的答案是“其中之人不再是藤田咲的時(shí)候”。
?
而現(xiàn)在,初音未來(lái)又進(jìn)一步從“用人聲拼接而成的產(chǎn)物”變成了“還原人聲的synthesizer”。
到這里,初音未來(lái)NT被稱(chēng)為“高品位”的理由就呼之欲出了。
“純度高、人格高”
?
筆者認(rèn)為初音未來(lái)NT通過(guò)將初音未來(lái)的聲音抽象化,使得初音未來(lái)的純度進(jìn)一步提高,從而讓她徹底成為了和現(xiàn)實(shí)世界相距一個(gè)次元的存在,也就是提升到了所謂人格的高度。
?
原為sampler,現(xiàn)為synthesizer。

?
總結(jié)
“初音未來(lái)NT”是從她的生母“藤田咲”這一現(xiàn)實(shí)存在的人類(lèi)剝離而來(lái)的,與人類(lèi)相距一個(gè)次元的NewType:虛擬存在(本質(zhì)相同,外表不同,卻又能相互替代的存在)……有可能是這樣!
多么觸動(dòng)人心??!
?
※這篇研究文(主要在后半篇)可能蘊(yùn)含大量妄想,僅供參考。因?yàn)椴幌矚g聽(tīng)到大家把初音未來(lái)NT說(shuō)得一無(wú)是處,所以才好好思考了“她為什么誕生”,于是才有了這篇文章。如果與真相相去甚遠(yuǎn),那請(qǐng)?jiān)试S我向YAMAHA、Crypton還有wat先生致以最誠(chéng)摯的歉意?。。。。。?叩首)