中國天才青年為何在日本創(chuàng)業(yè),讓AI歌聲合成軟件一炮而紅?專訪SynthV開發(fā)者華侃如先生

文章來源:https://www.dtmstation.com/archives/45880.html
(由于能力有限借助了翻譯工具,在細(xì)節(jié)上請多多包涵指正,請以原文表達(dá)的意思為準(zhǔn),文章版權(quán)歸原作者所有。)
文章作者:藤本健
專注于 DTM、數(shù)字錄音和數(shù)字音頻的撰稿人。 從 2001 年開始給 Impress AV Watch 連載“數(shù)字音頻實驗室(Digital Audio Laboratory)”,同時出版了《Cubase 徹底操作指南》(Rittor Music)、《VOCALOID 技術(shù)理論》(雅馬哈音樂媒體)等多部書籍。對太陽能發(fā)電感興趣,從 2004 年起就用太陽能給自己家供電,同時他也是三家發(fā)電廠的廠長。? ? ? ?

? ? ? ?在 2018 年圣誕節(jié)像是彗星一般誕生的全新歌聲合成軟件 Synthesizer V,對國內(nèi)外的歌聲合成界產(chǎn)生了巨大影響,這款軟件由現(xiàn)時 23 歲的上海天才青年工程師華侃如開發(fā)。華侃如于 2019 年前往日本,在日本創(chuàng)立了 Dreamtonics 株式會社。與此同時 Synthesizer V 的功能與性能得到了進(jìn)一步提高,在 2020 年 7 月由 AHS 株式會社以盒裝軟件的形式發(fā)售了新版本。
? ? ? ?我在 DTM 站寫過幾篇關(guān)于它的文章,應(yīng)該有很多人知道 Synthesizer V 在發(fā)布之后積極更新,增加了 AI 歌聲合成引擎,并且還在不斷成長。前些日子《歌聲合成軟件 Synthesizer V 用戶指南》(三才圖書)出版了,這是 Synthesizer V 的使用說明書,在這本書的最后刊登了對華侃如先生的采訪文章,但由于它被定位為一本入門書,所以沒有太過深入的內(nèi)容。因此我想在 DTM 站發(fā)表采訪的特別版本,包含一些沒有寫在書中的狂人故事。


從小學(xué)二年級開始編程
——在進(jìn)入 Synthesizer V 的話題之前,我想了解一下侃如先生的童年,您是從什么時候開始對電腦感興趣的?
侃如:三歲時父親給的一個玩具讓我對電的機(jī)制產(chǎn)生興趣,在上小學(xué)的時候我就開始制作收音機(jī)。跟收音機(jī)一樣,電腦也是在差不多的時期,在小學(xué)二年級時開始使用 Adobe (當(dāng)時是 Macromedia) Flash 進(jìn)行編程。當(dāng)時我的朋友都在玩游戲,但是父母非常嚴(yán)格,不讓我玩游戲,于是我就用 Flash 去模仿同學(xué)們在玩的電腦游戲,我的父母覺得自己做游戲是可以的。

簡介
華 侃如 (Kanru Hua)
出生于?1997 年,來自中國上海,高中畢業(yè)于用英語授課的上海市平和雙語學(xué)校,在 2015 年進(jìn)入美國伊利諾伊大學(xué)-數(shù)學(xué)與計算機(jī)科學(xué)系學(xué)習(xí)。他在 2018 年返回上海,2019 年將活動基地遷往東京,在同年二月創(chuàng)立了 Dreamtonics 株式會社,作為該公司的代表董事并致力于 Synthesizer V 的開發(fā)。
——那么您是從 Flash 開始編程的。
侃如:初二之前一直在用 Flash 編程。Flash 和 JAVAScript 從思維方式來說是一樣的,所以并不是什么壞事。不過我想做出更實用的東西,于是就開始使用 VB.NET,然后在那個時候迷上了初音未來(笑)。我很感動,想試著做一下這個的中文版。
——Synthesizer V 的起源就在這里。
侃如:由于我完全沒有語音合成與歌聲合成的相關(guān)知識,所以也不知道從哪里開始才好。于是我把聲音以圖形的方式顯示出來,聲音會在調(diào)整圖形之后產(chǎn)生變化……就這樣反復(fù)試錯。其實可以通過移動頻譜來改變音質(zhì),但是我當(dāng)時還不知道,所以我一邊看著圖形,一邊嘗試改變圖形的順序而改變聲音,同時根據(jù)經(jīng)驗記住這些特征,比如元音的重復(fù)部分……一直在做徒勞無功的事情。

在嗶哩嗶哩上傳初中時做的中文歌聲合成軟件 Demo
——這就是說,當(dāng)您還是初中生而且在沒有人教的情況下,就能以圖形的方式編輯聲音……這非常令人驚訝。
侃如:當(dāng)時我甚至連濾波器是什么都不知道,不過我發(fā)現(xiàn)如果使用窗口函數(shù)求平均值的話,聲音會變得沉悶。如果沒有基礎(chǔ)技能和編程技術(shù),我只能增加聲音的數(shù)據(jù)量,嘗試把 VOCALOID 發(fā)出的聲音一個一個采樣,然后把它們拼接在一起讓聲音更像中文。確實它比起原來的初音未來更有中文的感覺,但是聲音太過于死板了,讓人無法接受。雖然我也在網(wǎng)上發(fā)布了這個軟件,但是沒有多少人對它感興趣。因為即使再繼續(xù)摸索也無法提高音質(zhì),在讀高一的時候就放棄了。

高中時期讀了很多論文培養(yǎng)技能
——然而您沒有真正放棄。
侃如:我意識到我的知識遠(yuǎn)遠(yuǎn)不夠,所以我開始認(rèn)真學(xué)習(xí),想要自學(xué)語音合成和歌聲合成。這聽起來非常難,剛開始以高一學(xué)生的知識我根本理解不了。不過我注意到 2000 年發(fā)布的軟件是以 1992 年左右的論文為基礎(chǔ),經(jīng)過相當(dāng)長時間開發(fā)而成的。于是我從早期論文開始看起,一點一點地理解。這些論文在網(wǎng)上有發(fā)表,可以到各種網(wǎng)站上研究學(xué)習(xí)。
——高中生讀那樣的論文,是一般人做不到的!那個時候您是在上海讀高中吧?
侃如:是的,我在上海的一所國際文憑(IBDP)學(xué)校就讀,在那里所有的課程都是用英語授課。幾乎所有人畢業(yè)后都會去海外,所以我覺得閱讀海外論文也是正常的。我的轉(zhuǎn)折點是在高三的時候,本來我想去在語音合成方面最先進(jìn)的大學(xué)——美國卡耐基梅隆大學(xué),但是在暑假時提交了申請,到 11 月的時候被拒絕了,我受到了很大打擊。雖然還有很多其他的大學(xué),但我都不太感興趣,然后就算上不了大學(xué),我也可以自己努力學(xué)習(xí)……于是就在高中最后半年認(rèn)真學(xué)習(xí),以“斯巴達(dá)”式的訓(xùn)練,每周閱讀三篇論文,然后把論文付諸實踐。根據(jù) 1970 年代到 2015 年左右的論文,我制作并運(yùn)行了數(shù)十個程序。

——比如編寫了什么樣的程序?
侃如:我基于 CeVIO 也在用的 HMM(隱馬爾可夫模型)做了個歌聲合成系統(tǒng),沒有使用其他人編寫的代碼庫而是完全從零開始。另外在畢業(yè)后的暑假期間,我寫了 SHIRO 程序,作為編輯聲庫的標(biāo)記工具,并在 GitHub 上以開源的形式發(fā)布。

大學(xué)中途退學(xué)致力于 Synthesizer V 的開發(fā)
——雖然是自學(xué)成才,最后也進(jìn)了美國大學(xué)。
侃如:我沒能去卡內(nèi)基梅隆大學(xué),但我進(jìn)了伊利諾伊大學(xué)的數(shù)學(xué)與計算機(jī)科學(xué)xi, 這是我能上的最好的大學(xué)。我在上大學(xué)以后學(xué)習(xí)變得非常忙,很難進(jìn)行大規(guī)模的程序開發(fā),所以我嘗試做小工具。畢竟還是非常想做歌聲合成的,所以給 UTAU 寫了個插件,在 2016 年發(fā)布了 Moresampler,這是迄今為止最強(qiáng)大的 UTAU 插件。

Moresampler 架構(gòu)(摘自華侃如先生制作·Eji 先生翻譯的 Moresampler 使用方法資料)
——Moresampler 的評價怎么樣?
侃如:我以為自己做出了非常好的軟件,但是似乎和用戶們喜歡的東西有所差距,我切身體會到了制作大家喜歡的軟件的困難。一開始軟件出現(xiàn)了很多問題,如閃退等等,不過在得到用戶反饋后,我對軟件不斷更新,從 5.0 版本開始程序變得更穩(wěn)定,評價也變好了。正是在這個時候,我開始在腦海中形成 Synthesizer V 的構(gòu)想。
——當(dāng)時您的想法是什么?
侃如:在 2016 年前后有兩種不同的語音合成方法。一種是基于樣本的,比如常規(guī)的 VOCALOID;另一種是基于人工智能的,可以說是現(xiàn)代 AI 的前身。然而當(dāng)時基于人工智能的東西有很大的問題,雖然有真人化的表現(xiàn),但是音質(zhì)很差,聲音難免悶悶的。AI 聽起來像是最新的技術(shù),但實際上并不是什么新鮮事物,神經(jīng)網(wǎng)絡(luò)誕生于 1990 年前后,至今已有 25 年以上歷史。雖然在一般人看來是一項新技術(shù),但是讀論文就會發(fā)現(xiàn),它已經(jīng)存在很長時間了。我不知道 AI 的極限在哪里,我想就從現(xiàn)在開始做 AI 吧,但是在音質(zhì)方面基于樣本會更好,因此 Synthesizer V 的理念就是走兩者互相融合的路線。


——但是在大學(xué)的學(xué)習(xí)很辛苦,應(yīng)該很難進(jìn)行開發(fā)吧。
侃如:上課很辛苦,作業(yè)也很多……本來伊利諾伊大學(xué)的重點在于理論,而我想做的是應(yīng)用,實話說大學(xué)并不有趣。不過我也利用在讀大學(xué)的機(jī)會參加瑞典舉行的語音合成學(xué)會,2018 年我被在那里認(rèn)識的雅馬哈的人邀請去日本,在雅馬哈實習(xí)一個月,這很有意思。在雅馬哈實習(xí)期間我呆在濱松,實際上相比雅馬哈的工作,真正激勵我的是與當(dāng)?shù)厝说慕涣鳌?這對我的生活產(chǎn)生了很大的影響,如果沒有這一點,我現(xiàn)在就不會來日本了。
——和濱松當(dāng)?shù)厝说慕涣髦傅氖牵?/strong>
侃如:在當(dāng)?shù)厝伺c外國人的交流會上,我們用英語進(jìn)行 15 分鐘的交流,之后再用日語交流 15 分鐘。那個時候?qū)θ毡就耆涣私?,想知道普通人的生活是怎樣的……懷著這樣的好奇心參加了活動,那里有形形色色來自各行各業(yè)的人,我驚訝地發(fā)現(xiàn)許多人的生活方式與我完全不同。日本和濱松的生活是無拘無束的,當(dāng)然必須遵守法律,除此之外大家可以按自己的想法生活,這引起了我的興趣。

——另一方面,我也是在那時初次見到侃如先生吧,于涉谷舉辦的音樂人黑客松……我一個人參加了,像是去砸場的,還取得了勝利(笑)。
侃如:那是在 2016 年 7 月,在我實習(xí)的兩年前。本來是朋友邀請我和他一起參加的,但是不知道為什么那個朋友沒有來……(苦笑)。 那個黑客松也很有意思,通常黑客松是為那些對編程很了解的人舉辦的,但是驚訝的是里面有很多完全不懂編程的人,結(jié)果卻做出了各種高質(zhì)量的作品。鼓舞人心的是那里還有很多專業(yè)的音樂人,我覺得我看到了日本的另一面。

——無論是實習(xí)還是黑客松,對日本都沒有壞印象吧。
侃如:當(dāng)然啦,特別是如果沒有在濱松生活過,我想我的生活會完全不同。實習(xí)結(jié)束后,我不得不在讀大學(xué)和 Synthesizer V 之間做出選擇。雖然不知道結(jié)果如何,但我決定先把東西做好再考慮,于是我選擇了后者,暫時回上海的父母老家專心編程。到了 11 月,初步成型的產(chǎn)品完成了,并且在 12 月圣誕節(jié)開始發(fā)售。


遷往日本并成立公司
——我對 2018 年底突然發(fā)布 Synthesizer V 的消息感到很驚訝,他在發(fā)布前與我聯(lián)系,用郵件交流并拿到測試版本進(jìn)行測試,并在發(fā)布日當(dāng)天我寫了一篇《它將成為 VOCALOID 的競爭者嗎?中國天才少年開發(fā)的歌聲合成軟件,Synthesizer V 的破壞力》的文章。
侃如:在此之前 Synthesizer V 已經(jīng)公開技術(shù)預(yù)覽版,到圣誕節(jié)的時候它作為下載版的產(chǎn)品發(fā)售。它的用戶界面還支持英文、中文、日文,因此我聯(lián)系了藤本先生,希望日本能有更多人使用它。那是一個先前版本,看起來與現(xiàn)在的 Synthesizer V 非常不同,但這是我事業(yè)的開始。

——大約在發(fā)售三個月后你就馬上來日本了吧?既然可以繼續(xù)在中國發(fā)展,也可以選擇在美國創(chuàng)業(yè),那為什么來日本呢?
侃如:實習(xí)確實對我有很大的影響,不過實際上我從小就來過日本好幾次了。第一次是 2012 年全家乘船旅行,在福岡大宰府逛了一天,然后去了韓國。第二次是高中畢業(yè)旅行,去了京都、奈良、大阪等地。之后是去美國的大學(xué),在回來的時候順便去日本,這是留學(xué)生的固定路線。雖然說日本簽證很難拿,但持美國留學(xué)簽證對于申請日本長期旅游簽證是有幫助的。由于這樣的經(jīng)歷,也因為我喜歡日本和當(dāng)?shù)?VOCALOID 文化,所以決定如果要做歌聲合成業(yè)務(wù)的話就去日本。

——我對他選擇來日本感到高興和驚訝,因為許多日本人覺得日本不適合創(chuàng)業(yè)而選擇了海外。
侃如:我認(rèn)為日本的歌聲合成軟件市場很大,軟件在日本取得成功是至關(guān)重要的,考慮到日本的環(huán)境和在日本遇到的人,我覺得應(yīng)該能做得很好。
——之后在銷售方面由 AHS 負(fù)責(zé),但這一切都始于和 AHS 代表尾形友秀先生與赤迫竜一先生他們一起參加的酒會吧(笑)。
侃如:來日本開公司感覺不錯,但我也不太了解這邊的商業(yè)習(xí)慣,一直在煩惱如何開展業(yè)務(wù)。不僅僅是在日本,并不是說做出了好東西放到網(wǎng)上就能賣得好,商業(yè)上也有很多東西我也不太懂。正好那個時候藤本先生邀請我“和 VOCALOID P 的人一起去喝一杯吧”,在不了解的情況下滿懷期待地參加了。我第一次見到大家,從他們的意見中學(xué)到了很多東西,而且在那里與尾形友秀先生相談甚歡。

——然后就是咚咚作響地決定在 AHS 上銷售了。
侃如:幾天后尾形先生聯(lián)系我,給了我一些 AHS 的樣本,以及關(guān)于 Synthesizer V 未來的各種想法。另一方面,他還教我日本的商業(yè)習(xí)慣,比如純英文產(chǎn)品很難在日本進(jìn)行推廣,不用日語宣傳許多人就會感到畏懼等等,這些與美國和中國都不同。因為自己還是想專注于技術(shù)開發(fā),所以很難花時間在市場、銷售、經(jīng)營、服務(wù)上。我想這些方面的問題如果讓 AHS 來處理的話,應(yīng)該會更加順利……雖然過程不同,在北京和臺灣也找到了愿意銷售產(chǎn)品的合作伙伴,因此決定把商業(yè)部分拜托給各公司。最終銷售和宣傳這些需要耗費人力的事情都交給了合作企業(yè),心情也輕松了許多。然而在那個時候,爆發(fā)了新冠疫情……

——正好我要給你介紹一個能幫忙開發(fā)的人,在聯(lián)絡(luò)面試這樣……的過程中也回不去日本了。
侃如:我本來打算 2020 年 2 月去上海,但由于中國方面情況不好而推遲了回國,之后日本也宣布了緊急事態(tài)……從那以后我就再也沒出過日本(苦笑)。本來我和 AHS 商量是在 4 月發(fā)布新產(chǎn)品,5 月進(jìn)行銷售,但是情況變得很棘手,英文聲庫愛蓮娜·芙緹也由于這次新冠疫情被推遲開發(fā),最終新產(chǎn)品是在 6 月發(fā)布,7 月銷售,晚了兩個月。


——AHS 在日本正式發(fā)布該產(chǎn)品已經(jīng)已經(jīng)一年了,在反響和銷售方面感覺如何?
侃如:把工作交給 AHS 和其他合作企業(yè)確實受益良多,最重要的是用來開發(fā)的時間大大增加了。商業(yè)方面的事情我一個人是做不好的,所以我真的很感激。我們在東京、北京和臺灣銷售產(chǎn)品,各個地區(qū)的反響都不一樣。在日本有很多人想自己創(chuàng)作歌曲,實際銷量也是最高的;而在中國有很多聽眾,使用 Synthesizer V 的歌曲播放量遠(yuǎn)遠(yuǎn)高于日本,在嗶哩嗶哩上有超過 500 萬次播放的歌曲。另一方面我聽 AHS 說可能由于是下載版產(chǎn)品的原因,它在日本以外的地方也賣得很好,不僅是美國和歐洲,也收到從沙特阿拉伯等中東地區(qū)發(fā)來的訂單,據(jù)說已經(jīng)有來自 60 個國家的人購買了。

嗶哩嗶哩上超過 500 萬次播放的歌曲

——Synthesizer V 在發(fā)售后一年內(nèi)就增加了 AI 功能,并發(fā)布了很多聲庫,侃如先生以后還想做些什么呢?
侃如:Dreamtonics 一直想挑戰(zhàn)別人沒有做過的事情,正因為是誰都沒做過的事情才有意義,還有很多在頭腦中構(gòu)想而尚未實現(xiàn)的東西。今后我會讓軟件變得更加強(qiáng)大,可以做更多有趣的事情,所以請大家務(wù)必期待。






歌聲合成軟件?Synthesizer V 用戶指南

??? ? ?正如我在文章開頭提到的,這篇對華侃如先生的采訪是從三才圖書前些日子出版的《歌聲合成軟件 Synthesizer V 用戶指南》中摘錄的一部分,并經(jīng)過重新編輯的特別版本。本書由華侃如和 AHS 監(jiān)制,講解了基本的使用方法和操作步驟,即使是初次使用 Synthesizer V 的用戶也能立即上手。這本 160 頁的書除了可以從書店和亞馬遜等地方購買之外,AHS 還銷售“帶有指南書的 Synthesizer V Studio Pro”的包裝版本。由于 Synthesizer V Studio Pro 編輯器沒有包含手冊,所以特別對初學(xué)者推薦附加這本指南書!
Synthesizer V 是什么
免費體驗 Synthesizer V Studio Basic
安裝 Synthesizer V Studio Pro
Synthesizer V Studio Pro 的唱歌方法 基礎(chǔ)篇
Synthesizer V Studio Pro 的唱歌方法 應(yīng)用篇
Synthesizer V Studio Pro 的唱歌方法 發(fā)展篇
Synthesizer V 與 DAW 的配合使用
開發(fā)者華侃如先生的專訪
