對于AI換聲和調(diào)教,面向圈外人和調(diào)教小白的科普文
調(diào)校是一種生產(chǎn)行為。
人們可以通過手動編輯音樂基礎要素信息,到各類合成聲音引擎或者編輯器軟件中,這一類軟件能根據(jù)輸入的信息,采用相應的計算模式,輸出對應的音頻。
信息包括但不僅限于:音色,音素(歌詞),音高,張力,節(jié)奏,假音,力度,共振峰,發(fā)音,氣聲,顫音頻率,顫音幅度…….
而輸入、編輯此類信息的流程被稱作調(diào)校。調(diào)校得到的產(chǎn)物是音頻波形文件(.wav),被稱作干音——未被后期處理的聲音,與此相對的是濕音——后期處理過的聲音。
軟件截止至2023年5月,有但不限于:
1. VOCALOID——雅馬哈株式會社
2. Synthesizer V——Dreamtonics | 循語究音(上海)技術開發(fā)有限責任公司
3. ACE Studio——青島時域科技有限公司
4. UTAU——飴屋/菖蒲氏株式會社
5. X Studio——北京紅棉小冰科技有限公司
計算模式則具體分為兩類:
1.??? 采集不同人類的聲音標本,然后再制作歌聲資料庫(音源/聲庫),從而合成聲音。
2.??? 使用人工智能、深度學習、神經(jīng)網(wǎng)絡合成技術合成聲音,相對前者計算量更大,計算算法更為復雜,計算所得音頻文件常常被誤認為是真人演唱所錄制而成。
調(diào)校通常會出現(xiàn)在虛擬歌姬原創(chuàng)曲和翻唱曲的創(chuàng)作流程中。
虛擬歌姬是什么?
虛擬歌姬是一種計算機軟件資源,它依附于上述各類編輯器,所對應的音樂基礎要素是音色,調(diào)教者可以選擇自己所購買的不同虛擬歌姬來合成不同音色的干聲。
虛擬歌姬可能還會擁有對應的虛擬形象。
最具代表性的虛擬歌姬是:初音未來(Hatsune Miku),是2007年8月31日由Crypton Future Media以雅馬哈的 Vocaloid 系列語音合成程序為基礎開發(fā)的音源庫,音源數(shù)據(jù)資料采樣于日本聲優(yōu) 藤田咲。
?

一首虛擬歌姬原創(chuàng)曲可能會有多種創(chuàng)作流程,一般多個人分別負責策劃,作詞(填詞),作曲,編曲,調(diào)校,混音,母帶,視頻制作,曲繪一系列流程,不常見但可能出現(xiàn)的流程還有演奏,錄音,扒譜等,極少有單人獨自完成原創(chuàng)曲的所有流程。
虛擬歌姬翻唱曲可能有以下流程:策劃,重編曲,重填詞,分離伴奏,扒譜,調(diào)教,混音,母帶,曲繪,視頻制作等。
策劃的職責有很多,對于甲方,確定稿酬,確定作品風格,作品內(nèi)容,確定截稿時間。對于創(chuàng)作者,分配具體任務,把握整體創(chuàng)作節(jié)奏,監(jiān)視制作質(zhì)量,評價以及提出修改意見。
作曲與作詞二者相互配合,根據(jù)作品內(nèi)容和風格創(chuàng)作相適配的詞和曲。
編曲需要和作曲對接交流,依據(jù)作曲創(chuàng)作內(nèi)容和風格來編寫對應的和聲,配器,和弦等等旋律。
混音負責將調(diào)教所創(chuàng)作的干音,作曲編曲所創(chuàng)作的伴奏或演奏者錄制好的伴奏進行混合,使它們較好的融合在一起。
母帶負責將混音師混合好的音頻進行再處理,均衡多首作品,多個音頻文件,錄制成為專輯。
曲繪和視頻制作一般是上傳視頻流媒體網(wǎng)站所需的流程,曲繪通常需要繪畫虛擬歌姬的形象和一系列與作品相關的意象,附帶顯眼的作品標題文字來吸引觀眾。視頻制作一般是使用動態(tài)效果合成軟件合成與音頻對應的視頻,通常有字幕,動效,企劃人員介紹等等內(nèi)容。
調(diào)校者和虛擬歌姬之間是什么關系?
生產(chǎn)者與生產(chǎn)資料。
更通俗的講法是,使用工具的人和工具本身。
調(diào)校者在編輯器或合成引擎中創(chuàng)作干音時,可以編輯假音,氣聲,張力等等參數(shù),還包括虛擬歌姬自帶的特有參數(shù),來對干音進行調(diào)整。
調(diào)校者怎樣調(diào)整參數(shù)?
將正確的音高,節(jié)拍,音符時長,音素(歌詞)輸入,渲染干音,調(diào)校者沒有更改其他影響歌唱的參數(shù),則此時干音處于無參狀態(tài)。根據(jù)調(diào)校者水平的不同,有不同的調(diào)校方式,以筆者為例主要分為兩種:
1.被動調(diào)校
調(diào)校者對比無參干音與調(diào)校者所預期的歌唱效果,對于演唱效果明顯不佳的片段進行調(diào)參,使干音與調(diào)校者心理預期接近,通常被動調(diào)校不能產(chǎn)出高質(zhì)量的作品。
2.主動調(diào)校
調(diào)校者主動分析虛擬歌姬的發(fā)聲,例如發(fā)音速度,共鳴位置,吐氣速度,吐氣量,開口度,喉頭力度等實際狀態(tài),考慮演唱的內(nèi)容,作品的風格,抒發(fā)的感情等等演唱角度,將需要的歌唱效果抽象成參數(shù)來調(diào)校。
優(yōu)秀的作品基本出自第二種調(diào)校方式,主動調(diào)校。這類調(diào)教需要滿足:正確理解參數(shù),對演唱方式足夠了解,熟悉編輯器或合成引擎的操作,有一定的演唱審美等等要求,是調(diào)教這一生產(chǎn)流程中最具技術含量的體現(xiàn)。
由于筆者調(diào)校水平有限和篇幅有限,本文不詳細敘述主動調(diào)校其中的技術細節(jié)。為接下來討論內(nèi)容做鋪墊,對音高這一參數(shù)進行詳細介紹。
在各種音樂作品中,涉及到人聲演唱的旋律,往往其音高并不是平穩(wěn)的,人聲演唱所蘊含的感情很大程度上體現(xiàn)在音高的相對起伏,任何一首作品對于不同國家,不同性別,不同性格等等的人的含義不盡相同,他們對一首作品的理解絕對不會相同,而人類感情的多樣性和復雜性種種因素,導致一首歌對于不同的人的演唱思路,演唱方法,演唱風格可以各不相同,所對應的變化其中之一是音高細微上的不同。

有了上述對音高的分析,我們很好理解抽參,抽參是使用音頻分析工具一類軟件,將一段他人創(chuàng)作的濕音內(nèi)的演唱音高導出,這里導出也包括這段演唱音高的許多細節(jié),軟件的質(zhì)量和濕音質(zhì)量程度決定導出音高的細節(jié)量多少。
一首虛擬歌姬的無參工程只包含其旋律的主要走向,并不包含任何其他音高或音色上的處理,在虛擬歌姬的原創(chuàng)作品中,需要調(diào)教師加入自己的理解來創(chuàng)作新的作品。但是使用抽參來創(chuàng)作時,這樣抽出來的音高信息,其實已經(jīng)蘊含了原演唱者的思路,如果未經(jīng)作者同意擅自抽參盜用,可能造成侵權(quán)行為。
相比于抽參,套參所涵蓋的范圍僅限于虛擬歌姬作品之間,即通過改變僅供學習討論使用的虛擬歌姬調(diào)音工程所使用的歌姬,也就是僅改變音色,幾乎不改變其他參數(shù)甚至原封不動,來制作虛擬歌姬作品的行為。如果這樣的作品用于商業(yè)用途,是上述抽參更嚴重的抄襲行為,可以直接認定為侵權(quán)。
AI換聲做了什么?
最近十分流行的AI孫燕姿,其本質(zhì)上是AI換聲,原理和上述使用神經(jīng)網(wǎng)絡深度學習的AI聲音合成引擎相差無幾。本文基于科普原因,不詳細論述其中模型采用的算法細節(jié),但這樣的算法的基本思路是不斷使用高斯噪音(符合正態(tài)分布的噪音)對已有素材進行加噪或降噪,模擬出對應的音頻文件。一種是在一段完全隨機沒有任何信息的高斯噪音內(nèi)不斷填入信息,一種則是在一段已有信息的音頻文件里加入高斯噪音來消去原有信息(音色),再通過降噪來加入需要的信息(音色)。
AI換聲為什么可能侵害他人權(quán)益?
以結(jié)論概括,套參就像是他人模仿的簽字,即使模仿的很像,其筆跡的力度和線條也是一定不一樣的,而AI換聲,就像是把一幅利用強烈的色彩反差來沖擊人們的視線的畫作加上一層濾鏡,即使加過濾鏡后的畫作也很美,但是細細研究其中的色彩邏輯就不如原作清晰,甚至完全丟失原畫的目的。
這兩類只要未經(jīng)原作者或者歌手授權(quán),都屬于竊取他人勞動成果的行為,并且這類行為常人很難注意到。
筆者想在這里補充一點,AI換聲所計算出的音頻不能被稱為是創(chuàng)作,這樣的作品僅僅只需要學習對應音色的素材,一首換聲用的作品,一臺能計算的電腦和一些時間就能產(chǎn)出,其過程沒有創(chuàng)作者的參與。
我們應該如何面對AI和AI換聲侵權(quán)?
首先我們要明確一點的是,AI作為一項新技術,我們不能盲目抵制,我們應該主動去了解AI,主動將AI的先進生產(chǎn)力運用于生產(chǎn)中。
AI換聲侵權(quán)的成本非常低,我們應該主動避免無版權(quán)的AI換聲,加強AI換聲的可追溯性,可查證性,讓AI換聲侵權(quán)成本提高,才能根治AI換聲亂象。
?