“終極調(diào)參”:可能是未來AI音樂的發(fā)展走向?
從最近網(wǎng)易云音樂作品上傳要求必填的“風格+場景標簽”,我似乎看到了未來AI音樂的發(fā)展走向。
上傳網(wǎng)易云的每首音頻都要求在所給的50種風格選擇和50種“場景”選擇(包括3類:描述類,如“甜美”“抒情”“高亢激昂”等;用途類,如“治愈”“戀愛”等,樂器類,如“鋼琴”“電吉他”等)中選擇3種以下填入。學院現(xiàn)代音樂的作曲學生也是如此訓練,即給出風格和“場景標簽”作曲,例如,“我要你創(chuàng)作一首中國民族音樂風格的、高亢激昂、抒情、描述戀愛的歌曲”,諸如此類。

按照這個方法,可計算得到這“50—50—3”選擇有 (C(50,1)?+ C(50,2)?+ C(50,3))^2 = 435,765,625(四億數(shù)量級)的可能性,而讓人振奮的是這個組合的數(shù)量僅僅是在50種風格和50種場景選3種以下的簡單條件下。也就是說,“50—50—3”就可以生成涵蓋超過四億種不同風格的音樂作品。
以上網(wǎng)易云將要實現(xiàn)的只是兩個因素(可以類比為兩層神經(jīng)網(wǎng)絡)相互作用(表示為“相乘”),實際上還可以推廣到如下的 n 層網(wǎng)絡,這就十分接近音樂創(chuàng)作的終極目標了:

同理可得出“n層、每層包括k_n個標簽選擇”的調(diào)參網(wǎng)絡可以生成的風格數(shù)量為:Π_n(Σ_n(C(n, 1~k_n))),即從 k_n 中選擇 1 至 n-1 個的方法數(shù)的總和按不同的(n)層全部相乘所得積。
舉一個具體例子:如果一個多層標簽調(diào)參的創(chuàng)作系統(tǒng)有“風格、情緒、樂器、用途、語言(歌曲歌詞使用的語言,含“純音樂”不使用任何語言)” 的 5 層選項,其中,風格、情緒、樂器各提供 100 種,用途、語言各提供 10 種;每次生成可在風格、情緒中選擇 3 種,樂器中選擇 10 種,用途選擇 1 種,語言選擇 2 種,那么它可以生成覆蓋的具體音樂種類數(shù)目為:

這個數(shù)目達到了 10 的 26 次方(百億億億)數(shù)量級??!
以上所述方法可稱之為“基于多重標簽的作曲”,它很可能就是在為知乎 @國得杰 所預見和提倡的“調(diào)參式作曲”發(fā)展到極致的樣子作準備,并預見了那個樣子,網(wǎng)易云這番安排可謂高瞻遠矚。
我曾經(jīng)想過“作曲理論和藝術創(chuàng)作理論發(fā)展到極致是怎樣的”,其實人類智能本身就具有想象的能力,它本身也許就已經(jīng)是理論發(fā)展極致所論述的那樣,就是表面完全不訴諸概念,即不討論音高組織、節(jié)奏等具體理論問題,而是直接通過“標簽參數(shù)”來生成。就如我上面提到的,【學院現(xiàn)代音樂作曲學生也是如此訓練,即給出風格和“場景標簽”作曲,例如,“我要你創(chuàng)作一首中國民族音樂風格的、高亢激昂、抒情、描述戀愛的歌曲”,諸如此類?!咳绻阎黧w從作曲學生換成機器,興許就是我們殫精竭慮想要達到的那個理論的最終形態(tài)吧,這甚至也可以把我跟知乎 @葉小胖 ?都共有疑惑的那個“音樂終極問題”一并解決了。同理,以上實現(xiàn)方式應該可以推廣到一切藝術創(chuàng)作。
~ 完 ~