【文獻閱讀】TaikoNation:基于模式的音樂譜面自動生成
原文:TaikoNation: Patterning-focused Chart Generation for Rhythm Action Games(FDG21)
Introduction:
通過機器學習生成程序內(nèi)容目前已經(jīng)受到一些關(guān)注(如2D橫向游戲),許多未被關(guān)注的游戲可能會因此受益。此論文關(guān)注一種游戲類型:節(jié)奏游戲。節(jié)奏游戲的內(nèi)容是玩家對給定的曲目,根據(jù)不同的等級,在一定時間內(nèi)打擊一定數(shù)量的預定義音符。游戲譜面一般是由個人作者制作的,需要一定的時間和一定的專業(yè)知識。比如Rock Band4游戲有1700多個不同的音樂譜面可供下載游玩。此論文關(guān)注于使用機器學習自動生成譜面。
先前已經(jīng)有一些工作關(guān)注了譜面生成,但是仍有一些問題需要解決。首先是音符的起始檢測,它是指分析一段音樂來定位每個音樂節(jié)奏點的起始位置。起始檢測一直是相關(guān)工作的焦點,比如Dance Dance Convolution(下簡稱DDC)。然而,僅僅放置音符并不足以生成一個吸引玩家的譜面,尤其是在高難度譜面中。高難度譜面一般包含不同的音符模式(音符擺放的相互關(guān)系)。模式是高質(zhì)量譜面的重要組成部分,是譜師對音樂的獨特詮釋。但是相關(guān)的研究,如確定在一根軌道上放置音符的次數(shù),來創(chuàng)造一個類似人類打擊模式的譜面,還沒有被探索。
此論文選擇Taiko作為研究對象,這一游戲十分重視打擊樂的節(jié)奏,更加適合生成人類模式的譜面。在整理了100個高質(zhì)量譜面作為數(shù)據(jù)集后,作者訓練了一個LSTM-RNN的神經(jīng)網(wǎng)絡(luò),將音樂翻譯為太鼓圖。與之前的工作不同,TaikoNation同時預測多個輸出,讓模型能夠輸出更長的模式串。
該論文的貢獻在于:使用LSTM對任意音頻來生成Taiko譜面;創(chuàng)建了一個包含110個太鼓譜面的數(shù)據(jù)集用于機器學習;與現(xiàn)有的方法DDC進行了比較。
Background:
【PCG-ML】Procedural Content Generation via Machine Learning,使用機器學習為游戲生成新內(nèi)容。模型一般采用序列到序列的機器模型,如LSTM。相關(guān)游戲包括超級馬里奧。對音樂游戲來說,生成的序列長度會更長一些。
【譜面生成和PCG】早先的工作一般基于規(guī)則或是遺傳算法。或是使用PCG方法。也有一些商業(yè)游戲使用PCG方法根據(jù)游戲音樂生成游戲內(nèi)容。
【基于ML的譜面生成】DDC利用兩個獨立的機器學習模型來處理放置音符的時機,以及選擇哪個音軌放置音符。PCGoRG拓展了DDC的工作。GenerationMania關(guān)注采樣和選擇,這個方面面對的游戲是IIDX,因為玩家的輸入影響了歌曲的內(nèi)容,這為譜面生成增加了難度。
Approch:
使用100個Taiko譜面作為輸入,包含音樂和譜面信息。將音頻文件分成23ms的片段,然后對每段提取特征。解析轉(zhuǎn)換譜面信息用于訓練。預處理后的數(shù)據(jù)被喂給LSTM-DNN網(wǎng)絡(luò),一次16個片段,模型每次預測4個note。完成訓練后,使用模型基于一個16*23ms的滑動窗來預測一個輸入的音樂,為每個時間戳平均預測結(jié)果。
Evaluation:
1.時間戳確定下的擺放位置比較(與隨機)(衡量擺放位置的專業(yè)性)
2.時間戳確定下的擺放位置比較(與譜師)(衡量擺放位置的專業(yè)性)
3.采音檢測(與譜師)(衡量采音的準確性)
4.模式數(shù)量(衡量譜面的豐富程度)
5.符合人體學的模式數(shù)量(衡量譜面的可玩性)
Limitation:
過擬合問題、難度控制問題、以設(shè)計師為中心的評估方法和以玩家為中心的評估方法