RMVPE:10分鐘變聲,開源模型和webui幫助快速上手
本文介紹了一個名為RMVPE的穩(wěn)健模型,用于從多聲部音樂中提取聲樂音高。該模型利用深度U-Net和GRU直接從多聲部音樂中提取聲樂音高。這樣,RMVPE不僅可以從多聲部音樂中提取聲樂音高,而且對不同類型的噪聲具有穩(wěn)健性。此外,RMVPE在清晰的人聲或其他單聲部音樂上的表現(xiàn)與其他模型相當。
論文鏈接:https://arxiv.org/abs/2306.15412#
Readpaper鏈接:https://readpaper.com/paper/4771618873833160705
并且Github上的RVC項目已經(jīng)整合了這個模型,發(fā)布了一個名為"Retrieval-based-Voice-Conversion-WebUI"的開源工具,它只需10分鐘的語音數(shù)據(jù)就可以訓練出一個優(yōu)秀的語音轉換(VC)模型。該項目提供了一個基于VITS的簡單易用的變聲框架,支持多種顯卡和操作系統(tǒng),并具有簡單易用的網(wǎng)頁界面。
項目:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
詳細介紹
背景:音高估計在音樂信息檢索中的任務已經(jīng)研究了數(shù)十年。許多算法都被提出來解決這個問題,主要分為兩類:傳統(tǒng)的啟發(fā)式方法和基于數(shù)據(jù)的方法。
方法:RMVPE模型使用log?mel-spectrograms作為輸入特征,并使用概率矩陣來表示預測的音高。這樣,音高估計任務可以正式寫為:F?:?XT×F?→?YT×360,其中T代表音頻的幀,F(xiàn)是對數(shù)間隔的頻率bin。

實驗:在MIR-1K、MIR?ST500和Cmedia數(shù)據(jù)集上進行了廣泛的實驗,結果顯示我們的模型在多聲部音樂中進行聲樂音高估計時表現(xiàn)最佳。此外,對MIR-1K進行的豐富實驗顯示,RMVPE對噪聲具有穩(wěn)健性。

?RVC開源項目
項目背景:語音轉換技術在近年來得到了廣泛的關注,尤其是在人工智能和多媒體領域。RVC項目旨在為開發(fā)者和研究者提供一個簡單、高效的語音轉換工具。


●?使用top1檢索替換輸入源特征為訓練集特征來杜絕音色泄漏。
●?即使在相對較差的顯卡上也能快速訓練。
●?使用少量數(shù)據(jù)進行訓練也能得到較好結果。
●?可以通過模型融合來改變音色。
●?簡單易用的網(wǎng)頁界面。
●?使用最先進的人聲音高提取算法InterSpeech2023-RMVPE。
●?使用方法:項目提供了詳細的環(huán)境配置、依賴安裝和使用指南,包括如何啟動WebUI、如何下載和使用預訓練模型等
●?教程視頻:https://www.bilibili.com/video/BV1pm4y1z7Gm/?vd_source=1eb9b86d48f03813b36911dfece560f3
還有許多簡單全面的教程:
另一個開源項目也是使用了RMVPE:喂飯級SO-VITS-SVC教程,輕松生成AI歌曲(https://zhuanlan.zhihu.com/p/630115251)
觀點
學術上,和聲音有關的今年真的非常卷,早些時候就已經(jīng)出了很多變聲的模型和框架還有各種實操教程??梢哉f,這個領域原本的超高門檻,也因為這些開源開發(fā)者的努力變得很低很低了。而且,在這個基礎上,可以使用開源的模型和框架進行進一步快速的研發(fā)?,F(xiàn)在依然有一些問題需要解決,比如,能不能做到有自然的呼吸聲等。
在商業(yè)上,這種方法可以應用于音樂制作、音樂編輯和其他與音樂相關的領域,特別是在需要從多聲部音樂中提取聲樂音高的場景中。
特邀作者:日本早稻田大學計算機系博士 王軍杰