介紹Voicebox:首個跨任務(wù)泛化語音生成人工智能模型,性能達到頂尖水平(個人自翻)

譯者序:
原文為Meta于2023年6月16日發(fā)表的《Introducing Voicebox: The first generative AI model for speech to generalize across tasks with state-of-the-art performance》(原文地址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/),在此提供全文和原文底部鏈接的論文的標題和摘要翻譯,考慮到部分讀者的需求,本文對原文加注注釋。由于譯者精力和水平有限,翻譯和注釋僅供參考使用。本文以知識共享-署名 4.0(CC-BY 4.0)協(xié)議提供,若需在其他作品中使用,需標注譯者姓名和出處。
部分文段的翻譯參考了DeepL和騰訊新聞@AI前線,部分詞匯的翻譯參考了劍橋詞典及部分知乎用戶創(chuàng)作的內(nèi)容,注釋參考了百度百科、求聞百科、知乎@朱衛(wèi)軍、@蠟筆小xi、@李浩、@HeptaAI、@藍色仙女創(chuàng)作的內(nèi)容,在此感謝相關(guān)內(nèi)容作者的貢獻,但請注意這并不能保證譯文內(nèi)容的專業(yè)性與準確性。
以下為譯文的正文內(nèi)容,全文約3000字,閱讀時間預計6分鐘:

Introducing Voicebox: The first generative AI model for speech to generalize across tasks with state-of-the-art performance
介紹Voicebox:首個跨任務(wù)泛化語音生成人工智能模型,性能達到頂尖水平
Meta AI的研究者已經(jīng)在語音生成人工智能(注1)上取得了巨大突破——我們現(xiàn)已開發(fā)出Voicebox,這是首個無需專門訓練即可泛化(注2)語音生成任務(wù)的模型,它的性能達到了頂尖水平。
(注1:簡單來說,生成式人工智能即為能生成文字、圖像、音頻等內(nèi)容的人工智能模型。)
(注2:人工智能在機器學習算法中,需要投入一定數(shù)量的樣本訓練,以掌握其中的規(guī)律。泛化是指機器學習中,人工智能掌握新鮮樣本規(guī)律的能力。)

類似圖像和文本的生成系統(tǒng),Voicebox可以創(chuàng)作多種風格的輸出內(nèi)容,它可以從頭開始創(chuàng)作,也可以修改給定的樣本。但相比創(chuàng)作圖片或文字,Voicebox可以生成高質(zhì)量的音頻片段。該模型可以跨六種語言(注)合成語音,也可執(zhí)行噪音消除、內(nèi)容編輯、風格轉(zhuǎn)換、多樣化樣本生成等操作。
(注:結(jié)合下文,應為英語、法語、西班牙語、德語、波蘭語、葡萄牙語)
在Voicebox之前,語音生成人工智能需要使用精心準備的訓練數(shù)據(jù),對每項任務(wù)作專門的訓練。Voicebox采用的新方法,使其只需從原始音頻和附帶的轉(zhuǎn)錄文本中學習。與用于音頻生成的自回歸模型(注)不同,Voicebox可以修改給定樣本的任何部分,而不僅僅是續(xù)寫給定音頻片段的結(jié)尾。
(注:簡單來說,自回歸模型是將樣本數(shù)據(jù)從復雜轉(zhuǎn)為有序來進行訓練,以此預測并生成新樣本的人工智能模型)
Voicebox基于一種叫“流匹配”(Flow Matching)的方法運作,這種方法已被證明可以改進擴散模型(注)。Voicebox在可理解性(5.9%對1.9%的單詞錯誤率)和音頻相似度(0.580對0.681)方面都優(yōu)于目前最先進的英語模型VALL-E,而速度則高達后者的20倍。在跨語言風格轉(zhuǎn)換上,Voicebox勝過YourTTS,將平均單詞錯誤率從10.9%降至5.2%,并將音頻相似度從0.335提高到0.481。
(注:簡單來說,擴散模型是指類似物理學的擴散作用,根據(jù)一定的權(quán)重,為樣本添加或減少來自其他樣本的不規(guī)則信號后,生成新樣本的人工智能模型)


語音生成模型有許多令人興奮的用例,但由于濫用的潛在風險,我們目前不會公開提供Voicebox的模型或代碼。雖然我們認為,為了推動人工智能技術(shù)的發(fā)展,對人工智能社區(qū)持開放態(tài)度并分享我們的研究很重要,但也有必要在開放與責任之間取得適當?shù)钠胶狻;谶@些考慮,今天我們將分享音頻樣本和一篇研究論文(注),詳細介紹我們的方法和成果。在論文中,我們還詳細介紹了我們?nèi)绾螛?gòu)建一個高效的分類器,以區(qū)分真實的語音和Voicebox生成的音頻。
(注:論文標題:Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale,論文地址:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/)
A new approach to speech generation
語音生成的新方法
現(xiàn)有語音合成工具的主要局限之一,在于只能用為專門的任務(wù)準備的數(shù)據(jù)進行訓練。這些單調(diào)且干凈的輸入數(shù)據(jù)相對有限且難以收集,也導致輸出內(nèi)容聽上去同樣單調(diào)。
我們基于“流匹配模型”(注)搭建了Voicebox,這是Meta在非自回歸生成模型領(lǐng)域的最新進展,可以掌握文本到語音之間非確定性高的映射。非確定性映射很有用,它使得Voicebox可以從不同的語音數(shù)據(jù)中學習,而無需對其差異做詳盡標注。也就是說,Voicebox能夠在多樣性更強、規(guī)模更大的數(shù)據(jù)上進行訓練。
(注:論文標題:Flow Matching for Generative Modeling,論文地址:https://arxiv.org/abs/2210.02747)
我們用超過五萬小時的語音錄音,和英語、法語、西班牙語、德語、波蘭語、葡萄牙語公共領(lǐng)域有聲讀物的轉(zhuǎn)錄文本對Voicebox進行了訓練。經(jīng)過訓練,Voicebox能在給定前后語音及其轉(zhuǎn)錄文本時預測語音片段。在學會結(jié)合上下文補全語音之后,該模型可以在整個語音生成任務(wù)中應用這個方法——包括生成音頻的中間部分,而無需重建整個輸入。
這種多功能性可以使Voicebox出色地執(zhí)行各種任務(wù),具體包括:
結(jié)合上下文的文本轉(zhuǎn)語音合成:只需使用兩秒鐘的輸入音頻樣本,Voicebox就能匹配樣本的音頻風格,并將其用于文本轉(zhuǎn)語音生成。未來計劃在這一能力的基礎(chǔ)上,為無法說話的人士提供語音支持,或者為NPC及虛擬助手定制對話語音。
跨語言風格轉(zhuǎn)換:給定一段語音樣本,外加一段英語、法語、德語、西班牙語、波蘭語或葡萄牙語的文本,Voicebox即可生成對應的閱讀語音。這種能力令人興奮,因為在未來,它可以幫助人們以自然、真實的方式交流——即使他們說不同的語言。
語音降噪和編輯: Voicebox的上下文學習使其善于生成語音,可無縫編輯音頻記錄中的片段。它可以重新合成暫時被噪音破壞的語音部分,或者替換說錯的詞語,而無需重新錄制整段語音。用戶可以確定被噪音(如狗叫聲)破壞的原始語音片段,裁剪并指示模型重新生成。未來這種能力可以用來清理和編輯音頻,就像流行的圖像編輯工具調(diào)整照片一樣簡單。
多樣化語音采樣:利用多樣化的自然數(shù)據(jù)完成學習后,Voicebox可以生成以上六種語言的語音,這些語音更符合現(xiàn)實世界中人們的說話方式。未來這種能力可以用來生成合成數(shù)據(jù),協(xié)助訓練語音助手模型。我們的研究結(jié)果表明,使用Voicebox生成的合成語音訓練出的語音識別模型,在性能上幾乎與使用真實語音的模型相當,且錯誤率降低了1%;與以往同類文本轉(zhuǎn)語音模型相比,合成語音數(shù)據(jù)訓練結(jié)果的錯誤率降低了45%至70%。
Sharing generative AI research responsibly
負責地分享生成式人工智能研究
作為首個能成功執(zhí)行任務(wù)的多功能高效泛化模型,我們相信Voicebox能引領(lǐng)語音合成人工智能的新時代。就像其他強大的人工智能創(chuàng)新成果一樣,我們認為這項技術(shù)潛在濫用和意外危害的風險。在我們的論文中,我們詳細介紹了我們?nèi)绾螛?gòu)建一個高效的分類器,以區(qū)分真實的語音和Voicebox生成的音頻,從而減輕未來可能的風險。我們認為公開我們的工作很重要,這樣研究社區(qū)可以在這一基礎(chǔ)上推進,并繼續(xù)進行我們關(guān)于如何負責地構(gòu)建人工智能的重要對話,這就是我們要在研究論文中分享我們的方法和結(jié)論的原因。
Voicebox代表著生成式人工智能研究向前的重要一步,在文本、圖像、視頻生成方面,其他具有任務(wù)泛化能力的可擴展生成式人工智能模型,已經(jīng)激發(fā)了對跨任務(wù)潛在應用的興趣。我們希望未來能在語音方面能看到類似的影響。我們期待著在音頻領(lǐng)域繼續(xù)我們的探索,并觀察其他研究者如何推進我們的工作。
以下人員的工作使這篇博文成為可能:Matt Le、Apoorv Vyas、Bowen Shi、Brian Karrer、Leda Sari、Rashel Moritz、Mary Williamson、Vimal Manohar、Yossi Adi、Jay Mahadeokar、Wei-Ning Hsu。

以下為原文底部鏈接論文(https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/)的標題和概要翻譯:
Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale
Voicebox:文本引導的大規(guī)模多語種通用語音生成模型
作者:Matt Le、Apoorv Vyas、Bowen Shi、Brian Karrer、Leda Sari、Rashel Moritz、Mary Williamson、Vimal Manohar、Yossi Adi、Jay Mahadeokar、Wei-Ning Hsu
大規(guī)模生成模型,例如GPT和DALL-E,已經(jīng)在自然語言處理和電腦視覺研究方面引發(fā)了突破性變革。這些模型能生成高精度的文本和圖像輸出,還能通識和解決未受明確訓練的任務(wù)。與此相比,語音生成模型在規(guī)模和任務(wù)泛化方面仍然十分落后。在這篇論文中,我們將要介紹Voicebox——目前最全能的文本引導大規(guī)模多語種語音生成模型。Voicebox是一個非自回歸流匹配模型,使用超過五萬小時未經(jīng)過濾或增強的語音進行訓練后,能根據(jù)給定音頻的上下文和文本填充語音。與GPT相似,通過上下文學習,Voicebox能執(zhí)行多種任務(wù),但因其能預測上下文并進行調(diào)節(jié),Voicebox有著更靈活的表現(xiàn)。Voicebox能用于單語種至跨語種的零樣本文字轉(zhuǎn)語音合成、噪音消除、內(nèi)容編輯、風格轉(zhuǎn)換、多樣化樣本生成等操作。特別是在可理解性(5.9%對1.9%的單詞錯誤率)和音頻相似度(0.580對0.681)方面,Voicebox都優(yōu)于目前最先進的零樣本文字轉(zhuǎn)語音模型VALL-E,而速度則高達后者的20倍。訪問voicebox.metademolab.com以獲得模型示范。