Lyra:一種用于語音壓縮的新型極低比特率編解碼器
通過語音和視頻通話與其他人在線聯(lián)系越來越成為日常生活的一部分。實時通信框架(如WebRTC)使這成為可能取決于有效的壓縮技術、編解碼器,以編碼(或解碼)信號以進行傳輸或存儲。幾十年來,編解碼器是媒體應用程序的重要組成部分,它允許需要帶寬的應用程序有效地傳輸數(shù)據(jù),并導致人們對隨時隨地進行高質(zhì)量通信的期望。
因此,開發(fā)視頻和音頻編解碼器的持續(xù)挑戰(zhàn)是提供更高的質(zhì)量、使用更少的數(shù)據(jù)并最大限度地減少實時通信的延遲。盡管視頻似乎比音頻更需要帶寬,但現(xiàn)代視頻編解碼器可以達到比當今使用的某些高質(zhì)量語音編解碼器更低的比特率。即使在低帶寬網(wǎng)絡中,結合低比特率視頻和語音編解碼器也可以提供高質(zhì)量的視頻通話體驗。然而,從歷史上看,音頻編解碼器的比特率越低,語音信號就越難以理解,越機器人化。此外,雖然有些人可以訪問一致的高質(zhì)量、高速網(wǎng)絡,但這種連接水平并不普遍,即使是連接良好的地區(qū)的人有時也會遇到質(zhì)量差、帶寬低、
為了解決這個問題,我們創(chuàng)建了Lyra,這是一種高質(zhì)量、極低比特率的語音編解碼器,即使在最慢的網(wǎng)絡上也可以進行語音通信。為此,我們應用了傳統(tǒng)的編解碼器技術,同時利用機器學習 (ML) 的進步和在數(shù)千小時數(shù)據(jù)上訓練的模型來創(chuàng)建壓縮和傳輸語音信號的新方法。
Lyra 概述
Lyra 編解碼器的基本架構非常簡單。每 40 毫秒從語音中提取一次特征或獨特的語音屬性,然后進行壓縮以進行傳輸。特征本身是log mel 頻譜圖,這是一個數(shù)字列表,代表不同頻段中的語音能量,傳統(tǒng)上用于它們的感知相關性,因為它們是根據(jù)人類聽覺響應建模的。另一方面,生成模型使用這些特征來重新創(chuàng)建語音信號。從這個意義上說,Lyra 與其他傳統(tǒng)的參數(shù)編解碼器非常相似,例如MELP。
然而,傳統(tǒng)的參數(shù)編解碼器只是從語音關鍵參數(shù)中提取,然后可用于在接收端重建信號,實現(xiàn)低比特率,但通常聽起來很機械和不自然。這些缺點導致了新一代高質(zhì)量音頻生成模型的開發(fā),這些模型不僅能夠區(qū)分信號,還能夠生成全新的信號,從而徹底改變了該領域。DeepMind 的WaveNet是這些生成模型中的第一個,為許多生成模型鋪平了道路。此外,目前 Duo 中使用的基于生成模型的丟包隱藏系統(tǒng)WaveNetEQ展示了該技術如何用于現(xiàn)實場景。
使用 Lyra 進行壓縮的新方法
使用這些模型作為基準,我們開發(fā)了一種能夠使用最少數(shù)據(jù)重建語音的新模型。Lyra 利用這些聽起來自然的新生成模型的強大功能,在保持參數(shù)編解碼器的低比特率的同時實現(xiàn)高質(zhì)量,與當今大多數(shù)流媒體和通信平臺中使用的最先進波形編解碼器相當。波形編解碼器的缺點是它們通過逐個樣本壓縮和發(fā)送信號來實現(xiàn)這種高質(zhì)量,這需要更高的比特率,并且在大多數(shù)情況下不需要實現(xiàn)自然的語音。
生成模型的一個問題是它們的計算復雜性。Lyra 通過使用更便宜的循環(huán)生成模型(WaveRNN變體)避免了這個問題,該模型以較低的速率工作,但會并行生成不同頻率范圍內(nèi)的多個信號,然后以所需的采樣率將這些信號組合成單個輸出信號。這個技巧讓 Lyra 不僅可以在云服務器上運行,還可以在中端手機的設備上實時運行(處理延遲為 90ms,與其他傳統(tǒng)語音編解碼器一致)。然后,該生成模型在數(shù)千小時的語音數(shù)據(jù)上進行訓練并進行優(yōu)化,類似于 WaveNet,以準確地重新創(chuàng)建輸入音頻。
與現(xiàn)有編解碼器的比較
自 Lyra 成立以來,我們的使命一直是使用替代品比特率數(shù)據(jù)的一小部分來提供最佳質(zhì)量的音頻。目前,免版稅的開源編解碼器Opus是基于 WebRTC 的VOIP應用程序使用最廣泛的編解碼器,并且具有 32kbps 的音頻,通常可以獲得透明的語音質(zhì)量,即與原始語音無法區(qū)分。然而,雖然 Opus 可以在低至 6kbps 的更多帶寬受限環(huán)境中使用,但它開始表現(xiàn)出音頻質(zhì)量下降。其他編解碼器能夠以與 Lyra 相當?shù)谋忍芈蔬\行(Speex、 MELP 、AMR),但每個編解碼器都會增加偽影并導致機器人發(fā)聲。
Lyra 目前設計為以 3kbps 運行,聆聽測試表明,Lyra 在該比特率下的性能優(yōu)于任何其他編解碼器,并且在 8kbps 時與 Opus 相比具有優(yōu)勢,因此帶寬減少了 60% 以上。Lyra 可用于帶寬條件不足以滿足較高比特率且現(xiàn)有低比特率編解碼器無法提供足夠質(zhì)量的地方。
確保公平性
與任何基于機器學習的系統(tǒng)一樣,模型必須經(jīng)過訓練以確保它適用于所有人。我們已經(jīng)使用開源音頻庫對 Lyra 進行了數(shù)千小時的音頻訓練,并使用 70 多種語言的揚聲器,然后與專家和眾包聽眾一起驗證音頻質(zhì)量。Lyra 的設計目標之一是確保普遍可訪問的高質(zhì)量音頻體驗。Lyra 在廣泛的數(shù)據(jù)集上進行訓練,包括使用多種語言的說話者,以確保編解碼器對它可能遇到的任何情況都具有魯棒性。
社會影響和我們的
未來 像 Lyra 這樣的技術的影響是深遠的,無論是從短期還是長期來看。借助 Lyra,新興市場的數(shù)十億用戶可以使用高效的低比特率編解碼器,從而獲得比以往更高質(zhì)量的音頻。此外,Lyra 可用于云環(huán)境,使具有各種網(wǎng)絡和設備功能的用戶能夠相互無縫聊天。將 Lyra 與新的視頻壓縮技術(如AV1)配對,即使用戶通過 56kbps 撥號調(diào)制解調(diào)器連接到互聯(lián)網(wǎng),也可以進行視頻聊天。
Duo已經(jīng)使用 ML 來減少音頻中斷,并且目前正在推出 Lyra 以提高極低帶寬連接上的音頻通話質(zhì)量和可靠性。我們將繼續(xù)優(yōu)化 Lyra 的性能和質(zhì)量,以確保該技術的最大可用性,并研究通過 GPU 和 TPU 實現(xiàn)的加速。我們也開始研究這些技術如何導致低比特率的通用音頻編解碼器(即音樂和其他非語音用例)。
更新說明:優(yōu)先更新微信公眾號“雨夜的博客”,后更新博客,之后才會陸續(xù)分發(fā)到各個平臺,如果先提前了解更多,請關注微信公眾號“雨夜的博客”。