再談回聲消除測評丨Dev for Dev 專欄

本文為「Dev for Dev 專欄」系列內(nèi)容,作者為聲網(wǎng)音視頻實(shí)驗(yàn)室工程師?黃譯慶。
音頻質(zhì)量的優(yōu)化是一個復(fù)雜的系統(tǒng)工程,回聲消除是其中一個老生常談的話題,一般來說,回聲消除的效果受設(shè)備本身的聲學(xué)設(shè)計(jì)、聲學(xué)環(huán)境、以及軟件系統(tǒng)等諸多因素的影響。傳統(tǒng)的方法做回聲抵消包括線性回聲抵消與濾波非線性處理,但目前回聲消除的前沿領(lǐng)域仍面臨著非線性回聲抵消、近端能量小于回聲能量、立體聲的回聲問題、麥克風(fēng)與參考信號時鐘不一致、參考信號不精準(zhǔn)、缺乏可靠的時延預(yù)估方法等難題。聲網(wǎng)音頻技術(shù)團(tuán)隊(duì)基于自己的實(shí)踐,推出了特殊場景下的音頻測評系列文章,本文是回聲消除篇──在此拋磚引玉、懇請業(yè)界同仁多加批評指正。
隨著 4G/5G 的應(yīng)用,實(shí)時音視頻領(lǐng)域也迅猛發(fā)展,實(shí)時語音質(zhì)量的也越來越受到人們的關(guān)注?;芈暋⒀訒r、卡頓等因素成為人們關(guān)注實(shí)時語音質(zhì)量的主要方面。這篇文章主要來介紹下實(shí)時語音通話中的回聲消除問題。
回聲是指揚(yáng)聲器播放的聲音又被麥克風(fēng)采集并發(fā)回遠(yuǎn)端的現(xiàn)象。所有的通信系統(tǒng)必須進(jìn)行回聲消除,否則會嚴(yán)重影響通信質(zhì)量?;芈曄a(chǎn)生的問題主要分為兩大類,漏回聲和雙講掉字,其直觀表現(xiàn)就是說話人聽到了自己的聲音和對方聲音卡頓甚至聽不見。

■圖1:聲學(xué)回聲產(chǎn)生的原因
01 回聲消除的幾個難題

■圖2:回聲消除方案
影響回聲消除的因素很多,比如音量問題──當(dāng)播放的信號過大的時候,很容易產(chǎn)生回聲,根因主要有以下幾種:
1、麥克風(fēng)采集到的回聲信號溢出(clipping)而引入非線性回聲;
2、音量過大加劇硬件設(shè)備自身的振動,引入非線性成分;
3、麥克風(fēng)采集到的回聲信號未溢出但遠(yuǎn)大于近端語音信號,雙講時造成嚴(yán)重的掉字甚至聽不見。
此外,延時抖動、時鐘偏移、采集或播放頻率不穩(wěn)、非線性失真、回聲路徑變化、混響、硬件 3A(手機(jī)自帶 3A)的處理效果等等,都是常見的影響回聲消除的因素。宏觀上來講,采集或者播放設(shè)備的外觀(揚(yáng)聲器/麥克風(fēng)器件型號及排列方式)?,手機(jī)自帶的 3A 處理算法(手機(jī)的廠商,系統(tǒng)和型號),傳輸算法,環(huán)境因素以及復(fù)雜多變的通訊場景,都會對回聲消除帶來不同的影響。
02 回聲消除的評測方法
回聲產(chǎn)生的場景如此復(fù)雜,那我們怎么去進(jìn)行回聲消除的測評呢?在實(shí)驗(yàn)室場景中,我們對回聲消除的測評,主要分為兩部分來進(jìn)行。第一部分,人工主觀測試,重點(diǎn)關(guān)注各類復(fù)雜場景下,是否有回聲問題;第二部分,客觀自動化測試,重點(diǎn)關(guān)注大量的不同機(jī)型/系統(tǒng)版本,是否有回聲問題。
人工主觀測試,比較好理解。就是人工互通,去模擬各類用戶可能使用的場景,去測試是否有回聲的產(chǎn)生,常見的場景比如主播觀眾切換,切后臺/鎖屏,開啟/關(guān)閉(與音視頻相關(guān)的)第三方應(yīng)用、打斷等,以及配合各種終端設(shè)備(耳機(jī)/外放/藍(lán)牙耳機(jī))/環(huán)境(安靜/嘈雜)的切換等。
那客觀自動化測試如何去檢測回聲呢?
我們搭建了一套用于測評 AEC 的系統(tǒng)。該系統(tǒng)適用于聲網(wǎng)及業(yè)內(nèi) SDK 的所有場景,使用的語料為在消音室錄制的人聲語料,在用戶 top 機(jī)型和常見問題機(jī)型上進(jìn)行評測。設(shè)備的音量均調(diào)至官方推薦音量,以測試機(jī) speaker 的播放完整度、測試機(jī) speaker 的播放響度、長短時回聲占比、殘留回聲量等指標(biāo)來衡量 AEC 質(zhì)量。
03 具體的 AEC 客觀測評方法
該測試方法是通過測試裝置統(tǒng)一收發(fā)測試信號,可進(jìn)行回歸測試,在大批量的自動化測試中也據(jù)有較好的穩(wěn)定性,能大幅提高測試效率。
步驟一:將近端設(shè)備與遠(yuǎn)端設(shè)備通信連接;
步驟二:電腦通過聲卡輸出音頻信號到近端標(biāo)準(zhǔn)設(shè)備,供近端設(shè)備采集測試音頻信號;
步驟三:在遠(yuǎn)端設(shè)備播放接收到的音頻信號;
步驟四:聲卡同步采集近端設(shè)備接收到的待測音頻信號;
步驟五:通過檢測待測音頻信號響度和時長,來確定遠(yuǎn)端設(shè)備的回聲消除質(zhì)量。

■圖3:消音室測試環(huán)境
為了評估在理想條件下回聲消除的能力,我們在消音室里面進(jìn)行測試。隔絕噪聲并且盡量減少回聲。圖 3 是測試環(huán)境局部展示,我們在選擇的測試機(jī)上進(jìn)行批量測試。

表1 回聲消除性能類型描述
我們根據(jù) 3GPP 對回聲消除性能分類的描述(表 1)以及對回聲消除性能的分類(圖 4),將回聲占比劃分為低于 25ms 回聲占比、25 ~ 150ms 回聲占比以及超過 150ms 回聲占比的三個級別,用以界定回聲的嚴(yán)重程度。

■圖4 回聲消除性能分類
04 測試結(jié)果解析
以下是聲網(wǎng)和業(yè)內(nèi)方案的 AEC 評測結(jié)果。



■AEC評測結(jié)果(部分)
以上是在理想情況下,對回聲消除做的評估。但是在實(shí)際的通信中,會有各種復(fù)雜的環(huán)境,產(chǎn)生不同程度的回聲。為了模擬現(xiàn)實(shí)情況下出現(xiàn)的回聲,我們使用在可調(diào)混響室里錄制語料來做回聲分析。下面是 AEC 評測方案在四個不同場景、不同檔位下的部分?jǐn)?shù)據(jù)。同時,也可以測試在頻繁進(jìn)退頻道或者長時壓測下,回聲消除的效果。




<<上下滑動查看 AEC 評測方案在四個不同場景、不同檔位下的部分?jǐn)?shù)據(jù)
可調(diào)混響室內(nèi)可設(shè)的混響時間可達(dá) 0.2 ~ 2 秒,共 7 檔,可模擬小型會議室、客廳、報告廳、大教室、電影院等不同面積大小的實(shí)際應(yīng)用環(huán)境,為主觀聲音評價及客觀算法質(zhì)量評估提供可重復(fù)的全場景測試條件。
通過對數(shù)據(jù)的分析,我們可以清晰地看出回聲消除的能力。使用大量的測試機(jī)型,可以考察出特定機(jī)型對回聲消除的影響。通過不同版本間的比對,可以評估優(yōu)化迭代的效果。通過跟業(yè)內(nèi)方案的對比,可以檢驗(yàn)我們研發(fā)工作的領(lǐng)先性。
(正文完)