實(shí)現(xiàn)全雙工語音交互,百度打造全球首個手機(jī)回聲消除技術(shù)

作者:吳辰光 拍攝:吳辰光

手機(jī)導(dǎo)航在播報(bào)路況是不能識別用戶語音的痛點(diǎn)終于有了解決方案。
1月6日,在百度Create大會-技術(shù)開放日媒體溝通會上,百度展示了手機(jī)全雙工語音交互、?BEV自動駕駛感知、百度飛漿三項(xiàng)黑科技。其中,手機(jī)全雙工語音交互的實(shí)現(xiàn),讓百度成為全球首個能在手機(jī)上實(shí)現(xiàn)純軟件方案回聲消除技術(shù)的廠商。
一直以來,當(dāng)用戶開車途中手機(jī)導(dǎo)航正在播報(bào)實(shí)時路況,由于要臨時修改目的地,只能將車停在路邊后重新設(shè)置,因?yàn)槭謾C(jī)里軟件語音播報(bào)導(dǎo)航信息時,通常不可能識別用戶說了什么。
百度語音首席架構(gòu)師賈磊表示,在世界范圍內(nèi),很長時間都沒有一個方案能普適的支持在手機(jī)上實(shí)現(xiàn)全雙工的語音交互,即在手機(jī)播放導(dǎo)航提示的同時,能夠聽清用戶的指令,就像真人對話一樣,可以被隨時打斷,對新的語音指令給予反饋。因此,想要實(shí)現(xiàn)全雙工語音交互,必須先做回聲消除,避免手機(jī)終端識別自己播放的聲音。
通常在前裝軟件的音箱、車載系統(tǒng)上比較容易實(shí)現(xiàn),可以通過硬件適配算法,提前保證回聲消除的效果。而手機(jī)App屬于純軟件后裝方案,需要讓軟件算法適配不同型號的終端硬件。不僅如此,手機(jī)上喇叭距離麥克風(fēng)的距離比較近,手機(jī)終端款式多,硬件參差不齊。這些因素疊加在一起,會導(dǎo)致聲音信號的回聲消除會出現(xiàn)各種各樣的問題。再加上手機(jī)硬件的迭代更新非??焖?,回聲消除效果就更加難以保證了。
但現(xiàn)在,這些難題已得到解決。百度融合傳統(tǒng)信號處理和深度學(xué)習(xí)模型各自的優(yōu)點(diǎn),基于語音識別目標(biāo),端到端地進(jìn)行回聲消除和信號增強(qiáng),解決了手機(jī)場景下的回聲消除問題,即使手機(jī)音量開到最大,回聲消除量也能達(dá)到40分貝,使得手機(jī)APP的語音識別功能能夠正常工作。
雖然手機(jī)的便攜性導(dǎo)致語音交互的使用場景非常復(fù)雜,在交互中常常面臨音樂、閑聊、環(huán)境噪聲、內(nèi)噪殘余等與交互內(nèi)容無關(guān)的其他信息干擾,語音識別難度增大。但百度研發(fā)出的基于SMLTA2的多場景統(tǒng)一預(yù)訓(xùn)練模型,一個模型解決噪聲、用戶口音和回聲消除殘余吸收等難題,在各場景下識別率相對提升超過20%,這在業(yè)界同類技術(shù)中,準(zhǔn)確率是最高的。
配合語音語義一體化的置信技術(shù),百度的技術(shù)方案可以降低錯誤響應(yīng),并且支持交互過程中的引導(dǎo)和澄清,讓人機(jī)交互更像人與人的交流。
據(jù)透露,百度在手機(jī)端實(shí)現(xiàn)全雙工語音交互后,下一步將用到更多產(chǎn)品中。
此次百度展示的另兩個黑科技中,BEV自動駕駛感知就好比是一個從高處統(tǒng)觀全局的“上帝視角”,車上多個傳感器采集的數(shù)據(jù),會輸入到一個統(tǒng)一模型進(jìn)行整體分析推理生成鳥瞰圖,能有效地避免誤差疊加。
作為全球自動駕駛技術(shù)第一梯隊(duì)的玩家,百度并沒有止步于BEV自動駕駛感知方案,還首次在業(yè)內(nèi)提出了車路一體的解決方案UniBEV,集成了車端多相機(jī)、多傳感器的在線建圖、動態(tài)障礙物感知,以及路側(cè)視角下的多路口多傳感器融合等任務(wù)。
而百度飛槳作為國內(nèi)首個自主研發(fā)、功能豐富、開源開放的產(chǎn)業(yè)級深度學(xué)習(xí)平臺,研發(fā)出一系列工具組件,已在多個科研領(lǐng)域廣泛應(yīng)用。
截至目前,百度在技術(shù)研發(fā)上的累計(jì)投入已超過1000億元。