Radio2Tex:利用毫米波(mmWave)來進(jìn)行實(shí)時(shí)的自動(dòng)語音識(shí)別
香港大學(xué)和清華大學(xué)聯(lián)合開發(fā)了一種技術(shù),利用毫米波將聽到的聲音轉(zhuǎn)換成文字。
該系統(tǒng)能夠?qū)崟r(shí)識(shí)別包含超過13000個(gè)詞匯的文本,即使在有噪音或防音措施的環(huán)境下也能有效工作。特別適用于會(huì)議語音轉(zhuǎn)錄和竊聽等應(yīng)用場(chǎng)景。
工作原理:
1、捕捉聲音:毫米波(mmWave)通常用于無線通信,但在這個(gè)特殊的應(yīng)用中,它被用于實(shí)時(shí)自動(dòng)語音識(shí)別(ASR)。
;具體來說,毫米波具有非常高的頻率和短的波長。這使得它們能夠精確地捕捉到物體(包括空氣中的聲波)的微小移動(dòng)和變化。這些變化隨后被轉(zhuǎn)換成電信號(hào)。這些電信號(hào)再通過特殊的算法進(jìn)行處理和分析,最終轉(zhuǎn)換成文字。
;簡(jiǎn)單來講,當(dāng)你說話的時(shí)候,你的聲音會(huì)在空氣中產(chǎn)生波動(dòng)。毫米波能夠捕捉到這些波動(dòng)并將其轉(zhuǎn)換成電信號(hào),然后這些電信號(hào)被用來識(shí)別你說了什么,最后轉(zhuǎn)換成文字。
這種方法的一個(gè)主要優(yōu)點(diǎn)是它能在各種復(fù)雜環(huán)境下工作,包括在有噪音或防音措施的情況下。這是因?yàn)楹撩撞▽?duì)這些因素有很高的魯棒性,能夠準(zhǔn)確地捕捉到聲音產(chǎn)生的空氣波動(dòng)。
2、流式自動(dòng)語音識(shí)別(ASR): Radio2Text 是第一個(gè)使用毫米波信號(hào)進(jìn)行流式自動(dòng)語音識(shí)別(ASR)的系統(tǒng)。它能夠在低延遲的流模式下準(zhǔn)確識(shí)別文本。
該系統(tǒng)能識(shí)別超過13,000個(gè)詞,這對(duì)于實(shí)際應(yīng)用如會(huì)議轉(zhuǎn)錄或竊聽非常有用。
3、Guidance Initialization(GI): 為了解決流式網(wǎng)絡(luò)不能使用全局上下文的問題,研究人員提出了一種名為“Guidance Initialization”的方法,該方法通過權(quán)重繼承從非流式Transformer模型中傳遞全局上下文相關(guān)的特征知識(shí)。
4、跨模態(tài)知識(shí)蒸餾: 由于毫米波信號(hào)質(zhì)量較低,研究人員使用了一種基于知識(shí)蒸餾的跨模態(tài)結(jié)構(gòu)來提高識(shí)別性能。
實(shí)驗(yàn)結(jié)果:
Radio2Text 在多種場(chǎng)景(包括安靜、嘈雜和隔音場(chǎng)景)中的性能都優(yōu)于其他基于毫米波的方法。具體地,該系統(tǒng)的字符錯(cuò)誤率為5.7%,詞錯(cuò)誤率為9.4%。
