最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

百分點科技感知智能實驗室:語音識別技術(shù)發(fā)展階段探究

2021-08-24 15:58 作者:資訊動態(tài)  | 我要投稿


編者按:在人工智能飛速發(fā)展的今天,語音識別技術(shù)成為很多設(shè)備的標(biāo)配,過去五年間,語音識別的需求逐漸爆發(fā)。然而,目前語音識別相關(guān)的應(yīng)用及使用場景仍具有局限性,因此,國內(nèi)外眾多企業(yè)紛紛開始探索語音識別的新算法新策略。本文中,百分點感知智能實驗室從技術(shù)發(fā)展的角度出發(fā),深入分析了語音識別技術(shù)不同發(fā)展階段的模型構(gòu)建和優(yōu)化,以及未來發(fā)展趨勢。

語音識別技術(shù)簡單的說,就是將計算機接收到的音頻信號轉(zhuǎn)換為相應(yīng)的文字。語音識別技術(shù)從上個世紀(jì)50年代出現(xiàn),發(fā)展到現(xiàn)在已有半個多世紀(jì)的歷史。經(jīng)過多輪技術(shù)迭代,語音識別已經(jīng)從最早的孤立數(shù)字識別,發(fā)展到今天復(fù)雜環(huán)境下的連續(xù)語音識別,并且已經(jīng)應(yīng)用到各種電子產(chǎn)品中,為人們的日常生活帶來許多便利。

從技術(shù)發(fā)展的歷史來講,語音識別技術(shù)主要經(jīng)歷了三個時代,即基于模版匹配的技術(shù)框架、基于統(tǒng)計機器學(xué)習(xí)的技術(shù)框架和最新的端到端技術(shù)框架。近年來,得益于深度學(xué)習(xí)技術(shù)突破性的進展,以及移動互聯(lián)網(wǎng)的普及帶來的海量數(shù)據(jù)的積累,語音識別已經(jīng)達到了非常高的準(zhǔn)確率,在某些數(shù)據(jù)集上甚至超過了人類的識別能力。

隨著識別準(zhǔn)確率的提升,研究者們的關(guān)注點也從語音識別的準(zhǔn)確率,漸漸轉(zhuǎn)移到了一些更加復(fù)雜的問題上,比如多語種混合語音識別。該問題涉及到多語種混合建模、遷移學(xué)習(xí)和小樣本學(xué)習(xí)等技術(shù)。對某些小語種來說,由于無法獲得足夠多的訓(xùn)練樣本,因此,如何從小樣本數(shù)據(jù)中構(gòu)建可靠的語音識別系統(tǒng)成為一個待解決的難題。

針對該問題,百分點科技提出了一系列的算法,針對小語種語音識別系統(tǒng)構(gòu)建中出現(xiàn)的訓(xùn)練樣本獲得困難、文本書寫規(guī)則復(fù)雜、發(fā)音單元不統(tǒng)一等問題作了相應(yīng)的優(yōu)化?;谶@些技術(shù),百分點科技已經(jīng)成功研發(fā)出數(shù)十種小語種語音識別系統(tǒng),在支持語種的數(shù)量,以及識別準(zhǔn)確率上都處于國內(nèi)領(lǐng)先地位。

接下來的章節(jié)中,將重點介紹語音識別技術(shù)不同發(fā)展階段經(jīng)歷的重要技術(shù)框架,包括傳統(tǒng)的HMM-GMM和HMM-DNN,以及最新的端到端方法等。

一、GMM-HMM/DNN-HMM

GMM-HMM

先從GMM-HMM開始說,GMM-HMM基本使用HTK或者Kaldi進行開發(fā)。在2010年之前,整個語音識別領(lǐng)域都是在GMM-HMM里做一些文章,如圖一所示。

圖三展示了基本的訓(xùn)練前準(zhǔn)備,此外就是純訓(xùn)練的過程。純訓(xùn)練解決的是如何將圖三右邊的特征向量分配到左邊狀態(tài)序列里的問題。

DNN-HMM

在2010年前后,由于深度學(xué)習(xí)的發(fā)展,整個語音識別的框架開始轉(zhuǎn)變成DNN-HMM。其實就是把原來用GMM對特征進行建模,轉(zhuǎn)換成用神經(jīng)網(wǎng)絡(luò)去建模。由于神經(jīng)網(wǎng)絡(luò)從2010年至今不斷發(fā)展,各種不同的結(jié)構(gòu)不斷出現(xiàn),也帶來了不同的效果。DNN-HMM的基本結(jié)構(gòu)如圖四所示。

從上述的實驗結(jié)果中可以看到,相對傳統(tǒng)的GMM-HMM框架,DNN-HMM在語音識別任務(wù)上可以獲得全面的提升。DNN-HMM之所以取得巨大的成功,通常被認(rèn)為有三個原因:第一,DNN-HMM舍棄了聲學(xué)特征的分布假設(shè),模型更加復(fù)雜精準(zhǔn);第二,DNN的輸入可以采用連續(xù)的拼接幀,因而可以更好地利用上下文的信息;第三,可以更好的利用鑒別性模型的特點。

二、端到端語音識別

端到端語音識別,是近年來業(yè)界研究的熱點,主流的端到端方法包括CTC,RNN-T和LAS,如圖五所示。

CTC在業(yè)界的使用有2個辦法,有人把它當(dāng)作聲學(xué)模型使用,有人把它當(dāng)作語音識別的全部。但目前工業(yè)界系統(tǒng)都只把CTC當(dāng)作聲學(xué)模型來使用,其效果更好。純端到端的使用CTC做語音識別,效果還是不夠好。

這里說下chain模型,Chain模型的起源來自kaldi。kaldi當(dāng)時也想做CTC,但發(fā)現(xiàn)kaldi體系下CTC效果不好,但CTC的一些思想特別好,后來Dan Povey發(fā)現(xiàn)可以在此基礎(chǔ)上做一些優(yōu)化調(diào)整,于是就把chain模型調(diào)好了。但在kaldi體系里chain模型的效果的確比原來模型的效果要更好,這個在Dan Povey的論文中有解釋。

CTC時代的改進讓語音識別技術(shù)朝著非常好的方向發(fā)展,CTC還有一個貢獻就是前面提到的建模單元,CTC把建模單元從原來的cd-states調(diào)整為cdphone,或到后面的音節(jié)(syllable),或到后面的字級別(char)。因此,端到端的語音識別系統(tǒng)里就很少用前面細(xì)粒度的建模。目前很多公司的線上系統(tǒng)都是基于LSTM的CTC系統(tǒng)。

CTC在業(yè)界用得最成功的論文是《Fast and Accurate Recurrent Neural NetworkAcoustic Models for Speech Recognition》,論文里探索出來在CTC領(lǐng)域比較穩(wěn)定的模型結(jié)構(gòu)是5層LSTM的結(jié)構(gòu)。這篇文章從LSTM是單向還是雙向,建模單元是cdstate是ciphone還是最終的cdphone等問題進行探究。集中建模單元的比較結(jié)果,如下面的表格所示。從表格上可以看到,性能最優(yōu)的是cdphone的雙向LSTM的CTC系統(tǒng)。但是由于雙向在線上流式處理會不好處理,所以單向LSTM的性能也是可以接受的。

接下來就是注意力機制(attention)。注意力機制天然適合seq2seq的模型,而語音天然就是序列問題。LAS的全稱叫做listen, attended and spell,此模型拉開了純端到端語音識別架構(gòu)的序幕,一個LAS模型的整體結(jié)構(gòu)如圖九所示。LAS目前應(yīng)該是所有網(wǎng)絡(luò)結(jié)構(gòu)里面最好的模型,性能也是最好的,這點毋庸置疑,超過了原來基于LSTM-CTC的baseline。但是LAS要求見到所有的輸入,這對流式解碼來說是不允許的,這一致命的問題影響了這種算法的推進,也引起了眾多研究者的關(guān)注。當(dāng)然最好的辦法就是把attention對輸入那塊改小點,出了一個叫Mocha的算法,該算法以后有機會再做介紹。

CTC算法雖然是一個里程牌的算法,但CTC算法也有缺陷,比如要求每一幀是條件獨立的假設(shè),比如要想性能好需要外加語言模型。一開始的LAS模型效果也不夠好,實驗對比的結(jié)果如下表所示。

谷歌最終在大數(shù)據(jù)集上驗證了性能比基線好。這是一個里程碑,但這些都是Alex Graves工作的延展。由于RNN-T天然具備流式,外加RNN-T模型效果好,谷歌不斷的宣傳這個模型結(jié)構(gòu),此模型最終也被谷歌上線到pixel手機上。

Transformer/Conformer

transformer和conformer是目前性能最好的模型。transformer模型是從NLP借鑒到ASR領(lǐng)域,從ESPnet的論文里證明, transformer模型在各個數(shù)據(jù)集上效果比RNN或者kaldi的模型都好,如圖十一所示。

最后,為什么要去大家都去研究端到端模型,其實可以從兩方面來考慮:第一,端到端模型把原來傳統(tǒng)的模型簡化到最簡單的模型,拋棄了傳統(tǒng)的那些復(fù)雜的概念和步驟;第二,其實整個端到端模型用很小的模型結(jié)構(gòu)大小就達到原來幾十G模型的效果。谷歌論文的原文里寫著:

In this section, we compare the proposedRNN-T+LAS model (0.18G inmodel size)to a state-of-the-art conventional model. This model uses alow-frame-rate (LFR) acoustic modelwhich emits contextdependent phonemes[11] (0.1GB), a 764k-word pronunciation model (2.2GB), a 1st-pass 5-gramlanguage-model (4.9GB), as well as a 2nd-pass larger MaxEnt language model(80GB)[31]. Similar to how the E2E model incurs cost with a 2nd-pass LASrescorer, the conventional model also incurs cost with the MaxEnt rescorer. Wefound that for voice-search traffic, the 50% computation latency for the MaxEntrescorer is around 2.3ms and the 90% computation latency is around 28ms. InFigure 2, we compare both the WER and EP90 of the conventional and E2E models.The figure shows that for an EP90 operating point of 550ms or above, the E2Emodel has a better WER and EP latency tradeoff compared to the conventionalmodel. At the operating point of matching 90% total latency (EP90 latency + 90%2nd-pass rescoring computation latency) of E2E and server models, Table 6 showsE2E gives a 8% relative improvement over conventional, while being more than400-times smaller in size.

但端到端模型真正與業(yè)務(wù)相結(jié)合時,遇到的問題還是很明顯,比如:不同場景下模型需要如何調(diào)整?遇到一些新詞的時候LM如何調(diào)整?針對此類問題,學(xué)術(shù)界和工業(yè)界都在尋找新的解決方案。



百分點科技感知智能實驗室:語音識別技術(shù)發(fā)展階段探究的評論 (共 條)

分享到微博請遵守國家法律
公主岭市| 东阳市| 浏阳市| 武定县| 来安县| 临江市| 西吉县| 阜南县| 水城县| 新龙县| 海丰县| 新邵县| 乐安县| 枝江市| 武义县| 大方县| 奉新县| 临邑县| 喀喇沁旗| 高碑店市| 塔城市| 会同县| 金沙县| 邮箱| 兴义市| 西藏| 钟祥市| 巍山| 沾化县| 孟村| 洞口县| 东城区| 鄂州市| 湖南省| 尉氏县| 达孜县| 喀喇沁旗| 乌拉特中旗| 太谷县| 炎陵县| 阿克苏市|