現(xiàn)代語音信號處理理論與技術(shù)
鏈接:https://pan.baidu.com/s/1PkKCX4AQCvsm8_0XJE8sHg?pwd=2nqw?
提取碼:2nqw

?內(nèi)容簡介本書系統(tǒng)介紹了語音信號處理的基礎(chǔ)、原理、方法、應用、新理論、新技術(shù)、前沿領(lǐng)域及研展,以及背景知識、研究現(xiàn)狀、應用前景和發(fā)展趨勢。全書分三篇共18章。篇語音信號處理基礎(chǔ)括第1章緒論,第2章語音信號處理的基礎(chǔ)知識;第二篇語音信號分析括第3章時域分析,第4章短時傅里葉分析,第5章倒譜分析與同態(tài)濾波,第6章線性預測分析,第7章語音信號的非線性分析,第8章語音聲學參數(shù)檢測與估計,第9章矢量量化,第10章隱馬爾可夫模型;第三篇語音信號處理技術(shù)與應用括第11章語音編碼,第12章語音合成,第13章語音識別,第14章說話人識別和語種辨識,第15章智能信息處理技術(shù)在語音信號處理中的應用,第16章語音,第17章麥克風陣列語音信號處理,第18章語音信息對抗。本書體系完整,結(jié)構(gòu)嚴謹,系統(tǒng)性強,原理闡述透徹,內(nèi)容繁簡適中,豐富而新穎,聯(lián)系實際應用。本書可作為高等院校信號與信息處理、通信與電子工程、電路與系統(tǒng)、模式識別與人工智能等專業(yè)及學科高年級本科生及研究生的教材,也可供該領(lǐng)域的科研及工程技術(shù)人員參考。
??目錄篇語音信號處理基礎(chǔ)
第1章緒論1
1.1語音信號處理的發(fā)展歷史1
1.2語音信號處理的主要研究內(nèi)容及發(fā)展概況3
1.3本書的內(nèi)容7
思考與復
第2章語音信號處理的基礎(chǔ)知識9
2.1概述9
2.2語音產(chǎn)生的過程9
2.3語音信號的特性12
2.3.1語言和語音的基本特性12
2.3.2語音信號的時間波形和頻譜特性13
2.3.3語音信號的統(tǒng)計特性15
2.4語音產(chǎn)生的線性模型16
2.4.1激勵模型17
2.4.2聲道模型18
2.4.3輻射模型
2.4.4語音信號數(shù)字模型
2.5語音產(chǎn)生的非線性模型21
2.5.1FM-AM模型的基本原理22
2.5.2Teager能量算子22
2.5.3能量分離算法23
2.5.4FM-AM模型的應用24
2.6語音感知24
2.6.1聽覺系統(tǒng)24
2.6.2神經(jīng)系統(tǒng)25
2.6.3語音感知26
思考與復9
第二篇語音信號分析
第3章時域分析30
3.1概述30
3.2數(shù)字化和預處理31
3.2.1取樣率和量化字長的選擇31
3.2.2預處理33
3.3短時能量分析34
3.4短時過零分析36
3.5短時相關(guān)分析39
3.5.1短時自相關(guān)函數(shù)39
3.5.2修正的短時自相關(guān)函數(shù)40
3.5.3短時平均幅差函數(shù)41
3.6語音端點檢測42
3.6.1雙門限前端檢測43
3.6.2多門限過零率前端檢測43
3.6.3基于FM-AM模型的端點檢測43
3.7基于高階累積量的語音端點檢測44
3.7.1噪聲環(huán)境下的端點檢測44
3.7.2高階累積量與高階譜44
3.7.3基于高階累積量的端點檢測46
思考與復8
第4章短時傅里葉分析50
4.1概述50
4.2短時傅里葉變換50
4.2.1短時傅里葉變換的定義50
4.2.2傅里葉變換的解釋51
4.2.3濾波器的解釋54
4.3短時傅里葉變換的取樣率55
4.4語音信號的短時綜合56
4.4.1濾波器組求和法56
4.4.2FFT求和法58
4.5語譜圖59
思考與復1
第5章倒譜分析與同態(tài)濾波62
5.1概述62
5.2同態(tài)信號處理的基本原理62
5.3復倒譜和倒譜63
5.4語音信號兩個卷積分量復倒譜的性質(zhì)
5.4.1聲門激勵信號
5.4.2聲道沖激響應序列65
5.5避免相位卷繞的算法66
5.5.1微分法67
5.5.2小相位信號法67
5.5.3遞推法69
5.6語音信號復倒譜分析實例70
5.7Mel頻率倒譜系數(shù)72
思考與復3
第6章線性預測分析74
6.1概述74
6.2線性預測分析的基本原理74
6.2.1基本原理74
6.2.2語音信號的線性預測分析75
6.3線性預測方程組的建立76
線性預測分析的解法(1)——自相關(guān)和協(xié)方差法77
.1自相關(guān)法78
.2協(xié)方差法79
.3自相關(guān)和協(xié)方差法的比較80
6.5線性預測分析的解法(2)——格型法81
6.5.1格型法基本原理81
6.5.2格型法的求解83
6.6線性預測分析的應用——LPC譜估計和LPC復倒譜85
6.6.1LPC譜估計85
6.6.2LPC復倒譜87
6.6.3LPC譜估計與其他譜分析方法的比較88
6.7線譜對(LSP)分析89
6.7.1線譜對分析原理89
6.7.2線譜對參數(shù)的求解91
6.8極零模型91
思考與復3
第7章語音信號的非線性分析94
7.1概述94
7.2時頻分析94
7.2.1短時傅里葉變換的局限95
7.2.2時頻分析96
7.3小波分析97
7.3.1概述97
7.3.2小波變換的定義97
7.3.3典型的小波函數(shù)99
7.3.4離散小波變換100
7.3.5小波多分辨分析與Mallat算法100
7.4基于小波的語音分析101
7.4.1語音分解與重構(gòu)101
7.4.2清/濁音判斷102
7.4.3語音去噪102
7.4.4聽覺系03
7.4.5小變換在語音端點檢測中的應用103
7.5混沌與分形104
7.6基于混沌的語音分析105
7.6.1語音信號的混沌性105
7.6.2語音信號的相空間重構(gòu)106
7.6.3語音信號的Lyapunov指數(shù)108
7.基于混沌的語音、噪聲判別109
7.7基于分形的語音分析110
7.7.1概述110
7.7.2語音信號的分形特征110
7.7.3基于分形的語音分割111
7.8壓縮感知113
7.9語音信號的壓縮感知114
7.9.1語音信號的稀疏性114
7.9.2語音壓縮感知的實現(xiàn)114
7.9.3需一步解決的問題116
思考與復17
第8章語音聲學參數(shù)檢測與估計118
8.1基音估計118
8.1.1自相關(guān)法119
8.1.2并行處理法121
8.1.3倒譜法122
8.1.4簡化逆濾波法124
8.1.5高階累積量法127
8.1.6小波變換法127
8.1.7基音檢測的后處理128
8.2共振峰估計129
8.2.1帶通濾波器組法129
8.2.2DFT法130
8.2.3倒譜法131
8.2.4LPC法133
8.2.5FM-AM模型法134
思考與復35
第9章矢量量化136
9.1概述136
9.2矢量量化的基本原理137
9.3失真測度138
9.3.1歐氏距離——均方誤差139
9.3.2LPC失真測度139
9.3.3識別失真測度141
9.4很好矢量量化器和碼本的設(shè)計141
9.4.1矢量量化器很好設(shè)計的兩個條件141
9.4.2LBG算法142
9.4.3初始碼書生成142
9.5降低復雜度的矢量量化系43
9.5.1無記憶的矢量量化系44
9.5.2有記憶的矢量量化系46
9.6語音參數(shù)的矢量量化148
9.7智能信息處理在矢量量化中的應用策略149
思考與復50
第10章隱馬爾可夫模型151
10.1概述151
10.2隱馬爾可夫模型的引入152
10.3隱馬爾可夫模型的定義154
10.4隱馬爾可夫模型三個問題的求解155
10.4.1概率的計算156
10.4.2HMM的識別158
10.4.3HMM的159
10.4.4EM算法160
10.5HMM的選取161
10.5.1HMM的類型選擇161
10.5.2輸出概率分布的選取162
10.5.3狀態(tài)數(shù)的選取162
10.5.4初值選取162
10.5.5準則的選取1
10.6HMM應用與實現(xiàn)中的一些問題165
10.6.1數(shù)據(jù)下溢165
10.6.2多輸出(觀察矢量序列)情況165
10.6.3數(shù)據(jù)不足166
10.考慮狀態(tài)持續(xù)時間的HMM167
10.7HMM的結(jié)構(gòu)和類型169
10.7.1HMM的結(jié)構(gòu)169
10.7.2HMM的類型171
10.7.3按輸出形式分類172
10.8HMM的相似度比較173
思考與復74
第三篇語音信號處理技術(shù)與應用
第11章語音編碼175
11.1概述175
11.2語音信號的壓縮編碼原理177
11.2.1語音壓縮的基本原理177
11.2.2語音通信中的語音質(zhì)量178
11.2.3兩種壓縮編碼方式179
11.3語音信號的波形編碼179
11.3.1PCM及APCM179
11.3.2預測編碼及自適應預測編碼182
11.3.3ADPCM及ADM184
11.3.4子帶編碼(SBC)186
11.3.5自適應變換編碼(ATC)188
11.4聲碼器190
11.4.1概述190
11.4.2聲碼器的基本結(jié)構(gòu)191
11.道聲碼器191
11.4.4同態(tài)聲碼器193
11.5LPC聲碼器194
11.5.1LPC參數(shù)的變換與量化195
11.5.2LPC-10196
11.5.3LPC-10e197
11.5.4變幀率LPC聲碼器198
11.6各種常規(guī)語音編碼方法的比較198
11.6.1波形編碼的信號壓縮技術(shù)198
11.6.2波形編碼與聲碼器的比較199
11.6.3各種聲碼器的比較199
11.7基于LPC模型的混合編碼0
11.7.1混合編碼采用的技術(shù)1
11.7.2MPLPC3
11.7.3RPELPC6
11.7.4CELP7
11.7.5CELP的形式210
11.7.6基于分形碼本的CELP212
11.8基于正弦模型的混合編碼213
11.8.1正弦變換編碼214
11.8.2多帶激勵(MBE)編碼214
11.9極低速率語音編碼216
11.9.1(400~1.2k)b/s數(shù)碼率的聲碼器216
11.9.2識別-合成型聲碼器217
11.10語音壓縮感知編碼218
11.11語音編碼的性能指標219
11.12語音編碼的質(zhì)量評價2
11.12.1主觀評價方法221
11.12.2客觀評價方法222
11.12.3主客觀評價方法的結(jié)合225
11.12.4基于多重分形的語音質(zhì)量評價226
11.13語音編碼國際標準227
11.14語音編碼與圖像編碼的關(guān)系227
小結(jié)228
思考與復29
第12章語音合成230
12.1概述230
12.2語音合成原理231
12.2.1語音合成的方法231
12.2.2語音合成的系統(tǒng)特性233
12.3共振峰合成233
12.3.1共振峰合成原理233
12.3.2共振峰合成實例235
12.4LPC合成236
12.5PSOLA語音合成238
12.5.1概述238
12.5.2PSOLA的原理238
12.5.3PSOLA的實現(xiàn)239
12.5.4PSOLA的241
12.5.5PSOLA語音合成系統(tǒng)的發(fā)展241
12.6文語轉(zhuǎn)換系統(tǒng)242
12.6.1組成與結(jié)構(gòu)242
12.6.2文本分析242
12.6.3韻律控制244
12.語音合成246
12.6.5TTS系統(tǒng)的一些問題247
12.7基于HMM的參數(shù)化語音合成248
12.8語音合成的發(fā)展趨勢252
12.9語音合成硬件簡介253
思考與復54
第13章語音識別255
13.1概述255
13.2語音識別原理258
13.3動態(tài)時間規(guī)整262
13.4基于有限狀態(tài)矢量量化的語音識別2
13.5孤立詞識別系統(tǒng)265
13.6連接詞識別268
13.6.1基本原理268
13.6.2基于DTW的連接詞識別269
13.6.3基于HMM的連接詞識別271
13.基于分段K-均值的很好詞串分割及模型271
13.7連續(xù)語音識別272
13.7.1連續(xù)語音識別存在的困難272
13.7.2連續(xù)語音識別的及識別方法273
13.7.3連續(xù)語音識別的整體模型274
13.7.4基于HMM統(tǒng)一框架的大詞匯非特定人連續(xù)語音識別275
13.7.5聲學模型276
13.7.6語言學模型278
13.7.7很優(yōu)路徑搜索280
13.8魯棒的語音識別282
13.9分形語音識別284
13.10說話人自適應285
13.10.1MAP算法285
13.10.2基于變換的自適應方法286
13.10.3基于說話人分類的自適應方法286
13.11關(guān)鍵詞確認287
13.12可視語音識別289
13.12.1概述289
13.12.2機器自動唇讀290
13.12.3雙模語音識別291
13.13語音理解294
13.13.1MAP語義解碼295
13.13.2語義結(jié)構(gòu)的表示295
13.13.3意圖解碼器296
小結(jié)297
思考與復97
第14章說話人識別和語種辨識299
14.1概述299
14.2特征選取300
14.2.1說話人識別所用的特征300
14.2.2特征類型的優(yōu)選準則301
14.2.3常用的特征參數(shù)302
14.3說話人識別系統(tǒng)的結(jié)構(gòu)302
14.4說話人識別基本方法概述303
14.5說話人識別系統(tǒng)實例304
14.5.1DTW系統(tǒng)304
14.5.2VQ系統(tǒng)305
14.6基于HMM的說話人識別306
14.7基于GMM的說話人識別309
14.8需一步研究的問題311
14.9語種辨識312
思考與復15
第15章智能信息處理技術(shù)在語音信號處理中的應用316
15.1神經(jīng)網(wǎng)絡(luò)316
15.1.1人工神經(jīng)網(wǎng)絡(luò)316
15.1.2語音處理中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)319
15.2神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)方法結(jié)合的策略324
15.2.1概述324
15.2.2神經(jīng)網(wǎng)絡(luò)與DTW325
15.2.3神經(jīng)網(wǎng)絡(luò)與VQ325
15.2.4神經(jīng)網(wǎng)絡(luò)與HMM326
15.3基于神經(jīng)網(wǎng)絡(luò)的語音處理327
15.3.1語音識別327
15.3.2說話人識別329
15.3.3非線性預測編碼330
15.3.4語音合成333
15.4支持向量機334
15.4.1概述334
15.4.2工作原理335
15.5基于支持向量機的語音識別與說話人識別337
15.5.1語音分類337
15.5.2說話人辨認338
15.5.3說話人確認339
15.6深度學0
15.7基于深度學音識別341
15.7.1基于深度神經(jīng)網(wǎng)絡(luò)341
15.7.2基于卷積神經(jīng)網(wǎng)絡(luò)342
15.8模糊集343
15.9基于模糊集的語音處理344
15.9.1模糊語音識別策略344
15.9.2模糊矢量量化345
15.10遺傳算法345
15.11遺傳矢量量化347
15.12其他智能優(yōu)化算法在語音處理中的應用348
15.13語音處理中智能信息處理技術(shù)的融合與集成策略350
15.14智能信息處理與非線性技術(shù)的結(jié)合及在語音處理中的應用352
15.14.1神經(jīng)網(wǎng)絡(luò)與混沌和分形352
15.14.2基于混沌神經(jīng)網(wǎng)絡(luò)的語音識別353
15.14.3遺傳算法與混沌355
15.14.4神經(jīng)網(wǎng)絡(luò)與小波355
思考與復55
第16章語音357
16.1概述357
16.2語音、人耳感知及噪聲的特性358
16.3固定濾波法359
1非線性處理360
16.5減譜法361
16.5.1基本原理361
16.5.2形式362
16.6相關(guān)對消法363
16.7自適應濾波法363
16.7.1自適應濾波363
16.7.2維納濾波3
16.7.3自適應噪聲對消365
16.8基于語音產(chǎn)生模型的語音367
16.8.1優(yōu)選后驗概率估計367
16.8.2卡爾曼濾波368
16.9小波方法369
16.9.1原理369
16.9.2小波語音369
16.9.3小語音371
16.10子空間分解方法372
16.11其他語音方法375
16.11.1神經(jīng)網(wǎng)絡(luò)方法375
16.11.2HMM方法376
16.11.3基于聽覺感知的方法376
16.11.4壓縮感知方法376
思考與復77
第17章麥克風陣列語音信號處理378
17.1概述378
17.2技術(shù)難點379
17.3聲源定位380
17.3.1去混響380
17.3.2近場模型381
17.3.3波束形成交叉定位382
17.3.4超分辨交叉定位383
17.3.5TDOA定位383
17.3.6幾類定位方法的比較385
17.4基于麥克風陣列的語音386
17.4.1概述386
17.4.2波束形成法387
17.4.3波束形成法與自適應濾波的結(jié)合388
17.4.4自適應波束形成法388
17.4.5新方391
17.4.6應用391
17.4.7與單通道方法相比較的優(yōu)勢392
17.5語音盲分離393
17.5.1概述393
17.5.2瞬時線性混合模型394
17.5.3卷積混合模型398
17.5.4非線性混合模型400
17.5.5需一步研究的問題401
思考與復01
第18章語音信息對抗403
18.1語音偵察與欺騙403
18.2語音通信反偵察403
18.2.1語音保密通信404
18.2.2語音隱蔽通信405
18.3語音信息406
18.3.1語音信息隱藏406
18.3.2語音數(shù)字水印408
18.4語音409
18.4.1語音的特征409
18.4.2語音效能評估410
18.5基于語音處理技術(shù)的戰(zhàn)場聲目標識別413
思考與復15
漢英名詞術(shù)語對照416
參考文獻42
現(xiàn)代語音信號處理理論與技術(shù)的評論 (共 條)
