python 進行音頻處理會有什么效果
實驗內(nèi)容:
學(xué)習(xí)音頻相關(guān)知識點,掌握 MFCC 特征提取步驟,使用給定的 chew.wav 音頻文件進行特征提取。音頻文件在實驗群里下載。
部署 KALDI,簡要敘述部署步驟運行 yes/no 項目實例,簡要解析發(fā)音詞典內(nèi)容,畫出初步的 WFST 圖(按 PPT 里圖的形式)。
調(diào)整并運行 TIMIT 項目,將命令行輸出的過程與 run.sh 各部分進行對應(yīng),敘述頂層腳本run.sh 的各部分功能(不需要解析各訓(xùn)練過程的詳細原理)。

原理分析:
對 chew.wav 進行特征提取聲音信號本是一維時域信號(聲音信號隨時間變化),我們可以通過傅里葉變換將其轉(zhuǎn)換到頻域上,但這樣又失去了時域信息,無法看出頻率分布隨時間的變化。短時傅里葉(STFT)就是為了解決這個問題而發(fā)明的常用手段。
所謂的短時傅里葉變換,即把一段長信號分幀、加窗,再對每一幀做快速傅里葉變換(FFT),最后把每一幀的結(jié)果沿另一個維度堆疊起來,得到類似于一幅圖的二維信號形式。
?

對語音信號進行分幀處理;
用周期圖(periodogram)法來進行功率譜(power spectrum)估計;
對功率譜用 Mel 濾波器組進行濾波,計算每個濾波器里的能量;
對每個濾波器的能量取 log;
進行離散余弦變換(DCT)變換;
保留 DCT 的第 2-13 個系數(shù),去掉其它。
WRITE-BUG研發(fā)團隊衷心希望【W(wǎng)RITE-BUG數(shù)字空間】可以給每位同學(xué)一個屬于自己的秘密空間,同時祝愿大家在“公開圈子”世界里,遇見志同道合的伙伴們,因為我們與大家一樣,都曾孤獨前行著 。
標(biāo)簽: