手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 【音視頻基礎(chǔ)】語音采集與處理

【音視頻基礎(chǔ)】語音采集與處理

2023-06-14 17:48 作者:零聲教育架構(gòu)師 0人讀過 | 我要投稿

原文本文鏈接：https://blog.csdn.net/weixin_44362628/article/details/128323464

1.聲音的三要素

1.1 音調(diào)

音調(diào)，感官的層面上，即指“低沉、刺耳”,物理層面上，即指物體振動的頻率。頻率低則“低沉”，頻率高則刺耳。

人的聲帶振動頻率，約在10hz~10Khz，而人耳的聽力范圍在20hz~20Khz，低于20稱為次聲波，處于其中稱為可聽區(qū)域，超過20稱為超聲波。

1.2 響度

響度，也就是聲音的響亮程度，在物理層面上，指的是物體的振動幅度，幅度越大，響度越大。反之則越小。

1.3 音色

“風(fēng)聲、雨聲、讀書聲”，音色造就不同的聲音底色；從物理層面上。指的是發(fā)聲物體材質(zhì)的不同。

物體整體振動發(fā)出的只是基音，其各部分還有復(fù)合的振動，這些復(fù)合的振動也會發(fā)出聲音并形成泛音，基音+泛音的不同組合就產(chǎn)生了多樣化的音色。

此波形圖可以進行控制變量法查看造成聲音的影響因素。

2.音頻數(shù)字化

聲音由變化的氣壓組成，產(chǎn)生的聲波帶動麥克風(fēng)上的膜片震動，膜片帶動套在磁鐵上的線圈震動，產(chǎn)生了聲音的模擬信號。音頻信號數(shù)字化的過程就是模擬數(shù)據(jù)轉(zhuǎn)換成數(shù)字信號的過程，從以下的這個圖即可看出音頻數(shù)字化的過程。圖波形圖中，取水平橫軸為時間維度，縱軸為幅度維度。

2.1 采樣：以一定采樣率，在時間軸上對模擬信號進行數(shù)字化

將模擬數(shù)據(jù)以固定的時間間隔對聲音進行采樣，按照固定的時間間隔 T（假設(shè) T=0.1s），依次取多個點（如圖中 1~10 所對應(yīng)波上的點）。此時 T 稱為取樣周期，T 的倒數(shù)為本次取樣的采樣率（f=1/T=10Hz），f 即表示每秒鐘進行采樣的次數(shù)，單位為赫茲（Hz）。

人耳能聽到的頻率范圍為20HZ~20KHZ，根據(jù)香農(nóng)奈奎斯特采樣定理（為了不失真地恢復(fù)模擬信號，采樣頻率應(yīng)該大于等于模擬信號頻譜中最高頻率的2倍。f s≥2f max），采樣頻率一般為44.1Khz。然后對音頻進行采樣，測量音頻電平，計算機每隔幾微秒就會抓拍一次信號，比如44.1KHz，即每秒采集44100次。

2.2 量化：以一定精度，在幅度軸上對模擬信號進行數(shù)字化

完成采樣后，接下來進行音頻數(shù)字化的第二步，量化。采樣是在時間軸上對音頻信號進行數(shù)字化，得到多個采樣點；而量化，則是在幅度方向上進行數(shù)字化，得到每個采樣點的幅度值。

如上圖中所示，設(shè)定縱軸的坐標取值范圍為 0 ~8，得到每個采樣點的縱坐標（向上取整），這里的坐標值即為量化后的幅度值。因為我們將幅度軸分為了 8 段，有 8 個值用于量化取整，即本次量化的精度為 8。顯然，如果分段越多，則幅度的量化取值將越準確（取整帶來的誤差就越?。?，也能越好的表示原波形。對于幅度的量化精度，有一個專有術(shù)語描述 —— 位深。

計算機將這些抓拍到的信號轉(zhuǎn)換成數(shù)字，定義振幅的變化。然后對獲取到的數(shù)字進行二進制編碼，代表被測瞬間波形的電壓值，完成量化的過程。

2.3 編碼：按特定格式，記錄采樣/量化后的數(shù)據(jù)

那么如果我們想要將這些聲音再播放出來，需要通過數(shù)模轉(zhuǎn)換器，將數(shù)字信號轉(zhuǎn)換會模擬信號，再由反折疊濾波器對模擬信號內(nèi)的極差加以平滑，還原成初始的模擬信號。

經(jīng)過量化后，我們得到了每個采樣點的幅度值。接下來，就是音頻信號數(shù)字化的最后一步，編碼。編碼是將每個采樣點的幅度量化值，轉(zhuǎn)化為計算機可理解的二進制字節(jié)序列。

如上圖，參照編碼部分的表格，樣本序號為樣本采樣順序，樣本值（十進制）為量化的幅度值。而樣本值（二進制）即為幅度值轉(zhuǎn)換后的編碼數(shù)據(jù)。最終得到了“0”、“1”形式的二進制字節(jié)序列，也即離散的數(shù)字信號。這里得到的，是未經(jīng)壓縮的音頻采樣數(shù)據(jù)裸流，也叫做PCM 音頻數(shù)據(jù)(Pulse Code Modulation，脈沖編碼調(diào)制)。實際應(yīng)用中，往往還會使用其他編碼算法做進一步壓縮。

3 音頻數(shù)字信號質(zhì)量三要素

3.1 采樣率

音頻采樣率，指的是單位時間內(nèi)（1s）對聲音信號的采樣次數(shù)。

對于最大頻率為 f 的音頻信號，當(dāng)我們分別采用 f、2f、4f/3 的采樣率進行采樣時，所得到的采樣結(jié)果參考下圖。顯然，只有當(dāng)采樣率為 2f 時，才能有效的保留原信號特征。采樣率 f 和3f/4 下得到的結(jié)果，都和原波形差別很大。

3.2 采樣位深

在學(xué)習(xí)音頻數(shù)字化過程的“量化”步驟時，就提及了量化精度-位深的概念。采樣位深，指的是在音頻采集量化過程中，每個采樣點幅度值的取值精度，一般使用bit作為單位。比如，當(dāng)采樣位深為 8bit，則每個采樣點的幅度值可以用 2^8=256 個量化值表示；采樣位深為 16bit 時，則每個采樣點的幅度值可以用 2^16=65536 個量化值表示。顯然，16bit 比 8bit 可存儲、表示的數(shù)據(jù)更多、更精細，量化時產(chǎn)生的誤差損失就越小。位深影響聲音的解析精度、細膩程度，我們可以將其理解為聲音信號的“分辨率”，位深越大，音色也越真實、生動。

采樣位深選擇和采樣率的選擇類似，雖然理論上來說位深越大越好，但是綜合帶寬、存儲、實際聽感的考慮，我們應(yīng)該為不同場景選用不同的位深。

3.3 聲道數(shù)

我們常說的單聲道、雙聲道，其實就是在描述一個音頻信號的聲道數(shù).聲道數(shù)一般指聲音采集錄制時的音源數(shù)量或播放時的揚聲器數(shù)量。

3.4 音譜碼率

音頻碼率，又稱為比特率，指的是單位時間內(nèi)（一般為1s）所包含的音頻數(shù)據(jù)量，可以通過公式計算。比如采樣率 44.1K Hz，位深16bit的雙聲道音頻PCM數(shù)據(jù)，它的原始碼率為：原始碼率 = 采樣率/s x 位深/bit x 聲道數(shù) x 時長(1s)

44.1 * 1000 * 16 * 2 * 1 = 1411200 bps = 1411.2 kbps = 1.411 Mbps （bit per second，位/秒）

如果一個PCM文件時長為1分鐘，則傳輸/存儲這個文件需要的數(shù)據(jù)量為：1.411 Mbps * 60s = 86.46Mb。

標簽：C++Java 音視頻音視頻開發(fā)