最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【音視頻基礎(chǔ)】語音采集與處理

2023-06-14 17:48 作者:零聲教育架構(gòu)師  | 我要投稿

原文本文鏈接:https://blog.csdn.net/weixin_44362628/article/details/128323464

1.聲音的三要素

1.1 音調(diào)

音調(diào),感官的層面上,即指“低沉、刺耳”,物理層面上,即指物體振動的頻率。頻率低則“低沉”,頻率高則刺耳。

人的聲帶振動頻率,約在10hz~10Khz,而人耳的聽力范圍在20hz~20Khz,低于20稱為次聲波,處于其中稱為可聽區(qū)域,超過20稱為超聲波。

1.2 響度

響度,也就是聲音的響亮程度,在物理層面上,指的是物體的振動幅度,幅度越大,響度越大。反之則越小。

1.3 音色

“風(fēng)聲、雨聲、讀書聲”,音色造就不同的聲音底色;從物理層面上。指的是發(fā)聲物體材質(zhì)的不同。

物體整體振動發(fā)出的只是基音,其各部分還有復(fù)合的振動,這些復(fù)合的振動也會發(fā)出聲音并形成泛音,基音+泛音的不同組合就產(chǎn)生了多樣化的音色。


此波形圖可以進行控制變量法查看造成聲音的影響因素。

2.音頻數(shù)字化

聲音由變化的氣壓組成,產(chǎn)生的聲波帶動麥克風(fēng)上的膜片震動,膜片帶動套在磁鐵上的線圈震動,產(chǎn)生了聲音的模擬信號。音頻信號數(shù)字化的過程就是模擬數(shù)據(jù)轉(zhuǎn)換成數(shù)字信號的過程,從以下的這個圖即可看出音頻數(shù)字化的過程。圖波形圖中,取水平橫軸為時間維度,縱軸為幅度維度。


2.1 采樣:以一定采樣率,在時間軸上對模擬信號進行數(shù)字化

將模擬數(shù)據(jù)以固定的時間間隔對聲音進行采樣,按照固定的時間間隔 T(假設(shè) T=0.1s),依次取多個點(如圖中 1~10 所對應(yīng)波上的點)。此時 T 稱為取樣周期,T 的倒數(shù)為本次取樣的采樣率(f=1/T=10Hz),f 即表示每秒鐘進行采樣的次數(shù),單位為赫茲(Hz)。

人耳能聽到的頻率范圍為20HZ~20KHZ,根據(jù)香農(nóng)奈奎斯特采樣定理(為了不失真地恢復(fù)模擬信號,采樣頻率應(yīng)該大于等于模擬信號頻譜中最高頻率的2倍。f s≥2f max),采樣頻率一般為44.1Khz。然后對音頻進行采樣,測量音頻電平,計算機每隔幾微秒就會抓拍一次信號,比如44.1KHz,即每秒采集44100次。

2.2 量化:以一定精度,在幅度軸上對模擬信號進行數(shù)字化

完成采樣后,接下來進行音頻數(shù)字化的第二步,量化。采樣是在時間軸上對音頻信號進行數(shù)字化,得到多個采樣點;而量化,則是在幅度方向上進行數(shù)字化,得到每個采樣點的幅度值。

如上圖中所示,設(shè)定縱軸的坐標取值范圍為 0 ~8,得到每個采樣點的縱坐標(向上取整),這里的坐標值即為量化后的幅度值。 因為我們將幅度軸分為了 8 段,有 8 個值用于量化取整,即本次量化的精度為 8。顯然,如果分段越多,則幅度的量化取值將越準確(取整帶來的誤差就越?。?,也能越好的表示原波形。對于幅度的量化精度,有一個專有術(shù)語描述 —— 位深。

計算機將這些抓拍到的信號轉(zhuǎn)換成數(shù)字,定義振幅的變化。然后對獲取到的數(shù)字進行二進制編碼,代表被測瞬間波形的電壓值,完成量化的過程。

2.3 編碼:按特定格式,記錄采樣/量化后的數(shù)據(jù)

那么如果我們想要將這些聲音再播放出來,需要通過數(shù)模轉(zhuǎn)換器,將數(shù)字信號轉(zhuǎn)換會模擬信號,再由反折疊濾波器對模擬信號內(nèi)的極差加以平滑,還原成初始的模擬信號。

經(jīng)過量化后,我們得到了每個采樣點的幅度值。接下來,就是音頻信號數(shù)字化的最后一步,編碼。編碼是將每個采樣點的幅度量化值,轉(zhuǎn)化為計算機可理解的二進制字節(jié)序列。

如上圖,參照編碼部分的表格,樣本序號為樣本采樣順序,樣本值(十進制)為量化的幅度值。而樣本值(二進制)即為幅度值轉(zhuǎn)換后的編碼數(shù)據(jù)。最終得到了“0”、“1”形式的二進制字節(jié)序列,也即離散的數(shù)字信號。這里得到的,是未經(jīng)壓縮的音頻采樣數(shù)據(jù)裸流,也叫做PCM 音頻數(shù)據(jù)(Pulse Code Modulation,脈沖編碼調(diào)制)。實際應(yīng)用中,往往還會使用其他編碼算法做進一步壓縮。

3 音頻數(shù)字信號質(zhì)量三要素

3.1 采樣率

音頻采樣率,指的是單位時間內(nèi)(1s)對聲音信號的采樣次數(shù)。

對于最大頻率為 f 的音頻信號,當(dāng)我們分別采用 f、2f、4f/3 的采樣率進行采樣時,所得到的采樣結(jié)果參考下圖。顯然,只有當(dāng)采樣率為 2f 時,才能有效的保留原信號特征。采樣率 f 和3f/4 下得到的結(jié)果,都和原波形差別很大。


3.2 采樣位深

在學(xué)習(xí)音頻數(shù)字化過程的“量化”步驟時,就提及了量化精度-位深的概念。采樣位深,指的是在音頻采集量化過程中,每個采樣點幅度值的取值精度,一般使用bit作為單位。比如,當(dāng)采樣位深為 8bit,則每個采樣點的幅度值可以用 2^8=256 個量化值表示;采樣位深為 16bit 時,則每個采樣點的幅度值可以用 2^16=65536 個量化值表示。顯然,16bit 比 8bit 可存儲、表示的數(shù)據(jù)更多、更精細,量化時產(chǎn)生的誤差損失就越小。位深影響聲音的解析精度、細膩程度,我們可以將其理解為聲音信號的“分辨率”,位深越大,音色也越真實、生動。

采樣位深選擇和采樣率的選擇類似,雖然理論上來說位深越大越好,但是綜合帶寬、存儲、實際聽感的考慮,我們應(yīng)該為不同場景選用不同的位深。


3.3 聲道數(shù)

我們常說的單聲道、雙聲道,其實就是在描述一個音頻信號的聲道數(shù).聲道數(shù)一般指聲音采集錄制時的音源數(shù)量或播放時的揚聲器數(shù)量。

3.4 音譜碼率

音頻碼率,又稱為比特率,指的是單位時間內(nèi)(一般為1s)所包含的音頻數(shù)據(jù)量,可以通過公式計算。比如采樣率 44.1K Hz,位深16bit的雙聲道音頻PCM數(shù)據(jù),它的原始碼率為:原始碼率 = 采樣率/s x 位深/bit x 聲道數(shù) x 時長(1s)

44.1 * 1000 * 16 * 2 * 1 = 1411200 bps = 1411.2 kbps = 1.411 Mbps (bit per second,位/秒)

如果一個PCM文件時長為1分鐘,則傳輸/存儲這個文件需要的數(shù)據(jù)量為:1.411 Mbps * 60s = 86.46Mb。


【音視頻基礎(chǔ)】語音采集與處理的評論 (共 條)

分享到微博請遵守國家法律
鄂托克旗| 新沂市| 扶沟县| 莱州市| 宁津县| 民和| 措勤县| 儋州市| 明溪县| 香港 | 彭泽县| 阿拉善盟| 梅河口市| 都江堰市| 玉田县| 侯马市| 佛山市| 寿宁县| 阳泉市| 肇庆市| 韩城市| 定兴县| 蒲江县| 石泉县| 玛曲县| 瑞昌市| 孟州市| 资溪县| 林甸县| 普格县| 郓城县| 安新县| 崇左市| 蓝山县| 咸宁市| 岚皋县| 漯河市| 崇州市| 盐城市| 静海县| 眉山市|