散文網(wǎng) » 科技 »數(shù)碼 » 聊一聊一些熒幕和現(xiàn)場(chǎng)背后的音頻故事（8）--好動(dòng)態(tài)vs細(xì)膩感，你更喜歡哪個(gè)？

聊一聊一些熒幕和現(xiàn)場(chǎng)背后的音頻故事（8）--好動(dòng)態(tài)vs細(xì)膩感，你更喜歡哪個(gè)？

2019-10-29 15:12 作者:盲人號(hào) 0人讀過 | 我要投稿

解釋這個(gè)問題之前，我覺得先解釋一下人耳的聽力解構(gòu)和聽覺組成會(huì)比較有效。

雖然就所謂的“動(dòng)感”，“律動(dòng)”，也可以靠震動(dòng)被皮膚感受，但這里只涉及音頻文件的聽感

人接受聽覺信息的主要途徑是通過空氣中傳播的震動(dòng)，在穿過我們的耳道后被我們的聽覺神經(jīng)認(rèn)知，那么，也就是說，我們聽覺能察覺的空氣震動(dòng)頻率也受限于這個(gè)物理結(jié)構(gòu)影響，雖然皮膚等能也能傳遞，但和從聽覺體驗(yàn)到是需要區(qū)別開的。

那，既然聽覺是靠震動(dòng)傳播的。

人耳也有它適用的聽覺頻率范圍 ,這個(gè)頻率范圍在科學(xué)研究下被定義為20hz-20000hz，隨著年齡和使用習(xí)慣的不同，不同人的聽力也會(huì)有不同程度的損耗，比如低頻延展只能到60hz，或高頻聽感只能到17000hz。

而根據(jù)播放設(shè)備的頻響設(shè)計(jì)以及外放設(shè)備存在的所謂泛射現(xiàn)象，所以并不存在所謂完全客觀的“優(yōu)秀”聲學(xué)環(huán)境，那么，我們的討論標(biāo)準(zhǔn)就先集中在所謂的主觀同條件分析上會(huì)比較有效。

泛射現(xiàn)象：衍射現(xiàn)象是指波在傳播過程中遇到障礙物時(shí)，在障礙物的邊緣，一些波偏離直線傳播而進(jìn)入障礙物后面的“陰影區(qū)”的現(xiàn)象。

這個(gè)現(xiàn)象在耳機(jī)和音箱設(shè)備中的體現(xiàn)就是會(huì)產(chǎn)生反射駐波和原聲波抵消或疊加，
這過會(huì)造成所謂不架空的方形音箱和封閉式耳機(jī)的“低頻過多”現(xiàn)象

然后順路我們來解釋一個(gè)概念----hi-fi

hi-fi，是英語High-Fidelity的縮寫，翻譯為“高保真”，其定義是：與原來的聲音高度相似的重放聲音。（這個(gè)從概念上和HDR其實(shí)是一個(gè)意思）

但就像是無論多完美的數(shù)字編碼，根據(jù)實(shí)際播放設(shè)備的不同也會(huì)有不同的表現(xiàn)，因?yàn)閾P(yáng)聲器和耳機(jī)的振膜材質(zhì)，導(dǎo)電銅線圈的繞圈數(shù)量，密度，空氣濕度，環(huán)境反射音等等，所以如果是數(shù)字解碼層面解釋，我們可以說一個(gè)放大器或播放器擁有“高保真”，但卻無法正確去定義所謂的重放高保真。

所以，在實(shí)際對(duì)音頻做后期處理的時(shí)候，如果為了做出差異化，我們必然會(huì)選擇去割舍一部分聽感和信息，以保證在不同播放設(shè)備上能達(dá)到近似的要求。

那么，既然音樂和廣播電視音頻文件本身的文字和學(xué)術(shù)性內(nèi)容不能改變，我們?cè)趺磸男睦韺W(xué)角度去分析一個(gè)音頻如何更加“打動(dòng)人”那？

這里引入2個(gè)名詞，采樣率和動(dòng)態(tài)范圍。

1.動(dòng)態(tài)范圍

這個(gè)詞看起來非常好理解，但實(shí)際應(yīng)用其實(shí)就是利用了這兩者的原理。

我們知道在數(shù)字格式中有所謂8bit，16bit,24bit,32/64bit壓縮深度。

這個(gè)在模擬環(huán)境中就是用來再現(xiàn)聲壓級(jí)的

從聽閾到痛閾，聲壓的絕對(duì)值相差1000000倍。顯然,用聲壓的絕對(duì)值表示聲音的大小是不方便的。為了便于應(yīng)用，人們便根據(jù)人耳對(duì)聲音強(qiáng)弱變化響應(yīng)的特性，引出一個(gè)對(duì)數(shù)量來表示聲音的大小，這就是聲壓級(jí)，單位分貝（dB）,公式SPL=20LOG(10)[p(e)/p(ref)]，符號(hào)SPL，在空氣中參考聲壓p(ref）一般取為2*10E-5帕，這個(gè)數(shù)值是正常人耳對(duì)1千赫聲音剛剛能覺察其存在的聲壓值，也就是1千赫聲音的可聽閾聲壓。一般講，低于這一聲壓值，人耳就再也不能覺察出這個(gè)聲音的存在了。顯然該可聽閾聲壓的聲壓級(jí)即為零分貝。

至于采樣深度，這個(gè)計(jì)算公式是f=采樣深度，動(dòng)態(tài)范圍=20*log(2^f)

簡(jiǎn)單解釋就是，8bit=48db,16bit=96db,24bit=144db,32bit=192db,64bit=385db

那么，采樣深度不同對(duì)聽感有區(qū)別嘛？

有區(qū)別，而且還很明顯，前提是你聽的是真實(shí)的24bit音源和16bit音源，而不是轉(zhuǎn)換的或者是后期混音過的。bit是形容聲音分辨率的，而在錄音的時(shí)候24bit相對(duì)16bit會(huì)減6db錄音。也就是說，聽24bit的音樂可以聽到更多的小聲音和更多的大聲音，細(xì)節(jié)更多了。當(dāng)然這樣可能會(huì)造成你感覺的聲音下沉。但是在實(shí)際情況下96db和140db的信噪比一般人根本聽不出來，事實(shí)上80db以上的信噪比不在安靜環(huán)境下就很難區(qū)分了。?

但是更多的bit不一定就好。美國(guó)人曾經(jīng)發(fā)表過一遍論文，內(nèi)容是邀請(qǐng)了5個(gè)人來試聽24bit和16bit的聲音。5個(gè)人中以音樂工作者為主，但也有普通人。測(cè)試方法是無序多次播放相同音頻的不同版本，讓他們區(qū)分哪一次是24bit，哪一次是16bit。結(jié)論很有意思，100% 的人，包括普通人都可以分辨出24bit和16bit的不同，但是他們說不出來哪個(gè)是24bit哪個(gè)是16bit，之能確定第幾段幾段是一個(gè)版本的，另幾段幾段是另一個(gè)版本的。而且有些覺得聲音更柔美更自然的反而是16bit的音頻。最后，論文闡述了，對(duì)回放而言，并不是bit越高越好，比如舞曲，電音和混音，bit高將會(huì)提供更多的噪音多過聲音的細(xì)節(jié)。而對(duì)于人聲，交響樂之類的器械樂器，高bit將會(huì)提供更好的感受，更多的細(xì)節(jié)。?
所以你能聽出卻別來并不奇怪。

2.采樣率

我們經(jīng)常會(huì)說，這個(gè)人聲更加細(xì)膩，這個(gè)旋律線條感更好，至于這個(gè)線條感，很大程度上就是依靠更高的采樣率來達(dá)到的

采樣頻率，也稱為采樣速度或者采樣率，定義了每秒從連續(xù)信號(hào)中提取并組成離散信號(hào)的采樣個(gè)數(shù)，它用赫茲（Hz）來表示。采樣頻率的倒數(shù)是采樣周期或者叫作采樣時(shí)間，它是采樣之間的時(shí)間間隔。通俗的講采樣頻率是指計(jì)算機(jī)每秒鐘采集多少個(gè)信號(hào)樣本。

連續(xù)信號(hào)在時(shí)間（或空間）上以某種方式變化著，而采樣過程則是在時(shí)間（或空間）上，以T為單位間隔來測(cè)量連續(xù)信號(hào)的值。T稱為采樣間隔。在實(shí)際中，如果信號(hào)是時(shí)間的函數(shù)，通常他們的采樣間隔都很小，一般在毫秒、微秒的量級(jí)。采樣過程產(chǎn)生一系列的數(shù)字，稱為樣本。樣本代表了原來的信號(hào)。每一個(gè)樣本都對(duì)應(yīng)著測(cè)量這一樣本的特定時(shí)間點(diǎn)，而采樣間隔的倒數(shù)，1/T即為采樣頻率，fs，其單位為樣本/秒，即赫茲(hertz)。

8000Hz 電話所用采樣率，對(duì)于人的說話已經(jīng)足夠

11025Hz 獲得的聲音稱為電話音質(zhì)，基本上能讓你分辨出通話人的聲音

22050Hz 無線電廣播所用采樣率，廣播音質(zhì)

32000Hz miniDV數(shù)碼視頻camcorder、DAT(LPmode)所用采樣率

44100Hz 音頻CD，也常用于MPEG-1音頻（VCD，SVCD，MP3）所用采樣率

47250Hz NipponColumbia(Denon)開發(fā)的世界上第一個(gè)商用PCM錄音機(jī)所用采樣率

48000Hz miniDV、數(shù)字電視、DVD、DAT、電影和專業(yè)音頻所用的數(shù)字聲音所用采樣率

50000Hz 二十世紀(jì)七十年代后期出現(xiàn)的3M和Soundstream開發(fā)的第一款商用數(shù)字錄音機(jī)所用采樣率

50400Hz 三菱X-80數(shù)字錄音機(jī)所用所用采樣率

96000或192000Hz DVD-Audio、一些LPCMDVD音軌、BD-ROM（藍(lán)光盤）音軌、和HD-DVD（高清晰度DVD）音軌所用所用采樣率

28224MHz SACD、索尼和飛利浦聯(lián)合開發(fā)的稱為DirectStreamDigital的1位sigma-deltamodulation過程所用采樣率

這里引入一個(gè)概念，奈奎斯特采樣定理（也稱采樣定律）

簡(jiǎn)述的內(nèi)容為，

1.在進(jìn)行模擬/數(shù)字信號(hào)的轉(zhuǎn)換過程中，當(dāng)采樣頻率fs.max大于信號(hào)中最高頻率fmax的2倍時(shí)(fs.max>2fmax)，采樣之后的數(shù)字信號(hào)完整地保留了原始信號(hào)中的信息，一般實(shí)際應(yīng)用中保證采樣頻率為信號(hào)最高頻率的2.56～4倍。

2.如果對(duì)信號(hào)的其它約束是已知的，則當(dāng)不滿足采樣率標(biāo)準(zhǔn)時(shí)，完美重建仍然是可能的。在某些情況下（當(dāng)不滿足采樣率標(biāo)準(zhǔn)時(shí)），利用附加的約束允許近似重建。這些重建的保真度可以使用Bochner定理來驗(yàn)證和量化。

時(shí)域

頻帶為F的連續(xù)信號(hào)f(t)可用一系列離散的采樣值f(t1),f(t1±Δt)，f(t1±2Δt)，...來表示,只要這些采樣點(diǎn)的時(shí)間間隔Δt≤1/(2F)，便可根據(jù)各采樣值完全恢復(fù)原來的信號(hào)f(t)。這是時(shí)域采樣定理的一種表述方式。

時(shí)域采樣定理的另一種表述方式是：當(dāng)時(shí)間信號(hào)函數(shù)f(t)的最高頻率分量為fM時(shí),f(t)的值可由一系列采樣間隔小于或等于1/(2fM)的采樣值來確定,即采樣點(diǎn)的重復(fù)頻率f≥(2fM)。圖為模擬信號(hào)和采樣樣本的示意圖。

時(shí)域采樣定理是采樣誤差理論、隨機(jī)變量采樣理論和多變量采樣理論的基礎(chǔ)。

頻域

對(duì)于時(shí)間上受限制的連續(xù)信號(hào)f(t)（即當(dāng)│t│>T時(shí),f(t)=0,這里T=T2-T1是信號(hào)的持續(xù)時(shí)間），若其頻譜為F（ω）,則可在頻域上用一系列離散的采樣值來表示,只要這些采樣點(diǎn)的頻率間隔ω≦π / tm 。

回到一開始的疑問，人耳聽力范圍是從20hz-20000hz，為什么這個(gè)采樣深度是從44100hz開始計(jì)算的？

1.采樣是將一個(gè)信號(hào)（即時(shí)間或空間上的連續(xù)函數(shù)）轉(zhuǎn)換成一個(gè)數(shù)值序列（即時(shí)間或空間上的離散函數(shù)）

2.采樣定理是指，如果信號(hào)帶寬不到采樣頻率的一半（即奈奎斯特頻率），那么此時(shí)這些離散的采樣點(diǎn)能夠完全表示原信號(hào)。高于或處于采樣頻率的頻率分量會(huì)導(dǎo)致混疊現(xiàn)象。大多數(shù)應(yīng)用都要求避免混疊，混疊問題的嚴(yán)重程度與這些混疊頻率分量的相對(duì)強(qiáng)度有關(guān)。

3.混疊

如果不能滿足上述采樣條件，采樣后信號(hào)的頻率就會(huì)重疊?，即高于采樣頻率一半的頻率成分將被重建成低于采樣頻率一半的信號(hào)。這種頻譜的重疊導(dǎo)致的失真稱為混疊，而重建出來的信號(hào)稱為原信號(hào)的混疊替身，因?yàn)檫@兩個(gè)信號(hào)有同樣的樣本值。

一個(gè)頻率正好是采樣頻率一半的弦波信號(hào)，通常會(huì)混疊成另一相同頻率的波弦信號(hào)，但它的相位和幅度改變了。

以下兩種措施可避免混疊的發(fā)生：

1）提高采樣頻率，使之達(dá)到最高信號(hào)頻率的兩倍以上；

2）引入低通濾波器或提高低通濾波器的參數(shù)；該低通濾波器通常稱為抗混疊濾波器

抗混疊濾波器可限制信號(hào)的帶寬，使之滿足采樣定理的條件。從理論上來說，這是可行的，但是在實(shí)際情況中是不可能做到的。因?yàn)闉V波器不可能完全濾除奈奎斯特頻率之上的信號(hào)，所以，采樣定理要求的帶寬之外總有一些“小的”能量。不過抗混疊濾波器可使這些能量足夠小，以致于可忽略不計(jì)。

4.減采樣

當(dāng)一個(gè)信號(hào)被減采樣?時(shí)，必須滿足采樣定理以避免混疊。為了滿足采樣定理的要求，信號(hào)在進(jìn)行減采樣操作前，必須通過一個(gè)具有適當(dāng)截止頻率的低通濾波器。這個(gè)用于避免混疊的低通濾波器，稱為抗混疊濾波器。

濾波器：濾波器是一種選頻裝置，可以使信號(hào)中特定的頻率成分通過，而極大地衰減其他頻率成分。利用濾波器的這種選頻作用，可以濾除干擾噪聲或進(jìn)行頻譜分析。

最終：回歸到實(shí)際應(yīng)用，我們常見的平臺(tái)流通音頻格式有

1.mp3? ? ? ?2.wav? ? ?3.flac? ? 4.aac

其中有損壓縮1.mp3? ? ? 2.aac

無損壓縮：? ? 1.wav? ? ??2.flac

mp3:我們先默認(rèn)編碼率為主流宿主常用的320k,

我們可以發(fā)現(xiàn)，mp3的編碼格式可以記錄到32位浮點(diǎn)的信息，也就是說可以記錄168dB的動(dòng)態(tài)范圍，相對(duì)因?yàn)檫@是個(gè)有損壓縮，所以采樣率方面是一定被損耗了的，就不針對(duì)討論了。

2.flac??

這就是我們?cè)诰W(wǎng)易云音樂，人稱云村上最常見的格式，（我尋思可能是因?yàn)槿菀组_發(fā)？）

水果軟件對(duì)這個(gè)編碼格式的導(dǎo)出深度是到24bit為止，這個(gè)數(shù)值也和大部分用戶所用集成聲卡播放設(shè)備所對(duì)應(yīng)，可以記錄到144db，同時(shí)因?yàn)閒lac的解碼速度比較快，這就非常合適于傳播在主流解碼播放器。

3.wav

這個(gè)就不重點(diǎn)討論了，因?yàn)槭抢吓茐嚎s格式，如果真的想相對(duì)無損，壓成它就行了，但因?yàn)槎啻螇嚎s是一定會(huì)讓音頻文件失真的，所以如果為了方便保存，我還是建議保存原混音和錄音工程。

4.AAC

這個(gè)是基于MPEG-2的音頻編碼技術(shù)，開發(fā)的壓縮格式，2000年，MPEG-4標(biāo)準(zhǔn)出現(xiàn)后，AAC重新集成了其特性，加入了SBR技術(shù)和PS技術(shù)，為了區(qū)別于傳統(tǒng)的MPEG-2 AAC又稱為MPEG-4?AAC。

也是我們最熟悉的mp4/h,264/h.265視頻編碼格式最常用的音頻壓縮格式。

這里再引入一個(gè)概念，聲卡的數(shù)模轉(zhuǎn)換能力

我們的主流聲卡甚至是集成聲卡，

他們都支持到44100/48000hz，16/24bit

所以我們得出了以下結(jié)論

1。為什么有更好的決策，大部分音樂制作人和混音師都決定了用44100HZ/16bit的wav壓縮格式去壓縮（CD壓縮格式）

2.似乎對(duì)于播放來說更好的比起更好的解析度和采樣率，更充足的動(dòng)態(tài)更適合在網(wǎng)絡(luò)和在線平臺(tái)傳播，所以高采樣深度的mp3依舊是網(wǎng)絡(luò)音頻文件的主要傳播格式（土嗨警告）

3.因?yàn)槲覀兊牟シ旁O(shè)備大部分都是耳機(jī)/立體聲揚(yáng)聲器，所以5.1的壓縮格式是非常沒有必要性的

4.AVI是一種能夠壓入WAV音頻格式的視頻封裝，但在網(wǎng)絡(luò)平臺(tái)傳播似乎沒有適合于存儲(chǔ)大量AVI視頻的平臺(tái)和高速解碼的播放器,所以，至少在現(xiàn)在,h.264和flv都還是主流格式

5.既然選擇去壓制這段音頻請(qǐng)用正確的思路去制作，給觀看者一個(gè)“正確”的理解觀是每個(gè)文化傳播者應(yīng)該有的義務(wù)

下次再見

標(biāo)簽：