抖一抖,細(xì)節(jié)有——數(shù)字音頻的抖動(dòng)

量化誤差是數(shù)字音頻對(duì)模擬音頻的記錄中,不可避免的一個(gè)問題。通過抖動(dòng)技術(shù),可以在一定程度上規(guī)避量化噪聲的影響,獲得更加完整的音頻體驗(yàn)。根據(jù)我的觀察,“抖動(dòng)”這個(gè)概念仍然存在曲解和誤讀,因此我認(rèn)為有必要寫一篇文章講講。
?
1.?量化過程存在的問題
我在關(guān)于采樣中的量化的文章中,講過什么是量化、量化會(huì)帶來什么問題,如果需要復(fù)習(xí)可以參考《兩耳不聞白噪聲?采樣率、動(dòng)態(tài)范圍與實(shí)際應(yīng)用》一文。簡單來說,量化是為了讓模擬信號(hào)可以用數(shù)字的方式記錄下來,由于數(shù)字的記錄是“分立的”,模擬信號(hào)是“連續(xù)的”,所以為了記錄模擬信號(hào),我們必須容忍四舍五入過程中的誤差。

這樣的舍入量化帶來的誤差在大多數(shù)情況下可以類比于白噪聲,也就是每個(gè)頻率的能量都均勻分布:


上面的量化噪聲是來自一個(gè)吉他錄音的,吉他的頻率分布并不是寬譜的,而是多數(shù)集中在中高頻。所以量化噪聲并不是嚴(yán)格的白噪聲。真正的白噪聲的波形和頻譜是:

更極端的例子是正弦波的量化誤差:
?

由于正弦波存在周期性,且頻率單一,因此它的量化噪聲不再是白噪聲,而是和正弦波的頻率相關(guān)。因此它的量化噪聲并不會(huì)像白噪聲一樣“淹沒在不經(jīng)意間”,而是會(huì)伴隨著正弦波的頻率一直干擾你的聽覺。?
聽聽看降低比特后,量化噪聲對(duì)聽覺的干擾吧,以下例子是一個(gè)100Hz到440Hz掃頻的正弦波,首先是原始音頻:?

降比特到4bit后的音頻:

可以明顯聽到量化噪聲和原始音頻是相關(guān)的。只不過大多情況下我們不會(huì)聽到單音,所以量化噪聲接近于白噪聲。?
白噪聲是生活中常見的噪聲,由于沒有顯著頻率突出,它更加“低調(diào)”。因此我們要想辦法讓量化噪聲不要太突出,因此我們需要——抖動(dòng)。
?
2.?抖動(dòng)的意義
?
抖動(dòng)這個(gè)詞的翻譯屬于是,理解的人覺得很貼切,不理解的人則不知所云。為了更好地解釋,讓我們用圖像領(lǐng)域的應(yīng)用舉個(gè)例子吧。?我隨手在我桌子上拍下我的杯子:
?

熟練掌握Word/WPS的同學(xué)應(yīng)該知道這四個(gè)圖形選項(xiàng):

?
灰度,就是把圖片弄成灰白色:

而黑白,就是直接四舍五入,暗的和比較暗的,都變成黑的;亮的和比較亮的,都變成白的,簡單粗暴:

相比之下,灰度肯定比黑白看得到更多細(xì)節(jié)。?
這個(gè)過程是不是有點(diǎn)熟悉?灰度照片里,為什么能記錄那么清晰的細(xì)節(jié)呢?因?yàn)殡娔X用8bit的數(shù)據(jù)來記錄每個(gè)像素點(diǎn)的灰度值,告訴你黑的有多黑,白的有多白,不黑不白的地方也能給你安排出個(gè)分級(jí)。8bit可以記錄256個(gè)量化等級(jí),所以每個(gè)像素可以有256個(gè)不同的灰度值,動(dòng)態(tài)范圍也足夠表現(xiàn)圖片細(xì)節(jié)了。而黑白圖片則是簡單粗暴地用1bit來記錄圖象,非黑即白。?
數(shù)字技術(shù)其實(shí)是共通的。?
可惜的是,這個(gè)杯子有太多細(xì)節(jié)在黑白圖中被隱藏了。我們能大概知道光影的變化,但是其他的信息完全丟失,有沒有辦法讓黑白圖保留更多一些的細(xì)節(jié)呢?有。?
首先,在原始圖片上疊加一層隨機(jī)的白噪聲(每個(gè)像素點(diǎn)的灰度值都要疊加):

雖然疊加噪聲會(huì)影響畫質(zhì),但是這是節(jié)約文件大小必須付出的代價(jià)。對(duì)這張照片進(jìn)行黑白處理之后,我們會(huì)得到——
?

杯子的細(xì)節(jié)保留下來了,書桌的光影變化也保存下來了,鍵盤的細(xì)節(jié)也可以看到,甚至還能看到桌子上的木紋。?對(duì)彩色照片同樣有這樣的處理:

像這樣,在降低比特深度的操作之前,提前加入一層噪聲,然后再降比特,可以獲得相比不加噪聲更多的細(xì)節(jié),這就是抖動(dòng)。?音頻技術(shù)中的抖動(dòng)也是如此。
3.?音頻中的抖動(dòng)
?
音頻降低比特會(huì)產(chǎn)生量化噪聲。在這一步之前可以先疊加一層噪聲,再進(jìn)行量化,會(huì)使得量化噪聲不再明顯,而且有可能保留更多的信息。疊加的噪聲的功率應(yīng)該不大不小,恰好分布在最低一級(jí)量化單位上。?還記得這個(gè)鋼琴嗎:

干凈的和弦尾音,還有一個(gè)踏板聲。頻譜如下:

?
如果直接對(duì)它進(jìn)行降比特,則會(huì)產(chǎn)生標(biāo)題1中提到的,相關(guān)性的量化噪聲:


用抖動(dòng)的思路,疊加一層8bit的專屬白噪聲(注意此時(shí)文件還是24bit):


?
在此基礎(chǔ)上降比特,聽起來尾音可以一直保留了:


此時(shí)的頻譜和24bit下相差無幾,低能量部分也可以保存下來!最后的踏板聲得以保留。但是聽起來還是很吵啊,噪聲干擾太大了。?
聰明的工程師們想到了人耳的聽覺特點(diǎn),眾所周知的等響曲線告訴我們,人耳對(duì)不同頻率的聲音敏感度不同,尤其是極高頻(大于16kHz),很多人已經(jīng)聽不到了。
?

換個(gè)思路,我們同樣疊加進(jìn)一段噪聲,但是這段噪聲并不是常用的白噪聲,而是把人耳敏感的頻率能量分配多一些給不敏感的頻段,這樣就可以在實(shí)現(xiàn)抖動(dòng)的作用的同時(shí),還能保證人耳聽到的部分盡量干凈。?
因此出現(xiàn)了新的方法:噪聲整形(Noise Shaping)。?
不同的整形方式各不相同,但是基本思路都一樣——中高頻減少,極高頻增加。有點(diǎn)增加采樣率來提升信噪比的意思了。(可以參考之前文章)
?iZotope公司的Ozone母帶插件提供完整的Dither工具,如圖中的Noise Shaping部分,從Off(不整形,完全白噪聲)到Max(高度扭曲的頻譜,高頻區(qū)有大量能量存余),代表著這個(gè)流程的不同程度。應(yīng)當(dāng)結(jié)合實(shí)際歌曲需要來調(diào)整。


?
聽聽看經(jīng)過噪聲整形后的低比特音頻吧:

?
可以從波形看到,由于高頻信號(hào)的增加,噪音區(qū)的振幅增大了,不再是嚴(yán)格的1量化單位。但是聽起來反而不太吵。

這是最強(qiáng)的噪聲整形的音頻:

?
高頻區(qū)域已經(jīng)報(bào)警了。而且整個(gè)波形都淹沒在噪聲中,看不到衰減的趨勢。但是不要被波形騙了,從頻譜可以看到,中低頻的部分會(huì)更加清晰。但是相比上面的音頻,低頻更多了。這是一個(gè)取舍的過程,找到最適合歌曲的整形方式即可。
?

總的來說,抖動(dòng)就是通過增加一層不太明顯的噪聲,使得歌曲信息不會(huì)因?yàn)榱炕a(chǎn)生過分的扭曲,可以盡可能地保留信息量。雖然抖動(dòng)對(duì)音頻本身是一種破壞,但在降比特的時(shí)候,可以拯救低電平信號(hào)。畢竟“有,但不完美”比“沒有”更好。?
由于抖動(dòng)本質(zhì)就是增加噪聲,所以請(qǐng)不要在任何效果器之前進(jìn)行抖動(dòng)。否則效果器可能會(huì)對(duì)這一層噪聲進(jìn)行改變,進(jìn)而影響預(yù)期效果。換句話說,抖動(dòng)必須緊接在降比特操作之前,不可替換位置。?
顯而易見的結(jié)論:1. 降低比特深度后再抖動(dòng)——無意義;2. 抖動(dòng)之后再進(jìn)行其他處理——無意義;3. 從錄音到母帶每個(gè)環(huán)節(jié)都在24bit以上——無需抖動(dòng)。(動(dòng)態(tài)范圍已經(jīng)超過世界上所有音頻接口,不需考慮量化噪聲)?
還有人會(huì)問,當(dāng)今CD的標(biāo)準(zhǔn)采樣深度是16bit,這個(gè)情況下的音頻的量化噪聲已經(jīng)很小了,是否抖動(dòng)聽起來沒區(qū)別,這種情況下還有意義嗎??
是的,當(dāng)今很多歌曲響度極大,動(dòng)輒超過-9LUFS,甚至有達(dá)到-5LUFS、-3LUFS的。這類歌曲抖動(dòng)作用確實(shí)不大。如果你的揚(yáng)聲器開到可以聽到量化噪聲的程度,那么當(dāng)你聽歌曲本身的時(shí)候差不多也要聾了。?
但是音樂不只是大響度的。趙季平的《遠(yuǎn)情》現(xiàn)場版錄音,它的波形是這樣的:
?

歌曲的響度是-24.0LKFS,但是峰值依然在-0.1dB,已經(jīng)到了“將爆未爆”的程度。這就代表著這首歌的動(dòng)態(tài)范圍將會(huì)非常大。

在前面的獨(dú)唱部分,峰值電平是-27.7dB,平均響度是-44.8LKFS,在這個(gè)情況下,16bit的量化噪聲已經(jīng)不能忽視了。因此這首歌的母帶制作事實(shí)上也經(jīng)過了抖動(dòng),而且使用了噪聲整形,能量幾乎集中在16kHz以上的最高頻部分。


所以,抖動(dòng)在這類大動(dòng)態(tài)的音樂中,更具有意義,甚至是不可或缺。?
為了保險(xiǎn)起見,你可以在你所有準(zhǔn)備降比特到16bit的歌曲的母帶上都使用抖動(dòng)。再提醒一次,如果你的母帶文件也是24bit的,則抖動(dòng)無意義。
本文作者:艾夫
音樂制作人、編曲人、混音師、艾楽音樂工作室主理人、華中科技大學(xué)光電信息專業(yè)碩士。

*文中觀點(diǎn)為作者獨(dú)立觀點(diǎn),不完全代表本號(hào)立場,僅供參考交流學(xué)習(xí);
*本文部分配圖源自網(wǎng)絡(luò),不用于商業(yè)用途;如有侵權(quán),請(qǐng)聯(lián)系本號(hào)處理。