淺談編碼率和流媒體的千絲萬縷(下)1.0
?大家好,我又來了,距離上次專欄隔了個幾天想起還是寫寫掉這個比較好。

上次我們聊到編碼和流媒體的方面的知識,今天我們就來進一步說點相關(guān)的雜談
說起視頻每個人的理解都不一樣, 對其中內(nèi)容和情感的賦予者會認為它是藝術(shù)創(chuàng)作品。
對拍攝人員和記錄人員來說,它也可以是記錄和收藏故事的書本。
但如果要從結(jié)構(gòu)上去認知它,其實把它稱作“非常多張圖片的連續(xù)放送”這種方式會比較合適。
FPS,這個耳熟能詳?shù)脑~相信很多人都不陌生,Frames Per Second,每秒鐘的幀速率是圖像領(lǐng)域中的定義,是指畫面每秒傳輸幀數(shù),通俗來講就是指動畫或視頻的畫面數(shù)。FPS是測量用于保存、顯示動態(tài)視頻的信息數(shù)量。每秒鐘幀數(shù)愈多,所顯示的動作就會越流暢。通常,要避免動作不流暢的最低是30。

不知道,各位有沒有遇到過這種情況,當(dāng)你使用手機去試圖拍攝其他顯示設(shè)備畫面,或者去觀察一些流動的顯像畫面時出現(xiàn)過仿佛“壞電視”那樣的花屏現(xiàn)象。
這里的原因除了攝像設(shè)備接受的是光信號而不是數(shù)字信號,還有一方面就是顯示器的刷新率,刷新率這個概念其實非常好理解,如果你的顯示設(shè)備的120hz的刷新率 也就意味著它一秒鐘內(nèi)刷新了120次畫面,同時意味著,高于這個分辨率的幀數(shù)是無法在這個顯示設(shè)備上完美還原的。
那既然說到了視頻是由一條圖片的連續(xù)播放軌和音頻or字幕軌道疊加的封裝格式。
我們就不得不引人所謂的高清分辨率和色彩,這兩個概念了
我們先產(chǎn)生這樣的認知, 我們所看到的所有顯示設(shè)備,都是在“發(fā)光”
而,現(xiàn)實中我們之所以能看到物體發(fā)光,是因為有光反射到我們眼中導(dǎo)致的。
但? 人是任性的,我們希望這一切的色彩,能夠原汁原味的在兩個環(huán)境中互相轉(zhuǎn)換,
所以曾近的程序員對這兩種色彩模式分別定義為了cmyk和rgb疊加模式。
在這兩種定義下,色彩的疊加成就了從純白到純黑之間跨度的轉(zhuǎn)換。
當(dāng)然細分之下還有adobe家的rgba和牙膏廠的srgb,這里就不展開了。

所以,其實每一個顯示器環(huán)境中的每一個小塊顏色都是由多種色彩疊加產(chǎn)生的,
而色彩深度就是去細化記錄色彩信息時能夠再現(xiàn)圖像色彩的搭配種類的多少來定義的
也就是說8bit就是最大有256種色彩,10bit就是最大有1024色彩,14bit則有16384種色彩可供選擇和復(fù)原。

接下來,我們來探討下分辨率, 我相信很多85-90時代的人,對于那些由方塊圖形組成的小人有非常深刻的音響,這些“馬賽克”小人,就是我們分辨率/像素的原理。
可以把整個圖像想象成是一個大型的棋盤,而分辨率的表示方式就是所有經(jīng)線和緯線交叉點的數(shù)目。顯示分辨率就是屏幕上顯示的像素個數(shù),分辨率160×128的意思是水平像素數(shù)為160個,垂直像素數(shù)128個。分辨率越高,像素的數(shù)目越多,感應(yīng)到的圖像越精密。而在屏幕尺寸一樣的情況下,分辨率越高,顯示效果就越精細和細膩。(沒錯,我就是看不起jpg,來打我?。?/p>
雖然現(xiàn)在的主流屏幕都是液晶屏幕了,可早年的顯像管顯示屏還是會看到像素之間的縫隙的。
那,說完了圖像信息,我們來聊下視頻中的聲音部分,
在大自然環(huán)境中,我們的耳朵無時無刻不在接收著各種各樣的聲音,他們由物體的震動發(fā)出,但要記錄或再現(xiàn)這些信息,我們就需要對這種信息進行數(shù)字的建模定義,于是給予聲音的物理特性,物理學(xué)家將他用正波形來記錄,但一個物體震動時,他還會帶動很多物體一同“共振”
所以,雖然數(shù)字環(huán)境中,每個hz下的聲波是干凈的正弦波,但實際所有的聲音都是多變的波形疊加而成的復(fù)合波,
但就像記錄光信息時,我們需要對自然環(huán)境進行數(shù)字定義一樣,聲音信息的記錄也是就是一個采集模擬信號向數(shù)字信號轉(zhuǎn)換的過程,
所以,我們可以引入兩個影響聲音文件大小的關(guān)鍵,采樣深度和采樣率,
雖然音頻文件本身也有wav,mp3,flac這些細分格式,但這些我們下次有機會再談,
先對采樣深度我們做一個解讀,聲音信號在數(shù)字環(huán)境下的記錄其實是靠著多次對一個波段的能量進行記錄得到的,所以這個采樣深度就是處理記錄次數(shù)的直觀表達,這個過程中,音頻的波形模被量化記錄,就成了能被計算機記錄的數(shù)據(jù)格式。

也就是我們所謂高解析度音頻自帶的“通透感”的來源,相反,采樣深度較低的音頻會因為再次被設(shè)備還原時因為無法對音頻本身的“細節(jié)”進行還原,會自然的有“悶”的感覺。
那采樣率又是什么那?

直觀點說,它就是一個盒子,在這個盒子中的數(shù)據(jù)將被保存,而超出這個大小的數(shù)據(jù)則會流失。 而作為音樂或聲音, 人耳的自然可認知頻段為20hz-20000hz之間,(成年人會因為過度使用而減弱)
而實際要將音頻數(shù)據(jù)再現(xiàn)而不失真則需要2倍于原音頻的采樣范圍,所以,如果要保證保存的音頻文件不因為記錄方式失真,就需要至少在編碼時保持40000hz以上的采樣率,
當(dāng)然,至于為什么通用采樣格式是44100hz,這里就不做展開了-=-。
那 也寫了這么多了,雖然不知道有多少人會看,但總覺得不定期寫點什么就有點像鴿子了,所以這個系列?? 或許還會更新下去,如果有人對語法啊,或內(nèi)容太簡單有意見和疑問依舊歡迎各位能踩上一腳,提出你的意見,我們下次再見。