聊一聊一些熒幕和現(xiàn)場背后的圖像故事(2)——數(shù)字環(huán)境(影像篇)
? ? ? ?不知道大家從下有沒有一個經(jīng)驗
視頻文件,就是這樣成立的,它是非常非常多的圖片連續(xù)變換,在視覺上迷惑讓人以為它“在動”了的感覺,
那么,和圖像不同,如果說繪畫攝影是空間的藝術(shù),詩詞歌賦是時間的藝術(shù),那么視頻就是兼顧兩者特性的事物了
今天,我們來聊聊他
時間軸
和單張的圖片不同的是,視頻師連續(xù)的圖片的組合,所以它存在時間意義上的單位,就是時間軸,
幀速率

也通常被描述為每秒幀數(shù)(FPS),指每秒所顯示的靜止幀格數(shù)。對影視制作人而言,它是你在拍攝時選擇的第一個設(shè)置:24,25,30。24FPS被視為“電影”幀速率的標(biāo)準。30FPS廣泛應(yīng)用于北美洲、日本、南亞,25FPS是歐洲、中國的廣播電視級標(biāo)準。 ? 例如下面這個時長一秒的電影片段:

? ? 將這個鏡頭一幀幀的分開,每幀畫面就代表1/24秒。 ?
?那么問題來了:為什么是24?為什么不是22,23,28.59?你的經(jīng)驗告訴你大部分電影制作人會選擇24FPS,那么為什么我們要使用24FPS拍攝? ??
對于人眼來說,我們每秒可以感知十到十二幀圖像,一旦每秒鐘有更多的圖像通過,每個圖像之間的間隙就縮短,我們的大腦就會將圖像識別為運動。心理學(xué)家馬克斯·韋特海默(Max Wertheimer)首次發(fā)明了Phi Phenomenon(飛現(xiàn)象)。?
? 從20世紀早期到20世紀20年代,幀速率是沒有工業(yè)標(biāo)準,沒有規(guī)則的。電影公司的為了獲得最佳利益,必須保持幀速率盡可能的低,因為幀率越高,使用的膠片就越多,使用的膠片越多,所需的成本就越高。雖然更高的幀速率會產(chǎn)生更好的視覺持久性,但是16FPS還是成為了無聲電影的非官方標(biāo)準。 ? 至于電影工業(yè)史上幀速率的發(fā)展變革,直到今天我們?yōu)楹我?4FPS作為行業(yè)標(biāo)準,通過下面的視頻講解,可以更深入的體會到。 ? rame src="https://v.qq.com/iframe/preview.html?vid=j0644qun1rq&width=500&height=375&auto=0">rame> 選擇24FPS,這其中還牽扯到一點基本數(shù)學(xué),24是一個容易被整除的偶數(shù),剪輯師會在瞬間算清楚半秒是12幀,1/4秒6幀...... ? 聊完了電影幀速率的原理及發(fā)展歷程,該回到當(dāng)下了,那么我們在平時的影視創(chuàng)作中該如何選擇幀速率呢? ??
24fps(電影拍攝) 20世紀20年代末的電影公司以24幀作為行業(yè)標(biāo)準,以這個標(biāo)準拍攝電影不僅成本能達到最低而且還能帶來不錯的觀影體驗?,F(xiàn)在大多數(shù)電影也都基本按這個標(biāo)準來進行拍攝,較低的幀率能捕捉到更多的運動模糊,讓動作顯得更為真實和流暢。當(dāng)然為了追求更為極致的視覺體驗,有些電影也選擇了更高的幀速率,例如《霍比特人》,《阿凡達2》采用48幀拍攝,48幀放映,《比利林恩的中場戰(zhàn)事》采用120幀拍攝,120幀放映。 ? 25/30fps(適用于電視拍攝) 美國電視的制式自古以來是30fps,
廣播電視實際是29.97fps。選擇30fps是為了與美國電力標(biāo)準60赫茲同步,這個格式常被叫做NTFS。在歐洲,這個制式是25fps,因為歐洲電力標(biāo)準是60赫茲,這種制式叫PAL。網(wǎng)絡(luò)視頻一般是30fps,或者60fps。 ?
50/60fps(適用于運動類動作拍攝) 50fps和60fps非常適合運用在快速動作的拍攝上。拍攝完成之后你還可以通過后期制作進行幀速率轉(zhuǎn)換,讓較高的幀速率慢慢降低到30fps然后變成一個慢動作視頻。?
? 120/240fps(慢動作) 超高的幀率能夠讓慢動作鏡頭產(chǎn)生極端的效果,根據(jù)你的攝影機參數(shù)設(shè)置的上限可以拍攝120fps或240fps的慢動作。
2.通道/色彩信息
如果說只是時間的組合還無法在數(shù)字環(huán)境解釋圖像信息,那么通道的概念就是定義了圖像的信息在數(shù)字環(huán)境被保存的方式
圖像的表示方法:RGB模型 vs YUV模型 光的三原色是紅(Red)、綠(Green)、藍(Blue)?,F(xiàn)代的顯示器技術(shù)就是通過組合不同強度的三原色,來達成幾乎任何一種可見光的顏色。圖像儲存中,通過記錄每個像素紅綠藍強度,來記錄圖像的方法,稱為RGB模型 (RGB Model) 常見的圖片格式中,PNG和BMP這兩種就是基于RGB模型的。
這個在不同的的色彩管理方案下



sRGB: 在互聯(lián)網(wǎng)上最常用的色域, 以 Rec. 709 格式的色彩空間作為標(biāo)準, 是顯示器最基礎(chǔ)的標(biāo)準. 作為消費者, 只要記住這個色域只要能覆蓋到 95% 以上, 那就意味著互聯(lián)網(wǎng)上 95% 以上的內(nèi)容的顏色都能被覆蓋到.
DCI-P3: 是電影行業(yè)的色彩規(guī)范. 它在目前電子產(chǎn)品/顯示器里有個近似標(biāo)準, Display P3. 這就是 Apple 帶領(lǐng)的新標(biāo)準. 所有 Apple 產(chǎn)品(除了低端的 MacBook Air/iPad), 最近幾年帶 Pro 的產(chǎn)品和 iPhone 均兼容此標(biāo)準.
Rec. 2020: 類似 Rec. 709, 這仍然是一個電視機行業(yè)所提倡的色彩空間的標(biāo)準. 整體能夠覆蓋 P3, 所以在制作內(nèi)容時會選擇以這個標(biāo)準進行記錄, 然后導(dǎo)出為 P3 色彩.
Adobe RGB: 一個面向出版物的色彩空間. 基本完全覆蓋 sRGB, 但是和 P3 色域不同, 兩者在 sRGB 外覆蓋的地方有所差異. 主要是因為出版物通常采用四基色系統(tǒng)(青色, 洋紅, 黃色, 黑)進行印刷, 呈現(xiàn)的色彩空間也叫 CMYK 色彩空間. 為了在顯示器上呈現(xiàn)接近出版物的顏色, 制定了這個標(biāo)準.
當(dāng)然還有一個很多筆記本廠商所說的?NTSC?的標(biāo)準. 本質(zhì)是當(dāng)初全球電視機標(biāo)準 PAL/NTSC 標(biāo)準之一. 相比 PAL 覆蓋了過多的色彩空間, 然而當(dāng)時的 CRT 電視無法呈現(xiàn), 非編剪輯系統(tǒng)也達不到這個要求, 得到了花名「Never The Same Color」 「Never Twice the Same Color」 「No True Skin Colors」即「無法顯示相同的顏色」.
一般的mac筆記本的顯示器可以達到67% 的adobe rgb,最好的apple thunderbolt display可以達到77%
而通道就是用來解釋這個色彩通道,音頻通道,以及所謂的透明通道(Alpha通道)的元素
R通道:紅色通道,表示了在所能顯示的紅色動態(tài)范圍內(nèi),當(dāng)前畫面對于紅色的表現(xiàn)
B通道:藍色色通道,表示了在所能顯示的藍色動態(tài)范圍內(nèi),當(dāng)前畫面對于藍色的表現(xiàn)
G通道:綠色通道,表示了在所能顯示的綠色動態(tài)范圍內(nèi),當(dāng)前畫面對于綠色的表現(xiàn)
音頻通道:表示了當(dāng)前時間軸的音頻數(shù)據(jù)
Alpha通道:透明通道,表示了此通道信息以“疊加方式計算”,代指沒有色彩信息(在后期合成階段非常非常的實用)
我們現(xiàn)在的用的做多的系統(tǒng)也叫非編系統(tǒng), 全稱「非線性編輯系統(tǒng)」, 是現(xiàn)代數(shù)碼編輯的基本模式. 而早期使用膠片記錄的時代就屬于「線性編輯」. 最大的區(qū)別就是后者, 記錄依賴于膠片母帶, 當(dāng)我們進行編輯的時候需要將它剪開(破壞), 所以就有大量的麻煩. 但是很顯然, 膠片和我們現(xiàn)在數(shù)碼的采樣過程不一樣, 更多的是拍攝和沖洗的工藝. 這也是膠片所特有的技術(shù). 但是膠片其實也有著相比普通傳感器更大的寬容度, 所以不少導(dǎo)演仍舊中意膠片.
而現(xiàn)在的相機通常是基于 CCD/CMOS 傳感器進行記錄, 通常就會提到所謂像素、色彩深度和采樣頻率的概念. 一個像素包含了三種基礎(chǔ)顏色, 也就是 RGB, 紅綠藍. 傳感器就會提供像素的矩陣, 也就是我們見到的畫面.

而一個像素里面的每種基礎(chǔ)顏色用到的數(shù)據(jù)量, 也叫做色彩深度(color depth), 最常見的量化數(shù)量是 8bit, 較高的就是 10bit. 通常來說, 在 8bit 0, 0, 0 代表最黑, 而 255, 255, 255 代表最白. 而凡是以 x, x, x 這樣形式出來的顏色做成一個排序, 就是從最黑到最白的那么一個序列. 三種原色之間的比例只要不發(fā)生變化, 整體高低的變化就不會影響到顏色, 只有影響到亮度. 而很顯然, 如果使用了 10bit, 最大的量化空間就能表示到 1023, 1023, 1023.


因為實際的不同顯示器能夠包含的色彩范圍是不同的,但在加工和存儲層面,我們應(yīng)該講自己的工作環(huán)境改裝為能夠相對覆蓋足夠色彩深度范圍的設(shè)定會比較便利
3.動態(tài)范圍(亮度/對比度/飽和度信息)
圖像編碼和音頻編碼一樣,不可能不計算容量的進行記錄,所以,在最終被保存的階段,這個數(shù)據(jù)會被保留在一個合適的格式和信息范圍內(nèi),這個范圍就是圖像的動態(tài)范圍

????? 硬件上限制數(shù)字成像系統(tǒng)動態(tài)范圍的主要元件是圖像傳感器(sensor),CCD/CMOS傳感器的動態(tài)范圍定義為飽和電荷量Qs與最小可探測電荷量Qd的比值如下。sensor動態(tài)范圍主要受光敏器件的靈敏度、滿阱容量和噪聲水平等因素限制,而且傳感器面積一定的條件下,提高像素數(shù)目與提高動態(tài)范圍相互矛盾。因此在不減少圖像傳感器像素數(shù)目的條件下,提高動態(tài)范圍需要增大圖像傳感器的面積,成本將會增加,成像系統(tǒng)的結(jié)構(gòu)也可能受到影響。

? ???? 硬件擴展的另一方案是通過改變光學(xué)系統(tǒng)結(jié)構(gòu)或添加其他元件改變圖像傳感器接收光能量,經(jīng)后期處理實現(xiàn)動態(tài)范圍擴展。如利用分光棱鏡使入射光線在不同的靶面成像,采用不同靈敏度的傳感器接收或設(shè)置不同的電路增益,再利用多個傳感器獲得的不同圖像生成一幅高動態(tài)范圍圖像。
?????? 因此,從硬件上擴展系統(tǒng)動態(tài)范圍具有非常高的技術(shù)難度, 目前主要是幾家CCD/CMOS生產(chǎn)商在進行研究,還沒有成熟可靠的方案。而且上述方法需要對相機或圖像傳感器進行改造,甚至重新設(shè)計,在硬件設(shè)備上花費了大量精力,制造成本也大大提高,不宜在一般的科研項目中采用。
2 軟件擴展方法
?????? 軟件擴展方法原理:對被攝場景進行多次曝光成像,通過設(shè)置不同的曝光時間,改變系統(tǒng)探測的亮度范圍,獲取多幅不同曝光度的圖像,最后通過軟件方法將它們合成一幅高動態(tài)范圍圖像,恢復(fù)場景的細節(jié)信息。如下圖:

目前軟件擴展方法主要有兩種:基于相機響應(yīng)函數(shù)(CRF)的輻照度重建和多曝光圖像融合。
2.1 輻照度重建方法
?????? 輻照度重建方法處理過程:靜態(tài)場景拍攝多幅不同曝光度的低動態(tài)范圍圖像,利用圖像信息推算成像系統(tǒng)的響應(yīng)函數(shù),再通過響應(yīng)函數(shù)逆運算得到場景的相對輻照度,用以合成高動態(tài)范圍圖像,并以浮點數(shù)保存。其中,相機響應(yīng)函數(shù)求解是關(guān)鍵
的步驟 。

??????? (1)?設(shè)相機和拍攝場景均處于靜態(tài),且曝光時間足夠短,從而可以忽略拍攝過程場景的亮度變化?在多次曝光成像中,假設(shè)j次曝光時間為△t(j)。第i個像素接收的場景輻照度為E(i),在獲得的第j幅圖像中,其像素值為Z(i,j),公式如下:

? ? ??? (2) 假設(shè)相機響應(yīng)函數(shù)是一定區(qū)間下單調(diào)連續(xù),即f函數(shù)可逆:

??????? (3) 上述函數(shù)左右取對數(shù),可得到:

???????? (4) 設(shè)置函數(shù)g = lnf-1,可簡化為:

???????? Delta?t(j)和Z(i,j)為已知,函數(shù)g(z)和輻照度E(i)未知,其中Z(i,j)取值為離散且有限的,因此我們并不需要求解g(z)的完整解析式,只需在Z的取值范圍中恢復(fù)g(Z)的有限個取值即可。假設(shè)像素值的最大值和最小值分別為Zmax和Zmin。像素采樣點為N,曝光次數(shù)為P。為了確定(Zmax-Zmin+1)個g(z)和N個E(i)的值,使之滿足上述公式,定義如下目標(biāo)函數(shù):?

??????? 目標(biāo)函數(shù)第一項是為了使所求得的解具有最小的方差,第二項則是對函數(shù)g進行平滑約束,其中r為平滑約束權(quán)重。此外,在過度曝光和曝光不足的區(qū)域,受傳感器動態(tài)范圍及噪聲影響,像素點的輸出值往往不夠穩(wěn)定。為此,引入權(quán)重函數(shù)W(z),衡量像素值的可信程度,減小邊界采樣對求解函數(shù)g的影響。

??????? 此時目標(biāo)函數(shù)修改為:

????????至此,函數(shù)g的求解變?yōu)槟繕?biāo)函數(shù)的最小化問題。由于甙z)的取值有限,只要選取足夠的采樣點,就可以將目標(biāo)函數(shù)轉(zhuǎn)化為一個超定方程組,可以通過奇異值分解求得甙z)的最小二乘解,進而利用單調(diào)性計算出相機響應(yīng)函數(shù)。如下一組多曝光LDR圖計算后的相機響應(yīng)函數(shù)如下:


???????? (5) 根據(jù)上述步驟即可得到相機的響應(yīng)函數(shù),則場景相對輻照度計算較為容易,如下式:
??????????????

?????????通常,為了降低圖像噪聲及飽和像素值的影響,在計算第i個像素對應(yīng)的輻照度時,盡可能地利用其在所有輸入圖像中的像素值,并再次引入權(quán)重函數(shù)w(z)。通過如下公式計算:?

?????? 在獲得場景的相對輻照度數(shù)據(jù)后,將其以特定的圖像格式存儲,一就得到了場景的高動態(tài)范圍圖像。在處理彩色圖像時,可以有兩種方法。一種方法是分R、G、B三個顏色通道計算相機響應(yīng)函數(shù),求出各通道對應(yīng)的相對輻照度,最后調(diào)節(jié)比例參數(shù)進行白平衡處理。另一種方法是,將RGB圖像轉(zhuǎn)換至HSV空間,恢復(fù)V通道的高動態(tài)范圍數(shù)據(jù)。
2.2 多曝光圖像融合
?????? 輻照度重建法合成的HDR圖像質(zhì)量十分地依賴于相機響應(yīng)函數(shù)的計算精度,拍攝過程相機抖動或景物微小移動會對計算結(jié)果造成較大影響,因此最新提出了多曝光融合方法。從圖像融合的角度出發(fā),從曝光度不同的LDR圖像序列提取信息合成一幅高質(zhì)量LDR圖像,其視覺效果相當(dāng)于一幅局部自適應(yīng)曝光的“高動態(tài)范圍圖像” 。常見的多曝光融合方法可以分為像素級融合、特征級融合 、決策級融合 。
???????像素級融合主要針對原始圖像數(shù)據(jù)進行融合,融合前未進行圖像綜合分析與處理。這一層次的融合數(shù)據(jù)準確性最高,能夠提供豐富、可靠的細節(jié)信息,應(yīng)用最為廣泛 。
???????特征級融合則針對圖像特征信息進行融合。首先從原始數(shù)據(jù)中提出特征信息,如邊緣、紋理、運動方向、視覺顯著性等,然后進行特征分析與綜合處理。相比于像素級融合,特征級融合能夠降低噪聲影響,提高魯棒性。
?????? 決策級融合是層次最高的信息融合,模擬人類學(xué)習(xí)與思考過程,對圖像信息進行邏輯推理與統(tǒng)計分析,設(shè)定一定規(guī)則對信息進行融合。
?????? 本文描述的是基于曝光適度評價的快速融合,屬于特征級融合范圍。曝光適度評價的快速融合是指使用權(quán)值圖對不同曝光度圖像序列進行加權(quán)融合,因此,高效確定融合權(quán)重值的成像質(zhì)量評價標(biāo)準是算法研究的關(guān)鍵。算法流程如下:


??????? (1) 曝光適度評價
???????????? 早期曝光適度評價方法:以像素的歸一化像素值與O,5的接近程度評價曝光適度,其評價數(shù)值體現(xiàn)為像素的融合權(quán)重分量,并利用高斯模型進行計算,權(quán)重值計算如下:

??????????? 該權(quán)重公式可以盡可能地保留每幅輸入圖像中像素值在0.5附近的像素信息,這樣容易丟失場景灰暗和明亮處的細節(jié)。因為以固定值0.5作為最佳像素值不能顯著區(qū)分這些區(qū)域內(nèi)不同像素間的差異,不利于提取區(qū)域內(nèi)的細節(jié)信息。 因此為了保證圖像信息沒有丟失,將0.5修改為像素均值方式。對于同一場景的N幅不同曝光度圖像,以I(i,x,Y)表示第i幅圖像中坐標(biāo)為(x,Y)處的像素,其曝光適度評價指標(biāo)為:

?????????? 其中:

?????????? 從上述公式中,一方面,為保證較為理想的人眼視覺感受,u(x,y)的取值應(yīng)在0.5附近;另一方面,為體現(xiàn)場景真實的亮暗對比信息,需從場景有限次數(shù)的采樣中近似地獲取其亮度信息。u(x,y)取O.5與該均值的加權(quán)和,權(quán)重因子p為細節(jié)信息與亮暗對比信息平衡
參數(shù)。?
?????? (2) 分塊處理
???????????? 根據(jù)實驗測試驗證,若使用上述曝光適度評價方法獲得的權(quán)重值對輸入圖像直接進行加權(quán)融合,生成圖像會出現(xiàn)像素值變化過快、顏色異常的現(xiàn)象 ,如下圖:

?
???????????? 基于圖像區(qū)域分析的融合算法具有較高的魯棒性,將圖像劃分為不同區(qū)域,并將上述曝光適度評價方法應(yīng)用于圖像分塊區(qū)域,既能保留景物的局部特性,又能避免隨機噪聲影響,同時還可以大幅度提高計算效率。將圖像分割為均勻大小的矩形分塊。將每幅輸入圖像分割為b×b大小的M個矩形分塊,以B(i,j)表示第i幅圖像的第j個分塊。為了綜合圖像的局部特性,計算每個分塊的像素值均值 :
?????????????利用上述曝光適度評價方法對分塊圖像的成像質(zhì)量進行衡量,以分塊均值作為該分塊區(qū)域的“像素值”,并將分塊區(qū)域視為單個“像素",利用權(quán)重公司計算得到每個分塊對應(yīng)的曝光適度評價值。若分塊內(nèi)的像素直接以該評價值作為權(quán)重值,進行融合,融合圖像會在分塊邊界處出現(xiàn)明顯的不連續(xù)現(xiàn)象,需要進一步處理融合圖像以消除圖像塊效應(yīng)。?
???????????? 因此,需要基于分塊模式優(yōu)化權(quán)重圖,考慮塊內(nèi)部像素分布,針對分塊B(i,j)內(nèi)位置坐標(biāo)為(x,y)的像素,利用B(i,j)的8鄰域內(nèi)的分塊曝光適度評價值聯(lián)合確定該像素的權(quán)重值:?
???????????? 其中融合函數(shù)G(x,y)為峰值位于分塊中心的二維高斯函數(shù),高斯標(biāo)準差、?的取值與分塊寬度b有關(guān):?
????? (3) 圖像融合
?????????? 將前面得到各輸入圖像的權(quán)值圖,對其做歸一化處理使得融合結(jié)果連續(xù)而自然,公式如下:
?????????? 歸一化權(quán)值圖形,(x,Y)與對應(yīng)曝光度圖像加權(quán)疊加即可得到最終的融合圖像:?
?????????? 在處理彩色圖像時,算法注重場景的亮度信息,因此將輸入圖像轉(zhuǎn)換到Y(jié)CbCr空間,對亮度信息和顏色信息分別進行處理。此外,在計算Cb、Cr色差通道數(shù)據(jù)時,將曝光適度評價中的u(x,y)設(shè)置為固定值0.5,并省略公式分塊權(quán)重值融合的步驟,結(jié)果表明,仍可得到良好的融合效果,進一步減少了算法的運算量,提高了計算效率。?
4.存儲格式
存儲格式是除了內(nèi)容更加能直觀體現(xiàn)影像數(shù)據(jù)的方式
png: 能夠支持透明通道的位圖保存方案
jpg:最基礎(chǔ)的位圖保存方案
AVI:無損的音頻,視頻保存方案(真的大,太大了,音頻只支持立體聲)
flv:flash播放器下的播放格式,早年適用于新浪網(wǎng)為源頭的各大以flash為播放器的在線平臺。
MKV:民間自主開發(fā)的視頻保存方案,上下兼容性好,缺點是沒有在線播放器的支持(可大可小,還可以壓入ass字母軌道,多聲軌)
MOV:由蘋果開發(fā)的視頻壓縮格式,具有跨平臺、存儲空間要求小,可壓入透明通道信息的特點(很重要)
MPGE:h.264,h.265壓縮格式,特點是非常大的壓縮比,加上和html5技術(shù)的兼容性,是現(xiàn)在在線推流和平臺播放的主要格式。
(HTML5是構(gòu)建Web內(nèi)容的一種語言描述方式,支持音頻視頻,在通過增加了<audio>、<video>兩個標(biāo)簽來實現(xiàn)對多媒體中的音頻、視頻使用的支持,只要在Web網(wǎng)頁中嵌入這兩個標(biāo)簽,而無需第三方插件(如Flash)就可以實現(xiàn)音視頻的播放功能。HTML5對音頻、視頻文件的支持使得瀏覽器擺脫了對插件的依賴,加快了頁面的加載速度,擴展了互聯(lián)網(wǎng)多媒體技術(shù)的發(fā)展空間,并多多線程有一定優(yōu)化)