手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 聊一聊一些熒幕和現(xiàn)場背后的圖像故事（29）--深度圖和深度學(xué)習(xí)

聊一聊一些熒幕和現(xiàn)場背后的圖像故事（29）--深度圖和深度學(xué)習(xí)

2022-03-20 13:42 作者:盲人號 0人讀過 | 我要投稿

我們經(jīng)常會聽到一個名詞，叫做“深度學(xué)習(xí)”

那什么事深度學(xué)習(xí)那

在理解這個概念前，我們先理解一個概念，叫做深度圖

RGB-D（深度圖像）

?

??深度圖像 = 普通的RGB三通道彩色圖像 + Depth Map

??在3D計算機(jī)圖形中，Depth Map（深度圖）是包含與視點的場景對象的表面的距離有關(guān)的信息的圖像或圖像通道。其中，Depth Map 類似于灰度圖像，只是它的每個像素值是傳感器距離物體的實際距離。通常RGB圖像和Depth圖像是配準(zhǔn)的，因而像素點之間具有一對一的對應(yīng)關(guān)系。

? ? ? ? ? ? ? 像素深度和圖像深度是兩個相互關(guān)聯(lián)但又有所不同的兩個概念。像素深度是指存儲每個像素所需要的比特數(shù)。假定存儲每個像素需要8bit，則圖像的像素深度為8。圖像深度是指像素深度中實際用于存儲圖像的灰度或色彩所需要的比特位數(shù)。假定圖像的像素深度為16bit，但用于表示圖像的灰度或色彩的位數(shù)只有15位，則圖像的圖像深度為15。圖像深度決定了圖像的每個像素可能的顏色數(shù)，或可能的灰度級數(shù)。例如，彩色圖像每個像素用R,G,B三個分量表示,每個分量用8位，像素深度為24位

??下面可以看到兩個不同的深度圖，以及從中衍生的原始模型。第一個深度圖顯示與照相機(jī)的距離成比例的亮度。較近的表面較暗; 其他表面較輕。第二深度圖示出了與標(biāo)稱焦平面的距離相關(guān)的亮度?？拷蛊矫娴谋砻孑^暗; 遠(yuǎn)離焦平面的表面更輕（（更接近并且遠(yuǎn)離視點）。

立方體結(jié)構(gòu) 深度圖：更近更深深度圖：近距離焦距更深

圖像深度

??圖像深度是指存儲每個像素所用的位數(shù)，也用于量度圖像的色彩分辨率。

??圖像深度確定彩色圖像的每個像素可能有的顏色數(shù)，或者確定灰度圖像的每個像素可能有的灰度級數(shù)。它決定了彩色圖像中可出現(xiàn)的最多顏色數(shù)，或灰度圖像中的最大灰度等級。比如一幅單色圖像,若每個像素有8位，則最大灰度數(shù)目為2的8次方，即256。一幅彩色圖像RGB三通道的像素位數(shù)分別為4,4,2，則最大顏色數(shù)目為2的4+4+2次方，即1024，就是說像素的深度為10位，每個像素可以是1024種顏色中的一種。

??例如：

??一幅畫的尺寸是1024*768，深度為16，則它的數(shù)據(jù)量為1.5M。

??計算如下：

??1024×768×16 bit = (1024×768×16)/8 Byte = [(1024×768×16)/8]/1024 KB = 1536 KB = {[(1024×768×16)/8]/1024}/1024 MB = 1.5 MB

? ? ? ? ? ? ? ? ? ? ? ? ?在計算機(jī)視覺系統(tǒng)中，三維場景信息為圖像分割、目標(biāo)檢測、物體跟蹤等各類計算機(jī)視覺應(yīng)用提供了更多的可能性，而深度圖像（Depth map）作為一種普遍的三維場景信息表達(dá)方式得到了廣泛的應(yīng)用。深度圖像的每個像素點的灰度值可用于表征場景中某一點距離攝像機(jī)的遠(yuǎn)近。?
? ? ? ? ? ? ? ? ? ? ? ?獲取深度圖像的方法可以分為兩類：被動測距傳感和主動深度傳感。?
In short：深度圖像的像素值反映場景中物體到相機(jī)的距離，獲取深度圖像的方法=被動測距傳感+主動深度傳感。

? ? ? ? ? ? ? ? 在計算機(jī)視覺系統(tǒng)中，三維場景信息為圖像分割、目標(biāo)檢測、物體跟蹤等各類計算機(jī)視覺應(yīng)用提供了更多的可能性，而深度圖像（Depth map）作為一種普遍的三維場景信息表達(dá)方式得到了廣泛的應(yīng)用。深度圖像的每個像素點的灰度值可用于表征場景中某一點距離攝像機(jī)的遠(yuǎn)近。?
獲取深度圖像的方法可以分為兩類：被動測距傳感和主動深度傳感。?
In short：深度圖像的像素值反映場景中物體到相機(jī)的距離，獲取深度圖像的方法=被動測距傳感+主動深度傳感。

被動測距傳感

被動測距傳感中最常用的方法是雙目立體視覺[1,2]，該方法通過兩個相隔一定距離的攝像機(jī)同時獲取同一場景的兩幅圖像，通過立體匹配算法找到兩幅圖像中對應(yīng)的像素點，隨后根據(jù)三角原理計算出時差信息，而視差信息通過轉(zhuǎn)換可用于表征場景中物體的深度信息?；诹Ⅲw匹配算法，還可通過拍攝同一場景下不同角度的一組圖像來獲得該場景的深度圖像。除此之外，場景深度信息還可以通過對圖像的光度特征[3]、明暗特征[4]等特征進(jìn)行分析間接估算得到。?

上圖展示了Middlebury Stereo Dataset中Tsukuba場景的彩色圖像、視差實際值與用Graph cuts算法得到的立體匹配誤差估計結(jié)果，該視差圖像可以用于表征場景中物體的三維信息。?
可以看到，通過立體匹配算法得到的視差圖雖然可以得到場景的大致三維信息，但是部分像素點的時差存在較大誤差。雙目立體視覺獲得視差圖像的方法受限于基線長度以及左右圖像間像素點的匹配精確度，其所獲得的視差圖像的范圍與精度存在一定的限制。

In short, 常用于深度圖像增強(qiáng)領(lǐng)域的測試數(shù)據(jù)集Middlebury Stereo Dataset屬于被動測距傳感；被動測距傳感=兩個相隔一定距離的相機(jī)獲得兩幅圖像+立體匹配+三角原理計算視差（disparity）

主動測距傳感

主動測距傳感相比較于被動測距傳感最明顯的特征是：設(shè)備本身需要發(fā)射能量來完成深度信息的采集。這也就保證了深度圖像的獲取獨立于彩色圖像的獲取。近年來，主動深度傳感在市面上的應(yīng)用愈加豐富。主動深度傳感的方法主要包括了TOF（Time of Flight）、結(jié)構(gòu)光、激光掃描等。

TOF相機(jī)

TOF相機(jī)獲取深度圖像的原理是：通過對目標(biāo)場景發(fā)射連續(xù)的近紅外脈沖，然后用傳感器接收由物體反射回的光脈沖。通過比較發(fā)射光脈沖與經(jīng)過物體反射的光脈沖的相位差，可以推算得到光脈沖之間的傳輸延遲進(jìn)而得到物體相對于發(fā)射器的距離，最終得到一幅深度圖像。?
TOF相機(jī)所獲得的深度圖像有以下的缺陷：?
1. 深度圖像的分辨率遠(yuǎn)不及彩色圖像的分辨率?
2. 深度圖像的深度值受到顯著的噪聲干擾?
3. 深度圖像在物體的邊緣處的深度值易出現(xiàn)誤差，而這通常是由于一個像素點所對應(yīng)的場景涵蓋了不同的物體表面所引起的。?
除此之外，TOF相機(jī)的通常價格不菲。?

結(jié)構(gòu)光與Kinect

結(jié)構(gòu)光是具有特定模式的光，其具有例如點、線、面等模式圖案。

基于結(jié)構(gòu)光的深度圖像獲取原理是：將結(jié)構(gòu)光投射至場景，并由圖像傳感器捕獲相應(yīng)的帶有結(jié)構(gòu)光的圖案。

由于結(jié)構(gòu)光的模式圖案會因為物體的形狀發(fā)生變形，因此通過模式圖像在捕捉得到的圖像中的位置以及形變程度利用三角原理計算即可得到場景中各點

的深度信息。

結(jié)構(gòu)光測量技術(shù)提供了高精度并且快速的三維信息，其在汽車、游戲、醫(yī)療等領(lǐng)域均已經(jīng)得到了廣泛的應(yīng)用。

基于結(jié)構(gòu)光的思想，微軟公司推出了一款低價優(yōu)質(zhì)的結(jié)合彩色圖像與深度圖像的體感設(shè)備Kinect，該設(shè)備被應(yīng)用于如人機(jī)交互（Xbox系列游戲機(jī)）、三維場景重建、機(jī)器視覺等諸多領(lǐng)域。?

?
微軟公司的Kinect有三個鏡頭，除了獲取RGB彩色圖像的攝像機(jī)之外，左右兩邊的鏡頭分別是紅外線發(fā)射器和紅外線CMOS攝像機(jī)，這兩個鏡頭共同構(gòu)成了Kinect的深度傳感裝置，其投影和接收區(qū)域相互重疊，如下圖所示。?

Kinect采用了一種名為光編碼（Light Coding）的技術(shù)，不同于傳統(tǒng)的結(jié)構(gòu)光方法投射一幅二維模式圖案的方法，Kinect的光編碼的紅外線發(fā)射機(jī)發(fā)射的是一個具有三維縱深的“立體編碼”。光編碼的光源被稱為激光散斑，其形成原理是激光照射到粗糙物體或穿透毛玻璃后得到了隨機(jī)的衍射斑點。激光散斑具有高度的三維空間隨機(jī)性。當(dāng)完成一次光源標(biāo)定后，整個空間的散斑圖案都被記錄，因此，當(dāng)物體放進(jìn)該空間后，只需得知物體表面的散斑圖案，就可以知道該物體所處的位置，進(jìn)而獲取該場景的深度圖像。紅外攝像機(jī)捕獲的紅外散斑圖像如下圖所示，其中左側(cè)的圖片展現(xiàn)了右側(cè)圖片中框中的細(xì)節(jié)。?

Kinect低廉的價格與實時高分辨率的深度圖像捕捉特性使得其在消費電子領(lǐng)域得到了迅猛發(fā)展，然而Kinect的有效測距范圍僅為800毫米到4000毫米，對處在測距范圍之外的物體，Kinect并不能保證準(zhǔn)確深度值的獲取。Kinect捕獲的深度圖像存在深度缺失的區(qū)域，其體現(xiàn)為深度值為零，該區(qū)域意味著Kinect無法獲得該區(qū)域的深度值。而除此之外，其深度圖像還存在著深度圖像邊緣與彩色圖像邊緣不對應(yīng)、深度噪聲等問題。Kinect所捕獲的彩色圖像與深度圖像如下圖所示。?

Kinect所捕獲的深度圖像產(chǎn)生深度缺失區(qū)域的原因多種多樣。除了受限于測距范圍，一個重要的原因是目標(biāo)空間中的一個物體遮擋了其背后區(qū)域。這種情況導(dǎo)致了紅外發(fā)射器所投射的圖案無法照射到背后區(qū)域上，而背后區(qū)域卻有可能被處在另一個視角的紅外攝像機(jī)捕捉到，然而該區(qū)域并不存在散斑圖案，該區(qū)域的深度信息也就無法被獲得?！?span id="s0sssss00s" class="font-size-12">Oops，原來遮擋是這樣導(dǎo)致了深度值缺失，作者果然厲害，兩句話讓人茅塞頓開！】物體表面的材質(zhì)同樣會影響Kinect深度圖像的獲取。當(dāng)材質(zhì)為光滑的平面時，紅外投射散斑光束在物體表面產(chǎn)生鏡面反射，紅外攝像機(jī)無法捕捉該物體反射的紅外光，因此也就無法捕獲到該表面的深度；當(dāng)材質(zhì)為吸光材料時，紅外投射散斑被該表面所吸收而不存在反射光，紅外攝像機(jī)同樣無法捕捉到該表面的深度信息?！?span id="s0sssss00s" class="font-size-12">材質(zhì)對深度缺失的影響，分析到位】除此之外，Kinect所捕獲的深度圖像存在的與彩色圖像邊緣不一致的問題主要是由彩色攝像機(jī)與紅外攝像機(jī)的光學(xué)畸變引起的。

激光雷達(dá)

激光雷達(dá)測距技術(shù)通過激光掃描的方式得到場景的三維信息。其基本原理是按照一定時間間隔向空間發(fā)射激光，并記錄各個掃描點的信號從激光雷達(dá)到被測場景中的物體，隨后又經(jīng)過物體反射回到激光雷達(dá)的相隔時間，據(jù)此推算出物體表面與激光雷達(dá)之間的距離。?
激光雷達(dá)由于其測距范圍廣、測量精度高的特性被廣泛地用于室外三維空間感知的人工智能系統(tǒng)中，例如自主車的避障導(dǎo)航、三維場景重建等應(yīng)用中。下圖展示的是激光雷達(dá)Velodyne HDL-64E在自主車中的應(yīng)用，該激光雷達(dá)能夠獲取360°水平方向上的全景三維信息，其每秒能夠輸出超過130萬個掃描點的數(shù)據(jù)。全向激光雷達(dá)曾在美國舉辦的DARPA挑戰(zhàn)賽中被許多隊伍所采用，其也成為了自主行駛車輛的標(biāo)準(zhǔn)配置。?

然而，激光雷達(dá)所捕獲的三維信息體現(xiàn)在彩色圖像坐標(biāo)系下是不均勻并且稀疏的。由于單位周期內(nèi)，激光掃描的點數(shù)是有限的，當(dāng)把激光雷達(dá)捕獲的三維點投射到彩色圖像坐標(biāo)系下得到深度圖像時，其深度圖像的深度值以離散的點的形式呈現(xiàn)，深度圖像中許多區(qū)域的深度值是未知的。這也就意味著彩色圖像中的某些像素點并沒有對應(yīng)的深度信息。

什么是紅外線成像

? ? ? ? ? ? ? ? 比0.78微米長的電磁波位于可見光光譜紅色以外，稱為紅外線，又稱紅外輻射。是指波長為0.78—1000微米的電磁波，其中波長為0.78—2.0微米的部分稱為近紅外，波長為2.0—1000微米的部分稱為熱紅外線。自然界中，一切物體都可以輻射紅外線，因此利用探測儀測量目標(biāo)本身與背景間的紅外線差可以得到不同的熱紅外線形成的紅外圖像。

? ? ? ? ? ? ?在夜間觀察遇到的最大難點是光強(qiáng)不足及對比度差，在夜視技術(shù)沒出現(xiàn)之前或技術(shù)不發(fā)達(dá)時，單憑人眼是很難在夜間觀察目標(biāo)及環(huán)境的，因此，夜間也就成為非法活動如搶劫、恐怖活動等頻繁發(fā)生時間段。據(jù)統(tǒng)計,世界上47%的暴力犯罪案件發(fā)生在晚6點到早6點之間。原因很簡單，在夜幕的籠罩下，罪犯分子易于隱蔽，易于接近受害者，犯罪場面也不容易被看見。夜間同樣是軍事活動的頻繁發(fā)生時間，如夜間行軍、劫營、伏擊等，我軍在抗戰(zhàn)及解放戰(zhàn)爭期間就是以夜戰(zhàn)出名?，F(xiàn)代戰(zhàn)爭中，美國都是選擇在夜間發(fā)動戰(zhàn)爭的，如伊拉克戰(zhàn)爭等，原因就是對方?jīng)]有夜視技術(shù)，而美方裝備有先進(jìn)的夜視設(shè)備，進(jìn)行一場不對等的戰(zhàn)爭。

? ? ? ? ? ? ?夜視技術(shù)分類：微光夜視、紅外夜視，激光夜視。

? ? ? ? ? ? ?用于夜間觀察的微光和紅外夜視裝置一般由信號接收、轉(zhuǎn)換、處理和顯示等部分組成。實現(xiàn)夜間觀察不同的技術(shù)方案，都要在這四大部分上反映出來。

? ? ? ? ? ? ? 在微光圖像增強(qiáng)器中，用光電陰極將微弱的可見光和近紅外光圖像轉(zhuǎn)換成相應(yīng)的電子密度圖像，其光陰極是連續(xù)和均勻的一個薄膜。在熱像儀中，用若干個分離探測元組成的探測器列陣將紅外光轉(zhuǎn)換成電信號。

? ? ? ? ? ? ? ? ?微光成像器件的信號處理的特點：(1)信號并行處理；(2)信號在空域處理；(3)信號是電子數(shù)量；(4)信號是模擬量；(5)信號原位處理。在半導(dǎo)體、微電子技術(shù)還不發(fā)達(dá)時，電真空技術(shù)的這些特點占盡優(yōu)勢，成為夜視技術(shù)的主流。

? ? ? ? ? ? ? ? ?熱像儀焦平面組件的信號處理的特點：(1)信號串行處理，(2)信號在時域處理，(3)信號是電脈沖電平值，(4)信號是數(shù)字量，(5)信號分離處理，便于進(jìn)行復(fù)雜的圖像處理以獲得更多的信息。半導(dǎo)體、探測器材料、微電子、微電機(jī)等技術(shù)的進(jìn)步，使采用采用焦平面技術(shù)的紅外熱像儀成為夜視技術(shù)的主流。

? ? ? ? ? ? ? ? ?微光圖像增強(qiáng)器圖像顯示的特點：(1)采用CRT顯示，(2)圖像直接顯示，(3)屏幕面積有限，有幾至幾十平方厘米，(4)只能單屏幕顯示。

? ? ? ? ? ? ? ? ? 熱像儀圖像顯示的特點：(1)顯示器件種類多，有CRT、LED列陣、液晶、等離子體等，應(yīng)用靈活；(2)圖像可直接、間接、混合顯示，對系統(tǒng)的適應(yīng)性好；(3)屏幕面積可大可小，從幾平方厘米至幾十平方米；(4)可多屏幕顯示；(5)可在屏幕中加入其它信息，如直接顯示溫度信息等。

按成像原理和制造技術(shù)，夜視技術(shù)可分為：

1、微光夜視

2、紅外夜視

從上面的分析的技術(shù)特點來看，被動紅外熱成像夜視儀是夜視設(shè)備的主流，特別是紅外熱像儀技術(shù)已長足發(fā)展及成本大幅度降低的今天，軍方主流的光電觀瞄設(shè)備都是三光合一，即集成可見光、熱像儀、激光測距機(jī)。微光夜視主要是應(yīng)用于某些特殊場合或者配合熱像儀使用，主動紅外由于易于暴露及探測距離不遠(yuǎn)的原因，主要運用于民用的低端領(lǐng)域。