散文網(wǎng) » 科技 »學(xué)習(xí) » 論文閱讀筆記——Neural Sensors

論文閱讀筆記——Neural Sensors

2022-01-18 20:12 作者:一零二六- 0人讀過(guò) | 我要投稿

論文全名：Neural Sensors: Learning Pixel Exposures for HDR Imaging and Video Compressive Sensing With Programmable Sensors

鏈接：https://www.computer.org/csdl/journal/tp/2020/07/09064896/1iZGxp3itUY

本文是我在跟老師做馮如杯項(xiàng)目時(shí)所閱讀的論文，因?yàn)橛X(jué)得這篇論文質(zhì)量很好，能從中學(xué)到不少東西，就決定寫一篇閱讀筆記。

一、摘要和引言部分

相機(jī)傳感器依靠全局或滾動(dòng)快門功能來(lái)曝光圖像，這種方法對(duì)于HDR和高速攝影不好，限制了其傳感器捕捉高動(dòng)態(tài)圖像和解析高速動(dòng)態(tài)的能力。Spatially varying pixel exposures（可以理解成對(duì)每一個(gè)像素點(diǎn)進(jìn)行單獨(dú)的曝光）是一個(gè)進(jìn)行光學(xué)輻照編碼和計(jì)算恢復(fù)場(chǎng)景信息的好方法，但現(xiàn)有的實(shí)現(xiàn)這個(gè)技術(shù)方法并不合適。本文提出neural sensors作為一種方法來(lái)優(yōu)化相機(jī)快門功能，結(jié)合可微圖像處理方法。演示了利用新興的可編程和可重新配置的傳感器處理器來(lái)直接在傳感器上實(shí)現(xiàn)優(yōu)化的曝光功能。

大多數(shù)當(dāng)前的數(shù)碼相機(jī)的原理都是從以往的模擬相機(jī)繼承而來(lái)的，即都是通過(guò)曝光感光元件在固定曝光時(shí)間內(nèi)捕捉圖像，現(xiàn)代的相機(jī)都是通過(guò)全局或者滾動(dòng)快門來(lái)實(shí)現(xiàn)的，當(dāng)前傳感器的固定曝光時(shí)間嚴(yán)重限制了它們記錄表現(xiàn)出高動(dòng)態(tài)范圍(HDR)或快速運(yùn)動(dòng)的自然場(chǎng)景的能力。（我的理解是一個(gè)快門鍵管了一張圖所有像素的曝光，導(dǎo)致一張圖中每個(gè)點(diǎn)的曝光時(shí)間都相等，這就對(duì)高動(dòng)態(tài)的圖像的拍攝很不好）。

計(jì)算攝影技術(shù)使我們能夠利用光學(xué)編碼策略和計(jì)算圖像重建來(lái)解決上訴問(wèn)題，對(duì)于高動(dòng)態(tài)圖像的重建，可以用多張不同曝光時(shí)間的圖像來(lái)合成；或者用前面說(shuō)的Spatially varying pixel exposures技術(shù)。但這些技術(shù)有兩大缺點(diǎn)，一是它們通常采用啟發(fā)式或隨機(jī)光編碼策略，這些策略都是次優(yōu)的（直接翻譯過(guò)來(lái)的，看不懂）；二是它們通常需要一個(gè)高速空間光調(diào)制器
(SLM)實(shí)現(xiàn)光學(xué)編碼。SIM比較貴，當(dāng)它們集成到成像系統(tǒng)中時(shí)，會(huì)造成笨重的設(shè)備形態(tài)因素，而且對(duì)于傳感器來(lái)說(shuō)，要精確地將它們對(duì)齊到所需的精度是一個(gè)挑戰(zhàn)。

ps：關(guān)于上文中提到的SIM，我了解了一下其情況。它全稱spatial light modulators(空間光調(diào)制器)，是一種基于電光、聲光、磁光、光折變等光學(xué)效應(yīng)，能對(duì)光場(chǎng)的光學(xué)參量（振幅、相位、偏振態(tài)）進(jìn)行實(shí)時(shí)調(diào)制，并在此過(guò)程中寫入信息，協(xié)助實(shí)現(xiàn)光場(chǎng)調(diào)控的有源器件。以它進(jìn)行HDR的工作有一篇論文可以參考，名叫《基于空間光調(diào)制器的HDR圖像獲取方法》，知網(wǎng)可以搜到。其價(jià)格確實(shí)比較貴，從幾千到幾萬(wàn)，也有十萬(wàn)級(jí)的，而且搭接SIM需要調(diào)很精密的光路，確實(shí)不方便。

本文提出了一種端到端的優(yōu)化策略，聯(lián)合學(xué)習(xí)空間變化像素曝光和基于神經(jīng)網(wǎng)絡(luò)的圖像重建算法HDR和高速成像，本文沒(méi)有使用SLM來(lái)實(shí)現(xiàn)這些光學(xué)編碼，而是建立在新興的焦平面?zhèn)鞲衅魈幚砥髦希鼈冊(cè)诿總€(gè)像素上提供同時(shí)的傳感和處理能力。其框架如下圖所示

圖1 這是一個(gè)encoder-decoder模型，左邊的物理層是編碼器，右邊的數(shù)字層是解碼器。傳感器(物理層)的曝光程序通過(guò)解碼器(數(shù)字層)端到端學(xué)習(xí)，用于視頻壓縮感知等應(yīng)用。下邊展示了用原型相機(jī)捕獲的一個(gè)編碼曝光，以及從這張顯示一個(gè)爆炸的氣球的圖像中重建的幾幀高速視頻。

二、像素端到端優(yōu)化曝光和圖像重建

1.encoder部分

Encoder部分相當(dāng)于對(duì)相機(jī)的拍攝過(guò)程進(jìn)行了模擬。對(duì)于相機(jī)拍攝圖像的每一個(gè)像素 $(i%2Cj)$ ,在入射輻照度為 $L_%7Bi%2Cj%7D$ 的情況下，所得到的曝光量為 $E_%7Bi%2Cj%7D(t)%3D%5Cint_%7Bt%7D%5E%7Bt%2B%5CDelta%20t%7DL%20_%7Bi%2Cj%7D(t%5E%7B'%7D)%5Ctimes%20S%20_%7Bi%2Cj%7D(t%5E%7B'%7D)dt%5E%7B'%7D$

上式中 $E_%7Bi%2Cj%7D(t)$ 是曝光量，它決定著相機(jī)的相應(yīng)，即 $I_%7Bi%2Cj%7D(t)%3DR(E_%7Bi%2Cj%7D(t))$ ，其中 $R$ 是相機(jī)相應(yīng)函數(shù)， $I_%7Bi%2Cj%7D$ 是相機(jī)對(duì)每一個(gè)像素的響應(yīng)。作者定義了一個(gè)相機(jī)函數(shù) $S$ ， $S_%7Bi%2Cj%7D(t)$ 代表了在像素 $(i%2Cj)$ 的位置，在 $t$ 時(shí)刻，快門是開還是關(guān)。

將上面的式子進(jìn)行離散化，就能得到 $E_%7Bi%2Cj%7D%3D%5Csum_%7Bn%3D0%7D%5E%7BN-1%7DL_%7Bi%2Cj%7D%5Bn%5D%5Ctimes%20S_%7Bi%2Cj%7D%5Bn%5D$ ，再寫成矩陣的形式，即 E=SL，然后作者以參數(shù)化 $S_%7B%5Cphi%20%7D$ 的方式表示快門函數(shù)，該操作符可以表示幾種不同的快門函數(shù)，每種函數(shù)都由它們自己的有限自由度定義，每一個(gè)像素點(diǎn) $(i%2Cj)$ 都有自己的參數(shù) $%5Cphi%20_%7Bi%2Cj%7D$ 來(lái)表示該像素的快門情況。

一些快門函數(shù)的示例如下圖所示

2.decoder部分

Decoder（解碼器）部分實(shí)質(zhì)上就是相機(jī)拍攝過(guò)程的逆過(guò)程，它是一個(gè)推測(cè)過(guò)程。即已知曝光量E，反推出光照的強(qiáng)度 $%5Chat%7BL%7D%3DD_%7B%5Cpsi%20%7D(E)%20$ 。

因此，對(duì)于這個(gè)encoder-decoder模型，其關(guān)鍵就在于 $%5C%7B%5Cphi%2C%5Cpsi%5C%7D$ 這一組參數(shù)的確定。這一過(guò)程用神經(jīng)網(wǎng)絡(luò)來(lái)完成，作者的數(shù)據(jù)集中找到 K 張ground truth來(lái)進(jìn)行訓(xùn)練，訓(xùn)練的細(xì)節(jié)見(jiàn)補(bǔ)充材料。

三、可微分可編程的傳感器

為了實(shí)現(xiàn)使用的優(yōu)化快門功能，作者使用了一種傳感器名叫SCAMP-5，其具體信息見(jiàn)論文，我主要關(guān)注整個(gè)實(shí)現(xiàn)的過(guò)程，作者用了一段偽代碼來(lái)表示。

f函數(shù)是編碼器，將快門信息S轉(zhuǎn)化為C，C儲(chǔ)存了快門S在每個(gè)像素的信息。

g函數(shù)是解碼器，將C再轉(zhuǎn)換回S，所有像素的PE并行計(jì)算像素碼和全局信號(hào)(槽號(hào))的某個(gè)解碼函數(shù)g。一些形式的編碼函數(shù)和解碼函數(shù)如下圖所示：

由于我做的是高動(dòng)態(tài)圖像的項(xiàng)目，所以我更關(guān)注這個(gè)模型在HDR成像中的應(yīng)用，作者假設(shè)在拍攝HDR圖像的過(guò)程中，光照強(qiáng)度是不變的，那么前面的式子就可以改寫成下面這樣

$E_%7Bi%2Cj%7D%3D%5Csum_%7Bn%3D0%7D%5E%7BN-1%7DL_%7Bi%2Cj%7D%5Bn%5D%5Ctimes%20S_%7Bi%2Cj%7D%5Bn%5D%3DL_%7Bcst%7D.%5Cphi_%7Bi%2Cj%7D%5E%7B(b)%7D$

其中 $L_%7Bcst%7D$ 表示恒定的光強(qiáng)，在這種情況下，其快門函數(shù)課表示為 $S_%7Bi%2Cj%7D%5E%7B(b)%7D%5Bn%5D%20%3D%20H(%5Cphi_%7Bi%2Cj%7D%5E%7B(b)%7D-n)$ ,即對(duì)應(yīng)圖2中的(b)，在所有像素上的快門函數(shù)都是從0時(shí)刻開始，但它們的結(jié)束時(shí)間各不相同。