谷歌研究為NeRF渲染提出視圖合成深度學(xué)習(xí)模型
查看引用/信息源請點(diǎn)擊:映維網(wǎng)Nweon
視圖合成深度學(xué)習(xí)模型
(映維網(wǎng)Nweon?2022年10月05日)視圖合成是計算機(jī)視覺和計算機(jī)圖形學(xué)的一個長期問題,其目標(biāo)是從場景的多張圖片中創(chuàng)建新的場景視圖。自從引入神經(jīng)輻射場(NeRF)以來,這一點(diǎn)受到了越來越多的關(guān)注。這個問題非常有挑戰(zhàn)性,因?yàn)槿粢獪?zhǔn)確地合成場景的新視圖,模型需要從一小組參考圖像中捕獲多種類型的信息,包括詳細(xì)的3D結(jié)構(gòu)、材質(zhì)和照明。
在日前一篇博文中,谷歌介紹了最近發(fā)布的視圖合成深度學(xué)習(xí)模型。在CVPR 2022大會介紹的LFNR光場神經(jīng)網(wǎng)絡(luò)渲染中,谷歌通過使用學(xué)習(xí)組合參考像素顏色的transformer來解決精確再現(xiàn)視圖相關(guān)效果的挑戰(zhàn)。然后,在ECCV 2022大會介紹的GPNR中,谷歌通過使用一系列具有規(guī)范化位置編碼的transformer來解決泛化到未知場景的挑戰(zhàn)。
其中,transformer可以在一組場景進(jìn)行訓(xùn)練,并合成新場景的視圖。所述模型執(zhí)行基于圖像的渲染,結(jié)合參考圖像的顏色和特征來渲染新視圖。它們完全基于transformer,在圖像patch集上操作,并利用4D光場表示進(jìn)行位置編碼,這有助于建模視圖相關(guān)的效果。

1. 概述
模型的輸入包括一組參考圖像及其camera參數(shù)(焦距、位置和空間方向),以及要確定其顏色的目標(biāo)光線的坐標(biāo)。為了生成新圖像,研究人員從輸入圖像的camera參數(shù)開始,獲取目標(biāo)光線的坐標(biāo)(每個光線對應(yīng)一個像素),并查詢每個光線的模型。
團(tuán)隊(duì)只關(guān)注可能影響目標(biāo)像素的區(qū)域,而不是完全處理每個參考圖像。相關(guān)區(qū)域是通過極線幾何確定,它將每個目標(biāo)像素映射到每個參考幀的一條線。為了增強(qiáng)魯棒性,研究人員在外極線上的部分點(diǎn)周圍選取了小片區(qū)域,從而生成了一組實(shí)際上將由模型處理的patch。然后,transformer作用于這組patch以獲得目標(biāo)像素的顏色。
transformer在這種設(shè)置中特別有用,因?yàn)樗鼈兊膕elf-attention機(jī)制自然將集合作為輸入,并且attention權(quán)重本身可以用于組合參考視圖顏色和特征,從而預(yù)測輸出像素顏色。transformer遵循ViT中介紹的架構(gòu)。

2. LFNR(Light Field Neural Rendering)
在LFNR中,谷歌使用一個由兩個transformer組成的序列將patch集映射到目標(biāo)像素顏色。第一個transformer沿著每條外極線聚合信息,第二個沿著每條參考圖像聚合信息??梢詫⒌谝粋€transformer解釋為在每個參考幀查找目標(biāo)像素的潛在對應(yīng),而第二個transformer則解釋為關(guān)于遮擋和視圖相關(guān)效果的推理,這是基于圖像的渲染的常見挑戰(zhàn)。

LFNR使用兩個transformer序列將沿極線提取的一組patch映射到目標(biāo)像素顏色。LFNR峰值信噪比(PSNR)為5dB。這相當(dāng)于將像素誤差減少了1.8倍。他們在下面的Shiny數(shù)據(jù)集中展示了具有挑戰(zhàn)性場景的定性結(jié)果:


3. 泛化到新場景
LFNR的一個局限性是,第一個transformer沿著每個外極線獨(dú)立地折疊每個參考圖像的信息。這意味著它僅根據(jù)每個參考圖像的輸出光線坐標(biāo)和patch來決定要保留哪些信息,這在對單個場景進(jìn)行訓(xùn)練時非常有效(與大多數(shù)神經(jīng)渲染方法一樣),但它不會在場景之間進(jìn)行泛化。泛化方法非常重要,因?yàn)樗鼈兛梢詰?yīng)用于新場景,無需重新培訓(xùn)。
團(tuán)隊(duì)在Generalizable Patch-Based Neural Rendering(GPNR)中克服了LFNR的這一局限性。他們添加了一個在其他兩個之前運(yùn)行的transformer,并在所有參考圖像相同深度的點(diǎn)之間交換信息。例如,第一個transformer查看上圖公園長凳的一列patch,并可以使用諸如花朵這樣的線索。這項(xiàng)研究的另一個關(guān)鍵思想是規(guī)范化基于目標(biāo)光線的位置編碼,因?yàn)橐趫鼍爸羞M(jìn)行泛化,必須以相對而非絕對參考幀表示數(shù)量。

為了評估泛化性能,他們在一組場景訓(xùn)練GPNR,并在新場景測試。GPNR在幾個基準(zhǔn)測試中平均提高了0.5–1.0 dB。在IBRNet基準(zhǔn)測試中,GPNR的表現(xiàn)優(yōu)于基線,并且只使用了11%的訓(xùn)練場景。


4. 局限
大多數(shù)神經(jīng)渲染方法(包括谷歌)的一個局限性是,它們需要為每個輸入圖像設(shè)置camera姿勢。camera姿勢不容易獲得,并且通常來自離線優(yōu)化方法,速度較慢,限制了可能的應(yīng)用。聯(lián)合學(xué)習(xí)視圖合成和輸入姿勢是一個富有前景的研究方向。谷歌模型的另一個限制是,訓(xùn)練它們的計算成本非常高。
相關(guān)論文:Generalizable Patch-Based Neural Rendering
相關(guān)論文:Light Field Neural Rendering
5. 潛在誤用
在研究中,團(tuán)隊(duì)的目標(biāo)是使用場景中的圖像精確地再現(xiàn)現(xiàn)有場景,因此幾乎沒有空間生成虛假或不存在的場景。模型假設(shè)場景為靜態(tài),所以合成移動的對象行不通。
---
原文鏈接:https://news.nweon.com/101281