最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

3D鳥類重建—數(shù)據(jù)集、模型以及從單視圖恢復(fù)形狀

2021-02-21 22:06 作者:3D視覺工坊  | 我要投稿

概述

動物姿態(tài)的自動捕捉正在改變研究神經(jīng)科學(xué)和社會行為的方式。運(yùn)動攜帶著重要的社會線索,但是現(xiàn)有的方法不能很好地估計(jì)動物的姿態(tài)和形狀,特別是鳥類,會受到環(huán)境中的物體遮擋。為了解決這個問題,作者首先引入了一種模型和多視圖優(yōu)化方法,來捕捉鳥類獨(dú)特的形狀和姿勢空間。然后介紹了一種用于從單視圖準(zhǔn)確恢復(fù)鳥類姿勢的方法,還包括鳥類的關(guān)鍵點(diǎn)、mask和外形。最后提供了一個包含大量多視圖關(guān)鍵點(diǎn)和mask注釋的鳥類數(shù)據(jù)集,可以從上面的項(xiàng)目鏈接中找到。

注1:文末附【CV】交流群

注2:整理不易,請點(diǎn)贊支持!

作者:Longway | 來源:3D視覺工坊微信公眾號?
原文:3D鳥類重建—數(shù)據(jù)集、模型以及從單視圖恢復(fù)形狀

簡介

1、為什么計(jì)算動物行為學(xué)?行為的準(zhǔn)確測量對于神經(jīng)科學(xué)、生物力學(xué)、人類健康和農(nóng)業(yè)至關(guān)重要。通過自動測量,計(jì)算行為學(xué)旨在捕捉姿勢、方向和位置方面的復(fù)雜變化,其中姿勢包含豐富的信息,我們可以從中提取出更多與大腦功能、生物力學(xué)和健康相關(guān)的抽象特征,同時在自然社會行為下研究神經(jīng)功能是深入理解大腦如何整合感知、認(rèn)知、學(xué)習(xí)和記憶來產(chǎn)生行為的關(guān)鍵一步。

視覺信號傳達(dá)了鳥類重要的社交信息

2.為什么鳥類的姿勢很重要?為什么是燕八哥?了解社會群體的集體行為是如何從個體互動中產(chǎn)生的,對于研究社會行為背后的社會性進(jìn)化和神經(jīng)機(jī)制非常重要的。雖然聲音是鳥類交流的重要渠道,但是姿勢、方向和位置的變化也在交流中扮演著十分重要的作用。從行為學(xué)和神經(jīng)科學(xué)的角度來看,最好的研究群體之一是褐頭燕八哥。在燕八鳥中,雌性通過一系列視覺機(jī)制影響雄性的行為,例如“翼擊(wingstrokes)”,這包括隨著時間的推移姿勢和形狀的變化。

3.為什么估計(jì)鳥的姿勢和形狀很有挑戰(zhàn)性?主要有四個原因,姿勢和形狀的變化很難在鳥類身上建模、沒有姿勢和形狀的先驗(yàn)知識可用、許多鳥只能從一個無遮擋的視角看到和自然環(huán)境下的外觀變化使檢測變得困難。

不同鳥類、不同視點(diǎn)、不同時間和不同季節(jié)的外觀變化4、數(shù)據(jù)集。為了建立一個穩(wěn)健的系統(tǒng)來估計(jì)多個相互作用的鳥類在長達(dá)數(shù)月的時間尺度上的形狀和姿勢,作者記錄了15只燕八哥在三個月的交配季節(jié)里一起住在戶外鳥舍里的行為。這個多視圖數(shù)據(jù)集包含鳥類姿勢、方向和位置/深度的巨大變化,通過八個攝像頭記錄了不同光照條件和季節(jié)的外觀。

數(shù)據(jù)集和模型作者在為1000個實(shí)例標(biāo)注輪廓和關(guān)鍵點(diǎn)后,使用基于多視圖優(yōu)化的方法來擬合鳥類網(wǎng)格模型,以學(xué)習(xí)形狀空間和姿態(tài)先驗(yàn)知識。然后利用模型和先驗(yàn)知識訓(xùn)練神經(jīng)網(wǎng)絡(luò),直接從關(guān)鍵點(diǎn)和輪廓數(shù)據(jù)回歸姿態(tài)參數(shù)。這些姿態(tài)參數(shù)可以用來初始化一個單視圖優(yōu)化程序,以進(jìn)一步細(xì)化身體姿態(tài)和形狀。

從一個角度估計(jì)鳥類的三維姿態(tài)和形狀總的來說,這篇論文的主要貢獻(xiàn)如下:

  1. 開發(fā)了第一個參數(shù)化的鳥類網(wǎng)格模型,能夠捕捉鳥類特有的姿態(tài)和形狀變化。

  2. 使用基于優(yōu)化的方法將網(wǎng)格模型與多視點(diǎn)關(guān)鍵點(diǎn)和輪廓數(shù)據(jù)相匹配,以獲得精確的形狀空間和姿勢先驗(yàn)。

  3. 開發(fā)了一種基于神經(jīng)網(wǎng)絡(luò)的模型,用于從單一視圖恢復(fù)鳥類的形狀和姿態(tài)。

  4. 提供了一個多視角數(shù)據(jù)集來研究鳥類的社會行為。

相關(guān)工作

人體姿勢和形狀的估計(jì):最近在人體姿態(tài)估計(jì)方面已經(jīng)利用了強(qiáng)大的2D聯(lián)合檢測器、3D姿態(tài)先驗(yàn)以及低維的人體關(guān)節(jié)三維形狀模型。SMPL是現(xiàn)在最流行的方案,首先使用從超過1000個掃描體中學(xué)到的形狀和姿態(tài)參數(shù)變形一個模板網(wǎng)格,然后使用線性混合蒙皮(LBS)對給定的一組關(guān)節(jié)角的網(wǎng)格頂點(diǎn)進(jìn)行變換。當(dāng)然還有一些比較出名的算法,比如SMPLify?,F(xiàn)在很多方法都是基于參數(shù)化網(wǎng)格模型,這表明了它們在連接二維觀測和三維估算之間的至關(guān)重要的作用。與之前的工作依賴于3D掃描和類似 SMPL的模型來開發(fā)網(wǎng)格和形狀空間不同的是,作者直接從活鳥的視頻數(shù)據(jù)中學(xué)習(xí)鳥類網(wǎng)格模型。動物姿勢和形狀的估計(jì):在生物學(xué)中,大部分的工作都是集中在單獨(dú)的動物,沒有雜亂的背景和少數(shù)的遮擋。很多學(xué)者都做了與此相關(guān)的工作,比如說Liu等使用HOG描述符和線性支持向量機(jī)在更具挑戰(zhàn)性的CUB-200-2011數(shù)據(jù)集中定位鳥類部位【1】,這些工作都是基于檢測和2D關(guān)鍵點(diǎn)的直接三角測量。但是一個基本的挑戰(zhàn)是,任何特定的關(guān)鍵點(diǎn)可能不能從一個視圖可見。限制關(guān)鍵點(diǎn)相對位置的模型,如前面提到的參數(shù)化網(wǎng)格模型,克服了這個問題。

動物的形狀估計(jì)也是一個困難的任務(wù)。也有許多學(xué)者做了大量工作,其中比較有名的是Kanazawa等人,他們通過創(chuàng)建動物特有的局部剛度模型來了解動物如何從圖像中變形【2】。另外,通過變形球形網(wǎng)格來預(yù)測CUB-200中鳥類的形狀、姿態(tài)和紋理,但沒有對姿態(tài)進(jìn)行建模,因此在拓?fù)浣Y(jié)構(gòu)上,翼尖在網(wǎng)格上的位置通常與尾巴相鄰,而不是靠近肩部。

還有大量工作是關(guān)于SMPL模型的,但是該模型僅在四條腿的動物上訓(xùn)練,因此模型學(xué)習(xí)到的形狀空間不足以用于建模鳥類,因?yàn)轼B類在四肢形狀和關(guān)節(jié)角度上都有顯著差異。為了克服鳥類統(tǒng)計(jì)模型的不足,作者在每個關(guān)節(jié)增加了一個額外的自由度,從多視角獲得適合活鳥的姿態(tài)和形狀空間。

動物姿態(tài)估計(jì)的數(shù)據(jù)集:相比于MS COCO、CUB-200等數(shù)據(jù)集,該多視圖數(shù)據(jù)集包含多個重疊物體的mask和關(guān)鍵點(diǎn),并且在相對的視點(diǎn)上有很大的變化,背景和光照也有復(fù)雜的變化。

方法

作者開發(fā)的模型訓(xùn)練過程如下,實(shí)現(xiàn)了從單個圖像進(jìn)行鳥類三維重建。首先,開發(fā)了一個參數(shù)化的鳥類網(wǎng)格,并使用一個多視圖優(yōu)化程序來適應(yīng)數(shù)據(jù)集中的注釋模型。其次,從多視圖擬合中,作者提取鳥類的形狀和姿勢分布,使用它來創(chuàng)建一個合成數(shù)據(jù)集,在這個數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò),從單個視圖中的關(guān)鍵點(diǎn)和輪廓回歸姿勢和形狀參數(shù)。第三,訓(xùn)練第二個網(wǎng)絡(luò)來預(yù)測實(shí)例分割和關(guān)鍵點(diǎn)。最后,將關(guān)鍵點(diǎn)和分割網(wǎng)絡(luò)連接到姿態(tài)回歸網(wǎng)絡(luò)。整個流水線提供了來自單個視圖的姿態(tài)和形狀估計(jì),可用于進(jìn)一步的優(yōu)化。

從單一視圖恢復(fù)鳥類姿勢和形狀的整體方法

從單一視圖恢復(fù)鳥類姿勢和形狀的整體方法完整圖像中的鳥類檢測:使用預(yù)先訓(xùn)練過的用于COCO實(shí)例分割的Mask R-CNN來檢測鳥類,并且移除沒有鳥類的實(shí)例,只剩下鳥類和背景。

關(guān)鍵點(diǎn)和輪廓預(yù)測:訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測關(guān)鍵點(diǎn)和輪廓,給出一個檢測和相應(yīng)的包圍框,同時修改了高分辨率網(wǎng)絡(luò)(HRNet)【4】的結(jié)構(gòu),它是目前最先進(jìn)的人體關(guān)鍵點(diǎn)定位技術(shù),除了關(guān)鍵點(diǎn),還可以輸出mask。

線性關(guān)節(jié)鳥類模型:為了定義一個初始網(wǎng)格、關(guān)節(jié)位置和權(quán)重,作者使用了一個鳥類模型的三維網(wǎng)格。這個模型原本有18k個頂點(diǎn)和13k個面,但是作者移除了很多與細(xì)節(jié)相關(guān)的點(diǎn),以獲得一個有3932個頂點(diǎn)、5684個面和25個骨骼關(guān)節(jié)的網(wǎng)格。為了設(shè)置模型姿勢,作者提出了一個骨骼長度參數(shù)的函數(shù)M(α,θ,γ,σ),其中α表示J個關(guān)節(jié)點(diǎn),θ表示關(guān)節(jié)點(diǎn)的相對旋轉(zhuǎn),鳥舍內(nèi)的整體平移γ和比例σ,返回一個有3932個頂點(diǎn)的網(wǎng)格。

當(dāng)鳥類棲息時,它們的翅膀會折疊在自己身上,這種巨大的變形并不能很好地用單一鳥類網(wǎng)格模型來模擬。為了解決這個限制,作者使用了兩種模板姿勢,它們有著相同的網(wǎng)格拓?fù)浣Y(jié)構(gòu)、骨骼、權(quán)重和關(guān)鍵點(diǎn),但它們的初始姿勢不同:一個是伸展翅膀的鳥,另一個是折疊翅膀的鳥,如下圖所示。

模型能夠捕捉棲息和飛行時的姿勢為了形成給定姿勢的網(wǎng)格,作者修改了SMPL【5】和SMPLify【6】中使用的方法以允許不同的骨骼長度。從具有關(guān)節(jié)位置J的標(biāo)準(zhǔn)姿勢中的模板網(wǎng)格M開始,首先計(jì)算每個關(guān)節(jié)i相對于父節(jié)點(diǎn)的位置

然后用這個向量乘以αi來調(diào)整兩個關(guān)節(jié)點(diǎn)之間的距離,形成一個新的骨骼形狀J’

其中A (i)是節(jié)點(diǎn)i的祖先節(jié)點(diǎn)的有序集合。最后,使用全局剛性變換Rθ(?)將J’=J(α)轉(zhuǎn)換成最后的姿勢,其中R函數(shù)由位姿和根方向參數(shù)θ定義,并且應(yīng)用了線性混合蒙皮LBS函數(shù)W。最后的網(wǎng)格頂點(diǎn)如下

優(yōu)化:為了使鳥模型適合于檢測到的關(guān)鍵點(diǎn),作者引入了一個類似于SMPLify【6】的擬合過程,不同的是,使用骨骼長度參數(shù)而不是身體形狀參數(shù)來捕獲個體差異,和語義關(guān)鍵點(diǎn)相對應(yīng)而不是關(guān)節(jié)位置。最小化一個目標(biāo)函數(shù),包括每個攝像機(jī)i的關(guān)鍵點(diǎn)重投影誤差項(xiàng)和輪廓誤差項(xiàng),兩個姿勢先驗(yàn)以及關(guān)節(jié)之間的相對三維距離的先驗(yàn),如下所示:

其中

合成數(shù)據(jù)和位姿與形狀回歸:在標(biāo)注的數(shù)據(jù)集中對140個3D鳥類實(shí)例進(jìn)行多視圖優(yōu)化后,作者擬合一個多元高斯估計(jì)的姿態(tài)參數(shù)(位姿、視角和平移)。然后,從每個鳥類實(shí)例的分布中隨機(jī)抽取100個點(diǎn),將相應(yīng)模型的可見關(guān)鍵點(diǎn)投射到相機(jī)上并渲染輪廓,生成14,000個合成實(shí)例用于訓(xùn)練。保留原始的140個實(shí)例的骨骼長度,但在每個樣本的骨骼長度上添加了隨機(jī)噪聲。對于位姿回歸網(wǎng)絡(luò),輸入為二維關(guān)鍵點(diǎn) ,目標(biāo)為三維的旋轉(zhuǎn)參數(shù),網(wǎng)絡(luò)主體結(jié)構(gòu)是多層感知機(jī)MLP。

實(shí)驗(yàn)結(jié)果

基于多視圖優(yōu)化的鳥類網(wǎng)格模型對關(guān)鍵點(diǎn)和mask標(biāo)注的擬合,上面部分是好的案例,下面是失敗的案例

從單一視角恢復(fù)鳥類的姿勢和形狀

參考文獻(xiàn):

【1】Wah, C., Branson, S., Welinder, P., Perona, P., Belongie, S.: The Caltech-UCSD Birds-200-2011 Dataset. Tech. Rep. CNS-TR-2011-001, California Institute of Technology (2011)

【2】Kanazawa, A., Kovalsky, S., Basri, R., Jacobs, D.: Learning 3D deformation of animals from 2D images. Computer Graphics Forum 35(2), 365–374 (2016).?doi.org/10.1111/cgf.128,?onlinelibrary.wiley.com

【3】Kanazawa, A., Tulsiani, S., Efros, A.A., Malik, J.: Learning category-specific mesh reconstruction from image collections. In: ECCV (2018)

【4】Sun, K., Xiao, B., Liu, D., Wang, J.: Deep high-resolution representation learning for human pose estimation. In: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). pp. 5686–5696 (2019)

【5】Loper, M., Mahmood, N., Romero, J., Pons-Moll, G., Black, M.J.: SMPL: Askinned multi-person linear model. ACM Trans. Graphics (Proc. SIGGRAPH Asia) 34(6), 248:1–248:16 (Oct 2015)

【6】Bogo, F., Kanazawa, A., Lassner, C., Gehler, P., Romero, J., Black, M.J.: Keep it SMPL: Automatic estimation of 3D human pose and shape from a single image. In: Computer Vision – ECCV 2016. pp. 561–578. Lecture Notes in Computer Science, Springer International Publishing (Oct 2016)

備注:作者也是我們「3D視覺從入門到精通」特邀嘉賓:一個超干貨的3D視覺學(xué)習(xí)社區(qū)本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

3D視覺工坊-CV交流群

已建立3D視覺工坊-CV微信交流群!想要進(jìn)CV學(xué)習(xí)交流群的同學(xué),可以直接加微信號:CV_LAB。加的時候備注一下:CV+學(xué)校+昵稱,即可。然后就可以拉你進(jìn)群了。

強(qiáng)烈推薦大家關(guān)注3D視覺工坊嗶哩嗶哩賬號和3D視覺工坊微信公眾號,可以快速了解到最新優(yōu)質(zhì)的3D視覺與SLAM論文。


3D鳥類重建—數(shù)據(jù)集、模型以及從單視圖恢復(fù)形狀的評論 (共 條)

分享到微博請遵守國家法律
丁青县| 张北县| 永安市| 邻水| 鹤庆县| 怀化市| 盐山县| 友谊县| 芮城县| 灵台县| 新津县| 永川市| 京山县| 杨浦区| 满洲里市| 平湖市| 孝义市| 府谷县| 福州市| 淮安市| 西昌市| 深泽县| 滁州市| 定安县| 精河县| 河东区| 通河县| 长乐市| 香港 | 怀仁县| 甘谷县| 简阳市| 曲水县| 富源县| 水城县| 那坡县| 湖南省| 青田县| 霍州市| 互助| 黑山县|