最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

權威發(fā)布|計算機視覺重要研究進展(二)

2020-10-24 18:04 作者:深藍學院  | 我要投稿

前文見傳送門:計算機視覺重要研究進展(一)


7. 三維重建

三維重建旨在通過多視角二維圖像恢復場景三維結構,可以看作相機成像的逆過程。最早的三維重建理論在1982年由D. Marr在其視覺計算理論中提出,Marr認為人類視覺的主要功能是復原三維場景的可見幾何表面,即三維重建問題,同時Marr還提出了從初始略圖到物體2.5維描述,再到物體三維描述的完整計算理論和方法。Marr認為這種從二維圖像到三維幾何結構的復原過程是可以通過計算完成的,這一視覺計算理論是最早的三維重建理論。從1990年至2000年左右,以射影幾何為基礎的分層重建理論的提出,使三維重建算法的魯棒性得到了有效提高。分層重建理論構建了從射影空間到仿射空間,再到歐氏空間的計算方法,具有明確的幾何意義和較少的未知變量,是現(xiàn)代三維重建算法的基礎理論。近年來,隨著大規(guī)模三維重建應用需求的不斷提升,三維重建的研究開始面向大規(guī)模場景和海量圖像數(shù)據(jù),主要解決大場景重建過程中的魯棒性和計算效率問題。

通過多視角二維圖像恢復場景三維結構主要包括稀疏重建和稠密重建兩個串行的步驟。稀疏重建根據(jù)輸入的圖像間特征點匹配序列,計算場景的三維稀疏點云,并同步估計相機內參數(shù)(焦距、主點、畸變參數(shù)等)和外參數(shù)(相機位置、朝向)。稀疏重建算法主要包括增量式重建和全局式重建兩類:增量式稀疏重建從兩視圖重建開始,不斷添加新的相機并進行整體優(yōu)化,漸進式的重建出整個場景和標定所有相機;全局式稀疏重建首先整體估計所有相機的空間朝向,之后整體計算所有相機的位置,最后通過三角化計算空間稀疏點云。在稀疏重建中,最后一步都需要使用捆綁調整算法(Bundle Adjustment)對所有相機參數(shù)和三維點云位置進行整體優(yōu)化。捆綁調整以所有三維點重投影誤差平方和最小化為優(yōu)化目標,是一個高維非線性優(yōu)化問題,也是決定稀疏重建結果質量的核心步驟。在稀疏重建完成后,稠密重建根據(jù)稀疏重建計算的相機位姿,逐像素點計算密集空間點云。稠密重建的主要方法包括基于空間體素的方法、基于稀疏點空間擴散的方法、基于深度圖融合的方法等。基于體素的方法首先將三維空間劃分為規(guī)則三維格網(wǎng)(Voxel),將稠密重建問題轉化為將每一個體素標記為內和外的標記問題,并通過圖割算法進行全局求解,得到的內外體素交界面即為場景或物體的表面區(qū)域?;谔卣鼽c擴散的方法以稀疏點云為初始值,采用迭代的方式,通過最小化圖像一致性函數(shù)優(yōu)化相鄰三維點的參數(shù)(位置、法向等),實現(xiàn)點云的空間擴散?;谏疃葓D融合的方法首先通過兩視圖或多視圖立體視覺計算每幅圖像對應的深度圖,然后將不同視角的深度圖進行交叉過濾和融合得到稠密點云。近年來,深度學習方法也開始逐步應用于深度圖計算中,其基本思想是首先利用共享權重的卷積神經網(wǎng)絡來提取圖像的特征,然后利用平行平面假設,將從鄰域圖像中提取出的特征通過單應性矩陣轉換到當前圖像不同深度的前平面,隨后通過計算不同深度之間的方差將不同深度的特征融合在一起,再通過三維卷積進行深度求精,最后得出當前圖像的深度圖。

除了通過多視角二維圖像計算場景三維結構外,計算機視覺領域還發(fā)展了一系列通過圖像明暗、光度、紋理、焦點等信息恢復場景三維結構的方法,一般統(tǒng)稱為Shape-from-X。從明暗恢復形狀(Shape from Shading)的方法通過建立物體表面形狀與光源、圖像之間的反射圖方程,并在場景表面平滑性約束的假設下,通過單幅圖像的灰度明暗來計算三維形狀。從光度立體恢復形狀(shape From Photometric Stereo)的方法同樣基于反射圖方程,但使用多個可控光源依次改變圖像明暗,從而構造多個約束方程,可以使三維形狀的計算更加精準可靠。從紋理恢復形狀(Shape From Texture)的方法利用圖像中規(guī)則且重復的紋理基元在射影變換下產生的尺寸、形狀、梯度等變化情況來推斷場景結構,但該方法受限于場景紋理先驗,在實際應用中使用較少。從焦點恢復形狀(Shape from Focus)的方法利用透鏡成像中物體離開聚焦平面引起的圖像模糊(散焦)現(xiàn)象,利用聚焦平面或物體的運動,以及圖像中的檢測到的清晰成像點,來推斷每個像素點到相機光心的距離。

三維重建理論和方法是伴隨著諸多應用領域的需求而不斷發(fā)展的,如機器人環(huán)境地圖構建和導航、城市級航拍三維建模、文化遺產三維數(shù)字化保護等等。尤其對于大規(guī)模復雜場景的三維建模,由于圖像傳感器低成本和采集方便的特性,往往成為這類應用的首選。比如在地理信息領域,基于航拍傾斜攝影的三維建模已經在很多場合替代了傳統(tǒng)的航空激光雷達建模。近年來,隨著圖像三維重建算法魯棒性和計算效率的進一步提高,其在室內建模與導航、無人駕駛高精地圖構建等領域的應用也在不斷拓展。

8. 目標檢測與識別

目標檢測與識別長期以來一直是計算機視覺與模式識別領域的重要研究任務之一,為解決更復雜任務例如目標分割、行為分析、事件理解、視覺語言交互等奠定了基礎。具體而言,目標識別需要對于圖像視頻中出現(xiàn)的人或目標預測出其相應的類別,而目標檢測則需要在識別出目標類別的基礎上進一步預測目標在圖像中的位置。

傳統(tǒng)目標識別方法通常采用兩階段的方式。1)特征提取與編碼:從圖像視頻中提取具有判別性的局部特征,該局部特征通常是基于人類先驗設計的特征描述子,代表性方法有SIFT、Gabor、LBP和SURF。此外還有一類基于物體幾何形狀分析的方法,能夠對包括旋轉、縮放等比較大的運動變化以及目標形狀特征失真或缺損情況都比較魯棒,代表性方法有GHT、CTT和形狀上下文方法等。在局部特征的基礎上通常會進行特征編碼,進一步強化特征的表示能力,代表性方法有BOW和稀疏編碼方法等。2) 訓練分類器:學習從視覺特征到類別的映射,代表性方法有SVM。或者也可以采用度量學習和模板比對的策略來找到與查詢樣本接近的樣本的類別。這兩個階段的模型是相互獨立學習的,在第一階段通常不會用到類別等監(jiān)督信息。自2012年以來,以CNN為代表的深度學習模型采取端到端的聯(lián)合特征學習和分類器學習,即由數(shù)據(jù)驅動學習適用于分類的判別特征表示。最具有代表性的一系列深度學習模型包括AlexNet、VGGNet、GoogleNet、ResNet、DenseNet、SENet等,取得遠超傳統(tǒng)方法的性能?;谏疃葘W習的算法在2012-2017年間不斷刷新目標識別任務的最好結果,并且最終在百萬級圖像數(shù)據(jù)庫ImageNet上取得了超過人類的識別性能。自此,通用目標的識別問題基本上已經被解決,相關技術也廣泛用于實際場景例如人臉識別、植物識別、動物識別等。目前研究者們更多關注如何基于小型學習網(wǎng)絡進行高效率目標識別,代表的模型包括MobileNet、ShuffleNet、IGCNet等。

早期的目標檢測算法大多針對某個具體的目標類別,如人臉檢測、行人檢測。其中,針對人臉檢測問題提出的Adaboost算法在其他特定類別的目標檢測問題中也得到了較為廣泛的應用。在Adaboost之后,一直到2014年基于深度學習的R-CNN方法出現(xiàn),基于可變形部件模型DPM成為最具有代表性的多目標檢測方法。但是傳統(tǒng)目標檢測算法缺陷卻是明顯的:1)基于滑動窗口的區(qū)域選擇策略沒有針對性,時間復雜度高且冗余度高;2)手工設計的特征對于目標多樣性變化不夠魯棒。2014年之后,目標檢測全面進入深度學習時代,基于深度學習的目標檢測算法對于之前基于手工特征結合DPM的方法產生了質的飛躍,目前可分為基于目標候選框提取的兩階段目標檢測算法和基于回歸的單階段目標檢測算法。著名的Fast R-CNN、Faster R-CNN、FPN、Mask R-CNN、Cascade R-CNN系列方法都屬于前者,相對于單階段目標檢測算法他們的精度更高,但是運行速度卻慢。單階段目標檢測算法是2016年興起的方法,比較具有代表性的工作有SSD、YOLO、以及RetinaNet系列算法。此外,如何將這兩類目標檢測算法進行有機結合在近些年也開始受到關注,相關技術被廣泛用于生物醫(yī)學圖像分析、交通安全等領域。

9. 圖像分割

與目標檢測和識別任務不同,圖像分割是更具有挑戰(zhàn)性且最近發(fā)展非常快的一個任務。圖像分割的目的是將圖像視頻分成各具特性的區(qū)域并提取出感興趣目標,他可以看作是目標檢測任務的進一步延展,即不僅需要識別出圖像視頻中出現(xiàn)的目標,還需要定位目標位置并將其輪廓分割出來。圖像分割發(fā)展至今包括四種主要任務類型:1)普通分割,即將分屬不同目標的像素區(qū)域分開,不區(qū)分類別,例如前景狗的區(qū)域與背景區(qū)域草地的區(qū)域分割開;2)語義分割(Semantic Segmentation),即在普通分割的基礎上判斷每塊區(qū)域的類別,包括可數(shù)的things(如狗)和不可數(shù)的stuff(如草地);3)實例分割(Instance Segmentation),即在語義分割的基礎上給每個可數(shù)的things(目標)編號,例如一個目標是汽車A,另一個目標是汽車B;4)全景分割(Panoptic Segmentation),語義分割和實例分割的結合,既分割可數(shù)things和不可數(shù)stuff的不同語義,同時也給每個可數(shù)的things編號。

傳統(tǒng)的很多圖像分割算法通?;谙袼攸c的值、顏色、紋理等信息來度量不同像素之間的相似性進而判斷各個像素的類別都是無監(jiān)督的,例如閾值分割法、區(qū)域生長法、邊緣檢測法、特征聚類法、直方圖法、區(qū)域生長法等。分水嶺算法是一種代表性的分割方法,該方法將圖像的灰度值的高低視為“山峰”與“山谷”,通過對不同“山谷”區(qū)域不斷注入不同標簽的“水”,并且在相鄰“山谷”之間的“水”匯合之處增加“分水嶺”以實現(xiàn)區(qū)域分割。盡管這些算法的速度都比較快,但是對于比較復雜的視覺內容容易產生分割區(qū)域不完整、漏分割等問題。為了緩解這些問題,Normalized Cut把圖像所有像素建模為一個圖,并通過最大流/最小割算法來獲得兩個不相交的子集,分別對應于圖像的前景像素集和背景像素集,即相當于完成了圖像分割。另外一類常用方法是主動輪廓(Active Contour)算法,他通過設計能量泛函使得自變量包括用連續(xù)曲線表達的目標邊緣,從而使分割過程轉化為能量泛函最小化問題。該方法包括參數(shù)主動輪廓和幾何主動輪廓兩種實現(xiàn)途徑,代表方法分別有Snake和Level Set。此外,在深度學習興起之前還有很多基于概率圖模型的圖像分割方法,代表性的有MRF、CRF、Auto-Context等。

在2012年深度學習興起之后,多種CNN的擴展模型也被應用到了圖像分割領域。語義分割具有里程碑意義的模型是全卷積網(wǎng)絡FCN, 他通過將全連接操作全部替換為卷積操作來高效地進行逐像素類別預測,從而避免了CNN中的將二維特征圖壓縮成一維向量所帶來的空間信息丟失。為了同時保證準確率和輸出圖像分辨率,U-Net、DeconvNet、SegNet、HRNet等模型應用跨層關聯(lián)模式逐漸融合低層信息來恢復輸出預測,而Deeplab、PSPNet等模型引入空洞卷積的操作使得輸出預測保持較大的分辨率。隨著圖像分割的精度大幅提升,分割的效率也逐漸吸引了很多注意力,其中,ICNet、BiSeNet等方法通過設計多分支網(wǎng)絡結構大幅提升了模型的推理效率。

實例分割既需要分割出物體的語義,同時定位出不同的實例,其中具有里程碑意義的模型是Mask-RCNN,他在目標檢測算法Faster-RCNN的基礎上增加了用于分割目標的分支,從而在每個檢測框內進行語義分割。但是,目標檢測算法中的ROI操作限制了輸出分割圖像的精度。所以,隨著目標檢測和語義分割方法的發(fā)展,F(xiàn)OCS、SOLO、CondINS等方法提出拋開ROI直接輸出更高精度的分割圖。全景分割結合了語義分割和實例分割的特點,既需要分割不可數(shù)的stuff,又需要分割數(shù)可數(shù)things的不同實例。該任務2018年剛被提出,雖然較新,但是已經吸引了越來越多的研究人員投身其中。PanopticFPN、UPSNet、OANet、Panoptic-Deeplab等模型主要依賴于語義分割算法分割stuff,實例分割算法分割thing,再融合兩者的輸出得到最終的全景分割圖。

盡管目前學術界還在深入研究精細化圖像分割的算法,但是相關技術已經在行人分割、病灶分割等諸多領域得到實際應用。此外,圖像分割技術也廣泛作為其他復雜視覺內容理解任務例如步態(tài)識別、行人再識別等的前處理操作,他的分割魯棒性直接決定了后續(xù)任務的最終性能。因此,研究復雜背景、遮擋、模糊等復雜情況下的魯棒圖像分割是亟待解決的問題。

10. 圖像場景理解

圖像場景理解是比較寬泛的概念,所涉及的關鍵技術主要包括場景解析、語義描述等,近年來都得到了快速發(fā)展。

場景解析:場景解析是給予圖像中每一個像素相應的目標類別標簽,亦稱為圖像語義分割。不同于粗放的圖像識別,場景解析是高層級,精細化的圖像分析和識別任務,通過像素級的目標類別標簽,可輕易獲得圖像中目標的位置、輪廓和類別。場景解析技術難點是如何將高層次的目標語義與低層次的輪廓融合起來,進而得到高分辨率、精細的解析結果。高層次的目標語義需要深層次特征和較大感受野實現(xiàn)宏觀概念的抽取,但同時低層次的輪廓則需要淺層高分辨特征和較為有限感受野以保證銳利的邊緣。當前主流的場景解析技術主要基于全卷積神經網(wǎng)絡(FCN),大致分為兩類:1) 編碼解碼模型(Encoder-Decoder Model)。U-Net、DeconvNet、GCN、RefineNet、DFN等模型通過在低分辨率高層語義特征的基礎上逐步引入淺層高分辨率特征來恢復高分辨率精細的解析結果。2) 擴張卷積模型(Dilated Convolution Model)。DeepLab、PSPNet、PSANet等場景解析技術通過空洞卷積或者擴張卷積(Dilation Convolution)來保證輸出高分辨率的高層語義特征。場景解析能夠給出精細化的圖像分析和識別結果,在自動駕駛、自主機器人、監(jiān)控視頻等精細化定位和操作領域,需求尤為突出。

語義描述:雖然當前大部分視覺研究仍關注在檢測、分割、識別等經典的視覺任務上,但人們發(fā)現(xiàn)人類的視覺系統(tǒng)在處理信息時,往往是與聽覺和語言系統(tǒng)協(xié)同工作的,這樣才能將視覺感受到的信息加工、抽象成為高層級的語義信息。語義描述是計算機視覺技術前沿研究領域,具體研究問題是根據(jù)給定圖像,給出一段描述性文字,力圖符合人類給出的描述標簽。當前圖像語義描述起源于著名華人科學家李飛飛博士策劃的視覺基因組(visual genome)計劃,目標是把圖像和語義結合起來。當前的圖像語義描述技術是聯(lián)合卷積神經網(wǎng)絡(CNN)和遞歸神經網(wǎng)絡(RNN)的一種新型網(wǎng)絡。語義描述被認為是當前感知智能向認知智能發(fā)展的開端,不僅是跨模態(tài)模式識別的典型問題,同時具有廣闊的應用前景。語義描述改變了計算機視覺與自然語言處理、語音識別等學科相對獨立的狀態(tài),提供了一種新的圖像場景理解的研究范式。當前圖像描述的技術難點主要集中在兩個方面:語法的正確性,映射的過程當中需要遵循自然語言的語法,使得結果具有可讀性;描述的豐富程度,生成的描述需要能夠準確描述對應圖片的細節(jié),產生足夠復雜的描述。為求解上述問題,學者們引入了注意機制(Attention)、對抗生成網(wǎng)絡(GAN)等技術,試圖生成更加貼近人類自然語言的圖像語義描述。

11. 圖像檢索

圖像檢索(Image Retrieval)是為了在輸入查詢圖像時在包含豐富視覺信息的海量圖像庫中方便、快速、準確地查詢并篩選出用戶所需的或感興趣的一些相關圖像。檢索的主要步驟依次為用戶輸入查詢(Query)、查詢分析、索引&詞庫、內容篩選、結果召回和結果排序及展示。查詢經常常包含文字、顏色圖、圖像實例、視頻樣本、概念圖、形狀圖、素描、語音、二維碼以及多種形式的組合。為了更好地給出用戶需要的圖像,檢索系統(tǒng)會使用相關性反饋和交互式反饋,充分利用用戶提供的反饋信息(如瀏覽記錄、點擊記錄、再次搜索等),從而更好地理解用戶的表達搜索意圖以得到更好的搜索結果。圖像檢索方法按照描述圖像內容方式分為:基于文本的圖像檢索和基于內容的相似圖像檢索。此等人的研究內容包括圖像自動標注、圖像特征提取與表示、特征編碼與聚合、大規(guī)模搜索。

圖像自動標注是指針對圖像的視覺內容,通過機器學習方法自動給圖像添加反映其內容的文本特征信息(如顏色、形狀、區(qū)域屬性標注、概念類別等)的過程。經過圖像自動標注,圖像檢索問題可以轉化為技術已經相對較成熟的文本信息處理問題。圖像自動標注依據(jù)標注模型的不同主要包括基于統(tǒng)計分類的自動圖像標注、基于概率的圖像自動標注和基于深度學習的圖像自動標注等?;诮y(tǒng)計分類的方法將每個圖像的語義概念作為一類進行分類,自動圖像標注轉化為多分類問題。基于概率建模的方法嘗試推斷圖像和語義概念之間的相關性或聯(lián)合概率分布。深度學習方法適合對圖像高層語義特征進行自動學習并對海量圖像進行分類標注。

圖像特征提取和表達是基于內容的圖像檢索的初始階段。模識分類和視覺目標識別中常用的特征提取和表達方法(如SIFT、SURF、Bag-of-Words、CNN等)也可用于圖像檢索。由于浮點特征計算圖像相似度/距離復雜度高、存儲空間大,而二進制特征存儲高效,漢明距離計算復雜度低,基于二進制特征和哈希方法受到了廣泛關注。哈希是在保留圖像或視頻的相似性條件下將高維數(shù)據(jù)編碼為二值化表達。傳統(tǒng)方法需要將浮點特征編碼成二進制特征,例如譜哈希等;深度學習方法則是直接學習和輸出二進制特征表達,如基于漢明嵌入的緊致特征表達、二進制哈希編碼、深度監(jiān)督哈希、深度離散哈希等。為了降低原始特征維度災難帶來的影響,特征編碼和聚合是基于內容的圖像檢索的第二階段,主要是基于特征提取階段得到的圖像特征進行聚類并生成編碼本,有利于構建倒排索引,可以分為小規(guī)模編碼本,大規(guī)模編碼本。根據(jù)編碼方法不同,小規(guī)模編碼本包含基于稀疏編碼的特征聚合(Bag of Words, BoW)、局部聚合向量(Vector of Locally Aggregated Descriptors, VLAD)、Fisher向量編碼。大規(guī)模編碼本包括層級K均值和近似K均值。在進入深度學習時代后,前期的工作采用卷積神經網(wǎng)絡與傳統(tǒng)編碼聚合方法相結合的思路,如CNN+VLAD、CNN+BoW、Fisher編碼+CNN等。后期研究人員則提出了各種面向圖像檢索任務的端到端訓練深度卷積神經網(wǎng)絡,這時候就不再需要顯式編碼或聚合步驟。代表性工作包括基于孿生網(wǎng)絡和對比損失的視覺相似性學習、受VLAD啟發(fā)的NetVLAD等。二進制編碼也是特征編碼的重要部分,主要進展包括數(shù)據(jù)獨立哈希和數(shù)據(jù)依賴哈希。數(shù)據(jù)獨立哈希代表性工作有隨機預測哈希、局部敏感哈希、加權最小獨立置換局部敏感哈希等。數(shù)據(jù)依賴的哈希算法需要使用訓練數(shù)據(jù)學習哈希函數(shù),對數(shù)據(jù)敏感,一般分為無監(jiān)督、半監(jiān)督和有監(jiān)督哈希。由于深度學習強大的特征學習能力和端到端的學習哈希函數(shù)能力,一批相關哈希算法越來越受到重視,代表性工作包括卷積神經網(wǎng)絡哈希、深度正則相似比較哈希、深度監(jiān)督哈希、跨模態(tài)深度哈希、基于排序的語義哈希等。深度無監(jiān)督哈希方法不需要任何標簽信息,而是通過特征的距離獲得相似性信息,主要分為三類:相似性移除的深度哈希、基于生成模型的深度哈希和基于偽標簽的深度哈希。近年來多模態(tài)深度哈希技術吸引了大量研究興趣,代表性工作包括多種跨模態(tài)哈希和跨模態(tài)深度哈希、自監(jiān)督對抗哈希、深度多層次語義哈希等。

對于大規(guī)模圖像搜索的快速查找技術包括查找優(yōu)化(如建立倒排索引,通過優(yōu)化檢索結構進行性能優(yōu)化,不改變向量本身)和向量優(yōu)化(通過將高維浮點向量映射為低維向量或映射到漢明空間,減少計算復雜度和存儲空間)。查找優(yōu)化方法分為最近鄰查找和近似最近鄰查找。最近鄰查找代表性工作是KD樹、基于查詢驅動迭代最近鄰圖搜索的大規(guī)模索引法等。近似最近鄰通過減少搜索空間,大幅度提高效率,找到近似最近距離的匹配目標,常用的方法有局部敏感哈希、倒排文件索引、倒排多索引、面向深度特征的非正交倒排多索引等。向量優(yōu)化方法是將特征向量進行重映射,將高維浮點向量映射到其他空間,映射后的向量可以使用更高效的方式進行距離計算。哈希算法是其中最有代表性的技術。

此外,圖像檢索在相關性的定義方面有許多外延,包括語義相關、紋理相關、表觀相關等。為了更好地獲得圖像檢索結果,排序算法和重排序算法經常被應用于圖像檢索系統(tǒng)中。為了更好地與用戶進行交互或者廣告推薦商業(yè)化,檢索結果的合理展示也是各大互聯(lián)網(wǎng)公司非常重視的一塊??偟膩碚f,圖像檢索推動了計算機視覺、模式識別、機器學習等領域的發(fā)展。其技術得到了廣泛的應用,包括百度、谷歌、微軟的搜索引擎,阿里、京東、拼多多等的電子商務中的商品垂直搜索,IBM的醫(yī)療輔助等。

12. 視覺跟蹤

從最一般的意義上講,視覺跟蹤就是要在整個圖像序列中的每幀圖像里,通過算法確定指定目標的狀態(tài)。在第一幀中的待跟蹤物體的狀態(tài)由人或者其它算法確定。目標狀態(tài)通常包括其中心在圖像中的位置、恰好包圍住物體的矩形框和該矩形框的旋轉角度等。對于在被跟蹤過程中形變劇烈的物體,有時會用多個矩形框來共同近似表示其位置和姿態(tài)等狀態(tài),也可以利用多邊形或者圖像分割算法將物體包圍框中的像素分為目標像素和背景像素,以提高被跟蹤物體的標示精度。跟蹤算法種類繁多。可以按照算法是在線還是離線跟蹤物體來劃分。所謂在線跟蹤,就是指算法只能利用在當前及其之前時刻的圖像來定位物體,而離線跟蹤則是指算法可以利用整個視頻來確定其中任意一幀中物體的狀態(tài)。顯然,在線跟蹤相對難度更大,當然應用也更為廣泛。跟蹤算法也可以根據(jù)是否事先知道被跟蹤物體或其種類來劃分。如果跟蹤算法只能利用物體在初始幀中的信息,則通常被稱為無模型(model free)跟蹤問題,如果能事先知道被跟蹤物體或者其種類,就可以首先搜集大量的相關樣本,然后設計并訓練跟蹤器,以便在跟蹤物體時減少誤判,從而顯著提高跟蹤性能。跟蹤算法還可以按照需要在一幀圖像中跟蹤單個目標還是多個目標來劃分。單目標跟蹤算法一般由表觀模型、運動模型和搜索策略構成,而多目標跟蹤算法通常由在同一幀中的多物體定位和在相鄰幀間的相同物體關聯(lián)兩部分組成。從實際應用考慮,跟蹤算法還可以進一步按照背景或攝像機是否靜止、是否進行三維跟蹤以及是否需要跨攝像機跟蹤等來進一步細分??鐢z像機跟蹤往往針對特定類目標,更多地涉及到高效目標檢測、重識別或者多對多匹配問題。

對于最基礎的單目標視覺跟蹤,從所采取的技術手段上講,跟蹤算法經歷了由最初的基于生成式物體模型的仿射對應和卡爾曼濾波與粒子濾波方法,到二十世紀末至二十一世紀初在物體建模中引入判別性方法,再到二十一世紀第二個十年中的基于相關濾波的方法以及基于深度網(wǎng)絡的跟蹤算法。在大數(shù)據(jù)支持下,相關濾波方法與深度特征的結合,以及在深度網(wǎng)絡跟蹤器中引入相關濾波,在極大地提升跟蹤算法定位性能的同時,也使算法具有較高的處理幀頻。隨著相關濾波跟蹤算法研究的不斷深入,相關濾波理論本身也取得了一系列突破。相關濾波的高速性能也不再僅僅依賴于快速傅里葉變換。基于回歸網(wǎng)絡的跟蹤算法在近幾年中備受關注。這種算法直接對物體搜索區(qū)域或粗糙的物體狀態(tài)進行回歸,得到精細的物體狀態(tài)?;谠獙W習的跟蹤算法當前取得了最好的精度和速度的平衡。這種算法通過元學習的方式訓練深度網(wǎng)絡,使跟蹤器模板可以快速適應物體模板和周圍背景,因此有較強的的判別力和魯棒性。

視覺跟蹤是計算機視覺中的一個非常困難而又應用廣泛的基礎性問題。當前的跟蹤算法,往往大量借鑒計算機視覺中其它領域,特別是目標檢測領域中的技術,并使之適應于視覺跟蹤的特定問題。

13. 行為與事件分析

行為與事件分析是高層計算機視覺的重要任務。行為分析是利用計算機視覺信息(圖像或視頻)來分析行為主體在干什么,相對于目標檢測和分類來說,人的行為分析涉及到對人類視覺系統(tǒng)的更深層的理解。事件是指在特定條件或外界刺激下引發(fā)的行為,是更為復雜的行為分析,包括對目標、場景及行為前后關聯(lián)的分析。事件分析是行為分析的高級階段,能夠通過對目標較長時間的分析給出語義描述。之前的行為識別可以是事件分析的基礎,但事件分析也具有其特殊性,僅僅依賴于前述的行為識別并不能較好地解決事件分析。行為與事件分析的核心任務是對其分類,但不局限于分類,還涉及在空間、時間對其定位及預測。根據(jù)行為/事件中涉及的人的個數(shù)可將其分為個體行為/事件和群體行為/事件。

行為分析主要開始于二十世紀七十年代,該任務的一般流程包括兩個步驟:一是特征提取去除視頻中的冗余信息,二是利用分類、比對等學習方法進行識別分析。早期的研究主要局限于簡單、固定視角且已切分好后的動作,基于全局特征表示的方法是早期行為識別方法中最具代表性的方法,典型方法是首先利用背景差分獲得人體輪廓,然后累加這些差分輪廓生成運動能量圖(MEI)或者運動歷史圖(MHI),利用模板匹配法對該視頻中的行為進行分類;或者提取每幀中的輪廓信息,采用線性動態(tài)變換、隱馬爾可夫模型等進行時序建模,利用狀態(tài)空間法進行識別。然而,基于全局特征表示的方法依賴于背景分割并且對噪聲、角度、遮擋等都很敏感,無法很好的分析復雜背景下的復雜行為和事件。本世紀初,大量基于局部特征表示的方法出現(xiàn),克服了全局特征方法存在的一些問題,對視角變化、光照變化、人的表觀變化和部分遮擋具有一定的不變性,取得了更好的效果。這類方法的流程是局部區(qū)域提取、局部特征提取、局部特征編碼與池化、分類器學習。局部區(qū)塊通常采用密集采樣或者在時空興趣點周圍采樣得到,其中時空興趣點是視頻中運動發(fā)生顯著變化的時空位置,并假設這些時空位置對人體行為識別非常關鍵。局部特征描述子表示的是圖像或者視頻局部區(qū)塊的特征,典型的有梯度直方圖、光流直方圖、尺度不變描述變換(SIFT)、SURF特征、運動邊界直方圖MBH、軌跡特征tracklet等。局部特征需要再經過編碼和池化才能得到整個視頻的特征描述,最常見的特征編碼方式有視覺詞包模型、矢量化(VQ)、稀疏編碼、費舍爾向量、以及局部條件約束線性編碼(LLC)、以及局部聚合描述向量VLAD等。而此時最常用的分類方法是SVM結合多核學習、度量學習等方法。近十年以來基于深度學習的方法在各種各樣的視覺任務中取得了突破,也被廣泛應用于行為分析任務中?;诰矸e神經網(wǎng)絡的行為識別方法采用卷積網(wǎng)絡分別從視頻的RGB和光流兩個通道(two streams)描述視頻序列,最后使用兩個通道的加權平均結果作為對整個視頻的預測結果?;谌S卷積神經網(wǎng)絡的方法將2D卷積神經網(wǎng)絡直接擴展到3D卷積神經網(wǎng)絡,將整個視頻作為整體輸入到3D深度卷積神經網(wǎng)絡中,實現(xiàn)端到端的訓練?;谶f歸神經網(wǎng)絡的方法對視頻每幀上提取的深度特征在時間序列上建模,例如先用卷積網(wǎng)絡提取底層視覺特征,然后使用LSTM對底層視覺特征進行高層級建模。很多方法通過增加空間、時間或通道注意力模塊,使網(wǎng)絡關注到更有判別性的區(qū)域。也有方法利用圖卷積神經網(wǎng)絡建模高層特征及特征的關系,來提高模型的表達能力,然而由于人體骨架數(shù)據(jù)的結構顯著性,圖卷積神經網(wǎng)絡在基于骨骼數(shù)據(jù)的行為識別中使用更為廣泛。最后,這些基于神經網(wǎng)絡的方法,往往會融合基于密集運動軌跡方法進一步提升最后的性能。

對于群體行為分析,除了上述方法即整體性方法外,另一些學者提出了基于個體分割的群體行為分析框架,大致是將多人交互的行為過程分解為多個人單獨的動作過程,再采用一些高層的特征描述和交互識別的方法得到最終的交互結果。行為的發(fā)生時間一般都很短,目前的視頻行為分析方法大都適用于不同的拍攝視角和場景,對視角、場景變化具有一定的不變性。然而事件卻往往持續(xù)時間長,存在跨攝像機事件分析的需要,如多攝像頭下的大場景監(jiān)控環(huán)境。大范圍場景多攝像機下的復雜事件通常涉及多個相互聯(lián)系的行為單元,不同的行為單元的時空依存關系,目前直接進行關聯(lián)行為分析的研究比較少,而跨攝像機網(wǎng)絡中基于特定行人進行檢索的行人重識別、行人追蹤、不同姿態(tài)/環(huán)境下人像身份的識別等技術是跨攝像機領域當下的研究熱點,通過這些技術將跨攝像頭下的行為單元進行關聯(lián),從而可進一步進行事件分析。

行為與事件分析是極具挑戰(zhàn)性的任務,不僅包含對視頻中靜態(tài)目標的感知也包括對動態(tài)變化的分析。目前,從基于時空興趣點局部特征描述的方法等到基于神經網(wǎng)絡的方法,行為與事件分析的性能得到了顯著提高。對于復雜現(xiàn)實場景的大樣本下,已能夠達到較高水平。這給行為與事件分析帶來了更廣闊的應用空間,包括智能視頻監(jiān)控、機器人視覺系統(tǒng)、人機交互、醫(yī)療護理、虛擬現(xiàn)實、運動分析及游戲控制等。比如籃球/足球等體育視頻中的運動行為檢測,老人病患者等監(jiān)控視頻中行為識別和預測,公共安全場景下暴力事件、群體行為分析與預警等。


*本文來自模式識別國家重點實驗室組織發(fā)布的模式識別學科發(fā)展報告,已得到模式識別國家重點實驗室授權發(fā)布。

權威發(fā)布|計算機視覺重要研究進展(二)的評論 (共 條)

分享到微博請遵守國家法律
南京市| 木兰县| 交口县| 东平县| 独山县| 华阴市| 蓬莱市| 桐乡市| 华坪县| 班玛县| 阿克陶县| 泽库县| 固原市| 叶城县| 福海县| 库车县| 理塘县| 沂南县| 于都县| 西平县| 武乡县| 昆明市| 鹿泉市| 广安市| 利津县| 池州市| 滨州市| 馆陶县| 海南省| 满洲里市| 泾阳县| 肥城市| 武山县| 建始县| 酉阳| 宁国市| 阳信县| 贵州省| 沁水县| 遂昌县| 高邑县|