權(quán)威發(fā)布|模式識(shí)別應(yīng)用技術(shù)重要研究進(jìn)展(一)
引言
模式識(shí)別是人工智能領(lǐng)域的一個(gè)重要分支。人工智能通過計(jì)算使機(jī)器模擬人的智能行為,主要包括感知、推理、決策、動(dòng)作、學(xué)習(xí),而模式識(shí)別主要研究的就是感知行為。在人的五大感知行為(視覺、聽覺、嗅覺、味覺、觸覺)中,視覺、聽覺和觸覺是人工智能領(lǐng)域研究較多的方向。模式識(shí)別應(yīng)用技術(shù)主要涉及的就是視覺和聽覺,而觸覺則主要與機(jī)器人結(jié)合。隨著計(jì)算機(jī)和人工智能技術(shù)的發(fā)展,模式識(shí)別取得了許多引人矚目的應(yīng)用成就和不可忽視的科學(xué)進(jìn)展,它使得計(jì)算機(jī)智能化水平大為提高、更加易于開發(fā)和普及,在社會(huì)經(jīng)濟(jì)發(fā)展和國家公共安全等領(lǐng)域中應(yīng)用日益廣泛。生物特征識(shí)別、多媒體信息分析、視聽覺感知、智能醫(yī)療都是目前發(fā)展較快的模式識(shí)別應(yīng)用領(lǐng)域。
模式識(shí)別最主要的應(yīng)用技術(shù)是生物特征識(shí)別。生物特征識(shí)別是指通過計(jì)算機(jī)對(duì)人體的生理特征(面部、手部、聲紋)或行為特征(步態(tài)、筆跡)等固有模式進(jìn)行自動(dòng)識(shí)別和分析,進(jìn)而實(shí)現(xiàn)身份鑒定的技術(shù)。它是智能時(shí)代最受關(guān)注的安全認(rèn)證技術(shù),憑借人體特征的唯一性來標(biāo)識(shí)身份,已經(jīng)逐漸替代人們常使用的鑰匙、磁卡和密碼,在智能家居、智能機(jī)器人、互聯(lián)網(wǎng)金融、軍事裝置等領(lǐng)域發(fā)揮重要作用。
多媒體信息分析是模式識(shí)別最廣泛的應(yīng)用方面之一。旨在解決多媒體數(shù)據(jù)的挖掘、理解、管理、操縱等問題,同時(shí)以高效的方式對(duì)不同模態(tài)的異構(gòu)數(shù)據(jù)進(jìn)行智能感知,以便服務(wù)于實(shí)際應(yīng)用。作為新一代信息資源,多媒體數(shù)據(jù)除傳統(tǒng)的文字信息外,還包含了表現(xiàn)力強(qiáng)、形象生動(dòng)的圖像和視頻等媒體信息。相對(duì)于真實(shí)的多媒體數(shù)據(jù),使用模式識(shí)別方法也可以合成的高質(zhì)量和多樣化的虛擬數(shù)據(jù),合成及鑒偽虛假信息在經(jīng)濟(jì)、政治、安防等領(lǐng)域都具有重要應(yīng)用價(jià)值。
醫(yī)療診斷和醫(yī)學(xué)圖像處理是模式識(shí)別的一個(gè)較新的應(yīng)用領(lǐng)域。主要是將模式識(shí)別技術(shù)應(yīng)用在醫(yī)學(xué)影像的處理和理解方面,并結(jié)合臨床數(shù)據(jù)加以綜合分析,找到與特定疾病相關(guān)的影像學(xué)生物指標(biāo),從而輔助醫(yī)生早期診斷,治療和預(yù)后評(píng)估。主要涉及醫(yī)學(xué)圖像分割、圖像配準(zhǔn)、圖像融合、計(jì)算機(jī)輔助診斷、三維重建與可視化等。
模式識(shí)別應(yīng)用技術(shù)具體研究進(jìn)展主要表現(xiàn)在如下幾個(gè)方面:面部生物特征識(shí)別、手部生物特征識(shí)別、行為生物特征識(shí)別、聲紋生物特征識(shí)別、文字與文本識(shí)別、復(fù)雜文檔版面分析、多媒體數(shù)據(jù)分析、多模態(tài)情感計(jì)算、圖像和視頻合成、圖像取證與安全、遙感圖像分析、醫(yī)學(xué)圖像分析等。接下來著重介紹,本次分享其中六項(xiàng)。
干貨太多,請(qǐng)自帶水杯~^-^
以下為報(bào)告正文部分

1. 面部生物特征識(shí)別
人體多種模態(tài)的生物特征信息主要分布于面部(人臉、虹膜、眼周、眼紋)和手部(指紋、掌紋、手形、靜脈)。相比手部生物特征,人體面部的人臉和虹膜等特征具有表觀可見、信息豐富、采集非接觸的獨(dú)特優(yōu)勢(shì),在移動(dòng)終端、中遠(yuǎn)距離身份識(shí)別和智能視頻監(jiān)控應(yīng)用場(chǎng)景具有不可替代的重要作用,因而得到了國際學(xué)術(shù)界、產(chǎn)業(yè)界乃至政府部門的高度關(guān)注。
人臉識(shí)別是計(jì)算機(jī)視覺的經(jīng)典問題,主要研究聚焦在人臉檢測(cè)、人臉對(duì)齊和人臉特征分析與比對(duì)、人臉活體檢測(cè)、人臉表情識(shí)別等。人臉檢測(cè)早期經(jīng)典算法是Viola和Jones提出的Haar特征和Adaboost機(jī)器學(xué)習(xí)方法,近些年來RCNN、Fast RCNN、Faster RCNN、SSD、YOLO等深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法在人臉領(lǐng)域取得更好的檢測(cè)精度。如何檢測(cè)小人臉和部分臉是現(xiàn)在人臉檢測(cè)的重點(diǎn)關(guān)注方向,例如中科院自動(dòng)化所提出了RefineFace實(shí)現(xiàn)高精度、高效率的人臉檢測(cè)。人臉對(duì)齊需要在圖像中定位出人臉的眼角、鼻尖、嘴角等關(guān)鍵點(diǎn),代表性的方法包括Active Shape Models、Constrained Local Models、Active Appearance Models、Explicit Shape Regression以及基于深度神經(jīng)網(wǎng)絡(luò)的回歸方法等。中科院自動(dòng)化所針對(duì)嚴(yán)重遮擋下人臉圖像的關(guān)鍵點(diǎn)定位,提出一種基于數(shù)據(jù)及模型混合驅(qū)動(dòng)的人臉關(guān)鍵點(diǎn)定位方法,目的在于充分利用數(shù)據(jù)驅(qū)動(dòng)下深度網(wǎng)絡(luò)的表達(dá)能力和模型驅(qū)動(dòng)下點(diǎn)分布模型的推理能力。三維人臉關(guān)鍵點(diǎn)定位成為近期熱點(diǎn),中科院自動(dòng)化所提出了基于語義體素表達(dá)和對(duì)抗先驗(yàn)學(xué)習(xí)的三維人臉形狀估計(jì)方法。從特征表達(dá)的角度看,人臉識(shí)別的發(fā)展初期主要是基于面部關(guān)鍵位置形狀和幾何關(guān)系或者模板匹配的方式。90年代人臉識(shí)別發(fā)展迎來了第一個(gè)高潮期,最具代表性的是基于人臉的統(tǒng)計(jì)學(xué)習(xí)方法,衍生出來的幾個(gè)經(jīng)典算法有子空間學(xué)習(xí)算法和LBP等局部特征算法。2008年研究人員采用稀疏表達(dá)方法提升了人臉識(shí)別魯棒性?;谏疃壬窠?jīng)網(wǎng)絡(luò)的人臉識(shí)別方法已成為研究熱點(diǎn),代表性工作包括DeepFace、DeepID、FaceNet、VGGFace、SphereFace、ArcFace等,深度學(xué)習(xí)人臉識(shí)別算法在LFW數(shù)據(jù)庫上達(dá)到了超越人眼的水平。為了提高深度學(xué)習(xí)計(jì)算效率,中科院自動(dòng)化所借鑒視覺認(rèn)知機(jī)理、引入Ordinal Measures到深度神經(jīng)網(wǎng)絡(luò),提出了輕量級(jí)的Light CNN人臉特征模型。中科院自動(dòng)化所基于生成對(duì)抗網(wǎng)絡(luò)提出了一系列人臉圖像合成方法,顯著提升了人臉識(shí)別對(duì)姿態(tài)、分辨率、年齡、美妝、遮擋、表情等問題的魯棒性。人臉活體檢測(cè)成為人臉識(shí)別應(yīng)用安全瓶頸問題,人臉視頻真?zhèn)慰梢酝ㄟ^檢測(cè)動(dòng)態(tài)眨眼搖頭或者提取rPPG信息通過皮膚細(xì)微亮度變化來檢測(cè)心跳,但是這種需要用戶配合的方式耗時(shí)長(zhǎng)用戶體驗(yàn)差,因此靜默活體檢測(cè)成為重要研究方向。傳統(tǒng)靜默防偽方法基于紋理分析、高頻圖像特征等,目前深度學(xué)習(xí)成為靜默活體檢測(cè)的重點(diǎn),例如樸素二分類方法、分塊卷積網(wǎng)絡(luò)方法、Auxiliary Supervision方法、深度圖回歸方法、深度圖融合rPPG回歸方法等。如何解決各種條件下人臉活體檢測(cè)方法的泛化能力還是一個(gè)難點(diǎn)問題。
虹膜識(shí)別方面,LG、Panasonic、IrisGuard、IrisKing 等公司設(shè)計(jì)了一系列近距離虹膜圖像采集設(shè)備。為了提高虹膜成像的便捷性同時(shí)為了拓展虹膜識(shí)別的應(yīng)用范圍,越來越多的機(jī)構(gòu)開始著手遠(yuǎn)距離虹膜圖像獲取的研究,美國AOptix公司的InSight系統(tǒng)可以實(shí)現(xiàn)3米遠(yuǎn)的虹膜清晰成像。中科院自動(dòng)化所提出基于光機(jī)電和多相機(jī)協(xié)同的虹膜成像模型,在虹膜圖像獲取裝置中嵌入目標(biāo)檢測(cè)、質(zhì)量評(píng)價(jià)、超分辨率、人機(jī)交互、活體判別等算法,賦予機(jī)器智能化贏取虹膜成像便捷化。實(shí)現(xiàn)了虹膜成像從近距離(0.3米)到遠(yuǎn)距離(3米)、從單模態(tài)(單目虹膜)到多模態(tài)(高分辨人臉和雙目虹膜)、從“人配合機(jī)器”到“機(jī)器主動(dòng)適應(yīng)人”的創(chuàng)新跨越,并研制成功4D光場(chǎng)虹膜成像設(shè)備,通過高分辨率光場(chǎng)相機(jī)、四維光場(chǎng)獲取與數(shù)據(jù)處理、重對(duì)焦、深度估計(jì)、超分辨等核心算法的系統(tǒng)研究,實(shí)現(xiàn)了虹膜/人臉成像從小景深到大景深(6倍景深拓展)、從單用戶到多用戶、從2D到3D的重大技術(shù)跨越,建設(shè)的CASIA虹膜圖像數(shù)據(jù)庫在170個(gè)國家和地區(qū)的3萬多個(gè)科研機(jī)構(gòu)和企業(yè)推廣應(yīng)用。虹膜識(shí)別算法的兩個(gè)主要步驟是虹膜區(qū)域分割和虹膜紋理特征分析。虹膜區(qū)域分割大致可以分為基于邊界定位的方法和基于像素分類的方法。虹膜紋理特征分析包括特征表達(dá)和比對(duì)兩部分。特征表達(dá)方法從復(fù)雜的紋理圖像中提取出可用于身份識(shí)別的區(qū)分性信息,其中代表性的工作有基于Gabor 相位的方法、基于多通道紋理分析的方法、基于相關(guān)濾波器的方法、基于定序測(cè)量的方法等。傳統(tǒng)的虹膜識(shí)別算法多采用人工設(shè)計(jì)邏輯規(guī)則和算法參數(shù),導(dǎo)致算法泛化性能欠佳,不能滿足大規(guī)模應(yīng)用場(chǎng)景。數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法從大量訓(xùn)練樣本中自動(dòng)學(xué)習(xí)最優(yōu)參數(shù),可以顯著提高虹膜識(shí)別算法精度、魯棒性和泛化性能。大規(guī)模虹膜識(shí)別應(yīng)用帶來了許多新的挑戰(zhàn),虹膜特征的快速檢索、多源異質(zhì)虹膜圖像的魯棒識(shí)別成為當(dāng)前虹膜識(shí)別的研究難度和熱點(diǎn)問題。中科院自動(dòng)化所受啟于人類視覺機(jī)理,提出使用定序測(cè)量濾波器描述虹膜局部紋理,并設(shè)計(jì)了多種特征選擇方法確定濾波器最優(yōu)參數(shù);首次將深度學(xué)習(xí)應(yīng)用于虹膜識(shí)別,提出了基于多尺度全卷積神經(jīng)網(wǎng)絡(luò)的虹膜分割方法和基于卷積神經(jīng)網(wǎng)絡(luò)的虹膜特征學(xué)習(xí)方法;探索了深度學(xué)習(xí)特征與定序測(cè)量特征的互補(bǔ)性關(guān)系;系統(tǒng)研究了基于層級(jí)視覺詞典的虹膜圖像分類方法,顯著提升了虹膜特征檢索、人種分類和活體檢測(cè)精度。
從應(yīng)用角度看,面部生物特征識(shí)別應(yīng)用廣泛,可應(yīng)用于安防監(jiān)控、自動(dòng)門禁系統(tǒng)、身份證件的鑒別、銀行ATM 取款機(jī)以及家庭安全等領(lǐng)域。具體來看主要有:1)公共安全:公安刑偵追逃、罪犯識(shí)別、邊防安全檢查;2)信息安全:計(jì)算機(jī)、移動(dòng)終端和網(wǎng)絡(luò)的登錄、文件的加密和解密;3)政府職能:電子政務(wù)、戶籍管理、社會(huì)福利和保險(xiǎn);4)商業(yè)企業(yè):電子商務(wù)、電子貨幣和支付、考勤、市場(chǎng)營(yíng)銷;5)場(chǎng)所進(jìn)出:軍事機(jī)要部門、金融機(jī)構(gòu)的門禁控制和進(jìn)出管理等。
2. 手部生物特征識(shí)別
手部生物特征主要包括指紋、掌紋、手形以及手指、手掌和手背靜脈,這些生物特征發(fā)展早期主要采取結(jié)構(gòu)特征進(jìn)行身份識(shí)別,例如指紋和掌紋中的細(xì)節(jié)點(diǎn)、靜脈中的血管紋路、手形幾何尺寸等,但是近些年來基于紋理表觀深度學(xué)習(xí)的方法在手部生物特征識(shí)別領(lǐng)域得到快速發(fā)展。
指紋識(shí)別技術(shù)主要包括三方面內(nèi)容,即指紋圖像采集、指紋圖像增強(qiáng)和指紋的特征提取及匹配。在電子計(jì)算機(jī)被發(fā)明后,基于光學(xué)的指紋采集設(shè)備替代了傳統(tǒng)的油墨,極大提高了指紋的采集、識(shí)別以及存儲(chǔ)效率。隨后,基于電容式傳感器的指紋采集裝置出現(xiàn),廣泛應(yīng)用于蘋果手機(jī)等移動(dòng)終端設(shè)備的用戶身份認(rèn)證系統(tǒng)中,主要包括按壓式和刮擦式兩種。除此以外,基于溫度傳感器、超聲波和電磁波的指紋采集技術(shù)也都被提出,且各有所長(zhǎng)。近些年,非接觸式的3D指紋采集系統(tǒng)也被提出以改善用戶體驗(yàn)與識(shí)別精度。指紋圖像增強(qiáng)主要包括圖像平滑(去燥與指紋紋路拼接)、圖像二值化(前后景分離)和細(xì)化(指紋骨架獲?。┤糠?。頻域?yàn)V波、Gabor變換和匹配濾波器等傳統(tǒng)圖像處理方法可以有效地去除指紋圖像中的噪聲,檢測(cè)、補(bǔ)全指紋紋路中的斷點(diǎn)并進(jìn)行細(xì)化。隨著深度學(xué)習(xí)的發(fā)展,深度卷積網(wǎng)絡(luò)憑借其強(qiáng)大的特征提取能力,在扭曲指紋圖像校正等指紋圖像增強(qiáng)的相關(guān)問題中得到廣泛應(yīng)用。指紋圖像特征提取與匹配方法可以大體分為方向場(chǎng)特征法與特征點(diǎn)法兩類。方向場(chǎng)描繪了指紋圖像的紋脊和紋谷分布,是指紋圖像匹配的重要依據(jù)。有很多方法被提出以減小噪聲對(duì)于方向場(chǎng)計(jì)算的影響并且提高運(yùn)算效率。特征點(diǎn)指的是指紋圖像中常見的紋路模式,包括拱形、帳弓形、左環(huán)形、右環(huán)形、螺紋形等主要指紋紋型。特征點(diǎn)的區(qū)域分布特征和旋轉(zhuǎn)不變性等特性也常被用來提高識(shí)別算法的魯棒性。隨著指紋識(shí)別技術(shù)在不同場(chǎng)景中得到應(yīng)用,采集到的指紋圖像質(zhì)量參差不齊,有時(shí)甚至無法得到完整指紋,所以部分指紋圖像識(shí)別問題是目前的一個(gè)研究熱點(diǎn)。除此之外,為了保障用戶的個(gè)人財(cái)產(chǎn)安全,指紋識(shí)別技術(shù)中的活體檢測(cè)問題也是研究人員重點(diǎn)關(guān)注的問題。為了解決這個(gè)問題,一方面可以從硬件角度在指紋采集系統(tǒng)中加入額外傳感器以檢測(cè)手指的溫度、顏色和血液流動(dòng)情況等活體要素,另一方面可以從圖像質(zhì)量的角度對(duì)采集到的指紋數(shù)據(jù)進(jìn)行評(píng)估,從而篩選出高質(zhì)量的活體指紋。
掌紋是位于手指和腕部之間的手掌皮膚內(nèi)表面的紋路模式,在分辨率較低的掌紋圖像里比較顯著的特征包括主線、皺紋線和紋理,在高分辨率的掌紋圖像里我們還可以看到類似于指紋圖像里的細(xì)節(jié)特征,例如脊線、細(xì)節(jié)點(diǎn)、三角點(diǎn)等。和其他生物識(shí)別方法相比,掌紋識(shí)別有很多獨(dú)特的優(yōu)勢(shì):信息容量高、唯一性好、適用人群廣、硬件成本低、界面友好、采集方便、用戶接受程度高、干凈衛(wèi)生?;谡萍y的身份認(rèn)證首先是從刑偵領(lǐng)域得到應(yīng)用,因?yàn)樵诜缸铿F(xiàn)場(chǎng)30%的可用信息都是來自掌紋。但是司法公安領(lǐng)域的掌紋圖像主要是由專家人工比對(duì),并且分辨率要求比較高(一般在500dpi左右)。自動(dòng)掌紋識(shí)別研究起步于上世紀(jì)末期,已有的掌紋識(shí)別方法根據(jù)特征表達(dá)方法可大致分為三類:1)基于結(jié)構(gòu)特征的掌紋識(shí)別方法,早期的掌紋識(shí)別研究都是模仿指紋識(shí)別的特征提取和匹配方法,提取掌紋圖像中的特征線或者特征點(diǎn)進(jìn)行結(jié)構(gòu)化的匹配。這種方法需要高分辨率的掌紋圖像才能準(zhǔn)確提取結(jié)構(gòu)化特征,特征提取和匹配的速度較慢,對(duì)噪聲敏感,但是可用于大規(guī)模掌紋圖像庫的檢索或粗分類。2)基于表象分析的掌紋識(shí)別方法,這類方法將掌紋圖像的灰度值直接當(dāng)成特征向量,然后用子空間的方法來線性降維。例如基于PCA、LDA或者ICA的掌紋識(shí)別方法。這類方法可以快速識(shí)別低分辨率的掌紋圖像,但是對(duì)可能存在的類內(nèi)變化比較敏感,例如光照和對(duì)比度變化、校準(zhǔn)誤差、形變、變換采集設(shè)備等。并且需要在大規(guī)模測(cè)試集上訓(xùn)練得到最佳的投影基,推廣能力差。3)基于紋理分析的掌紋識(shí)別方法,直接將低分辨率的掌紋圖像看成是紋理,豐富的紋理分析算法資源就可以充分利用。例如傅立葉變換、紋理能量、Gabor相位、能量和相位的融合算法、皺紋線的方向特征等。這類方法大部分都是提取掌紋圖像局部區(qū)域的光照不變特征,對(duì)噪聲干擾的魯棒性強(qiáng),分類能力和計(jì)算效率都很理想,是比較適合于掌紋識(shí)別的圖像表達(dá)方法。中科院自動(dòng)化所將定序測(cè)量虹膜特征表達(dá)方法推廣到掌紋識(shí)別,建立了掌紋圖像特征表達(dá)的一般框架,統(tǒng)一了該領(lǐng)域識(shí)別性能最好的三種掌紋識(shí)別方法,并提出了新穎的十字架形微分濾波器來抽取掌紋圖像中的定序測(cè)量特征,取得了比主流方法更快更準(zhǔn)的識(shí)別效果。為了提高掌紋識(shí)別精度和活體檢測(cè)能力,香港理工大學(xué)提出三維掌紋圖像獲取與識(shí)別方法。
手指、手掌、手背的靜脈結(jié)構(gòu)人各有異,通過近紅外透射式或者反射式成像形成靜脈紋路圖像。2000年日本醫(yī)學(xué)研究者Kono首次提出使用手指中的靜脈血管進(jìn)行身份識(shí)別,之后模式識(shí)別科研人員提出了多種特征表達(dá)模型:1)細(xì)節(jié)點(diǎn)特征,例如分叉點(diǎn)和端點(diǎn),尺度不變特征變換;2)靜脈紋路特征,例如平均曲率、最大曲率、線性跟蹤方法;3)子空間降維,例如主成分分析、流形學(xué)習(xí)、線性判別分析;4)局部二值碼,例如局部二值模式、局部差分模式、局部線性二值模式;5)深度神經(jīng)網(wǎng)絡(luò)提取紋理特征。由于安全性高,靜脈識(shí)別在金融領(lǐng)域得到成功應(yīng)用。
3. 行為生物特征識(shí)別
行為生物特征識(shí)別是通過個(gè)體后天形成的行為習(xí)慣如步態(tài)、筆跡、鍵盤敲擊等進(jìn)行身份識(shí)別。行為生物特征識(shí)別可用于持續(xù)性活體身份認(rèn)證,例如金融、商業(yè)、政府、公安等應(yīng)用領(lǐng)域。近些年也出現(xiàn)了一些新興的行為生物特征模態(tài),例如利用智能手機(jī)的劃屏行為、網(wǎng)絡(luò)社交媒體的統(tǒng)計(jì)行為特征進(jìn)行身份識(shí)別。
在行為生物特征中,步態(tài)識(shí)別(gait recognition)是指通過分析人走路的姿態(tài)以識(shí)別身份的過程,它是唯一可遠(yuǎn)距離識(shí)別且無需測(cè)試者配合的行為生物特征。美國911 事件等恐怖事件以后,遠(yuǎn)距離身份識(shí)別研究在視覺監(jiān)控等領(lǐng)域引起了濃厚興趣。在銀行、軍事裝置、機(jī)場(chǎng)等重要敏感場(chǎng)合,有效準(zhǔn)確地識(shí)別人、快速檢測(cè)威脅并且提供不同人員不同的進(jìn)入權(quán)限級(jí)別非常重要。最早的步態(tài)用于身份識(shí)別的研究是上世紀(jì)90年代來自英國南安普頓大學(xué)的Mark Nixon教授團(tuán)隊(duì)。2000年,美國DARPA啟動(dòng)了HID(human identification at a distance)計(jì)劃,旨在解決遠(yuǎn)距離虹膜、人臉和步態(tài)識(shí)別研究,麻省理工、佐治亞理工、南安普頓、馬里蘭、中佛等多家高校參與了該項(xiàng)目的研發(fā)工作。
為了發(fā)揮步態(tài)的遠(yuǎn)距離識(shí)別優(yōu)勢(shì),需要同時(shí)解決行人分割和跨視角步態(tài)識(shí)別兩大難題。早期的研究都是基于固定攝像機(jī)的假設(shè)下、使用計(jì)算機(jī)視覺中的背景建模與運(yùn)動(dòng)檢測(cè)等技術(shù)來解決人體檢測(cè)和分割問題,但是精度和效率一般。針對(duì)高精度快速人形分割這一困擾業(yè)界多年的難題,中科院自動(dòng)化研究所自2013年起提出了一系列解決方法,其中代表性的創(chuàng)新方法是基于上下文的多尺度人形分割網(wǎng)絡(luò),通過采用多個(gè)尺度的圖像作為輸入,來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)圖像的中心點(diǎn),能夠有效克服不同背景、衣服各異、姿態(tài)變化、不同尺度等影響。
在過去的20多年里,一系列經(jīng)典的步態(tài)識(shí)別算法相繼提出用以解決步態(tài)識(shí)別問題,包括基于特征表達(dá)的方法,以及基于模型和相似度或度量學(xué)習(xí)的方法。在這些方法中,大多數(shù)研究是設(shè)計(jì)用于步態(tài)識(shí)別的特征表達(dá)?;谔卣鞯牟綉B(tài)識(shí)別方法通常從步態(tài)剪影中提取得到,通過處理一個(gè)剪影序列(通常為一個(gè)步態(tài)周期)可以生成特定的步態(tài)模板。常見的步態(tài)特征模板包括GEI(Gait Energy Image),GEnI(Gait Entropy Image), GFI(Gait Flow Image)以及 CGI(Chrono Gait Image)等。
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的成功應(yīng)用,許多數(shù)據(jù)驅(qū)動(dòng)的方法逐漸被引入到步態(tài)識(shí)別之中,通??梢詫W(xué)習(xí)到更好的特征表達(dá)。DeepCNN提出采用一種基于深度卷積神經(jīng)網(wǎng)絡(luò)CNN的框架學(xué)習(xí)成對(duì)的GEI之間的相似度,從而實(shí)現(xiàn)跨視角步態(tài)識(shí)別,取得了當(dāng)前最好的識(shí)別準(zhǔn)確率,在CASIA-B步態(tài)數(shù)據(jù)集上實(shí)現(xiàn)了94%的跨視角識(shí)別準(zhǔn)確率。近些年復(fù)旦大學(xué)嘗試將步態(tài)剪影序列看做一個(gè)圖像集(GaitSet)并從中直接學(xué)習(xí)步態(tài)表達(dá),而不再使用步態(tài)能量圖GEI,在多個(gè)公開的跨視角步態(tài)數(shù)據(jù)集上取得了當(dāng)前最優(yōu)的性能。這種方法的優(yōu)勢(shì)在于其可以充分利用CNN的強(qiáng)大學(xué)習(xí)能力,將整個(gè)步態(tài)序列的每一幀圖像都作為訓(xùn)練樣本。另外,該方法也避免了生成GEI方法通常中會(huì)損失部分信息的局限,可以通過遍歷整個(gè)步態(tài)序列學(xué)習(xí)不同步態(tài)圖像之間的差異。這種思路取得的性能證明了通過小片段序列學(xué)習(xí)步態(tài)特征的可行性。
在產(chǎn)業(yè)化推動(dòng)方面,步態(tài)識(shí)別領(lǐng)域進(jìn)展迅速。中科院自動(dòng)化所率先建成了全球最大的戶外步態(tài)數(shù)據(jù)庫,采集了1014個(gè)行人的76萬段步態(tài)序列,其數(shù)據(jù)量是此前最大數(shù)據(jù)庫規(guī)模的100倍。2016年,由中科院自動(dòng)化研究所孵化的第一家步態(tài)識(shí)別商業(yè)化公司——銀河水滴科技公司成立。該公司擁有行業(yè)領(lǐng)先的步態(tài)識(shí)別技術(shù)以及超大型步態(tài)數(shù)據(jù)庫,在“遠(yuǎn)距離步態(tài)識(shí)別系統(tǒng)研究與應(yīng)用”方面曾獲北京市科技技術(shù)二等獎(jiǎng),其研發(fā)的“水滴神鑒”人臉步態(tài)智能檢索一體機(jī)可以通過步態(tài)識(shí)別技術(shù)迅速鎖定目標(biāo)人員,提高破案效率以及公共安全的智能化水平。2017年9月,步態(tài)識(shí)別技術(shù)亮相CCTV 1“機(jī)智過人”節(jié)目,獲得CCTV人工智能年度盛典機(jī)智先鋒團(tuán)隊(duì)稱號(hào),產(chǎn)生顯著的社會(huì)效益和影響。2019年,水滴科技憑借遠(yuǎn)距離步態(tài)識(shí)別技術(shù)在世界人工智能大會(huì)上榮獲最高獎(jiǎng)(卓越人工智能引領(lǐng)者獎(jiǎng))。步態(tài)識(shí)別技術(shù)已經(jīng)成功應(yīng)用于智能家居、智能機(jī)器人、視覺監(jiān)控等領(lǐng)域。
筆跡鑒別由于具有易采集性、非侵犯性和接受程度高的優(yōu)點(diǎn),在金融、司法、電子商務(wù)、智能終端有應(yīng)用需求,上世紀(jì)70年代以來開展了大量研究。筆跡鑒別的對(duì)象是手寫文檔或簽名(針對(duì)簽名的筆跡鑒別又稱為簽名認(rèn)證), 數(shù)據(jù)采集形式可以是聯(lián)機(jī)(用手寫版或數(shù)碼筆記錄書寫時(shí)的筆劃軌跡)或者脫機(jī)(對(duì)寫在紙上的筆跡掃描或拍照獲得圖像)。文檔筆跡鑒別方法又分為文本無關(guān)方法或文本相關(guān)方法,前者對(duì)任意內(nèi)容的文本提取書寫風(fēng)格特征,后者從指定內(nèi)容(不同人書寫的相同文本)提取特征。文本相關(guān)方法的精度更高但依賴于文本內(nèi)容或需要字符分割選出特定字進(jìn)行分析。簽名認(rèn)證一般是把一個(gè)手寫簽名與指定身份書寫人的參考簽名(身份注冊(cè)時(shí)留下的簽名樣本)比較判斷是否為同一人所寫(為真實(shí)簽名或偽造簽名),偽造簽名的判別是一個(gè)難點(diǎn)。文檔筆跡鑒別和簽名驗(yàn)證研究中提出了很多特征提取方法,如基于紋理分析、全局形狀分析和局部形狀分析的特征,字符識(shí)別中常用的特征(如輪廓或梯度方向直方圖)也常用于筆跡鑒別。近年來,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)也越來越多地用于筆跡鑒別的特征提取。對(duì)簽名驗(yàn)證,常用孿生卷積神經(jīng)網(wǎng)絡(luò)(Siamese CNN)對(duì)兩幅簽名圖象同時(shí)提取特征并計(jì)算相似度,特征與相似度參數(shù)可端到端訓(xùn)練。跟傳統(tǒng)方法相比,深度神經(jīng)網(wǎng)絡(luò)也明顯提高了文檔筆跡鑒別和簽名認(rèn)證的精度。
4. 聲紋識(shí)別
聲紋識(shí)別,又稱說話人識(shí)別,是根據(jù)語音信號(hào)中能夠表征說話人個(gè)性信息的聲紋特征,利用計(jì)算機(jī)以及各種信息識(shí)別技術(shù),自動(dòng)地實(shí)現(xiàn)說話人身份識(shí)別的一種生物特征識(shí)別技術(shù)。聲紋是一種行為特征,由于每個(gè)人先天的發(fā)聲器官(如舌頭、牙齒、口腔、聲帶、肺、鼻腔等)在尺寸和形態(tài)方面存在差異,再加之年齡、性格、語言習(xí)慣等各種后天因素的影響,可以說每個(gè)說話人的聲紋是獨(dú)一無二的,并可以在相對(duì)長(zhǎng)的時(shí)間里保持相對(duì)穩(wěn)定不變。
從發(fā)音文本的范疇,聲紋識(shí)別可分為文本無關(guān)、文本相關(guān)和文本提示三類。文本相關(guān)的 聲紋識(shí)別的文本內(nèi)容匹配性明顯優(yōu)于文本無關(guān)的聲紋識(shí)別,所以一般來說其系統(tǒng)性能也會(huì)相對(duì)好很多。但是,文本相關(guān)對(duì)聲紋預(yù)留和識(shí)別時(shí)的語音錄制有著更為嚴(yán)格的限制,并且相對(duì)單一的識(shí)別文本更容易被竊取。相比于文本相關(guān),文本無關(guān)的聲紋識(shí)別使用起來更加方便靈活,具有更好的體驗(yàn)性和推廣性。為此,綜合二者的優(yōu)點(diǎn),文本提示型的聲紋識(shí)別應(yīng)運(yùn)而生。對(duì)文本提示而言,系統(tǒng)從聲紋的訓(xùn)練文本庫中隨機(jī)地抽取組合若干詞匯,作為用戶的發(fā)音提示。這樣不僅降低了文本相關(guān)所存在的系統(tǒng)闖入風(fēng)險(xiǎn),提高了系統(tǒng)的安全性,而且實(shí)現(xiàn)起來也相對(duì)簡(jiǎn)單。
在20世紀(jì)40年代,Bell實(shí)驗(yàn)室的L.G.Kersta等人借助肉眼觀察語譜圖發(fā)現(xiàn)不同人的發(fā)音在語譜圖中具有差異性,提出通過觀察語譜圖實(shí)現(xiàn)說話人識(shí)別。根據(jù)語譜圖上的共振峰紋路,首次提出了“聲紋”的概念。1966年,隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步,聲紋識(shí)別逐步由單純的人耳聽講,轉(zhuǎn)向基于計(jì)算機(jī)的自動(dòng)識(shí)別。早期的聲紋識(shí)別主要采用有效的聲學(xué)特征參數(shù)和模式匹配的方法,匹配往往通過特征矢量之間的距離測(cè)度來實(shí)現(xiàn),累計(jì)距離為匹配結(jié)果。到20世紀(jì)70年代至80年代,動(dòng)態(tài)時(shí)間規(guī)整、矢量量化和隱馬爾科夫模型技術(shù)的出現(xiàn)極大地促進(jìn)了語音識(shí)別性能的提升。2000年前后,聲紋識(shí)別技術(shù)迎來第一個(gè)關(guān)鍵的發(fā)展節(jié)點(diǎn),D. Reynolds等人提出的通過大量背景數(shù)據(jù)訓(xùn)練通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM/UBM)的方法,對(duì)所有說話人的整體發(fā)音特性進(jìn)行統(tǒng)一建模。進(jìn)入21世紀(jì)后,在傳統(tǒng)高斯混合模型-通用背景模型的方法上,P.Kenny、N. Dehak等人先后提出了聯(lián)合因子分析技術(shù)(jiont factor analysis,JFA)和擾動(dòng)屬性干擾算法,使得聲紋識(shí)別在復(fù)雜背景條件下也能取得較好的效果。由JFA建模思想得到啟示,提出基于總體變化因子向量(identity vector,i-vector)的說話人建模方法,這也是該研究領(lǐng)域的經(jīng)典技術(shù)之一。后來研究人員為了解決信道失配問題,在i-vector基礎(chǔ)上引入有類內(nèi)協(xié)方差歸一化(Within-Class Covariance Normalization, WCCN)、概率線性鑒別分析(Probability Linear Discriminant Analysis, PLDA)等區(qū)分技術(shù)。2012年以來,基于深度網(wǎng)絡(luò)的特征學(xué)習(xí)方法,利用復(fù)雜非線性結(jié)構(gòu)賦予的特征提取能力,能自動(dòng)對(duì)輸入的語音信號(hào)進(jìn)行特征分析,提取出更高層、更抽象的說話人聲紋表征,如d-vector、x-vector等。相對(duì)于傳統(tǒng)的 i-vector 生成過程,基于深度學(xué)習(xí)的說話人識(shí)別方法優(yōu)勢(shì)主要體現(xiàn)在區(qū)分性訓(xùn)練和利用多層網(wǎng)絡(luò)結(jié)構(gòu)對(duì)局部多幀聲學(xué)特征的有效表示上。d-vector是基于深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)框架下的說話人識(shí)別系統(tǒng),通過訓(xùn)練說話人標(biāo)簽的DNN模型,提取測(cè)試說話人語音的瓶頸特征,對(duì)瓶頸特征進(jìn)行累加求均值,得到語音的d-vector。第二個(gè)關(guān)鍵發(fā)展節(jié)點(diǎn)是D. Snyder等人提出x-vector方法,該模型突破GMM-UBM模型的結(jié)構(gòu)上的缺陷,直接將說話人的標(biāo)簽作為時(shí)延神經(jīng)網(wǎng)絡(luò)(time delay neural networks,TDNN)的輸出,并能比較好的充分利用更多的訓(xùn)練數(shù)據(jù)提升模型的識(shí)別效果。由于語音經(jīng)過TDNN時(shí)延網(wǎng)絡(luò),可以從輸出層得到關(guān)于輸入語音幀的長(zhǎng)時(shí)特征,因此x-vector在短時(shí)說話人識(shí)別中能夠達(dá)到更高的準(zhǔn)確率。2016年,Google的Heigold等人提出了端到端聲紋識(shí)別系統(tǒng),端到端的網(wǎng)絡(luò)包含兩部分:預(yù)先訓(xùn)練好的特征提取網(wǎng)絡(luò)和用于決策打分的判決網(wǎng)絡(luò),輸入為不同說話人的語音信號(hào),輸出即為說話人識(shí)別結(jié)果,之后如注意力機(jī)制、自適應(yīng)方法等在端到端系統(tǒng)中的應(yīng)用進(jìn)一步提高了系統(tǒng)的性能。
聲紋識(shí)別術(shù)在實(shí)際生活中有著廣泛的應(yīng)用,可以分為聲紋確認(rèn)、聲紋辨認(rèn)、聲紋識(shí)別和聲紋追蹤,在軍事、國防領(lǐng)域,有力保障了國家和公共安全;在金融領(lǐng)域上,通過動(dòng)態(tài)聲紋密碼的方式進(jìn)行客戶端身份認(rèn)證,可有效提高個(gè)人資金和交易支付的安全;在個(gè)性化語音交互中,有效提高了工作效率;除此之外,還在教育、娛樂、可穿戴設(shè)備等不同方面取得了不錯(cuò)的效果。
聲紋識(shí)別的廣泛應(yīng)用與其技術(shù)的發(fā)展進(jìn)步是息息相關(guān)的。在實(shí)際應(yīng)用中,聲紋識(shí)別還面臨著以下挑戰(zhàn):魯棒性挑戰(zhàn)、防攻擊挑戰(zhàn)、超短語音挑戰(zhàn)等。如何解決這些挑戰(zhàn)是未來的發(fā)展方向。
5. 圖像和視頻合成
隨著數(shù)字化時(shí)代的不斷發(fā)展,人們的生活中充滿了大量的數(shù)字化影像,比如日常拍攝的照片以及錄制的視頻,還有各類互聯(lián)網(wǎng)娛樂應(yīng)用的圖像與視頻內(nèi)容。然而隨著圖像與視頻合成技術(shù)的不斷進(jìn)步,曾經(jīng)“眼見為實(shí)”的斷言到如今也已失效,圖像與視頻合成技術(shù)就是能夠按照需求生成對(duì)應(yīng)的圖像與視頻的技術(shù),比如根據(jù)描述生成一幅圖像,根據(jù)肖像畫生成一個(gè)人的照片等。對(duì)于圖像和視頻的合成,可以是對(duì)既有畫面的編輯和修改,也可以是合成全新的完全不存在于現(xiàn)實(shí)的景象。對(duì)于具體的單幅圖像合成和視頻的合成也有技術(shù)實(shí)現(xiàn)上的區(qū)別,下面對(duì)其發(fā)展進(jìn)行介紹。
在計(jì)算機(jī)視覺領(lǐng)域中,圖像合成是一個(gè)重要研究方向。在深度學(xué)習(xí)技術(shù)興起之前,機(jī)器學(xué)習(xí)技術(shù)主要聚焦于判別類問題,圖像的合成主要通過疊加與融合圖像等方式進(jìn)行。而隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展以及計(jì)算硬件性能的快速提升,生成式模型得到了更為廣泛和深入的研究。變分自編碼機(jī)(VAE)就是一類有效的方法,能夠穩(wěn)定的合成圖像,但是其合成的圖像一般較為模糊,缺少細(xì)節(jié)。而2014年Ian Goodfellow提出了Generative Adversarial Network(GAN),為圖像與視頻的合成帶來了令人驚艷的技術(shù),其合成的圖像逼真自然且擁有銳利的細(xì)節(jié),對(duì)后續(xù)圖像與視頻合成的研究產(chǎn)生了深遠(yuǎn)影響。自此之后,圖像和視頻合成領(lǐng)域產(chǎn)生了大量基于GAN的生成模型的改進(jìn)方法,從不同角度改良其生成過程的不足。同時(shí)隨著近年來計(jì)算技術(shù)的發(fā)展和計(jì)算資源的性能提升,不論是單幀圖像的合成還是視頻的合成,都達(dá)到了高分辨率、高逼真度的效果。
由于早期的生成式模型研究受限于計(jì)算資源以及算法能力,大多聚焦于簡(jiǎn)單離散數(shù)據(jù)的生成研究,所以這里主要介紹近些年來基于深度生成模型的圖像及視頻合成方面的研究進(jìn)展。早期的圖像視頻合成主要依托字典學(xué)習(xí)和馬爾科夫方法,利用學(xué)習(xí)好的基圖像進(jìn)行合成和推理。目前主流的圖像視頻合成類方法主要有四大類,第一類方法是GAN,目前最火熱也是被研究最多的一類方法,有多種變體,其代表性的方法如CycleGAN,PGGAN,BigGAN等。第二類方法是VAE,其具有代表性的方法主要有Intro-VAE,BetaVAE,InfoVAE等。另外兩類方法相比于前兩類收到的關(guān)注度較小,分別是流模型與自回歸模型,其具有代表性的成果如Glow及PixelCNN,PixelRNN等。此外,基于深度學(xué)習(xí)的壓縮感知在采樣規(guī)模和信號(hào)重建角度研究了圖像和視頻數(shù)據(jù)的重構(gòu)問題。
文字圖像的合成由于其問題的挑戰(zhàn)性(特別是手寫文字的合成)和蘊(yùn)藏的巨大商業(yè)價(jià)值,近年來一直吸引了很多的研究者。文字圖像的合成雖然也可以采用常用的場(chǎng)景圖像合成技術(shù),但是由于文字的特殊結(jié)構(gòu)性,因此,圍繞文字圖像的合成也產(chǎn)生了一系列的研究成果。主流的方法可以分為三大類,第一類是基于模板的方法,主要是將文字表示為筆畫或者部首的層次化模板,然后在先驗(yàn)知識(shí)的引導(dǎo)下生成不同風(fēng)格的文字,這類方法思路直觀,但對(duì)合成復(fù)雜結(jié)構(gòu)的文字效果欠佳。第二類方法是基于GAN的方法,這類方法主要是借鑒了基于GAN的各種變體的場(chǎng)景圖像的合成技術(shù)來完成文字圖像的合成。這類方法相對(duì)于模板的方法雖然取得了巨大的進(jìn)步,但是這類模型常常會(huì)不可控地生成無意義的,或者模糊不清的文字。第三類方法是基于RNN的方法,這類方法將文字的書寫過程引入文字的生成過程,在在線樣本(含有筆順信息)的幫助下,采用RNN模擬文字的一筆一劃的書寫過程來合成文字。相對(duì)前兩類方法,第三類方法不僅能夠生成風(fēng)格更加多樣,而且也能生成更加逼真的文字圖像。但是這類方法也需要大量的訓(xùn)練樣本來完成RNN書寫模型的訓(xùn)練。
圖像與視頻的合成在計(jì)算機(jī)視覺領(lǐng)域中有著重要地位,其成果帶動(dòng)了相關(guān)領(lǐng)域的研究和應(yīng)用。如GAN在語音合成、文本生成、音樂生成等領(lǐng)域的應(yīng)用,使其效果產(chǎn)生了質(zhì)的飛躍。而圖像與視頻合成在當(dāng)今社會(huì)及商業(yè)中也應(yīng)用廣泛,在娛樂方面有著各類美妝類、變臉類應(yīng)用,而在安防領(lǐng)域有著異質(zhì)圖像合成、肖像自然圖像合成等重要應(yīng)用。在未來,對(duì)于圖像與視頻合成的深入研究將在更為廣泛的領(lǐng)域產(chǎn)生更加深遠(yuǎn)的影響。
6. 遙感圖像分析
遙感圖像處理旨在通過對(duì)遙感圖像的分析來獲得有關(guān)場(chǎng)景、目標(biāo)的特征及規(guī)律。遙感圖像處理既指從遙感圖像獲取特征或規(guī)律的技術(shù)或手段,也指獲取特征或規(guī)律后的應(yīng)用目的。遙感圖像處理所獲取的特征主要包括時(shí)間特征、空間特征、語義特征,所獲取的規(guī)律主要包含地物真實(shí)特征與圖像特征的對(duì)應(yīng)關(guān)系及從圖像獲得的場(chǎng)景、目標(biāo)與周圍環(huán)境或時(shí)間的演變或變化規(guī)律。
在遙感圖像處理中,特征提取是開展基于模式識(shí)別技術(shù)研發(fā)與應(yīng)用的基礎(chǔ),主要包含時(shí)間特征、空間特征和語義特征提取??臻g特征描述地物或目標(biāo)與近鄰位置的空間相似關(guān)系,常用的空間特征包括局部自相似特征、分形、紋理等,主要通過顏色與形狀分析和圖像分割等手段來實(shí)現(xiàn)。時(shí)間特征描述多時(shí)相圖像關(guān)于場(chǎng)景、目標(biāo)的時(shí)間變化特性,主要通過變化檢測(cè)手段來實(shí)現(xiàn)。語義特征描述遙感圖像場(chǎng)景及地物目標(biāo)的屬性、類型或相關(guān)概念,主要通過模式分類等手段來實(shí)現(xiàn)。規(guī)律是利用多源、多時(shí)相等多種遙感圖像并在輔助數(shù)據(jù)、專家知識(shí)的基礎(chǔ)上形成的在更長(zhǎng)時(shí)間、更大空間上關(guān)于某種地物、目標(biāo)的成像規(guī)律或時(shí)空演變規(guī)律。圍繞空間特征和時(shí)間特征提取,遙感圖像處理主要進(jìn)展集中體現(xiàn)在遙感圖像融合、遙感圖像解譯、變化檢測(cè)、高光譜解混、高光譜分類等幾個(gè)方面。
遙感圖像融合的基本任務(wù)是針對(duì)同一場(chǎng)景并具有互補(bǔ)信息的多幅遙感數(shù)據(jù)或其它觀測(cè)數(shù)據(jù),通過對(duì)它們的綜合處理、分析與決策手段,獲取更高質(zhì)量數(shù)據(jù)、更優(yōu)化特征、更可靠知識(shí)的技術(shù)和框架系統(tǒng)。根據(jù)遙感數(shù)據(jù)獲取來源,可分為多源與多時(shí)相遙感圖像數(shù)據(jù)融合的方法。多源遙感圖像融合通過將多個(gè)傳感器和信息源的數(shù)據(jù)進(jìn)行聯(lián)合、相關(guān)、組合,以獲取目標(biāo)更精確、更全面的信息,根據(jù)圖像融合的層次,又可分為像素級(jí)、特征級(jí)、決策級(jí)融合。多時(shí)相遙感圖像融合主要包括基于預(yù)處理、基于分類、基于變化檢測(cè)、基于信息提取、基于環(huán)境應(yīng)用等多時(shí)相數(shù)據(jù)融合方法。
遙感圖像解譯的基本任務(wù)是對(duì)遙感圖像中各種待識(shí)別目標(biāo)的特征信息進(jìn)行分析、推理與判斷,最終達(dá)到識(shí)別目標(biāo)或現(xiàn)象的目的。目標(biāo)識(shí)別、檢測(cè)、分割是實(shí)現(xiàn)遙感圖像解譯的基礎(chǔ)。在方法上,這些任務(wù)大多被描述為一個(gè)模式分類問題,主要采用決策樹、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、線性判別分析和最近鄰分類器、聚類等方法來實(shí)現(xiàn)。目前,深度學(xué)習(xí)方法已成為遙感圖像解釋的主流方法,在目標(biāo)識(shí)別、檢測(cè)、語義分割中取得較優(yōu)的性能。在深度學(xué)習(xí)框架下,主要針對(duì)兩階段Faster-RCNN、FPN、Cascade R-CNN,以及一階段的網(wǎng)絡(luò)YOLO系列、SSD、RetinaNet、RefineDet等進(jìn)行適應(yīng)性改進(jìn)。特別地,針對(duì)遙感圖像,近些年R3Net、YOLT等網(wǎng)絡(luò)結(jié)構(gòu)在遙感圖像目標(biāo)檢測(cè)中展現(xiàn)了較好的性能,主要包含城市目標(biāo)檢測(cè)、艦船檢測(cè)、飛機(jī)檢測(cè)、海面/陸地檢測(cè)與分離、云/雪檢測(cè)、特定目標(biāo)檢測(cè)。在遙感圖像語義分割方面,主要基于FCN、SegNet、DeepLab和SharpMask等深層神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),通過重訓(xùn)練網(wǎng)絡(luò)使之適應(yīng)遙感圖像數(shù)據(jù)和任務(wù),主要包含城市道路分割、城市典型目標(biāo)分割、感興趣農(nóng)作物分割、水域分割、云/雪分割等。
變化檢測(cè)的基本任務(wù)是利用不同時(shí)間獲取的覆蓋同一地表區(qū)域的遙感圖像來確定和分析地表變化。根據(jù)變化分析的層次,變化檢測(cè)方法可分為像素級(jí)變化檢測(cè)、特征級(jí)變化檢測(cè)以及對(duì)象級(jí)變化檢測(cè)。當(dāng)前,變化檢測(cè)的進(jìn)展集中體現(xiàn)在深度學(xué)習(xí)方面,主要包含基于卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)和自編碼器的變化檢測(cè)方法,基于非受限玻爾茲曼機(jī)的SAR圖像變化檢測(cè)、棧式噪聲自編碼器與棧式映射網(wǎng)絡(luò)變化檢測(cè)、深度映射變化檢測(cè)、深度聚類變化檢測(cè)等。
高光譜解混的基本任務(wù)是估計(jì)高光譜圖像中地物目標(biāo)端元(如“樹”、“水”等純物質(zhì))及其像素級(jí)豐度的技術(shù)。根據(jù)所使用的解混模型,高光譜解混可分為基于幾何的方法和基于統(tǒng)計(jì)的方法。由于非負(fù)矩陣分解(Nonnegative Matrix Factorization,NMF)存在解空間大,只能收斂到次優(yōu)局部極值點(diǎn)等缺陷,一些基于NMF的擴(kuò)展方法也被相繼提出,如非光滑NMF、最小體積限制 NMF、結(jié)構(gòu)稀疏NMF、端元相異性約束NMF等方法。近年來,基于神經(jīng)網(wǎng)絡(luò)模型的解混方法也被相繼提出,包括多層感知器、自組織映射網(wǎng)絡(luò)、自適應(yīng)共振理論映射模型、深度回歸網(wǎng)絡(luò)等。
高光譜圖像分類的基本任務(wù)是對(duì)高光譜圖像中的每個(gè)像素進(jìn)行分門別類,以達(dá)到對(duì)地物、目標(biāo)進(jìn)行高精度分類和自動(dòng)化識(shí)別的目的,是對(duì)地觀測(cè)的重要組成部分。然而,高光譜圖像的高維特性、波段間高度相關(guān)性、同物異譜、同譜異物、光譜混合等特點(diǎn)使得高光譜圖像分類面臨巨大挑戰(zhàn)。早期應(yīng)用于高光譜圖像分類的機(jī)器學(xué)習(xí)方法有支持向量機(jī)、K-近鄰法、樸素貝葉斯、決策樹、基于稀疏表達(dá)的方法等。近年來,隨著深度學(xué)習(xí)新技術(shù)的出現(xiàn),基于深度學(xué)習(xí)的高光譜圖像分類方法在方法和性能上取得了突破性進(jìn)展,該類方法能夠通過訓(xùn)練集來學(xué)習(xí)自動(dòng)地獲得數(shù)據(jù)的高級(jí)特征,使得分類模型能更好地表達(dá)數(shù)據(jù)集本身的特點(diǎn),提高分類精度,主要包含基于3D-CNN的方法、基于空-譜殘差網(wǎng)絡(luò)的方法、基于深度金字塔殘差網(wǎng)絡(luò)的方法、基于生成式對(duì)抗網(wǎng)絡(luò)的方法等。
目前遙感數(shù)據(jù)處理已經(jīng)廣泛應(yīng)用于自然環(huán)境監(jiān)測(cè)、國防安全、農(nóng)林普查、礦物勘探、災(zāi)害應(yīng)急、交通運(yùn)輸、通訊服務(wù)、規(guī)劃修編等一系列實(shí)際任務(wù)。
*本文來自模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室組織發(fā)布的模式識(shí)別學(xué)科發(fā)展報(bào)告,已得到模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室授權(quán)發(fā)布。