最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

深度好文|計(jì)算機(jī)視覺未來重要研究問題

2020-10-28 14:21 作者:深藍(lán)學(xué)院  | 我要投稿

上期回顧計(jì)算機(jī)視覺重要研究進(jìn)展

本期報(bào)告《計(jì)算機(jī)視覺未來重要研究問題》

*下期推送文章預(yù)告見文末

近期將繼續(xù)推送系列報(bào)告文章~喜歡的話點(diǎn)個(gè)贊吧^-^

以下為正文內(nèi)容,建議收藏加關(guān)注

全文大綱如下:

  1. 新型成像條件下的視覺研究

  2. 生物啟發(fā)的計(jì)算機(jī)視覺研究

  3. 多傳感器融合的三維視覺研究

  4. 高動(dòng)態(tài)復(fù)雜場(chǎng)景下的視覺場(chǎng)景理解

  5. 小樣本目標(biāo)識(shí)別與理解

  6. 復(fù)雜行為語(yǔ)義理解

引言

深度學(xué)習(xí)以及新一輪人工智能發(fā)展對(duì)計(jì)算機(jī)視覺的發(fā)展起到了極大的推動(dòng)作用,計(jì)算機(jī)視覺的應(yīng)用不斷地深入到各行各業(yè),對(duì)馬爾視覺理論的爭(zhēng)議之處有了更明確的解析,也出現(xiàn)了不局限于馬爾視覺理論框架下的新方法。計(jì)算機(jī)視覺與認(rèn)知神經(jīng)科學(xué)、應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)等學(xué)科的交叉,與各種硬件的融合,受各種應(yīng)用的驅(qū)動(dòng),并作為人工智能中的重要分支,未來將迎來更為旺盛的發(fā)展時(shí)期。新方法新需求大量涌現(xiàn),未來會(huì)不會(huì)形成更加宏大的新的計(jì)算機(jī)視覺理論框架呢?在過去的幾十年里,還從來沒有一個(gè)體系能夠代替馬爾視覺理論框架的中心主導(dǎo)地位。新的框架是基于馬爾視覺理論框架的修改補(bǔ)充,還是全新的框架體系?早在2010年,馬爾的同事MIT教授Tomaso Poggio就對(duì)馬爾視覺理論框架進(jìn)行了補(bǔ)充,“I am not sure that Marr would agree, but I am tempted to add learning as the very top level of understanding, above the computational level. Only then may we be able to build intelligent machines that could learn to see—and think—without the need to be programmed to do it.”而就目前的計(jì)算機(jī)視覺發(fā)展來看,機(jī)器學(xué)習(xí)不僅僅用在了馬爾視覺理論的最高層之上,而且也已經(jīng)滲入到了其它各層的計(jì)算之中。計(jì)算機(jī)視覺作為人工智能的分支領(lǐng)域之一,其理論框架也必然是在隨著人工智能的軟硬件發(fā)展而不斷發(fā)展和逐漸完善中,而這樣的發(fā)展邊界目前還不能被完全預(yù)測(cè)。但在最近若干年內(nèi),在計(jì)算機(jī)視覺未來的發(fā)展趨勢(shì)方面,我們分析提出了6個(gè)有價(jià)值的研究方向:新型成像條件下的視覺研究、生物啟發(fā)的計(jì)算機(jī)視覺研究、多傳感器融合的三維視覺研究、高動(dòng)態(tài)復(fù)雜場(chǎng)景下的視覺場(chǎng)景理解、小樣本目標(biāo)識(shí)別與理解、復(fù)雜行為語(yǔ)義理解。由于人工智能發(fā)展受到高度重視,各行各業(yè)對(duì)計(jì)算機(jī)視覺的需求旺盛,對(duì)新型成像設(shè)備的需求旺盛,未來新型成像條件下的視覺研究仍然是一個(gè)吸引很多關(guān)注的方向。計(jì)算機(jī)視覺是模擬人或生物視覺功能的學(xué)科,與人工智能模擬人或生物的智能意義相通,而研究人腦的視覺智能是神秘難測(cè)的系統(tǒng),其規(guī)律至今尚不能完全揭示,未來生物啟發(fā)的計(jì)算機(jī)視覺研究必定是有重大價(jià)值和意義的方向。由于目前計(jì)算機(jī)視覺的魯棒性不足,2D視覺逐漸向3D擴(kuò)展,未來多傳感器融合的三維視覺研究在實(shí)際的應(yīng)用中將會(huì)越來越得到重視。高動(dòng)態(tài)復(fù)雜場(chǎng)景下的視覺場(chǎng)景理解是計(jì)算機(jī)視覺高層任務(wù)與應(yīng)用結(jié)合必定要解決的問題,是無(wú)人駕駛、機(jī)器人中不可避免的問題,因此這也是未來的重要方向。小標(biāo)注的樣本或者弱監(jiān)督目標(biāo)識(shí)別與理解和復(fù)雜行為語(yǔ)義理解是計(jì)算機(jī)視覺內(nèi)在的挑戰(zhàn)性難題,也將吸引眾多研究者的關(guān)注。

1. 新型成像條件下的視覺研究

以計(jì)算攝像學(xué)為典型代表的新型成像技術(shù),使研究者能夠從重構(gòu)的高維高分辨率光信號(hào)中恢復(fù)出目標(biāo)場(chǎng)景本質(zhì)信息,包括幾何、材質(zhì)、運(yùn)動(dòng)以及相互作用等,解決目前計(jì)算機(jī)視覺研究中普遍存在的從三維場(chǎng)景到二維圖像信息缺失的病態(tài)問題,使機(jī)器對(duì)物理空間和客觀世界有更全面的感知和理解。最近幾年,新型計(jì)算成像設(shè)備不斷涌現(xiàn),比如光場(chǎng)相機(jī),event相機(jī),深度相機(jī),紅外相機(jī),TOF相機(jī),高速相機(jī),十億像素相機(jī)、偏振相機(jī)等,這些相機(jī)有著廣泛的應(yīng)用,在某些方面有著傳統(tǒng)相機(jī)所沒有的優(yōu)勢(shì)。比如光場(chǎng)相機(jī),在低光及影像高速移動(dòng)的情況下,仍能準(zhǔn)確對(duì)焦拍出清晰照片。Event相機(jī)檢測(cè)到運(yùn)動(dòng),就會(huì)在每個(gè)像素的基礎(chǔ)上以非常高的刷新率呈現(xiàn)出來。由這些相機(jī)產(chǎn)生的圖像數(shù)據(jù)與傳統(tǒng)的圖像有著差異,是對(duì)空間中光場(chǎng)不同的部分采樣,在這些圖像下的視覺理論算法研究,將是未來的新方向。這些新型圖像數(shù)據(jù)的處理,需要與該相機(jī)所執(zhí)行的任務(wù)密切相關(guān),需要面向一定的應(yīng)用來探索其理論與算法,可以在某些方面來解決傳統(tǒng)相機(jī)下所不能很好解決的問題。

未來,計(jì)算成像學(xué)的研究仍然會(huì)在硬件與計(jì)算機(jī)視覺算法方面得到越來越多的重視:

1)新型計(jì)算成像設(shè)備與新型鏡頭的硬件研究:各種各樣的多視系統(tǒng)和相機(jī)陣列在工業(yè)界得到了較快的發(fā)展,代表了計(jì)算成像設(shè)備研發(fā)的趨勢(shì)。借鑒生物視覺系統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和信息加工機(jī)理,視達(dá)相機(jī)和脈沖神經(jīng)網(wǎng)絡(luò)結(jié)合,處理速度不再受視頻幀率的約束。光場(chǎng)相機(jī)等計(jì)算成像仍受限于空間分辨率低等問題,未來計(jì)算成像學(xué)的發(fā)展將不會(huì)完全依賴于成像器件的發(fā)展,多個(gè)低性能的感光器件組成陣列,輔之以高水平的處理算法和計(jì)算系統(tǒng),可以得到高水平的成像效果。另外,未來隨著納米技術(shù)、高精加工技術(shù)的發(fā)展,未來的光學(xué)鏡頭可能被取代,直接在芯片上附加一層薄膜就可以成像,或者液態(tài)鏡頭等新式成像器件或者設(shè)備;新型成像器件對(duì)光譜和時(shí)間等維度的高密度采樣,將為視覺研究提供嶄新的數(shù)據(jù)形態(tài)和解題思路。

2)在新型設(shè)備和鏡頭下的計(jì)算機(jī)視覺算法研究:未來的成像設(shè)備輸出的將不僅僅再是二維平面圖像,而是可以輸出光場(chǎng)數(shù)據(jù)或者三維信息,這些數(shù)據(jù)和信息可以直接連接到3D顯示器或者打印機(jī)等設(shè)備,直接輸出被攝場(chǎng)景的三維立體顯示或者打印的實(shí)體,這就將直接掀起VR/AR等領(lǐng)域的變革性發(fā)展,模式識(shí)別、計(jì)算機(jī)視覺等學(xué)科研究的對(duì)象,也將從二維圖像向記錄高維高分辨率光信號(hào)的介質(zhì)或者載體轉(zhuǎn)移。

3)軟硬一體化多新型成像融合研究:人工智能的迅猛發(fā)展帶動(dòng)了計(jì)算機(jī)視覺的新一輪發(fā)展,各行各業(yè)對(duì)計(jì)算機(jī)視覺的需求有增無(wú)減,各種場(chǎng)景下對(duì)特定成像儀器的需求難以滿足,將催生更多不同相機(jī)的融合和視覺任務(wù)的研究。紅外熱成像儀不僅在工業(yè)領(lǐng)域具有廣泛的應(yīng)用價(jià)值,在防疫公共安全也有著重要的應(yīng)用。紅外圖像與可見光圖像的硬件同步、軟件融合將對(duì)問題的解決更加容易。深度相機(jī)與二維圖像的融合將對(duì)形狀、表觀的識(shí)別更加容易可行。

2. 生物啟發(fā)的計(jì)算機(jī)視覺研究

計(jì)算機(jī)視覺是應(yīng)用性很強(qiáng)的學(xué)科。雖然在近幾十年內(nèi)計(jì)算機(jī)視覺已取得了很大成績(jī),并且成功地應(yīng)用到許多領(lǐng)域中,但是,對(duì)于復(fù)雜的問題,計(jì)算機(jī)視覺系統(tǒng)的能力還遠(yuǎn)遠(yuǎn)達(dá)不到人類完成的類似任務(wù)的能力。生物視覺系統(tǒng)是人類已知的最為強(qiáng)大和完善的視覺系統(tǒng),其結(jié)構(gòu)特點(diǎn)和運(yùn)行機(jī)制對(duì)計(jì)算機(jī)視覺模型有重要的啟發(fā)意義。生物啟發(fā)的計(jì)算機(jī)視覺研究如何將人腦視覺通路的結(jié)構(gòu)、功能、機(jī)制引入到計(jì)算機(jī)視覺的建模和學(xué)習(xí)中來,求解當(dāng)前計(jì)算機(jī)視覺研究中的難題。從模仿生物的角度出發(fā),探索生物學(xué)啟發(fā)的計(jì)算機(jī)視覺已經(jīng)取得很多成功案例。例如Gabor濾波器,正式模擬了初級(jí)視皮層的細(xì)胞的信息編碼方式,在計(jì)算機(jī)視覺研究初期的經(jīng)典成功案例。生物啟發(fā)的計(jì)算機(jī)視覺將是一個(gè)重要的方向,它是計(jì)算機(jī)視覺與神經(jīng)科學(xué)的交叉學(xué)科,在這方面理論的突破,可使得計(jì)算機(jī)視覺與生物的智能更加靠近。目前,深度神經(jīng)網(wǎng)絡(luò)借鑒了大腦層次化的信息抽取過程,成為這一輪人工智能/模式識(shí)別發(fā)展的發(fā)動(dòng)機(jī)。

生物啟發(fā)的計(jì)算機(jī)視覺研究面臨的問題包括兩個(gè)方面,第一,人腦是龐大、高效、魯棒的生物神經(jīng)網(wǎng)絡(luò),擁有約10e10神經(jīng)元,以及約10e13突觸連接。當(dāng)前計(jì)算機(jī)在計(jì)算規(guī)模、功耗能效、魯棒可靠方面很難模擬大腦,很難支撐生物啟發(fā)的計(jì)算機(jī)視覺研究。第二,當(dāng)前腦科學(xué)對(duì)人腦視覺通路機(jī)理的發(fā)現(xiàn)仍然不足,特別是高層視覺通路的工作機(jī)理和神經(jīng)證據(jù)極其有限,制約了生物啟發(fā)的計(jì)算機(jī)視覺研究深入發(fā)展。從生物視覺機(jī)制中尋求啟發(fā),發(fā)展新型視覺計(jì)算模型,已經(jīng)呈現(xiàn)出一定的潛力。例如對(duì)注意、記憶等大腦認(rèn)知機(jī)制建模,能夠顯著提升深度神經(jīng)網(wǎng)絡(luò)求解視覺問題的性能。然而總體上這些研究尚處于較為零散,不成體系的探索中,尚未形成具有共識(shí)性的科學(xué)問題和研究?jī)A向。但從宏觀而言,將生物啟發(fā)的計(jì)算機(jī)視覺和腦科學(xué)中視覺通路的研究協(xié)同起來,同時(shí)從計(jì)算機(jī)視覺結(jié)構(gòu)/功能建模和腦科學(xué)機(jī)制理解兩個(gè)方面共同推進(jìn),發(fā)現(xiàn)具有共通性的結(jié)構(gòu)、功能和機(jī)制,推動(dòng)兩個(gè)領(lǐng)域協(xié)同發(fā)展,將很可能是生物啟發(fā)的計(jì)算機(jī)視覺未來發(fā)展的總體思路。

3. 多傳感器融合的三維視覺研究

基于圖像的三維重建和視覺定位是計(jì)算機(jī)視覺尤其是幾何視覺領(lǐng)域的核心研究問題。圖像傳感器具有分辨率高、成本低、采集效率高、包含豐富語(yǔ)義信息等優(yōu)勢(shì),但圖像三維重建和視覺定位算法的精度很大程度上來源于底層圖像特征提取和匹配的精度。因此,當(dāng)場(chǎng)景中存在弱紋理或重復(fù)紋理區(qū)域時(shí),底層特征提取和匹配的精度會(huì)顯著降低,進(jìn)而導(dǎo)致三維重建和視覺定位結(jié)果中出現(xiàn)錯(cuò)誤、缺失、漂移等問題。近年來,隨著傳感器技術(shù)的發(fā)展,結(jié)構(gòu)光、TOF、LIDAR、IMU等主動(dòng)傳感器日益小型化和低成本化,因此發(fā)揮各種傳感器的優(yōu)勢(shì),融合圖像和其他主動(dòng)傳感器進(jìn)行三維重建和視覺定位是三維視覺領(lǐng)域未來的一個(gè)重要發(fā)展方向。

相比于圖像傳感器,結(jié)構(gòu)光、TOF、LIDAR等主動(dòng)設(shè)備不易受到紋理、光照、天氣等因素影響,慣導(dǎo)設(shè)備IMU可以提供較為可靠的空間朝向和運(yùn)動(dòng)信息,這些傳感器的綜合使用可以有效避免圖像底層信息不可靠和不穩(wěn)定帶來的問題。另一方面,圖像傳感器可以提供豐富的場(chǎng)景細(xì)節(jié)信息和語(yǔ)義信息,能夠有效補(bǔ)充主動(dòng)傳感設(shè)備在這方面的不足,并且降低對(duì)高成本主動(dòng)傳感設(shè)備的依賴。因此,多傳感器融合的三維重建和視覺定位是在保證成本可控的前提下,提升算法魯棒性和精度的有效手段。

現(xiàn)有的多傳感器融合方法大多建立在傳感器嚴(yán)格同步,且相對(duì)位姿已預(yù)先標(biāo)定的前提下。但由于相機(jī)、LIDAR、IMU等傳感器的數(shù)據(jù)采集速率差異很大,很難在硬件層面做到嚴(yán)格的數(shù)據(jù)同步。此外,不同模態(tài)傳感器的相對(duì)位姿標(biāo)定通常也比較復(fù)雜的,且標(biāo)定精度通常難以保證。因此,無(wú)論從實(shí)際應(yīng)用需求出發(fā),還從是通用算法框架的角度考慮,多傳感器融合三維重建和視覺定位都需要研究傳感器非同步和無(wú)標(biāo)定情況下的魯棒計(jì)算方法,構(gòu)造統(tǒng)一的計(jì)算框架對(duì)多源信息進(jìn)行有效融合。這一框架的構(gòu)建主要面臨三方面挑戰(zhàn):一是如何構(gòu)造多模傳感數(shù)據(jù)的特征級(jí)對(duì)應(yīng),實(shí)現(xiàn)不同模態(tài)傳感器之間的數(shù)據(jù)關(guān)聯(lián);二是如何將圖像重投影誤差、三維點(diǎn)空間配準(zhǔn)誤差、傳感器位姿信息等納入統(tǒng)一優(yōu)化函數(shù),實(shí)現(xiàn)多傳感器聯(lián)合內(nèi)外參數(shù)優(yōu)化;三是如何處理不同傳感器固有的誤差、外點(diǎn)、缺失等問題,實(shí)現(xiàn)三維場(chǎng)景結(jié)構(gòu)的完整準(zhǔn)確計(jì)算。

4. 高動(dòng)態(tài)復(fù)雜場(chǎng)景下的視覺場(chǎng)景理解

視覺場(chǎng)景理解是計(jì)算機(jī)視覺中的一個(gè)綜合任務(wù),是機(jī)器智能的重要體現(xiàn)。視覺場(chǎng)景理解包括對(duì)物體的分割、檢測(cè)、分類、學(xué)習(xí)、定位、跟蹤、對(duì)環(huán)境結(jié)構(gòu)的重建、物體的形狀恢復(fù)、各種物體之間的方位關(guān)系、運(yùn)動(dòng)趨勢(shì)、行為分析等等。當(dāng)場(chǎng)景中包含高動(dòng)態(tài)的復(fù)雜情景時(shí),比如大街上,擁擠的人群、車輛、互相遮擋等等;再比如,高動(dòng)態(tài)的光照變化,早、中、晚的光照發(fā)生很大的變化,視覺的表觀將發(fā)生非常大的變化;以及季節(jié)的變化,春、夏、秋、冬的同一場(chǎng)景也各不相同。這些將對(duì)場(chǎng)景理解造成很大的挑戰(zhàn)。未來,對(duì)這些高動(dòng)態(tài)復(fù)雜場(chǎng)景下的視覺場(chǎng)景理解的研究將是一個(gè)非常有價(jià)值的方向的趨勢(shì)。

靜止場(chǎng)景下的視覺場(chǎng)景理解已經(jīng)有很多工作。為高動(dòng)態(tài)復(fù)雜場(chǎng)景下的目標(biāo)分割、語(yǔ)義理解、形狀位置理解等打下了堅(jiān)實(shí)的基礎(chǔ)。但是在高動(dòng)態(tài)、遮擋、光照巨變等復(fù)雜場(chǎng)景下,還不能直接使用。在目標(biāo)分割方面,未來問題主要是側(cè)重研究視頻目標(biāo)分割,動(dòng)態(tài)視頻中的目標(biāo)分割才剛剛起步。與圖像中只關(guān)注表觀信息不同,視頻目標(biāo)通常還包含比較復(fù)雜的運(yùn)動(dòng)模式,其中涉及的運(yùn)動(dòng)幅度、方向、速度等因素都會(huì)對(duì)分割結(jié)果產(chǎn)生較大影響?,F(xiàn)有的相關(guān)深度模型的參數(shù)量比較大且運(yùn)行時(shí)間較長(zhǎng),如何研發(fā)輕量化模型部署在嵌入式系統(tǒng)或者加速其測(cè)試過程具有很大挑戰(zhàn)。在對(duì)場(chǎng)景的語(yǔ)義、形狀位置的理解方面,在遮擋、光照巨變等情形下,可考慮三維重建下進(jìn)行。研究高動(dòng)態(tài)場(chǎng)景造成的模糊、復(fù)雜場(chǎng)景遮擋、光照巨變等條件下的語(yǔ)義識(shí)別,形狀計(jì)算、位置姿態(tài)估計(jì)等可考慮建立知識(shí)庫(kù)的方式進(jìn)行。同時(shí),這些復(fù)雜的任務(wù)理解,可以通過采用專用的新型相機(jī)來進(jìn)行突破和解決。

在復(fù)雜的場(chǎng)景理解中,往往具有很大的遮擋,而采用多攝像機(jī),將會(huì)減輕遮擋造成的信息損失,多種同質(zhì)相機(jī)的使用或者不同質(zhì)相機(jī)的使用,將會(huì)對(duì)應(yīng)用的具體任務(wù)帶來很大的便利。同時(shí),多攝像機(jī)的使用將有助于三維點(diǎn)云的重建。在三維點(diǎn)云上的分割、識(shí)別等是目前的一個(gè)研究熱點(diǎn),也是無(wú)人駕駛和機(jī)器人中的重要研究任務(wù)。

5. 小樣本目標(biāo)識(shí)別與理解

深度學(xué)習(xí)已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域,而且在不斷刷新各類問題的最好結(jié)果。例如在目標(biāo)識(shí)別問題上,區(qū)分CIFAR10數(shù)據(jù)庫(kù)上10類目標(biāo)的準(zhǔn)確率目前可以輕松做到95%以上。然而,深度學(xué)習(xí)是一種需要大規(guī)模訓(xùn)練樣本的技術(shù),也只有這樣才能發(fā)揮其最佳性能。可是在現(xiàn)實(shí)應(yīng)用中,很多問題并沒有那么多標(biāo)注數(shù)據(jù),并且獲取標(biāo)注數(shù)據(jù)的成本也非常大。例如在醫(yī)療領(lǐng)域,需要有專業(yè)知識(shí)的醫(yī)生來標(biāo)注病灶位置;在工業(yè)領(lǐng)域,需要人工在不同光照強(qiáng)度下識(shí)別產(chǎn)品的瑕疵等。此外,目前的深度學(xué)習(xí)模型更多是利用其復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)來擬合輸入樣本到輸出標(biāo)簽的非線性映射,但是對(duì)于目標(biāo)內(nèi)容的智能理解還相對(duì)薄弱,包括物體的形狀、角度、大小等。因此,如何在小樣本情況下更加有效地訓(xùn)練深度學(xué)習(xí)模型,進(jìn)而使得模型在目標(biāo)識(shí)別地基礎(chǔ)上具備一定的理解能力,是一個(gè)重要的研究課題和方向。

研究小樣本的目標(biāo)識(shí)別與理解在理論和應(yīng)用方面都具有重要意義。在理論層面,需要分析深度模型在大樣本情況下能夠獲得優(yōu)異性能的根本原因并加以解析,以一種可解釋的方式來選擇部分代表性或者關(guān)鍵樣本進(jìn)行學(xué)習(xí),最終達(dá)到與大數(shù)據(jù)量可比較的性能。這方向的研究也有助于推動(dòng)深度學(xué)習(xí)原理性解釋或者理論研究方面的發(fā)展。在應(yīng)用上,有助于將深度學(xué)習(xí)模型從大樣本應(yīng)用場(chǎng)景進(jìn)一步推廣到更多小樣本場(chǎng)景下,擴(kuò)大深度學(xué)習(xí)的應(yīng)用范圍。此外,小樣本學(xué)習(xí)也能夠縮小模型訓(xùn)練所需要的時(shí)間以及數(shù)據(jù)存儲(chǔ)空間。

實(shí)現(xiàn)小樣本目標(biāo)識(shí)別與理解的難點(diǎn)在于深度模型建模和學(xué)習(xí)策略的限制。這是因?yàn)槟壳吧疃葘W(xué)習(xí)模型本質(zhì)上還只是一個(gè)非常復(fù)雜的非線性映射,因此他需要通過大量成對(duì)的樣本-標(biāo)簽數(shù)據(jù)作為映射的輸入和輸出來擬合該映射所包含的大量參數(shù)。事實(shí)上,我們可以參考人類小樣本學(xué)習(xí)的策略來改進(jìn)現(xiàn)有的模型建模和學(xué)習(xí)策略。當(dāng)前深度模型只是粗略模擬了人腦神經(jīng)元結(jié)構(gòu)而并沒有考慮更加高級(jí)的認(rèn)知機(jī)制例如注意、記憶、推理等,這些建立在神經(jīng)元之上的高階認(rèn)知機(jī)制能夠?qū)崿F(xiàn)樣本信息的過濾、提取、存儲(chǔ)、復(fù)用、總結(jié)等,進(jìn)而能夠?qū)崿F(xiàn)人類小樣本學(xué)習(xí)能力。在具體操作方面,可以首先從生物學(xué)領(lǐng)域調(diào)研人類能夠進(jìn)行小樣本學(xué)習(xí)的機(jī)理,然后利用計(jì)算機(jī)工具來進(jìn)行計(jì)算建模并交叉驗(yàn)證。此外,緩解小樣本目標(biāo)識(shí)別與理解的另外一種思路是嘗試讓現(xiàn)有模型對(duì)于目標(biāo)時(shí)空結(jié)構(gòu)具備更準(zhǔn)確的理解和認(rèn)識(shí)。人類的學(xué)習(xí)可以僅憑少量的樣本就能迅速、準(zhǔn)確把握目標(biāo)時(shí)空結(jié)構(gòu)的本質(zhì)和共性,并具有很強(qiáng)的泛化能力。但是目前的深度學(xué)習(xí)模型只能依靠大量樣本,以歸納試錯(cuò)、排除糾正、反復(fù)迭代的方式來盲目、被動(dòng)、低效地對(duì)目標(biāo)結(jié)構(gòu)進(jìn)行學(xué)習(xí)。因此,將目標(biāo)時(shí)空結(jié)構(gòu)的先驗(yàn)知識(shí)融入深度學(xué)習(xí)模型之中,或許可以使得對(duì)訓(xùn)練樣本的需求數(shù)減少。此外,最近出現(xiàn)很多關(guān)于樣本增廣學(xué)習(xí)和樣本生成的工作,在一定程度上也可以緩解小樣本問題。

6. 復(fù)雜行為語(yǔ)義理解

人體行為根據(jù)復(fù)雜程度從簡(jiǎn)單到復(fù)雜,可以分為動(dòng)作motion、行為action、activity、behavior及事件event。底層的動(dòng)作識(shí)別相對(duì)簡(jiǎn)單,近十多年行為action識(shí)別快速發(fā)展,研究重點(diǎn)已從受控場(chǎng)景下的簡(jiǎn)單小樣本數(shù)據(jù)庫(kù)的行為識(shí)別,轉(zhuǎn)變到復(fù)雜現(xiàn)實(shí)場(chǎng)景下的大數(shù)據(jù)庫(kù)的復(fù)雜行為語(yǔ)義理解。復(fù)雜行為語(yǔ)義理解要解決的問題是根據(jù)來自非限定環(huán)境下的傳感器(攝像機(jī))的視頻數(shù)據(jù),通過視覺信息的處理和分析,識(shí)別人體的動(dòng)作,并在識(shí)別視頻中背景、物體等其他信息的輔助下,理解人體復(fù)雜行為的目的、所傳遞的語(yǔ)義信息。復(fù)雜行為可能涉及到多個(gè)動(dòng)作、人體與人體/物體/環(huán)境等的交互,有些行為側(cè)重狀態(tài)、有些側(cè)重過程,并且類內(nèi)變化大、多樣性強(qiáng),只利用底層特征來判斷會(huì)產(chǎn)生很大誤差,需要進(jìn)行高層建模和推理。因此,復(fù)雜行為的語(yǔ)義理解是一個(gè)具有挑戰(zhàn)性的問題。

由于視頻數(shù)據(jù)本身的復(fù)雜性、行為和場(chǎng)景的多樣性以及深度學(xué)習(xí)網(wǎng)絡(luò)模型的計(jì)算復(fù)雜度高等問題,基于深度學(xué)習(xí)的復(fù)雜行為理解方法在實(shí)際應(yīng)用中的效果并不理想,與自然場(chǎng)景中快速準(zhǔn)確識(shí)別任意人體行為的目標(biāo)還有很大的差距。對(duì)于很多復(fù)雜行為、特別是異常行為,通過增加訓(xùn)練樣本很難覆蓋行為的多樣性,直接利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的識(shí)別也會(huì)因樣本過少引發(fā)過擬合問題而難以有良好的性能,針對(duì)這些問題,將復(fù)雜高層行為語(yǔ)義理解任務(wù)進(jìn)行結(jié)構(gòu)基元分解和交互關(guān)系分析將是一種重要的研究途徑。具體來說,首先將復(fù)雜行為按一定規(guī)則拆分為結(jié)構(gòu)基元,提取判別性信息,有效去除視頻中的噪聲和冗余信息;然后通過基元的識(shí)別及基元之間的相互作用,如時(shí)序建模、時(shí)空關(guān)系圖建模等對(duì)基元組進(jìn)行分析和識(shí)別;進(jìn)一步在高層可結(jié)合外部語(yǔ)義模型、先驗(yàn)知識(shí)等進(jìn)行復(fù)雜行為的語(yǔ)義理解,增強(qiáng)復(fù)雜行為分析的可解釋性和語(yǔ)義層理解。特別是隨著近幾年基于深度網(wǎng)絡(luò)模型在視覺底層、中層任務(wù)的快速發(fā)展,例如目標(biāo)檢測(cè)、目標(biāo)識(shí)別、人體檢測(cè)等都取得了較好的結(jié)果,為復(fù)雜行為進(jìn)行結(jié)構(gòu)基元的拆分打下了基礎(chǔ),根據(jù)不同的情況可以有效提取復(fù)雜行為視頻中的關(guān)鍵目標(biāo)基元、關(guān)鍵人體姿態(tài)基元、語(yǔ)義基元、甚至中層特征基元等進(jìn)行分析。另外,隨著深度傳感器的發(fā)展,可以獲取到越來越多的多模態(tài)視頻數(shù)據(jù)包括RGB、depth、skeleton等,這些不同模態(tài)的數(shù)據(jù)各有優(yōu)缺點(diǎn),可以根據(jù)任務(wù)及不同行為的特點(diǎn),充分利用或融合各種模態(tài)的數(shù)據(jù),以提高復(fù)雜行為的語(yǔ)義理解的性能。

*本文來自模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室組織發(fā)布的模式識(shí)別學(xué)科發(fā)展報(bào)告,已得到模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室授權(quán)發(fā)布。

下期預(yù)告《語(yǔ)音語(yǔ)言信息處理重要研究進(jìn)展》

關(guān)注我們,及時(shí)為您推送相關(guān)好文~

任何問題歡迎大家評(píng)論區(qū)交流探討~^-^

深度好文|計(jì)算機(jī)視覺未來重要研究問題的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
同心县| 民丰县| 澳门| 威海市| 泸溪县| 北碚区| 富源县| 施秉县| 若尔盖县| 松潘县| 桂阳县| 东阿县| 庄河市| 融水| 庆城县| 达孜县| 黄梅县| 昌图县| 甘泉县| 茶陵县| 二手房| 长沙市| 阿鲁科尔沁旗| 安福县| 涿州市| 苍梧县| 昌图县| 武义县| 巴青县| 呼图壁县| 博兴县| 新乡县| 阿坝| 鄱阳县| 曲麻莱县| 上栗县| 福海县| 肥东县| 绿春县| 左云县| 桦川县|