什么是計算機視覺?
機器視覺是最常用的人工智能應(yīng)用之一
計算機視覺(Computer Vision)就是利用計算機來處理圖像,獲得我們想要的信息。在人工智能領(lǐng)域,計算機視覺的含義則更進一步,不再是簡單的獲取圖像和對圖像進行簡單的處理,如裁剪、縮放、濾波等,而是如何像人一樣理解圖像。這一領(lǐng)域的先驅(qū)可追溯到更早的時候,但是直到20世紀(jì)70年代后期,當(dāng)計算機的性能提高到足以處理諸如圖像這樣的大規(guī)模數(shù)據(jù)時,計算機視覺才得到了正式的關(guān)注和發(fā)展。
比如下面這張圖,在人的眼里,能很容易識別出一個男人、斑馬線、黑色的背包、手機等等,同時還可以理解到這些物體之間的關(guān)系,一個背著黑色背包的男人正打著電話在過斑馬線。甚至還可以進行進一步的推理,如根據(jù)這個男人的著裝,那么他可能是一個喜歡運動的人。

但是在計算機的眼里則是從0到255的數(shù)字(像素的范圍),對于彩色圖像,還有三個通道。那么我們?nèi)绾巫寵C器也能同人一樣能夠識別和理解蘊含在圖中語義信息,這就是計算機視覺要做的事情。
計算機視覺的目前主要包括:最基礎(chǔ)的如物體的檢測和識別,在此基礎(chǔ)上的動作姿態(tài)識別,物體跟蹤,圖像修復(fù)和增強等。

更進一步的則是圖像理解的研究。比如下面這張圖,首先需要識別出來圖中存在的所有的物體,給他們標(biāo)簽。比如左圖中,識別出來大象(elephant)、河流(river)等等,甚至包括描述性的信息如臟(dirty)、躺(laying),站立(standing)等。再對這些標(biāo)簽進行語義上的重組,構(gòu)成一句話。而該圖中仍然存在不少問題,如識別出了圖中不存在的物體如馬、人等。結(jié)果導(dǎo)致輸出的句子(黑色)同真實句子(藍(lán)色)存在較大的差異。
