Google最新最權(quán)威的未來人工智能技術(shù)之一:人臉領(lǐng)域
計算機(jī)視覺研究院專欄
作者:Edison_G
接下來,先看一小段我做的比較簡單的人臉檢測識別Demo!開始進(jìn)入今天我們正式的主題!

通過視頻可以看出,人臉檢測識別在我們的生活中已經(jīng)無處不在,未來十年內(nèi),人臉領(lǐng)域的技術(shù)依然火熱,今天就讓谷歌公司帶領(lǐng)大家一起來學(xué)習(xí)認(rèn)知下該領(lǐng)域的技術(shù),及未來發(fā)展趨勢!

近年來由于深度學(xué)習(xí)爆炸式的發(fā)展,已經(jīng)帶動了整個行業(yè)的發(fā)展。身為人工智能的一份子,為該技術(shù)驕傲自豪。在豐富的應(yīng)用場景,人臉識別市場潛力巨大。應(yīng)用場景逐漸增多,布局人臉識別的生態(tài)從而也更豐富。從消費(fèi)電子領(lǐng)域,到汽車電子、安防、互聯(lián)網(wǎng)支付、金融等領(lǐng) 域逐步引入指紋識別,隨著消費(fèi)者用戶習(xí)慣的養(yǎng)成,未來市場滲透快速攀升。

亞馬遜、谷歌、IBM 和微軟現(xiàn)在使用著什么?
從那以后,并沒有太大變化。今天的供應(yīng)商仍然使用深度卷積神經(jīng)網(wǎng)絡(luò),當(dāng)然可能會與其他深度學(xué)習(xí)技術(shù)相結(jié)合。顯然,他們沒有公布自己的視覺識別技術(shù)是如何工作的。我發(fā)現(xiàn)的信息是:- 亞馬遜:深度神經(jīng)網(wǎng)絡(luò)
- 谷歌:卷積神經(jīng)網(wǎng)絡(luò)
- IBM:深度學(xué)習(xí)算法
- 微軟:人臉?biāo)惴?/li>
定價
亞馬遜、谷歌和微軟都有類似的定價模式,這意味著隨著使用量的增加,每次檢測的價格會下降。然而,對于 IBM,在你的免費(fèi)層使用量用完之后,你就要為每次調(diào)用 API 支付相同的價格。Microsoft 為你提供了最好的免費(fèi)協(xié)議,允許你每月免費(fèi)處理 30000 張圖片。如果你需要檢測更多,則需要使用他們的標(biāo)準(zhǔn)協(xié)議,是從第一張圖片開始付費(fèi)的。
價格比較
話雖如此,讓我們計算三種不同配置類型的成本。
條件 A:小型初創(chuàng)公司/企業(yè)可每月處理 1000 張圖片
條件 B:擁有大量圖像的數(shù)字供應(yīng)商,每月可處理 100,000 幅圖像
條件 C:數(shù)據(jù)中心每月處理 10,000,000 張圖像。
集成供應(yīng)商的 API
獲取 SDK 非常容易。使用 Composer 更容易。然而,我確實(shí)注意到一些可以改進(jìn)的東西,以便開發(fā)者的生活變得更輕松。
亞馬遜

我從亞馬遜的識別 API 開始。瀏覽他們的文檔后,我真的開始覺得有點(diǎn)失落。我不僅沒找到一些基本的例子(或者無法找到它們?),但我也有一種感覺,我必須點(diǎn)擊幾次,才能找到我想要的東西。有一次,我甚至放棄了,只是通過直接檢查他們的 SDK 源代碼來獲得信息。
另一方面,這可能只發(fā)生在我身上?讓我知道亞馬遜的識別對你來說是容易(還是困難)整合的吧!
注意:當(dāng) Google 和 IBM 返回邊界框坐標(biāo)時,Amazon 會返回坐標(biāo)作為整體圖像寬度/高度的比率。我不知道為什么,但這沒什么大不了的。你可以編寫一個輔助函數(shù)來從比率中獲取坐標(biāo),就像我一樣。
谷歌

接下來是谷歌。與亞馬遜相比,他們確實(shí)提供了一些例子,這對我?guī)椭艽?!或者也許我已經(jīng)處于投資不同 SDK的心態(tài)了。
不管情況如何,集成 SDK 感覺要簡單得多,而且我可以花費(fèi)更少的點(diǎn)擊次數(shù)來檢索我想要的信息。
IBM

如前所述,IBM(還沒有?)為 PHP 提供一個 SDK。然而,通過提供的 cURL 示例,我很快就建立了一個自定義客戶端。如果已經(jīng)能提供一個 cURL 例子,那么你使用它也錯不了什么了。
微軟

看著微軟的 PHP 代碼示例(使用 Pear 的 HTTP _ request2 包),我最終為微軟的 Face API 編寫了自己的客戶端。
為了回答市場空間有多大,應(yīng)該關(guān)注三個現(xiàn)象:
- 整體市場成長迅速;
- 手機(jī)市場正在啟動;
- 汽車、安防市場潛在增量。?

人臉識別方案整體空間大,年復(fù)合增長率達(dá)27.68%。根據(jù)相關(guān)數(shù)據(jù),2016年人臉識別市場規(guī)模為38億美元,占生物識別的26%。人臉識別技術(shù)從2016年至2020年復(fù)合增長率將達(dá)到27.68%,屆時含硬件、軟件、服務(wù)的人臉識別整體 市場達(dá)到101億美元。手機(jī)市場已經(jīng)爆發(fā),未來空間超100億。根據(jù)目前消息,蘋果45%的新機(jī)型、三星主力機(jī)型有望搭載人臉識別,雖然其他廠商也有開始研究并準(zhǔn)備相關(guān)方案,但根據(jù)整個方案成型并且最終搭載,需要等到明年。如此測算,2017年人臉識別對應(yīng)的窄帶濾光片滲透率約6-7%,窄帶濾光片ASP以3元計算,對應(yīng)市場空間約3個億。中長期來看,在領(lǐng)導(dǎo)廠商示范效應(yīng)下,未來正面人臉識別放量,滲透率到80%,那么空間約50億;并且考慮正面人臉識別+背面3D建模的話,生物識別+增強(qiáng)現(xiàn)實(shí)雙雙實(shí)現(xiàn),對應(yīng)的市場空間再翻一倍,共達(dá)到100億,是目前IRCF空間的2.5倍。

即使考慮降價因素,市場空間仍很大。人臉識別,汽車及安防提供潛在的增量空間。汽車電子是下一個金礦,電動汽車 與無人駕駛技術(shù)帶動下,汽車電子化率提速明顯。2000年時平均每輛汽車使用芯 片數(shù)量僅有十幾個,2016年平均每輛車需要600個芯片,未來汽車電子化率進(jìn)一 步提升。博世、大陸、英偉達(dá)、克萊斯勒在2017年CES均展示了車內(nèi)人臉識別應(yīng)用,人臉識別未來有望大規(guī)模進(jìn)入汽車電子領(lǐng)域。全球每年汽車銷售8000萬輛,考慮到汽車所需要的濾光片的數(shù)量、尺寸;組立件結(jié)構(gòu)等因素,且在整車成本占比更小,價格敏感性低,ASP應(yīng)比手機(jī)高,以50%滲透率算,未來空間容量約5億。安防領(lǐng)域貢獻(xiàn)人臉識別另一個增量市場。保守估計,安防用攝像頭銷量未來能夠達(dá)到4000萬臺,以50%滲透率計算,未來市場空間約1億。
通過上面的分析可以清晰的知道,未來人臉領(lǐng)域是一個發(fā)展空間巨大的技術(shù),其中基本的技術(shù)路線如下圖所示:


所以今天來和大家聊聊人臉檢測與識別中的一些技術(shù),簡單為大家介紹和展示,希望可以給有興趣的您帶來一絲絲幫助,給未知的您帶來濃厚的興趣!今天主要內(nèi)容有:人臉檢測,人臉配準(zhǔn),人臉屬性識別等技術(shù)。
人臉檢測
“人臉檢測(Face Detection)”是檢測出圖像中人臉?biāo)谖恢玫囊豁?xiàng)技術(shù)。其中,人臉檢測算法的輸入是一張圖片,輸出是人臉邊界框坐標(biāo)。一般情況下,輸出的人臉坐標(biāo)框?yàn)橐粋€正朝上的正方形,但也有一些人臉檢測技術(shù)輸出的是正朝上的矩形,或者是帶旋轉(zhuǎn)方向的矩形。
常見的人臉檢測算法基本是一個“掃描”加“判別”的過程,即算法在圖像范圍內(nèi)掃描,再逐個判定候選區(qū)域是否是人臉的過程。因此人臉檢測算法的計算速度會跟圖像尺寸、圖像內(nèi)容相關(guān)。

人臉配準(zhǔn)
“人臉配準(zhǔn)(Face Alignment)”是定位出人臉上五官關(guān)鍵點(diǎn)坐標(biāo)的一項(xiàng)技術(shù)。人臉配準(zhǔn)算法的輸入是“一張人臉圖片”+“人臉邊界框坐標(biāo)”,輸出五官關(guān)鍵點(diǎn)的坐標(biāo)。五官關(guān)鍵點(diǎn)的數(shù)量是預(yù)先設(shè)定好的一個固定數(shù)值,可以根據(jù)不同的語義來定義(常見的有5點(diǎn)、68點(diǎn)、90點(diǎn)等等)。其實(shí),我一般的做法是在精確檢測人了后,進(jìn)行裁剪將最后的結(jié)果作為人臉配準(zhǔn)的輸入。
當(dāng)前效果的較好的一些人臉配準(zhǔn)技術(shù),基本通過深度學(xué)習(xí)框架實(shí)現(xiàn),這些方法都是基于人臉檢測的邊界框,按某種事先設(shè)定規(guī)則將人臉區(qū)域扣取出來,縮放的固定尺寸,然后進(jìn)行關(guān)鍵點(diǎn)位置的計算。因此,若不計入圖像縮放過程的耗時,人臉配準(zhǔn)算法是可以計算量固定的過程。另外,相對于人臉檢測,或者是后面將提到的人臉提特征過程,人臉配準(zhǔn)算法的計算耗時都要少很多。比較流行的模型如:CFAN,MTCNN,Cascade CNN等。




? ??各種流行框架模型
關(guān)鍵點(diǎn)配準(zhǔn)結(jié)果
人臉屬性識別“人臉屬性識別(Face Attribute)”是識別出人臉的性別、年齡、姿態(tài)、表情等屬性值的一項(xiàng)技術(shù)。一般的人臉屬性識別算法的輸入是“一張人臉圖”+“人臉五官關(guān)鍵點(diǎn)坐標(biāo)”,輸出是人臉相應(yīng)的屬性值。人臉屬性識別算法一般會根據(jù)人臉五官關(guān)鍵點(diǎn)坐標(biāo)將人臉對齊(旋轉(zhuǎn)、縮放、扣取等操作后,將人臉調(diào)整到預(yù)定的大小和形態(tài)),然后進(jìn)行屬性分析。常規(guī)的人臉屬性識別算法識別每一個人臉屬性時都是一個獨(dú)立的過程,即人臉屬性識別只是對一類算法的統(tǒng)稱,性別識別、年齡估計、姿態(tài)估計、表情識別都是相互獨(dú)立的算法。但最新的一些基于深度學(xué)習(xí)的人臉屬性識別也具有一個算法同時輸入性別、年齡、姿態(tài)等屬性值的能力。

人臉比對
“人臉比對(Face Compare)”是衡量兩個人臉之間相似度的算法。其中,人臉比對算法的輸入是兩個人臉特征,輸出是兩個特征之間的相似度。人臉驗(yàn)證、人臉識別、人臉檢索都是在人臉比對的基礎(chǔ)上加一些策略來實(shí)現(xiàn)?;谌四槺葘裳苌鋈四橋?yàn)證(Face Verification)、人臉識別(Face Recognition)、人臉檢索(Face Retrieval)、人臉聚類(Face Cluster)等算法。

人臉識別
“人臉識別(Face Recognition)”是識別出輸入人臉圖對應(yīng)身份的算法。它的輸入一個人臉特征,通過和注冊在庫中N個身份對應(yīng)的特征進(jìn)行逐個比對,找出“一個”與輸入特征相似度最高的特征。將這個最高相似度值和預(yù)設(shè)的閾值相比較,如果大于閾值,則返回該特征對應(yīng)的身份,否則返回“不在庫中”。

人臉活體
“人臉活體(FaceLiveness)”是判斷人臉圖像是來自真人還是來自攻擊假體(照片、視頻等)的方法。和前面所提到的人臉技術(shù)相比,人臉活體不是一個單純算法,而是一個問題的解法。這個解法將用戶交互和算法緊密結(jié)合,不同的交互方式對應(yīng)于完全不同的算法。鑒于方法的種類過于繁多,這里只介紹“人臉活體”的概念,不再展開。


??
/End.
我們開創(chuàng)“計算機(jī)視覺協(xié)會”知識星球一年有余,也得到很多同學(xué)的認(rèn)可,我們定時會推送實(shí)踐型內(nèi)容與大家分享,在星球里的同學(xué)可以隨時提問,隨時提需求,我們都會及時給予回復(fù)及給出對應(yīng)的答復(fù)。

如果想加入我們“計算機(jī)視覺研究院”,請掃二維碼加入我們。
我們會按照你的需求將你拉入對應(yīng)的學(xué)習(xí)群!
