散文網(wǎng) » 科技 »學(xué)習(xí) » Google最新最權(quán)威的未來人工智能技術(shù)之一：人臉領(lǐng)域

Google最新最權(quán)威的未來人工智能技術(shù)之一：人臉領(lǐng)域

2020-08-31 13:05 作者:計算機(jī)視覺研究院 0人讀過 | 我要投稿

計算機(jī)視覺研究院專欄

作者：Edison_G

接下來，先看一小段我做的比較簡單的人臉檢測識別Demo！開始進(jìn)入今天我們正式的主題！

通過視頻可以看出，人臉檢測識別在我們的生活中已經(jīng)無處不在，未來十年內(nèi)，人臉領(lǐng)域的技術(shù)依然火熱，今天就讓谷歌公司帶領(lǐng)大家一起來學(xué)習(xí)認(rèn)知下該領(lǐng)域的技術(shù)，及未來發(fā)展趨勢！

近年來由于深度學(xué)習(xí)爆炸式的發(fā)展，已經(jīng)帶動了整個行業(yè)的發(fā)展。身為人工智能的一份子，為該技術(shù)驕傲自豪。在豐富的應(yīng)用場景，人臉識別市場潛力巨大。應(yīng)用場景逐漸增多，布局人臉識別的生態(tài)從而也更豐富。從消費(fèi)電子領(lǐng)域，到汽車電子、安防、互聯(lián)網(wǎng)支付、金融等領(lǐng) 域逐步引入指紋識別，隨著消費(fèi)者用戶習(xí)慣的養(yǎng)成，未來市場滲透快速攀升。

幾年前的三大巨頭，引領(lǐng)了人工智能的熱潮，之后很多互聯(lián)網(wǎng)公司奮力直追，現(xiàn)在已經(jīng)有許許多多的互聯(lián)網(wǎng)公司后起之秀，而且做的都特別好！

亞馬遜、谷歌、IBM 和微軟現(xiàn)在使用著什么？

從那以后，并沒有太大變化。今天的供應(yīng)商仍然使用深度卷積神經(jīng)網(wǎng)絡(luò)，當(dāng)然可能會與其他深度學(xué)習(xí)技術(shù)相結(jié)合。顯然，他們沒有公布自己的視覺識別技術(shù)是如何工作的。我發(fā)現(xiàn)的信息是：

亞馬遜：深度神經(jīng)網(wǎng)絡(luò)
谷歌：卷積神經(jīng)網(wǎng)絡(luò)
IBM：深度學(xué)習(xí)算法
微軟：人臉?biāo)惴?/li>

雖然它們聽起來都很相似，但結(jié)果有一些不同。在我們測試它們之前，讓我們先看看定價模型吧！

定價

亞馬遜、谷歌和微軟都有類似的定價模式，這意味著隨著使用量的增加，每次檢測的價格會下降。然而，對于 IBM，在你的免費(fèi)層使用量用完之后，你就要為每次調(diào)用 API 支付相同的價格。Microsoft 為你提供了最好的免費(fèi)協(xié)議，允許你每月免費(fèi)處理 30000 張圖片。如果你需要檢測更多，則需要使用他們的標(biāo)準(zhǔn)協(xié)議，是從第一張圖片開始付費(fèi)的。

價格比較

話雖如此，讓我們計算三種不同配置類型的成本。

條件 A：小型初創(chuàng)公司/企業(yè)可每月處理 1000 張圖片
條件 B：擁有大量圖像的數(shù)字供應(yīng)商，每月可處理 100，000 幅圖像
條件 C：數(shù)據(jù)中心每月處理 10，000，000 張圖像。

集成供應(yīng)商的 API

獲取 SDK 非常容易。使用 Composer 更容易。然而，我確實(shí)注意到一些可以改進(jìn)的東西，以便開發(fā)者的生活變得更輕松。

亞馬遜

我從亞馬遜的識別 API 開始。瀏覽他們的文檔后，我真的開始覺得有點(diǎn)失落。我不僅沒找到一些基本的例子（或者無法找到它們？)，但我也有一種感覺，我必須點(diǎn)擊幾次，才能找到我想要的東西。有一次，我甚至放棄了，只是通過直接檢查他們的 SDK 源代碼來獲得信息。

另一方面，這可能只發(fā)生在我身上？讓我知道亞馬遜的識別對你來說是容易（還是困難）整合的吧！

注意：當(dāng) Google 和 IBM 返回邊界框坐標(biāo)時，Amazon 會返回坐標(biāo)作為整體圖像寬度/高度的比率。我不知道為什么，但這沒什么大不了的。你可以編寫一個輔助函數(shù)來從比率中獲取坐標(biāo)，就像我一樣。

谷歌

接下來是谷歌。與亞馬遜相比，他們確實(shí)提供了一些例子，這對我?guī)椭艽?！或者也許我已經(jīng)處于投資不同 SDK的心態(tài)了。

不管情況如何，集成 SDK 感覺要簡單得多，而且我可以花費(fèi)更少的點(diǎn)擊次數(shù)來檢索我想要的信息。

IBM

如前所述，IBM（還沒有？）為 PHP 提供一個 SDK。然而，通過提供的 cURL 示例，我很快就建立了一個自定義客戶端。如果已經(jīng)能提供一個 cURL 例子，那么你使用它也錯不了什么了。

微軟

看著微軟的 PHP 代碼示例（使用 Pear 的 HTTP _ request2 包），我最終為微軟的 Face API 編寫了自己的客戶端。

為了回答市場空間有多大，應(yīng)該關(guān)注三個現(xiàn)象：

整體市場成長迅速；
手機(jī)市場正在啟動；
汽車、安防市場潛在增量。?

人臉識別方案整體空間大，年復(fù)合增長率達(dá)27.68%。根據(jù)相關(guān)數(shù)據(jù)，2016年人臉識別市場規(guī)模為38億美元，占生物識別的26%。人臉識別技術(shù)從2016年至2020年復(fù)合增長率將達(dá)到27.68%，屆時含硬件、軟件、服務(wù)的人臉識別整體市場達(dá)到101億美元。手機(jī)市場已經(jīng)爆發(fā)，未來空間超100億。根據(jù)目前消息，蘋果45%的新機(jī)型、三星主力機(jī)型有望搭載人臉識別，雖然其他廠商也有開始研究并準(zhǔn)備相關(guān)方案，但根據(jù)整個方案成型并且最終搭載，需要等到明年。如此測算，2017年人臉識別對應(yīng)的窄帶濾光片滲透率約6-7%，窄帶濾光片ASP以3元計算，對應(yīng)市場空間約3個億。中長期來看，在領(lǐng)導(dǎo)廠商示范效應(yīng)下，未來正面人臉識別放量，滲透率到80%，那么空間約50億；并且考慮正面人臉識別+背面3D建模的話，生物識別+增強(qiáng)現(xiàn)實(shí)雙雙實(shí)現(xiàn)，對應(yīng)的市場空間再翻一倍，共達(dá)到100億，是目前IRCF空間的2.5倍。

即使考慮降價因素，市場空間仍很大。人臉識別，汽車及安防提供潛在的增量空間。汽車電子是下一個金礦，電動汽車與無人駕駛技術(shù)帶動下，汽車電子化率提速明顯。2000年時平均每輛汽車使用芯片數(shù)量僅有十幾個，2016年平均每輛車需要600個芯片，未來汽車電子化率進(jìn)一步提升。博世、大陸、英偉達(dá)、克萊斯勒在2017年CES均展示了車內(nèi)人臉識別應(yīng)用，人臉識別未來有望大規(guī)模進(jìn)入汽車電子領(lǐng)域。全球每年汽車銷售8000萬輛，考慮到汽車所需要的濾光片的數(shù)量、尺寸；組立件結(jié)構(gòu)等因素，且在整車成本占比更小，價格敏感性低，ASP應(yīng)比手機(jī)高，以50%滲透率算，未來空間容量約5億。安防領(lǐng)域貢獻(xiàn)人臉識別另一個增量市場。保守估計，安防用攝像頭銷量未來能夠達(dá)到4000萬臺，以50%滲透率計算，未來市場空間約1億。

通過上面的分析可以清晰的知道，未來人臉領(lǐng)域是一個發(fā)展空間巨大的技術(shù)，其中基本的技術(shù)路線如下圖所示：

所以今天來和大家聊聊人臉檢測與識別中的一些技術(shù)，簡單為大家介紹和展示，希望可以給有興趣的您帶來一絲絲幫助，給未知的您帶來濃厚的興趣！今天主要內(nèi)容有：人臉檢測，人臉配準(zhǔn)，人臉屬性識別等技術(shù)。

人臉檢測

“人臉檢測(Face Detection)”是檢測出圖像中人臉?biāo)谖恢玫囊豁?xiàng)技術(shù)。其中，人臉檢測算法的輸入是一張圖片，輸出是人臉邊界框坐標(biāo)。一般情況下，輸出的人臉坐標(biāo)框?yàn)橐粋€正朝上的正方形，但也有一些人臉檢測技術(shù)輸出的是正朝上的矩形，或者是帶旋轉(zhuǎn)方向的矩形。

常見的人臉檢測算法基本是一個“掃描”加“判別”的過程，即算法在圖像范圍內(nèi)掃描，再逐個判定候選區(qū)域是否是人臉的過程。因此人臉檢測算法的計算速度會跟圖像尺寸、圖像內(nèi)容相關(guān)。

人臉配準(zhǔn)

“人臉配準(zhǔn)(Face Alignment)”是定位出人臉上五官關(guān)鍵點(diǎn)坐標(biāo)的一項(xiàng)技術(shù)。人臉配準(zhǔn)算法的輸入是“一張人臉圖片”＋“人臉邊界框坐標(biāo)”，輸出五官關(guān)鍵點(diǎn)的坐標(biāo)。五官關(guān)鍵點(diǎn)的數(shù)量是預(yù)先設(shè)定好的一個固定數(shù)值，可以根據(jù)不同的語義來定義(常見的有5點(diǎn)、68點(diǎn)、90點(diǎn)等等)。其實(shí)，我一般的做法是在精確檢測人了后，進(jìn)行裁剪將最后的結(jié)果作為人臉配準(zhǔn)的輸入。

當(dāng)前效果的較好的一些人臉配準(zhǔn)技術(shù)，基本通過深度學(xué)習(xí)框架實(shí)現(xiàn)，這些方法都是基于人臉檢測的邊界框，按某種事先設(shè)定規(guī)則將人臉區(qū)域扣取出來，縮放的固定尺寸，然后進(jìn)行關(guān)鍵點(diǎn)位置的計算。因此，若不計入圖像縮放過程的耗時，人臉配準(zhǔn)算法是可以計算量固定的過程。另外，相對于人臉檢測，或者是后面將提到的人臉提特征過程，人臉配準(zhǔn)算法的計算耗時都要少很多。比較流行的模型如：CFAN，MTCNN，Cascade CNN等。

? ??各種流行框架模型

關(guān)鍵點(diǎn)配準(zhǔn)結(jié)果

人臉屬性識別“人臉屬性識別(Face Attribute)”是識別出人臉的性別、年齡、姿態(tài)、表情等屬性值的一項(xiàng)技術(shù)。一般的人臉屬性識別算法的輸入是“一張人臉圖”+“人臉五官關(guān)鍵點(diǎn)坐標(biāo)”，輸出是人臉相應(yīng)的屬性值。人臉屬性識別算法一般會根據(jù)人臉五官關(guān)鍵點(diǎn)坐標(biāo)將人臉對齊(旋轉(zhuǎn)、縮放、扣取等操作后，將人臉調(diào)整到預(yù)定的大小和形態(tài))，然后進(jìn)行屬性分析。常規(guī)的人臉屬性識別算法識別每一個人臉屬性時都是一個獨(dú)立的過程，即人臉屬性識別只是對一類算法的統(tǒng)稱，性別識別、年齡估計、姿態(tài)估計、表情識別都是相互獨(dú)立的算法。但最新的一些基于深度學(xué)習(xí)的人臉屬性識別也具有一個算法同時輸入性別、年齡、姿態(tài)等屬性值的能力。

人臉比對

“人臉比對(Face Compare)”是衡量兩個人臉之間相似度的算法。其中，人臉比對算法的輸入是兩個人臉特征，輸出是兩個特征之間的相似度。人臉驗(yàn)證、人臉識別、人臉檢索都是在人臉比對的基礎(chǔ)上加一些策略來實(shí)現(xiàn)?；谌四槺葘裳苌鋈四橋?yàn)證(Face Verification)、人臉識別(Face Recognition)、人臉檢索(Face Retrieval)、人臉聚類(Face Cluster)等算法。

人臉識別

“人臉識別(Face Recognition)”是識別出輸入人臉圖對應(yīng)身份的算法。它的輸入一個人臉特征，通過和注冊在庫中N個身份對應(yīng)的特征進(jìn)行逐個比對，找出“一個”與輸入特征相似度最高的特征。將這個最高相似度值和預(yù)設(shè)的閾值相比較，如果大于閾值，則返回該特征對應(yīng)的身份，否則返回“不在庫中”。

人臉活體

“人臉活體(FaceLiveness)”是判斷人臉圖像是來自真人還是來自攻擊假體(照片、視頻等)的方法。和前面所提到的人臉技術(shù)相比，人臉活體不是一個單純算法，而是一個問題的解法。這個解法將用戶交互和算法緊密結(jié)合，不同的交互方式對應(yīng)于完全不同的算法。鑒于方法的種類過于繁多，這里只介紹“人臉活體”的概念，不再展開。

??

／End.

我們開創(chuàng)“計算機(jī)視覺協(xié)會”知識星球一年有余，也得到很多同學(xué)的認(rèn)可，我們定時會推送實(shí)踐型內(nèi)容與大家分享，在星球里的同學(xué)可以隨時提問，隨時提需求，我們都會及時給予回復(fù)及給出對應(yīng)的答復(fù)。

如果想加入我們“計算機(jī)視覺研究院”，請掃二維碼加入我們。

我們會按照你的需求將你拉入對應(yīng)的學(xué)習(xí)群！

標(biāo)簽：