最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

人臉關(guān)鍵點(diǎn)的應(yīng)用場景及重難點(diǎn)解析丨Dev for Dev 專欄

2022-09-21 20:11 作者:聲網(wǎng)RTE開發(fā)者社區(qū)  | 我要投稿


圖片

本文為「Dev for Dev 專欄」系列內(nèi)容,作者為聲網(wǎng)視頻組 AI 算法工程師 周世付。


人臉檢測(cè)、人臉關(guān)鍵點(diǎn)檢測(cè),是計(jì)算機(jī)視覺的基礎(chǔ)算法。許多酷炫應(yīng)用背后,例如美顏、貼紙、人臉驅(qū)動(dòng)?avatar,是依賴著人臉檢測(cè)、人臉關(guān)鍵點(diǎn)檢測(cè)的算法。


人臉檢測(cè)的常規(guī)做法,是從圖像中找到人臉的位置并采用矩形框的方式將人臉標(biāo)示出來。由于人臉檢測(cè)提供的信息比較粗糙,要想獲取更精細(xì)、詳細(xì)的人臉信息,比如,人臉的臉型、嘴巴、眼睛、鼻子的位置和幾何形狀,就需要進(jìn)行人臉關(guān)鍵點(diǎn)檢測(cè)。


01人臉關(guān)鍵點(diǎn)檢測(cè)的技術(shù)原理


人臉關(guān)鍵點(diǎn)檢測(cè),也稱為人臉關(guān)鍵點(diǎn)定位或者人臉對(duì)齊,是在人臉檢測(cè)獲取到人臉在圖像中具體位置的基礎(chǔ)上,進(jìn)一步定位人臉器官的位置。


這些人臉器官位置信息,是一些具有明確語議定義的離散點(diǎn),因此稱為人臉關(guān)鍵點(diǎn)。通常,人臉關(guān)鍵點(diǎn)定義在人臉的臉頰、嘴巴、眼睛、鼻子和眉毛區(qū)域,將人臉關(guān)鍵點(diǎn)連接起來,能夠描繪人臉的幾何特征。


圖片


人臉關(guān)鍵點(diǎn)的類型,可劃分為 2D 關(guān)鍵點(diǎn)和 3D 關(guān)鍵點(diǎn)。2D 關(guān)鍵點(diǎn),輸出的是人臉關(guān)鍵點(diǎn)的 x、y 的坐標(biāo)信息。常用的 2D 關(guān)鍵點(diǎn)數(shù)量 5 點(diǎn)、68 點(diǎn)、106 點(diǎn),隨著技術(shù)的發(fā)展及應(yīng)用對(duì)人臉關(guān)鍵點(diǎn)提出更高要求,也出現(xiàn)了 280 點(diǎn)甚至是 1000 點(diǎn)的人臉關(guān)鍵點(diǎn)方案。


3D 關(guān)鍵點(diǎn),則輸出關(guān)鍵點(diǎn)的 x、y、z 的坐標(biāo)信息。3D 關(guān)鍵點(diǎn)的檢測(cè),是采用 3DMM 模型,重建人臉的 3D mesh,再將 3D mesh 投射到 2D 的圖像空間。由于 3D 關(guān)鍵點(diǎn)比 2D 關(guān)鍵點(diǎn)多了深度信息,在人臉姿態(tài)估計(jì)、3D 物體穿戴方面,優(yōu)勢(shì)較為明顯。


利用人臉關(guān)鍵點(diǎn),可以定位嘴巴、眼睛、鼻子、眉毛的位置,以及推斷臉型、嘴巴、眼睛的幾何形態(tài)和頭部的姿態(tài)。在不同的表情、姿態(tài)、光照和遮擋條件下,準(zhǔn)確、快速、穩(wěn)定地定位人臉關(guān)鍵點(diǎn),是一項(xiàng)極具挑戰(zhàn)的任務(wù)。


02人臉關(guān)鍵點(diǎn)檢測(cè)的算法演進(jìn)

?

人臉關(guān)鍵點(diǎn)檢測(cè)的方法分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。傳統(tǒng)機(jī)器學(xué)習(xí)的方法,典開的代表包括 ASM(Active Shape Model)、AAM(Active Appearance Models)。


ASM 是由 Cootes 于 1995 年提出的經(jīng)典人臉關(guān)鍵點(diǎn)檢測(cè)算法,ASM 是一種基于點(diǎn)分布模型的算法,外形相似的物體的身體形狀,可通過若干關(guān)鍵點(diǎn)的坐標(biāo)依次串聯(lián)形成的一個(gè)形狀向量表示。ASM 算法需要人工標(biāo)定的方法預(yù)先標(biāo)定訓(xùn)練集,經(jīng)過訓(xùn)練獲得形狀模型,再通過關(guān)鍵點(diǎn)的匹配實(shí)現(xiàn)特定物體的匹配。ASM 算法的優(yōu)點(diǎn)是模型簡單,架構(gòu)清晰,對(duì)輪廓形狀有較強(qiáng)的約束,但近似于窮舉搜索的關(guān)鍵點(diǎn)定位方式,限制了其運(yùn)算的效率。


AAM 是 ASM 的進(jìn)階版,在形狀約束的基礎(chǔ)上,加入整個(gè)臉部的紋理特征。傳統(tǒng)機(jī)器學(xué)習(xí)的方法,檢測(cè)的速度相對(duì)較快,但關(guān)鍵點(diǎn)檢測(cè)的精度有限,難以滿足應(yīng)用的要求。


深度學(xué)習(xí)方法,在關(guān)鍵點(diǎn)檢測(cè)的精度上,碾壓傳統(tǒng)機(jī)器學(xué)習(xí)方法?;谏疃葘W(xué)習(xí)的人臉關(guān)鍵點(diǎn)檢測(cè)方法,大致可分為兩個(gè)流派:熱力圖方法和和直接回歸方法。熱力圖方法,是每個(gè)關(guān)鍵點(diǎn)生成一個(gè)熱力圖,關(guān)鍵點(diǎn)處的值最大,離關(guān)鍵點(diǎn)越遠(yuǎn),值越小。熱力圖方法,關(guān)鍵點(diǎn)檢測(cè)的精度高,并可判斷關(guān)鍵點(diǎn)是否被遮擋,對(duì)遮擋的魯棒性較好。由于熱力圖大小通常是輸入圖像的 1/4,對(duì)內(nèi)存的占用大。檢測(cè)關(guān)鍵點(diǎn)的數(shù)量越多,內(nèi)存占用越大,限制了熱力圖方法在端側(cè)設(shè)備上的應(yīng)用。直接回歸方法,通過卷積神經(jīng)模型預(yù)測(cè)關(guān)鍵點(diǎn)的坐標(biāo),內(nèi)存占用小,關(guān)鍵點(diǎn)檢測(cè)的精度較熱力圖方法差一些。由于直接回歸方法內(nèi)存占用小,檢測(cè)速度快,在端側(cè)設(shè)備上的應(yīng)用前景廣闊。


03人臉關(guān)鍵點(diǎn)的應(yīng)用


人臉關(guān)鍵點(diǎn)的應(yīng)用領(lǐng)域十分廣泛,主要應(yīng)用方向可劃分為 4 類:人臉姿態(tài)對(duì)齊、人臉美顏、人臉貼紙和 avatar 模型驅(qū)動(dòng)。


人臉姿態(tài)對(duì)齊,在人臉識(shí)別領(lǐng)域,同一個(gè) ID 的人臉在不同姿態(tài)下,人臉的相似度變化較大,人臉識(shí)別的精度不同。為了提高人臉識(shí)別的精度,需要將不同姿態(tài)的人臉,對(duì)齊到一個(gè)中立的姿態(tài)。這個(gè)對(duì)齊的操作,依賴人臉關(guān)鍵點(diǎn)提供的位置信息。人臉姿態(tài)對(duì)齊,對(duì)關(guān)鍵點(diǎn)的精度和數(shù)量,要求不高,通常只需要 5 個(gè)關(guān)鍵點(diǎn),定位眼睛、鼻子和嘴巴。


美顏,作為當(dāng)今社交 app 中不可或缺的基本功能,發(fā)個(gè)朋友圈、開個(gè)直播前,不需要花時(shí)間化個(gè)妝,只需打開美顏,即可瞬間提升個(gè)人的顏值,將自己最美的一面顯現(xiàn)給朋友或觀眾。美顏的種類繁多,五花八門,大致可以分為大類:1) 美型,調(diào)整臉頰、眼睛的形狀,即將圓臉調(diào)整為修長的瓜子臉,把眼睛調(diào)大,達(dá)到大眼、瘦臉的效果;2) 磨皮,目的是將臉部的皺紋、痘印、斑點(diǎn)去除,提升皮膚的平滑度和光澤度。臉部不同區(qū)域,對(duì)磨皮程度的需求不一樣,例如眼睛區(qū)域需保持清晰通透,磨皮程度要低一些或不磨皮。3) 美妝,是將化妝品的效果,融合到用戶的臉上,以視頻或圖像的方式,呈現(xiàn)給用戶,從而可讓用戶無需到線下門店體驗(yàn)試妝效果,線上就能體驗(yàn)到化妝品在自己臉上的效果。美顏,對(duì)人臉關(guān)鍵點(diǎn)檢測(cè)的精度和數(shù)量,要求很高。在關(guān)鍵點(diǎn)精度方面,對(duì)眼睛、嘴唇的定位精度尤為高;關(guān)鍵點(diǎn)數(shù)量方面,則是越多越好。


貼紙,是將電子的道具,如眼鏡、帽子、假發(fā)、皇冠、項(xiàng)鏈、耳環(huán)等,“穿戴”到用戶的臉上或頭部,為用戶定制個(gè)性化的形象。手機(jī)相機(jī)、社交 app 提供了各種各樣的道具,供用戶選擇。

貼紙,對(duì)人臉關(guān)鍵點(diǎn)的要求,沒有美顏高,但高精度的人臉關(guān)鍵點(diǎn),對(duì)貼紙的效果,是有幫助的。


人臉驅(qū)動(dòng) avatar,近年來元宇宙、虛擬人、卡通人物的概念層出不窮,其背后的技術(shù)本質(zhì)是如何將自然圖像中真實(shí)人臉的表情、姿態(tài)等信息,遷移到 avatar 模型,驅(qū)動(dòng) avatar 維妙維肖地“模仿”真人。人臉關(guān)鍵點(diǎn),作為有效的人臉信息載體,可進(jìn)一步提煉出符合 avatar 模型的語議信息,從而驅(qū)動(dòng) avatar。人臉驅(qū)動(dòng),對(duì)人臉關(guān)鍵的要求是最高的。人臉關(guān)鍵點(diǎn)的分布,除了定位臉頰、眉毛、眼睛、鼻子、嘴巴外,還要求定位面頰部位。另外,人臉關(guān)鍵點(diǎn)定位越精準(zhǔn),捕捉人臉的微表情越精細(xì),avatar 才越生動(dòng)。


04人臉關(guān)鍵點(diǎn)算法面臨的挑戰(zhàn)

?

人臉關(guān)鍵點(diǎn)檢測(cè)算法,在實(shí)際應(yīng)用過程中,面臨著諸多的挑戰(zhàn),需要解決的問題,具體表現(xiàn)為:


1、在不同人臉姿態(tài)、光照條件、臉部被遮擋時(shí),關(guān)鍵點(diǎn)定位要準(zhǔn)確;

2、連續(xù)視頻幀檢測(cè),幀間關(guān)鍵點(diǎn)的抖動(dòng),要在可控范圍或被消除;

3、檢測(cè)速度夠快,可在端側(cè)設(shè)備實(shí)時(shí)運(yùn)行。


為了達(dá)到更準(zhǔn)確的關(guān)鍵點(diǎn)定位,學(xué)術(shù)界通常采用基于熱力圖的方法,采用更大更深的模型,但其代價(jià)是模型對(duì)算力要求高,無法在端側(cè)設(shè)備實(shí)時(shí)運(yùn)行。其次,為了滿足不同條件下,關(guān)鍵點(diǎn)定位準(zhǔn)確,業(yè)界通常會(huì)自建大規(guī)模的訓(xùn)練集。


為了滿足美顏、貼紙、avatar 驅(qū)動(dòng)應(yīng)用對(duì)人臉關(guān)鍵點(diǎn)的精度的要求,聲網(wǎng)自建了大規(guī)模的人臉關(guān)鍵點(diǎn)數(shù)據(jù)集。人臉關(guān)鍵點(diǎn)的數(shù)據(jù)集建立過程中,充分考慮了以下幾個(gè)因素:


1、在數(shù)據(jù)采集設(shè)備方面,覆蓋了各種類型手機(jī)的前置/后置攝像頭、不同類型的筆記本攝像頭和 USB 攝像頭。

2、不同光線條件下采集人臉圖像,包括強(qiáng)光、暗光、背光等條件。

3、多個(gè)角度、姿態(tài)、變換遠(yuǎn)近拍攝人臉圖像。

4、穿戴不同的遮擋物進(jìn)行人臉圖像拍攝,包括眼鏡、口罩、帽子,以及手部遮擋嘴巴、臉頰、眼睛。

5、人工標(biāo)注人臉關(guān)鍵點(diǎn),并對(duì)標(biāo)注精度進(jìn)行二次人工審核,確保人工標(biāo)注的關(guān)鍵點(diǎn)是準(zhǔn)確的。


05聲網(wǎng)人臉關(guān)鍵點(diǎn)算法


聲網(wǎng)自研的人臉關(guān)鍵點(diǎn)算法,利用深度學(xué)習(xí)技術(shù),設(shè)計(jì)了輕量級(jí)模型,滿足移動(dòng)端設(shè)備實(shí)時(shí)運(yùn)行的要求,其具備如下幾個(gè)特點(diǎn):


1、支持 106 個(gè)關(guān)鍵點(diǎn)的檢測(cè),關(guān)鍵點(diǎn)覆蓋了臉頰、嘴巴、鼻子、眼睛、眉毛區(qū)域,能夠滿足大多數(shù)應(yīng)用對(duì)關(guān)鍵點(diǎn)的點(diǎn)數(shù)要求。

2、推理速度快,在移動(dòng)端設(shè)備可實(shí)時(shí)。結(jié)合人臉檢測(cè)和人臉關(guān)鍵點(diǎn)檢測(cè)的推理,耗時(shí)控制在 10ms 以內(nèi),為其它實(shí)時(shí)應(yīng)用提供富余的時(shí)間余量。

3、支持人臉姿態(tài)的歐拉角預(yù)測(cè)。

4、支持眼球跟蹤。

5、支持關(guān)鍵點(diǎn)防抖功能,保證在視頻中保持關(guān)鍵點(diǎn)既精準(zhǔn)又穩(wěn)定。


聲網(wǎng)人臉關(guān)鍵點(diǎn)算法,為美顏、貼紙、avatar 等應(yīng)用提供基礎(chǔ)的技術(shù)能力,結(jié)合聲網(wǎng)的 RTC 技術(shù),可為開發(fā)者提供更加完備的解決方案。點(diǎn)擊底部閱讀原文即可進(jìn)一步了解詳情。


(正文完)



關(guān)于 Dev for Dev

Dev for Dev 專欄全稱為 Developer for Developer,該專欄是聲網(wǎng)與 RTC 開發(fā)者社區(qū)共同發(fā)起的開發(fā)者互動(dòng)創(chuàng)新實(shí)踐活動(dòng)。

透過工程師視角的技術(shù)分享、交流碰撞、項(xiàng)目共建等多種形式,匯聚開發(fā)者的力量,挖掘和傳遞最具價(jià)值的技術(shù)內(nèi)容和項(xiàng)目,全面釋放技術(shù)的創(chuàng)造力。


關(guān)注「聲網(wǎng)開發(fā)者」公眾號(hào),關(guān)注實(shí)時(shí)互動(dòng)領(lǐng)域的技術(shù)實(shí)踐、行業(yè)洞察人物觀點(diǎn)。


人臉關(guān)鍵點(diǎn)的應(yīng)用場景及重難點(diǎn)解析丨Dev for Dev 專欄的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
乌兰察布市| 宁德市| 梅州市| 赤城县| 台前县| 龙山县| 前郭尔| 海丰县| 东安县| 长海县| 蓬安县| 永丰县| 永德县| 新龙县| 安龙县| 莱州市| 邵阳县| 鲁甸县| 新邵县| 霍城县| 开鲁县| 渑池县| 中超| 甘德县| 始兴县| 苍南县| 交城县| 德安县| 黄大仙区| 油尖旺区| 乌海市| 吴川市| 斗六市| 南充市| 延吉市| 明水县| 三门县| 涟源市| 花垣县| 尖扎县| 衡南县|