微軟AR/VR專利分享用諧振LC傳感器+機(jī)器學(xué)習(xí)來識(shí)別面部表情
查看引用/信息源請點(diǎn)擊:映維網(wǎng)Nweon
識(shí)別面部表情
(映維網(wǎng)Nweon?2023年07月25日)除了眼動(dòng)追蹤,面部追蹤同樣開始成為XR頭顯的標(biāo)配。但如果是使用攝像頭進(jìn)行檢測,所述組件可能會(huì)遮擋眼睛的視圖,并進(jìn)一步影響可穿戴設(shè)備的視覺設(shè)計(jì)。
所以為了避免使用攝像頭來追蹤面部表情,在名為“Interpretation of resonant sensor data using machine learning”的專利申請中,微軟就介紹了一種利用諧振式電感-電容LC傳感器和機(jī)器學(xué)習(xí)方法來識(shí)別面部表情的方法,這家公司指出,諧振式LC傳感器代替攝像頭進(jìn)行面部追蹤,從而可以減小傳感設(shè)備的尺寸、重量、成本和/或功耗。
在一個(gè)實(shí)施例中,專利描述的頭顯設(shè)備可以配置為識(shí)別面部表情并將其作為用戶輸入。為了避免使用攝像頭來追蹤面部表情,可以利用諧振式LC傳感器。其中,每個(gè)諧振式LC傳感器配置為輸出響應(yīng)于靠近諧振式LC傳感器的表面積位置的信號(hào)。
每個(gè)諧振LC傳感器包括配置用于近場電磁檢測的天線和諧振電路,而諧振電路包括天線、放大器和振蕩器。每個(gè)諧振式LC傳感器通過在天線產(chǎn)生振蕩信號(hào)并檢測諧振式LC傳感器在選定頻率下的近場響應(yīng)來操作。諧振LC電路的諧振頻率作為感測表面的天線接近度的函數(shù)而變化,從而允許表面相對(duì)于被感測天線的位置發(fā)生變化。
同時(shí),可以利用經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)函數(shù)從諧振LC傳感器輸出確定潛在的面部表情。然后,確定的面部表情可以用作計(jì)算系統(tǒng)的輸入。例如,確定的表情可以用來控制計(jì)算設(shè)備的功能,或者將其映射至Avatar。

圖1示出了佩戴頭顯的的用戶100,所述頭顯包括用于面部追蹤的諧振LC傳感器。圖2示出適于與傳感組件102一起使用的示例框架202??蚣?02包括空間分布在框架202上的多個(gè)諧振LC傳感器204A-G。每個(gè)傳感器可以配置為感測臉部的不同部分,例如左眉、右眉和鼻子。
每個(gè)諧振式LC傳感器204配置為輸出信號(hào),而所述信號(hào)提供有關(guān)靠近相應(yīng)諧振式LC傳感器的面部位置的信息。使用諧振式LC傳感器代替攝像頭進(jìn)行面部追蹤,從而可以減小傳感設(shè)備102的尺寸、重量、成本和/或功耗。

圖3示出了示例性傳感組件300的框圖。傳感組件300包括多個(gè)諧振LC傳感器302,每個(gè)傳感器配置為輸出響應(yīng)于與相應(yīng)諧振LC傳感器相鄰的表面位置的信號(hào)。每個(gè)諧振LC傳感器302包括天線304、諧振電路305、振蕩器306和放大器308。諧振電路305包括天線304的電容和/或電感與一個(gè)或多個(gè)其他無功元件組合。
天線304用于近場電磁探測。在一個(gè)實(shí)施例中,天線304可包括質(zhì)量因子在150至2000范圍內(nèi)的窄帶天線。使用這種窄帶天線可以提供比具有較低質(zhì)量因數(shù)的天線更高的靈敏度。所述振蕩器306和放大器308被配置為在天線304產(chǎn)生振蕩信號(hào),所述天線304檢測近場響應(yīng),近場響應(yīng)隨所述被感測表面相對(duì)于所述天線304的位置的函數(shù)而變化。
在一個(gè)實(shí)施例中,選擇振蕩信號(hào)與諧振式LC傳感器的目標(biāo)諧振頻率有一定的偏移,因?yàn)檫@樣的配置可以提供比振蕩信號(hào)更經(jīng)常處于諧振式LC信號(hào)的諧振頻率更低的功率操作。
傳感組件300同時(shí)包括邏輯子系統(tǒng)310和存儲(chǔ)子系統(tǒng)312。邏輯子系統(tǒng)310可以配置為使用機(jī)器學(xué)習(xí)方法檢測面部表情。例如,存儲(chǔ)在存儲(chǔ)子系統(tǒng)312中的指令可以配置為使用訓(xùn)練過的機(jī)器學(xué)習(xí)函數(shù)將傳感器輸出映射到面部姿態(tài)。
傳感組件300可進(jìn)一步包括可選的慣性測量單元314。來自IMU 314的IMU數(shù)據(jù)可用于檢測感測組件的位置變化。
圖4示出另一示例感測組件400。傳感組件400包括多個(gè)諧振LC傳感器402,每個(gè)傳感器包括天線404。天線404可以類似地配置為圖3中所示的天線。
但與傳感組件300相反,傳感組件400包括由邏輯子系統(tǒng)410可執(zhí)行的存儲(chǔ)指令413,以實(shí)現(xiàn)對(duì)于每個(gè)諧振LC傳感器402,諧振電路405,振蕩器406和放大器408。傳感組件400可以進(jìn)一步包括可選IMU 414,如上所述的關(guān)于傳感組件300。

圖5示出示例諧振LC傳感器500的電路圖。諧振式LC傳感器500是傳感組件300的諧振式LC傳感器的示例。諧振LC傳感器500包括電感504、振蕩器506、放大器508和天線510,天線包括電容,電容502表示。所述振蕩器506配置為在節(jié)點(diǎn)512上輸出被驅(qū)動(dòng)信號(hào),所述放大器508配置為根據(jù)通過反饋回路516在節(jié)點(diǎn)512接收到的被驅(qū)動(dòng)信號(hào)在天線中產(chǎn)生振蕩信號(hào)。
天線510的電容502與電感504一起構(gòu)成串聯(lián)諧振器。天線510的電容是靠近天線510的表面的函數(shù),因此根據(jù)靠近傳感器的表面位置的變化而變化。在一個(gè)實(shí)施例中,可以包括單獨(dú)的電容器以向諧振電路提供額外的電容,例如,將諧振電路調(diào)諧到選定的諧振頻率。
諧振LC傳感器500輸出的信號(hào)通過模數(shù)轉(zhuǎn)換器(ADC) 518轉(zhuǎn)換為數(shù)字值。在一個(gè)示例中,來自ADC 518的數(shù)據(jù)在本地處理,而在其他示例中,來自ADC的數(shù)據(jù)遠(yuǎn)程處理。在任何一種情況下,可以通過在將數(shù)據(jù)發(fā)送到另一設(shè)備之前通過加密模塊522對(duì)來自ADC 518的數(shù)據(jù)進(jìn)行加密,從而進(jìn)一步處理維護(hù)面部追蹤數(shù)據(jù)的隱私。
面部追蹤傳感器數(shù)據(jù)可能在轉(zhuǎn)換為數(shù)字值后進(jìn)行加密,這有助于防止黑客攻擊并保護(hù)用戶數(shù)據(jù)隱私。由于來自每個(gè)傳感器的信息是一維的(例如電壓信號(hào)或電流信號(hào)),并且傳感器的總數(shù)相對(duì)較少,因此來自諧振LC傳感器系統(tǒng)的面部追蹤傳感器數(shù)據(jù)的加密效率相對(duì)較高。
相比之下,使用攝像頭的面部追蹤系統(tǒng)的圖像數(shù)據(jù)可能需要使用更多的資源來加密,因?yàn)槊總€(gè)通道有諸多像素,在彩色圖像數(shù)據(jù)的情況下則需要眾多顏色通道。面部追蹤數(shù)據(jù)的相對(duì)低維度可以允許加密以足夠的采樣率有效地執(zhí)行,以實(shí)時(shí)追蹤面部表情,而不會(huì)像使用圖像傳感器那樣影響功耗。
通過通信通道522發(fā)送的面部追蹤數(shù)據(jù)由解密模塊524解密,然后輸入到經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)函數(shù)526中分類為面部表情。在各種示例中,解密模塊524和機(jī)器學(xué)習(xí)功能526可以位于傳感器500所在的設(shè)備的本地,或可以遠(yuǎn)離傳感器500所在的設(shè)備。對(duì)于該函數(shù)識(shí)別的每個(gè)面部表情,機(jī)器學(xué)習(xí)函數(shù)526確定輸入數(shù)據(jù)代表該面部表情的概率。從概率中,輸出一個(gè)確定的面部表情,并用作計(jì)算設(shè)備的輸入。
機(jī)器學(xué)習(xí)函數(shù)526可以使用針對(duì)多個(gè)不同面部表情中的每一個(gè)或多個(gè)用戶中的每一個(gè)的標(biāo)記諧振LC傳感器數(shù)據(jù)進(jìn)行訓(xùn)練。機(jī)器學(xué)習(xí)函數(shù)526可以使用與諧振LC傳感相關(guān)的其他變量進(jìn)行訓(xùn)練。
獲得用于訓(xùn)練機(jī)器學(xué)習(xí)函數(shù)526的標(biāo)記訓(xùn)練數(shù)據(jù)是一項(xiàng)重要的任務(wù)。因此,合成訓(xùn)練數(shù)據(jù)的產(chǎn)生可能比使用物理訓(xùn)練數(shù)據(jù)更有效。

圖6A示意性地示出了一種示例合成訓(xùn)練方法600。在602,合成訓(xùn)練方法600包括對(duì)合成人臉進(jìn)行建模以表示來自不同人群的面部表情。接下來,將包含一個(gè)或多個(gè)諧振LC傳感器的面部追蹤設(shè)備的電磁特性建模的電磁模型應(yīng)用于合成面部604。
電磁模型對(duì)傳感器的電路元件、應(yīng)用于被建模傳感器的信號(hào)以及建模傳感器相對(duì)于面部的位置進(jìn)行建模,并針對(duì)不同的面部表情輸出一組合成諧振頻率(RF)傳感器信號(hào)606,其中所述合成RF信號(hào)模擬由所述合成面部再現(xiàn)的面部表情產(chǎn)生的RF信號(hào)。
然后可以用合成數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)函數(shù),如608所示。訓(xùn)練后的機(jī)器學(xué)習(xí)函數(shù)可以使用任何合適的機(jī)器學(xué)習(xí)算法,包括但不限于期望最大化、k近鄰、極限學(xué)習(xí)機(jī)、神經(jīng)網(wǎng)絡(luò)如循環(huán)神經(jīng)網(wǎng)絡(luò)等等。
額外的傳感器數(shù)據(jù)609,如手部追蹤、頭部追蹤、注視點(diǎn)追蹤、圖像、音頻、IMU和/或環(huán)境數(shù)據(jù)可以進(jìn)一步用作輸入,以幫助訓(xùn)練機(jī)器學(xué)習(xí)功能。使用額外的傳感器數(shù)據(jù)以及諧振LC傳感器數(shù)據(jù)可能有助于提供情景和/或過濾噪點(diǎn),從而提高確定面部表情的準(zhǔn)確性。
例如,IMU數(shù)據(jù)可能表明,面部追蹤傳感器信號(hào)的變化是由于用戶行走或移動(dòng)頭部時(shí)的頭顯運(yùn)動(dòng),而不是由于故意的面部表情。作為另一個(gè)例子,眼動(dòng)追蹤可以幫助持續(xù)地提供用戶頭部中心的位置,從而提供從頭顯到用戶頭部的絕對(duì)距離。在這樣的例子中,機(jī)器學(xué)習(xí)函數(shù)可以用這些額外的傳感器數(shù)據(jù)進(jìn)行訓(xùn)練。
上述數(shù)據(jù)可以與諧振LC傳感器數(shù)據(jù)融合,然后使用任何合適的數(shù)據(jù)融合方法輸入到機(jī)器學(xué)習(xí)函數(shù)中。例如,通過攝像頭獲取的運(yùn)動(dòng)追蹤數(shù)據(jù)可以處理以識(shí)別運(yùn)動(dòng),并且表示已識(shí)別運(yùn)動(dòng)的數(shù)據(jù)可以與諧振LC傳感器數(shù)據(jù)連接,從而輸入到機(jī)器學(xué)習(xí)功能中。
來自諧振LC傳感器系統(tǒng)上的慣性測量單元的慣性運(yùn)動(dòng)數(shù)據(jù)同樣可以與RF傳感器數(shù)據(jù)連接以輸入到機(jī)器學(xué)習(xí)功能中。
經(jīng)過訓(xùn)練后,訓(xùn)練好的機(jī)器學(xué)習(xí)函數(shù)可以用于在部署階段對(duì)面部追蹤傳感器數(shù)據(jù)進(jìn)行分類。如圖6B中的方法610所示。方法610包括在612處從一個(gè)或多個(gè)諧振LC傳感器獲得信號(hào)。
如上所述,可以以加密形式接收信號(hào),然后對(duì)其進(jìn)行解密。然后將信號(hào)輸入到經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)函數(shù)614中。
基于所述輸入數(shù)據(jù),所述訓(xùn)練的機(jī)器學(xué)習(xí)函數(shù)輸出概率616,所述輸入數(shù)據(jù)表示所述函數(shù)訓(xùn)練以分類的多個(gè)面部表情中的每一個(gè)。
為了識(shí)別面部手勢,可以將來自諧振LC傳感器的時(shí)間數(shù)據(jù)輸入到機(jī)器學(xué)習(xí)功能中。在其他示例中,可以輸入單個(gè)幀,并且機(jī)器學(xué)習(xí)功能隨時(shí)間輸出的面部姿勢變化可用于識(shí)別面部姿態(tài)。
可以選擇具有最高概率的面部表情作為確定的面部表情以用作計(jì)算設(shè)備輸入618。在一個(gè)示例中,可以為所確定的面部表情確定置信度,如果置信度不滿足置信度閾值,則可以丟棄結(jié)果。
在其他實(shí)施例中,可以將時(shí)間閾值應(yīng)用于面部姿勢以排除微表情,因?yàn)槲⒈砬槭亲园l(fā)和短暫出現(xiàn)的表情,因此不太可能表示預(yù)期的計(jì)算設(shè)備輸入。
在一個(gè)實(shí)施例中,面部表情可能與設(shè)備功能有預(yù)先確定的映射關(guān)系??梢詫⒂?jì)算設(shè)備配置為接收面部表情到設(shè)備功能/控制輸入的用戶定義映射的輸入。允許用戶定義的映射有助于進(jìn)一步個(gè)性化用戶體驗(yàn)。
另外,用戶定義的映射可用于使計(jì)算設(shè)備的控制適應(yīng)用戶的特定能力。通過面部表情進(jìn)行的控制輸入同時(shí)可用于控制與傳感設(shè)備通信的其他設(shè)備,例如家庭或工作場所環(huán)境中的設(shè)備。

在一個(gè)實(shí)施例中,可以顯示Avatar以向用戶提供一個(gè)或多個(gè)指導(dǎo)和視覺反饋。圖7A顯示了一個(gè)示例使用場景700,其中用戶704所佩戴的頭戴式顯示設(shè)備702正在顯示多個(gè)Avatar,
Avatar的表情706、708、710、712可以作為顯示的可選計(jì)算設(shè)備功能菜單的一部分一起顯示。在所述示例中,可以通過執(zhí)行相關(guān)的顯示的面部表情來選擇計(jì)算設(shè)備功能。在另一示例中,如圖7B所示,表情706、708、710、712顯示為面部表情序列,由用戶按順序執(zhí)行以觸發(fā)特定的可選輸入。檢測序列的性能可以表明用戶704打算觸發(fā)關(guān)聯(lián)的可選輸入的高可能性。
面部表情可以用于用戶身份驗(yàn)證。在這樣的示例中,Avatar可以顯示一個(gè)或多個(gè)面部表情,并且用戶可以模仿所述表情。
可以對(duì)諧振LC傳感器數(shù)據(jù)進(jìn)行分類,以確定是否執(zhí)行了表情,并將其與先前存儲(chǔ)的表情用戶數(shù)據(jù)進(jìn)行比較。如果傳感器數(shù)據(jù)與圖示表情不匹配和/或與先前為用戶存儲(chǔ)的傳感器數(shù)據(jù)不匹配,則設(shè)備可能保持鎖定狀態(tài)。這可能有助于防止?jié)撛诘奈唇?jīng)授權(quán)的用戶訪問設(shè)備。
檢測到的面部表情同時(shí)可以用于與他人交流,以表達(dá)情感。例如,Avatar可以呈現(xiàn)為執(zhí)行第一用戶的面部表情,以便在遠(yuǎn)程設(shè)備呈現(xiàn)給第二用戶。在這樣的示例中,關(guān)于第一用戶的面部表情的分類的信息可以作為情感表情發(fā)送到遠(yuǎn)程設(shè)備,以通過表示第一用戶的Avatar顯示給第二用戶。

圖8顯示了通過頭顯諧振LC傳感器收集的示例性實(shí)驗(yàn)性面部追蹤傳感器數(shù)據(jù)。
戴著頭顯的用戶在圖表顯示為800。每個(gè)諧振LC傳感器配置為感知用戶面部的不同部分。圖例描述了用于左眉(802)、左外頰(804)、左內(nèi)頰(806)、右眉(808)和鼻子(814)的示例信號(hào)。信號(hào)波形中的峰值和上升表示在面部區(qū)域中檢測到的用戶面部運(yùn)動(dòng)。
舉個(gè)例子,信號(hào)峰值為816的左眉和818的右眉表示用戶在這個(gè)實(shí)驗(yàn)中抬起了兩個(gè)眉毛。鼻子的信號(hào)峰值為820,右內(nèi)頰的信號(hào)峰值為822,右外頰的信號(hào)峰值為824,這表明用戶在臉的右側(cè)在笑。
相關(guān)專利:
Microsoft Patent | Interpretation of resonant sensor data using machine learning
https://patent.nweon.com/28468
名為“Interpretation of resonant sensor data using machine learning”的微軟專利申請最初在2021年11月提交,并在日前由美國專利商標(biāo)局公布。
---
原文鏈接:https://news.nweon.com/110794