微軟專利提出AR/VR中聲音的定位和可視化方法,幫助感知視場(chǎng)外重要或危險(xiǎn)聲音
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)
可視化聲音來(lái)源
(映維網(wǎng)?2021年12月01日)患有輕度到重度聽(tīng)力障礙的人群數(shù)量并不少。通常,聽(tīng)力受損人士依靠視覺(jué)等其他感官來(lái)解釋周遭的環(huán)境。但是,注意視場(chǎng)之外的事件可能特別具有挑戰(zhàn)性。另外,即便是聽(tīng)力正常的人士,噪雜的環(huán)境同樣對(duì)其提出了挑戰(zhàn),使其難以發(fā)現(xiàn)重要的聲音信號(hào),特別是專注于需要全神貫注的任務(wù)時(shí)。
在名為“Localization and visualization of sound”的專利申請(qǐng)中,一直專注于無(wú)障礙技術(shù)的微軟提出了一種定位和可視化聲音的方法,從而幫助用戶感知視場(chǎng)之外的重要和/或危險(xiǎn)聲音。

專利描述的電子設(shè)備搭載用于接收音頻信號(hào)的聲音換能器、顯示單元、處理單元和存儲(chǔ)器。在一個(gè)實(shí)施例中,儲(chǔ)存器存儲(chǔ)致使處理單元執(zhí)行多個(gè)功能的指令。其中,所述功能可包括分析由聲音傳感器接收的音頻信號(hào),以確定所接收音頻信號(hào)的源的位置方向;確定源的位置方向是否位于電子設(shè)備用戶的視場(chǎng)之外;以及響應(yīng)于確定源的位置方向落在電子設(shè)備用戶的視場(chǎng)之外,在顯示單元呈現(xiàn)源的視覺(jué)表示。在一個(gè)實(shí)施例中,在用戶視場(chǎng)內(nèi)的虛擬表面呈現(xiàn)源的可視表示。

在一個(gè)實(shí)施例中,可以分析聲音信號(hào)以識(shí)別聲音的強(qiáng)度,并確定是否至少部分地基于強(qiáng)度的標(biāo)識(shí)來(lái)可視化聲源??稍谝粋€(gè)實(shí)施例中,在用戶視場(chǎng)內(nèi)的虛擬表面呈現(xiàn)源的可視表示。
在一個(gè)實(shí)施例中,可以利用機(jī)器學(xué)習(xí)(ML)來(lái)優(yōu)化解決方案。例如,可以使用ML模型生成的數(shù)據(jù)對(duì)系統(tǒng)進(jìn)行訓(xùn)練,以識(shí)別聲源并確定聲源、聲強(qiáng)、位置和危險(xiǎn)以及/或者聲源重要性之間的關(guān)聯(lián)。這種訓(xùn)練可在積累、審查和/或分析大量用戶數(shù)據(jù)后進(jìn)行。這樣的用戶數(shù)據(jù)配置為向ML算法提供初始或正在進(jìn)行的訓(xùn)練集。另外,在一個(gè)實(shí)施例中,用戶設(shè)備可配置為將在使用相關(guān)應(yīng)用期間捕獲的數(shù)據(jù)傳輸?shù)奖镜鼗蜻h(yuǎn)程ML算法,并提供可用于微調(diào)或提高M(jìn)L算法有效性的補(bǔ)充訓(xùn)練數(shù)據(jù)。補(bǔ)充數(shù)據(jù)同時(shí)可用于改進(jìn)未來(lái)應(yīng)用版本或當(dāng)前應(yīng)用程序更新的訓(xùn)練集。
簡(jiǎn)單來(lái)說(shuō),系統(tǒng)可以根據(jù)聲音換能器和處理單元來(lái)判斷聲音源的位置,若是聲音源位于用戶視場(chǎng)之外,則可以通過(guò)頭顯顯示對(duì)應(yīng)的視覺(jué)表示,從而幫助用戶判斷聲音的來(lái)源。
微軟指出,所述技術(shù)解決方案提供了一種用于識(shí)別用戶視場(chǎng)之外的重要聲源,并以有效引起用戶注意的方式將其可視化的有效機(jī)制。

圖1中的示例環(huán)境100可以包括佩戴頭顯170的用戶110。用戶110可以是患有聽(tīng)力損傷的人士和/或當(dāng)前處于噪聲環(huán)境中的人士。在一個(gè)實(shí)施例中,用戶110可以僅僅是佩戴頭顯170的普通用戶。在一個(gè)實(shí)施例中,頭顯170生成沉浸式環(huán)境。沉浸式環(huán)境可指虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和/或混合現(xiàn)實(shí)環(huán)境。頭顯170可以在沉浸式環(huán)境中顯示一個(gè)或多個(gè)虛擬對(duì)象。在一個(gè)實(shí)施例中,用戶可與所述虛擬對(duì)象交互。虛擬對(duì)象可以包括一個(gè)或多個(gè)在沉浸式環(huán)境中可移動(dòng)的全息圖。
無(wú)論是由于聽(tīng)力損傷、高噪聲水平和/或沉浸式環(huán)境引起的分心,用戶110都可能難以從周圍環(huán)境中發(fā)現(xiàn)特定的聲音。然而,由于用戶依然可以看到位于用戶視場(chǎng)內(nèi)的數(shù)字可視化表示,所以這可以幫助用戶判斷聲源和/或知曉所述聲音的存在。例如,如果用戶110聽(tīng)不到摩托車180,則用戶110依然可以通過(guò)視覺(jué)表示來(lái)意識(shí)到其存在。結(jié)果,用戶110可以及時(shí)作出反應(yīng)以避免潛在事故。
對(duì)于聲源120,由于聲源120位于用戶視場(chǎng)之外(例如在用戶110后面),如果用戶110聽(tīng)不到聲源120靠近(例如聽(tīng)不到卡車?guó)Q笛),則用戶110不太可能意識(shí)到聲源120。這可能非常危險(xiǎn),尤其是在擁擠的環(huán)境之中,如高危工廠或建筑工地。
為了幫助用戶110意識(shí)到在用戶視場(chǎng)之外的重要和危險(xiǎn)聲源,頭顯170可以生成聲源的視覺(jué)表示160。這可能涉及識(shí)別對(duì)用戶110重要的聲源,例如哭鬧的嬰兒、在用戶身后說(shuō)話的同事、門的打開(kāi)或關(guān)閉、用戶電話鈴聲的聲音、從用戶后方接近的移動(dòng)車輛、掉落碎片的聲音或機(jī)器發(fā)出的警報(bào)等等。
一旦識(shí)別出用戶視場(chǎng)之外的重要聲源,則可由頭顯生成聲源的視覺(jué)表示160并將其顯示在諸如虛擬表面130的虛擬表面之上。
虛擬表面130可以顯示在與聲源120位置相對(duì)應(yīng)的位置。例如,虛擬表面130可以顯示在從視覺(jué)表示160到用戶的距離與從聲源120到t的距離成比例的位置。在一個(gè)示例中,這是通過(guò)在頭顯170顯示視覺(jué)表示160來(lái)實(shí)現(xiàn),并使得視覺(jué)表示160看起來(lái)與聲源120距離用戶110相同。例如,當(dāng)聲源120在用戶110后面15英尺時(shí),視覺(jué)表示160似乎在用戶前面15英尺。上。
在一個(gè)實(shí)施例中,視覺(jué)表示160是與聲源形狀相對(duì)應(yīng)的全息對(duì)象。例如,當(dāng)聲源120是卡車時(shí),卡車全息圖可作為視覺(jué)表示160。另外,虛擬對(duì)象可用于表示聲音強(qiáng)度(例如響度)。在一個(gè)實(shí)現(xiàn)中,虛擬對(duì)象140包括圍繞視覺(jué)表示160繪制的圓圈。
在一個(gè)示例中,圓圈的數(shù)量表示聲音的強(qiáng)度。例如,聲音越大,圍繞視覺(jué)表示160繪制的圓圈就越多。在一個(gè)實(shí)施例中,顏色用于表示聲音強(qiáng)度。例如,紅色圓圈可能表示聲音非常響亮,而黃色圓圈可能表示聲音中等響亮。在一個(gè)實(shí)施例中,圓圈的數(shù)量和/或顏色可以隨著聲源120相對(duì)于用戶110的移動(dòng)而改變。例如,如果聲源120正在更靠近用戶110(在這種情況下,聲音強(qiáng)度會(huì)增加),虛擬對(duì)象140中的圓圈的數(shù)量可以增加和/或顏色可以改變以通知用戶危險(xiǎn)程度的增加。
相關(guān)專利:Microsoft Patent | Localization and visualization of sound
名為“Localization and visualization of sound”的專利申請(qǐng)最初在2020年5月提交,并在日前由美國(guó)專利商標(biāo)局公布。
---
原文鏈接:https://news.nweon.com/92062