最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Look and Talk 只需一個(gè)眼神,谷歌助手便能為您服務(wù)

2023-02-27 08:00 作者:小牛翻譯NiuTrans  | 我要投稿

本文首發(fā)于網(wǎng)站?機(jī)器翻譯學(xué)堂

轉(zhuǎn)載事宜請(qǐng)后臺(tái)詢問哦

譯者|劉浩偉

單位|東北大學(xué)自然語言處理實(shí)驗(yàn)室

引言

在人們的日常交流中,我們不會(huì)每次說話時(shí)都叫出對(duì)方的名字。取而代之,我們依靠的是情境信號(hào),通常來說只需要進(jìn)行眼神的接觸便可以發(fā)起一場對(duì)話。

谷歌助手目前在超過95個(gè)國家被使用,可支持超過29種語言,每月幫助7億多人在助理設(shè)備上完成工作。隨著虛擬助理成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠?,開發(fā)更自然地啟動(dòng)對(duì)話的方法已成趨勢。當(dāng)前谷歌助手發(fā)起對(duì)話的方式為喚醒詞(如:“hey google”或“hello google”),用戶通過說出喚醒詞來激活服務(wù),那么是否能夠只通過一個(gè)眼神來告訴谷歌助手,我們需要服務(wù)呢?

本文介紹了谷歌在2022年I/O大會(huì)上發(fā)布的Look and Talk,在擁有該功能的設(shè)備5英尺范圍內(nèi),用戶可以通過簡單地查看屏幕來開始與助手進(jìn)行交互。這是創(chuàng)造與谷歌助手支持的家用設(shè)備進(jìn)行自然直觀的交互過程中的一項(xiàng)重大發(fā)展。Look and Talk是第一個(gè)擁有多模式的設(shè)備助手功能,該功能可以同時(shí)分析音頻,視頻和文本,以確定用戶何時(shí)與谷歌助手進(jìn)行交談。其算法使用了八個(gè)機(jī)器學(xué)習(xí)模型,可以區(qū)分用戶是有意互動(dòng)還是無意瞥過,以便準(zhǔn)確地確定用戶與助手互動(dòng)的意圖。

Google智能助理依靠許多信號(hào)來確定用戶何時(shí)與其交談。右側(cè)是一個(gè)信號(hào)列表,其中指示器根據(jù)用戶與設(shè)備的接近程度和注視方向顯示每個(gè)信號(hào)何時(shí)觸發(fā)。

建模挑戰(zhàn)

Look and Talk始于為學(xué)術(shù)研究而開發(fā)的模型。但是,大規(guī)模部署需要解決此功能特有的現(xiàn)實(shí)挑戰(zhàn)。它必須:

  1. 支持一系列人口統(tǒng)計(jì)特征(例如,年齡、膚色)。

  2. 適應(yīng)現(xiàn)實(shí)世界的環(huán)境多樣性,包括具有挑戰(zhàn)性的光學(xué)(例如,背光,陰影模式)和聲學(xué)條件(例如,混合音,背景噪聲)。

  3. 處理不尋常的鏡頭視角,因?yàn)橹悄茱@示器通常用作臺(tái)面設(shè)備來觀察用戶,這與研究數(shù)據(jù)集中通常用于訓(xùn)練模型的正面人臉圖像不同。

  4. 實(shí)時(shí)運(yùn)行,以確保在處理設(shè)備上的視頻時(shí)及時(shí)響應(yīng)。

該算法的演變涉及從領(lǐng)域適應(yīng)和個(gè)性化到特定領(lǐng)域數(shù)據(jù)集開發(fā),現(xiàn)場測試和反饋以及整體算法的重復(fù)調(diào)整等方法的實(shí)驗(yàn)。

技術(shù)概述

一個(gè)Look and Talk交互分為三個(gè)階段。在第一階段,助手使用視覺信號(hào)來檢測用戶是否表現(xiàn)出與之交流的意圖,然后“喚醒”來聽取他們的發(fā)言。第二階段的目的是使用視覺和聽覺信號(hào)進(jìn)一步驗(yàn)證和理解用戶的意圖。Look and Talk會(huì)考慮第一個(gè)和第二個(gè)處理階段的所有信號(hào),以確定交互是否可能用于助手。這兩個(gè)階段是“Look”和“Talk”的核心功能,將在下面進(jìn)行討論。查詢實(shí)現(xiàn)的第三階段是典型的查詢流,超出了本博客的范圍。

第一階段:與助手互助

Look and Talk的第一階段旨在評(píng)估注冊(cè)用戶是否有意與助手互動(dòng)。Look and Talk使用人臉檢測來識(shí)別用戶的狀態(tài),使用檢測到的人臉框大小來推斷距離,然后使用現(xiàn)有的人臉匹配系統(tǒng)來確定他們是否是Look and Talk的注冊(cè)用戶。

對(duì)于設(shè)備范圍內(nèi)的注冊(cè)用戶,自定義的眼睛注視模型可以確定用戶是否正在查看設(shè)備。該模型使用多塔卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)從圖像幀中估計(jì)注視角度和相機(jī)注視置信度,一個(gè)塔處理整個(gè)面部,另一個(gè)塔處理眼睛周圍的區(qū)塊。為了確保最終預(yù)測與虛假的單個(gè)預(yù)測以及不自主的眨眼和掃視有一定彈性空間,研究員將平滑函數(shù)應(yīng)用于基于單個(gè)幀的預(yù)測,以消除虛假的單個(gè)預(yù)測。

眼睛注視預(yù)測和后處理概述

在通知用戶系統(tǒng)已準(zhǔn)備好進(jìn)行交互之前,會(huì)強(qiáng)制執(zhí)行更嚴(yán)格的注意要求,以盡量減少錯(cuò)誤觸發(fā),例如,當(dāng)路過的用戶短暫的瞥了一眼設(shè)備時(shí),一旦用戶看著設(shè)備開始說話,便會(huì)放寬對(duì)注意力的要求,讓用戶可以自然地轉(zhuǎn)移視線。

此處理階段所需的最后一個(gè)信號(hào)會(huì)檢查“人臉匹配”用戶是否為當(dāng)前發(fā)言人。這是由多模態(tài)有源說話人檢測模型提供的,該模型將用戶面部的視頻和包含語音的音頻作為輸入,并預(yù)測他們是否在說話。許多增強(qiáng)技術(shù)有助于提高家庭領(lǐng)域的預(yù)測質(zhì)量,將終端功能性能提高10%以上。最終部署的模型是量化的硬件加速TFLite模型,它使用5幀上下文進(jìn)行視覺輸入,使用0.5秒進(jìn)行音頻輸入。

有源說話人檢測模型概述:雙塔試聽模型為人臉提供“說話”概率預(yù)測

第二階段:助手開始監(jiān)聽

在第二階段,系統(tǒng)開始監(jiān)聽用戶查詢的內(nèi)容(仍然完全在本地設(shè)備上),以進(jìn)一步評(píng)估交互是否適用于處理其他信號(hào)的助理。首先,Look and Talk使用語音匹配來進(jìn)一步確保說話人已注冊(cè)并匹配早期的面部匹配信號(hào)。然后,它在設(shè)備上運(yùn)行最先進(jìn)的自動(dòng)語音識(shí)別模型來轉(zhuǎn)錄語音。

下一個(gè)關(guān)鍵處理步驟是意圖理解算法,該算法預(yù)測用戶的話語是否旨在需要助理進(jìn)行交互服務(wù)。該算法分為兩個(gè)部分:1)分析音頻中的非詞匯信息(即音調(diào),速度,猶豫不決),以確定話語是否聽起來像對(duì)助手尋求服務(wù), 2)確定文本分析模型的結(jié)果是助理請(qǐng)求。它還使用上下文視覺信號(hào)來確定與助手相互作用的可能性。

語義篩選,用于確定用戶話語是否為針對(duì)助手的查詢

最后,當(dāng)意向理解模型確定用戶話語可能是針對(duì)助手時(shí),Look and Talk將進(jìn)入實(shí)現(xiàn)階段,與服務(wù)器通信以獲取對(duì)用戶意向和查詢文本的響應(yīng)。

性能、個(gè)性化和用戶體驗(yàn)

每個(gè)支持Look and Talk的模型都單獨(dú)進(jìn)行了評(píng)估和改進(jìn),然后在端到端系統(tǒng)中進(jìn)行測試。Look and Talk需要在各種各樣的環(huán)境條件下運(yùn)行,因此需要引入個(gè)性化參數(shù)來提高算法的魯棒性。通過使用在用戶基于喚醒詞的交互期間獲得的信號(hào),系統(tǒng)將參數(shù)個(gè)性化到各個(gè)用戶,以對(duì)廣義全局模型進(jìn)行改進(jìn),這種個(gè)性化也完全在本地設(shè)備上運(yùn)行。

沒有預(yù)定義的喚醒詞作為用戶意圖的代理,延遲是Look and Talk的一個(gè)重大問題。通常來說,直到用戶開始說話后才會(huì)出現(xiàn)足夠強(qiáng)的交互信號(hào),這可能會(huì)帶來數(shù)百毫秒的延遲,并且用于意圖理解的現(xiàn)有模型也會(huì)增加延遲,因?yàn)樗鼈冃枰暾皇遣糠值牟樵?。為了彌補(bǔ)這一問題,Look and Talk完全放棄了將音頻流式地傳輸?shù)椒?wù)器,轉(zhuǎn)錄和意圖理解是在本地設(shè)備上進(jìn)行的。而意向理解模型可以針對(duì)部分話語工作,最終的端到端系統(tǒng)延遲與當(dāng)前基于喚醒詞的系統(tǒng)相當(dāng)。

系統(tǒng)的UI體驗(yàn)基于用戶研究,以提供具有高度可學(xué)習(xí)性的均衡視覺反饋。如下圖所示。

左圖:用戶與look and talk交互的空間交互圖。右圖:用戶界面(UI)體驗(yàn)。

結(jié)論

Look and Talk的發(fā)布是使用戶與谷歌助手盡可能自然地互動(dòng)的重要一步。雖然這是谷歌助手發(fā)展歷程中的一個(gè)關(guān)鍵里程碑,但谷歌希望這僅僅將是其交互范式眾多改進(jìn)中的第一個(gè),這些改進(jìn)將繼續(xù)有效地重新構(gòu)建谷歌智能助理的體驗(yàn),最終讓用戶獲得幫助變得自然和容易,從而節(jié)省時(shí)間以便專注于更重要的事情。


原文鏈接:

https://ai.googleblog.com/2022/07/look-and-talk-natural-conversations.html


hi,這里是小牛翻譯~

想要看到更多我們的文章,可以關(guān)注下

機(jī)器翻譯學(xué)堂(公號(hào)或網(wǎng)站)

筆芯~

往期精彩文章


Look and Talk 只需一個(gè)眼神,谷歌助手便能為您服務(wù)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
夏邑县| 昆明市| 旬邑县| 赤壁市| 茶陵县| 开封县| 安徽省| 密山市| 衡水市| 环江| 定西市| 昭通市| 津市市| 浮梁县| 磐石市| 肃南| 新龙县| 上饶市| 农安县| 广丰县| 隆昌县| 余干县| 泸定县| 周至县| 曲阜市| 西丰县| 吴忠市| 仙游县| 东乌珠穆沁旗| 桓仁| 栖霞市| 镇坪县| 崇礼县| 龙川县| 台中县| 依兰县| 慈利县| 合江县| 定西市| 册亨县| 乌鲁木齐市|