手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » Look and Talk 只需一個(gè)眼神，谷歌助手便能為您服務(wù)

Look and Talk 只需一個(gè)眼神，谷歌助手便能為您服務(wù)

2023-02-27 08:00 作者:小牛翻譯NiuTrans 0人讀過 | 我要投稿

本文首發(fā)于網(wǎng)站?機(jī)器翻譯學(xué)堂

轉(zhuǎn)載事宜請(qǐng)后臺(tái)詢問哦

譯者|劉浩偉

單位|東北大學(xué)自然語言處理實(shí)驗(yàn)室

引言

在人們的日常交流中，我們不會(huì)每次說話時(shí)都叫出對(duì)方的名字。取而代之，我們依靠的是情境信號(hào)，通常來說只需要進(jìn)行眼神的接觸便可以發(fā)起一場對(duì)話。

谷歌助手目前在超過95個(gè)國家被使用，可支持超過29種語言，每月幫助7億多人在助理設(shè)備上完成工作。隨著虛擬助理成為我們?nèi)粘Ｉ钪胁豢苫蛉钡囊徊糠?，開發(fā)更自然地啟動(dòng)對(duì)話的方法已成趨勢。當(dāng)前谷歌助手發(fā)起對(duì)話的方式為喚醒詞(如:“hey google”或“hello google”)，用戶通過說出喚醒詞來激活服務(wù)，那么是否能夠只通過一個(gè)眼神來告訴谷歌助手，我們需要服務(wù)呢？

本文介紹了谷歌在2022年I/O大會(huì)上發(fā)布的Look and Talk，在擁有該功能的設(shè)備5英尺范圍內(nèi)，用戶可以通過簡單地查看屏幕來開始與助手進(jìn)行交互。這是創(chuàng)造與谷歌助手支持的家用設(shè)備進(jìn)行自然直觀的交互過程中的一項(xiàng)重大發(fā)展。Look and Talk是第一個(gè)擁有多模式的設(shè)備助手功能，該功能可以同時(shí)分析音頻，視頻和文本，以確定用戶何時(shí)與谷歌助手進(jìn)行交談。其算法使用了八個(gè)機(jī)器學(xué)習(xí)模型，可以區(qū)分用戶是有意互動(dòng)還是無意瞥過，以便準(zhǔn)確地確定用戶與助手互動(dòng)的意圖。

Google智能助理依靠許多信號(hào)來確定用戶何時(shí)與其交談。右側(cè)是一個(gè)信號(hào)列表，其中指示器根據(jù)用戶與設(shè)備的接近程度和注視方向顯示每個(gè)信號(hào)何時(shí)觸發(fā)。

建模挑戰(zhàn)

Look and Talk始于為學(xué)術(shù)研究而開發(fā)的模型。但是，大規(guī)模部署需要解決此功能特有的現(xiàn)實(shí)挑戰(zhàn)。它必須：

支持一系列人口統(tǒng)計(jì)特征（例如，年齡、膚色）。
適應(yīng)現(xiàn)實(shí)世界的環(huán)境多樣性，包括具有挑戰(zhàn)性的光學(xué)（例如，背光，陰影模式）和聲學(xué)條件（例如，混合音，背景噪聲）。
處理不尋常的鏡頭視角，因?yàn)橹悄茱@示器通常用作臺(tái)面設(shè)備來觀察用戶，這與研究數(shù)據(jù)集中通常用于訓(xùn)練模型的正面人臉圖像不同。
實(shí)時(shí)運(yùn)行，以確保在處理設(shè)備上的視頻時(shí)及時(shí)響應(yīng)。

該算法的演變涉及從領(lǐng)域適應(yīng)和個(gè)性化到特定領(lǐng)域數(shù)據(jù)集開發(fā)，現(xiàn)場測試和反饋以及整體算法的重復(fù)調(diào)整等方法的實(shí)驗(yàn)。

技術(shù)概述

一個(gè)Look and Talk交互分為三個(gè)階段。在第一階段，助手使用視覺信號(hào)來檢測用戶是否表現(xiàn)出與之交流的意圖，然后“喚醒”來聽取他們的發(fā)言。第二階段的目的是使用視覺和聽覺信號(hào)進(jìn)一步驗(yàn)證和理解用戶的意圖。Look and Talk會(huì)考慮第一個(gè)和第二個(gè)處理階段的所有信號(hào)，以確定交互是否可能用于助手。這兩個(gè)階段是“Look”和“Talk”的核心功能，將在下面進(jìn)行討論。查詢實(shí)現(xiàn)的第三階段是典型的查詢流，超出了本博客的范圍。

第一階段：與助手互助

Look and Talk的第一階段旨在評(píng)估注冊(cè)用戶是否有意與助手互動(dòng)。Look and Talk使用人臉檢測來識(shí)別用戶的狀態(tài)，使用檢測到的人臉框大小來推斷距離，然后使用現(xiàn)有的人臉匹配系統(tǒng)來確定他們是否是Look and Talk的注冊(cè)用戶。

對(duì)于設(shè)備范圍內(nèi)的注冊(cè)用戶，自定義的眼睛注視模型可以確定用戶是否正在查看設(shè)備。該模型使用多塔卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)從圖像幀中估計(jì)注視角度和相機(jī)注視置信度，一個(gè)塔處理整個(gè)面部，另一個(gè)塔處理眼睛周圍的區(qū)塊。為了確保最終預(yù)測與虛假的單個(gè)預(yù)測以及不自主的眨眼和掃視有一定彈性空間，研究員將平滑函數(shù)應(yīng)用于基于單個(gè)幀的預(yù)測，以消除虛假的單個(gè)預(yù)測。

在通知用戶系統(tǒng)已準(zhǔn)備好進(jìn)行交互之前，會(huì)強(qiáng)制執(zhí)行更嚴(yán)格的注意要求，以盡量減少錯(cuò)誤觸發(fā)，例如，當(dāng)路過的用戶短暫的瞥了一眼設(shè)備時(shí)，一旦用戶看著設(shè)備開始說話，便會(huì)放寬對(duì)注意力的要求，讓用戶可以自然地轉(zhuǎn)移視線。

此處理階段所需的最后一個(gè)信號(hào)會(huì)檢查“人臉匹配”用戶是否為當(dāng)前發(fā)言人。這是由多模態(tài)有源說話人檢測模型提供的，該模型將用戶面部的視頻和包含語音的音頻作為輸入，并預(yù)測他們是否在說話。許多增強(qiáng)技術(shù)有助于提高家庭領(lǐng)域的預(yù)測質(zhì)量，將終端功能性能提高10%以上。最終部署的模型是量化的硬件加速TFLite模型，它使用5幀上下文進(jìn)行視覺輸入，使用0.5秒進(jìn)行音頻輸入。

第二階段：助手開始監(jiān)聽

在第二階段，系統(tǒng)開始監(jiān)聽用戶查詢的內(nèi)容（仍然完全在本地設(shè)備上），以進(jìn)一步評(píng)估交互是否適用于處理其他信號(hào)的助理。首先，Look and Talk使用語音匹配來進(jìn)一步確保說話人已注冊(cè)并匹配早期的面部匹配信號(hào)。然后，它在設(shè)備上運(yùn)行最先進(jìn)的自動(dòng)語音識(shí)別模型來轉(zhuǎn)錄語音。

下一個(gè)關(guān)鍵處理步驟是意圖理解算法，該算法預(yù)測用戶的話語是否旨在需要助理進(jìn)行交互服務(wù)。該算法分為兩個(gè)部分：1）分析音頻中的非詞匯信息（即音調(diào)，速度，猶豫不決），以確定話語是否聽起來像對(duì)助手尋求服務(wù)， 2）確定文本分析模型的結(jié)果是助理請(qǐng)求。它還使用上下文視覺信號(hào)來確定與助手相互作用的可能性。

最后，當(dāng)意向理解模型確定用戶話語可能是針對(duì)助手時(shí)，Look and Talk將進(jìn)入實(shí)現(xiàn)階段，與服務(wù)器通信以獲取對(duì)用戶意向和查詢文本的響應(yīng)。

性能、個(gè)性化和用戶體驗(yàn)

每個(gè)支持Look and Talk的模型都單獨(dú)進(jìn)行了評(píng)估和改進(jìn)，然后在端到端系統(tǒng)中進(jìn)行測試。Look and Talk需要在各種各樣的環(huán)境條件下運(yùn)行，因此需要引入個(gè)性化參數(shù)來提高算法的魯棒性。通過使用在用戶基于喚醒詞的交互期間獲得的信號(hào)，系統(tǒng)將參數(shù)個(gè)性化到各個(gè)用戶，以對(duì)廣義全局模型進(jìn)行改進(jìn)，這種個(gè)性化也完全在本地設(shè)備上運(yùn)行。

沒有預(yù)定義的喚醒詞作為用戶意圖的代理，延遲是Look and Talk的一個(gè)重大問題。通常來說，直到用戶開始說話后才會(huì)出現(xiàn)足夠強(qiáng)的交互信號(hào)，這可能會(huì)帶來數(shù)百毫秒的延遲，并且用于意圖理解的現(xiàn)有模型也會(huì)增加延遲，因?yàn)樗鼈冃枰暾皇遣糠值牟樵?。為了彌補(bǔ)這一問題，Look and Talk完全放棄了將音頻流式地傳輸?shù)椒?wù)器，轉(zhuǎn)錄和意圖理解是在本地設(shè)備上進(jìn)行的。而意向理解模型可以針對(duì)部分話語工作，最終的端到端系統(tǒng)延遲與當(dāng)前基于喚醒詞的系統(tǒng)相當(dāng)。

系統(tǒng)的UI體驗(yàn)基于用戶研究，以提供具有高度可學(xué)習(xí)性的均衡視覺反饋。如下圖所示。

左圖：用戶與look and talk交互的空間交互圖。右圖：用戶界面（UI）體驗(yàn)。

結(jié)論

Look and Talk的發(fā)布是使用戶與谷歌助手盡可能自然地互動(dòng)的重要一步。雖然這是谷歌助手發(fā)展歷程中的一個(gè)關(guān)鍵里程碑，但谷歌希望這僅僅將是其交互范式眾多改進(jìn)中的第一個(gè)，這些改進(jìn)將繼續(xù)有效地重新構(gòu)建谷歌智能助理的體驗(yàn)，最終讓用戶獲得幫助變得自然和容易，從而節(jié)省時(shí)間以便專注于更重要的事情。

原文鏈接：

https://ai.googleblog.com/2022/07/look-and-talk-natural-conversations.html

hi，這里是小牛翻譯~

想要看到更多我們的文章，可以關(guān)注下

機(jī)器翻譯學(xué)堂（公號(hào)或網(wǎng)站）

筆芯~

往期精彩文章

標(biāo)簽：多模態(tài)優(yōu)質(zhì)博客計(jì)算機(jī)視覺