Meta分享AI語音系統CAIRaoke:構建自然對話AR/VR語音助手
查看引用/信息源請點擊:映維網Nweon
能夠與你進行自然對話的未來人工智能助手
(映維網Nweon?2022年02月25日)Meta日前舉辦了一個名為“Meta AI: Inside the Lab”的人工智能實驗室揭秘活動。除了演示人工智能團隊所取得的最新突破外,Meta同時希望進一步說明人工智能將如何賦能公司的元宇宙未來。
在一個名為Project CAIRaoke的項目中,Meta希望構建一個能夠與你進行自然對話的未來人工智能助手。下面映維網整理了團隊的博文分享:

如果我們能夠用自然的對話式語言與人工智能助手進行互動,就像普通的人類間交流一樣,它將可以大大提升我們的生活質量。但無論是通過語音還是短信與其交流,如今的人工智能助手總是機器味道十。當你發(fā)出“在今天剩下的時間里靜音所有通知,除非是我媽媽”等常見的請求時,它們往往無法予以正確的回應,更不用說像“我能為私人聚會租用當地社區(qū)中心嗎?”或者像“為7月4日的周末規(guī)劃一個價格合理的家庭海灘度假”等復雜任務。
所以,是時候提供更好的對話式人工智能了。
為了實現這一目標,Meta日前正式發(fā)布了宣布Project CAIRaoke。團隊開發(fā)了一個端到端的神經模型,并已經在Portal中使用了Project CAIRaoke產生的模型。與人們現在熟悉的系統相比,它可以進行更多的個人和情景對話。這家公司的目標是將其與增強現實和虛擬現實設備集成,以便在未來實現與人工智能助手的沉浸式、多模式交互。
對于更好的對話式人工智能來說,最大的障礙可能是驅動當今先進數字助手的架構。盡管系統只提供一項服務,但它們實際上依賴于四個獨立的組件:自然語言理解(NLU)、對話狀態(tài)跟蹤(DST)、對話策略(DP)管理和自然語言生成(NLG)。不同的人工智能系統必須聯結在一起,所以它們難以優(yōu)化,不善于適應新的或不熟悉的任務,并且高度依賴勞動密集型的注釋數據集。
這就是為什么如今為大多數設備提供服務的數字助手會只能提供機械式的選項,忘記對話的情景,并遵循規(guī)定對話流程的原因之一。例如,你可以向助手詢問當地的天氣預報,但如果你繼續(xù)詢問簡單但出乎其意料的問題,比如“天氣比上周熱嗎?”,它將無法很好地予以回應。
通過使用Project CAIRaoke創(chuàng)建的模型,人們將能夠自然地與對話助手交談,從而可以在談話中回顧之前的內容,完全改變話題,或者提及依賴于理解復雜、微妙情景地內容。你甚至可以以全新的方式與它們互動,比如使用手勢。
Meta已經開始在視頻通話設備Portal使用所述模型,以便更輕松地創(chuàng)建和管理提醒。例如,你可以快速澄清如下請求:
你:將鬧鐘設置為6:30。
助手: 早上6:30還是晚上6:30?
你: 晚上,然后提醒欄目就叫‘買雞蛋’吧。
助手 : 好的,買雞蛋的提醒時間定在明天傍晚6:30。
即便是這個早期測試,Meta都相信模型的性能優(yōu)于標準方法。團隊觀察Portal時發(fā)現,與現有的方法相比,Project CAIRaoke在提醒方面有了顯著的改進。相關評估是通過完成一組提醒目標的成功率,并同時保持正常的輪次數來衡量。
但這只是利用所述新技術的第一步。團隊相信,Project CAIRaoke的進展將能幫助人與AI之間實現更豐富的交流,并且成為構建元宇宙未來的一個重要工具。未來,AR眼鏡內置的Project CAIRaoke數字助手可能會以一系列感覺自然的形式來與你交互。例如,如果你問:“這條褲子應該搭配什么?”它可以回答:“這件有著你最喜歡的紅色的襯衫”,然后它甚至會顯示相關物品的圖像。如果你說,“我喜歡,但條紋太寬了?!边@時,它就會顯示一個細條紋版本。
在未來,Meta希望在世界各地數百萬人的日常應用中能夠利用所述項目產生的模型。
1. 構建真正的交互式對話人工智能
推進對話式人工智能的一個必要步驟是理解問題的全部范圍。你或者知道NLU的眾多最新進展,比如BART和GPT-3,并認為理解和生成類似人類文本的挑戰(zhàn)已經解決。但其實我們尚未達到所述里程碑。為了理解這一點,我們必須將人工智能區(qū)分為理解式人工智能和交互式人工智能。前者在整個行業(yè)都獲得了充分的研發(fā)。它用于從各種輸入模式中提取意義,例如自動語音識別、圖像分類和NLU。后者則是我們如何利用我們對世界的理解來與使用技術的人員交互。這可以是發(fā)送文本、語音命令、觸覺反饋、顯示圖像、視頻或相關組合。
整個行業(yè)的研究人員和工程師都同意,好的對話系統需要一個由人工智能模型支持的堅實理解層。但許多人認為交互是一個工程問題,而不是人工智能問題。所以,理解世界狀態(tài)的工程師可以創(chuàng)建一個復雜的邏輯來處理所需的交互。工程方法使理解系統如何工作變得容易,并在必要時快速調試邏輯。然而,這種普遍的信念導致了一個不是那么強大的對話式人工智能,亦即你無法通過它們輕松規(guī)劃假期的一個主要原因。
2. 一種新的、統一的方法


上述示例對話框展示了Meta希望助手具備的關鍵技能:不僅提供準確的、最新的真實世界知識,而且可以跨多模式工作(在本例中是跨視覺和語音),跨領域工作(發(fā)送消息并估計到達時間),讓你推動對話,不需要遵循僵化的對話模板。
人工智能助手的規(guī)范方法需要四組輸入和輸出:管道的每一層(NLU、DST、DP和NLG)各一組。它同時需要為每一層的輸入和輸出定義標準。例如對于NLU,傳統的對話人工智能系統需要定義的本體。
然而,Meta的模型使用了神經網絡,而且根本沒有規(guī)定對話流程。利用這個模型,團隊只需要一組訓練數據。
Project CAIRaoke減少了添加新域所需的工作量。在規(guī)范方法中,擴展到一個新域需要依次構建和修復每個模塊,然后才能可靠地訓練下一個模塊。換句話說,如果NLU和DST每天都發(fā)生變化,訓練DP就無法有效完成。一個組件的更改可能會影響其他組件,從而觸發(fā)所有后續(xù)模塊的再訓練。這種相互依賴性會減慢后續(xù)模塊的進度。但通過所述的端到端技術,Meta消除了對上游模塊的依賴,從而提高了開發(fā)和訓練速度,并使團隊能夠用更少的精力和數據微調其他模型。
在這種新方法中,對話功能更加強大,因為它們能夠通過在一個地方查看全部信息來做出決策。以前,即使一個組件中的一個小錯誤都可能會以意外的、難以解決的方式傳播到其他組件。例如,當前基于規(guī)則的助手會明確地編程為在數字后尋找特定的單詞或短語“p.m.”以表示下午,而Project CAIRaoke利用了高級的預訓練語言模型,從而可以更好地理解情景,并能識別同一事物的不同表達方式。
最后,Project CAIRaoke將支持Meta AI的最新對話式機器人BlenderBot 2.0。這意味著使用模型構建的助手可以表現出同理心語言,傳遞通過實時搜索互聯網發(fā)現的知識,并表現出一致的個性。
當系統生成自然語言時,其必須解決潛在的安全和隱私挑戰(zhàn)。如今,大多數NLG組件都編寫了腳本,以便內容審核員確保助手不會向用戶提供令人反感的響應。但通過將助手直接對接到用戶,這存在錯誤或冒犯性交互的風險。
重要的是,Meta在BlenderBot中加入了保護措施,這將有助于減少攻擊性反應。團隊同時在考慮隱私的情況下開發(fā)輔助技術。例如,對于Ray Ban Stories和Portal,語音命令的使用屬于可選選項,你可以查看和刪除語音命令的轉錄本,并且始終可以選擇關閉語音存儲。
為了降低對用戶產生不良反應的風險,Project CAIRaoke的第一個里程碑是生成對話動作和自然語言。短期內,生成對話動作,并依靠一個經過測試和嚴格約束的NLG系統來提供用戶響應。長遠看,在確保模型的端到端完整性之后,團隊將公開生成的句子。
另一個問題模型自信地陳述不正確的信息。這對端到端技術而言是一個巨大的挑戰(zhàn),因為模型可能會根據訓練數據在對話框中引入或更改entities。例如,如果你讓助手“設置一個呼叫唐姆的提醒”,它可能會設置一個呼叫湯姆的提醒,因為唐姆是一個不太常見的名字。Meta正在使用各種數據增強技術和注意力網絡來增強Project CAIRaoke的穩(wěn)健性,并利用BlenderBot 2.0來減少所述問題。
3. 使用語音完成無數日常任務
盡管短期內實施的Project CAIRaoke模型是用于Portal的提醒,但團隊希望能夠很快將其應用于更大的領域,從而幫助個性化人們的購物體驗,并允許人們推動對話流程。
Meta同時認為,這一進步對于為增強現實構建AI對話能力特別有用。在不久的將來,人們會像今天使用智能揚聲器、智能手表和其他設備一樣,定期在AR眼鏡使用語音助手??紤]到這一點,團隊正在努力縮小像這樣的端到端模型的大小。研究人員同時在努力提高模型的易調試性。這是一個復雜的挑戰(zhàn),因為在這個新框架中,信息是在嵌入空間中表示,而在規(guī)范模型中,信息屬于顯式。為了充分實現對Project CAIRaoke的愿景,其需要將其擴展到多種語言,并找到高效使用所述模型的方法。

這家公司最后總結道:“我們可以想象,數年后,Project CAIRaoke的技術將成為下一代人與設備交互的基礎。對于諸如VR頭顯和AR眼鏡等設備,我們預計這種通信最終將成為無處不在的無縫導航和交互方法,就像觸摸屏取代初代智能手機的鍵盤一樣。我們目前的模型是向前邁出的重要一步,但要充分實現這一愿景,我們還有更多的工作要做。但我們對迄今取得的進展和面臨的挑戰(zhàn)感到非常興奮?!?/p>
---
原文鏈接:https://news.nweon.com/94752