阿里的語(yǔ)音機(jī)器人怎么樣?——語(yǔ)音語(yǔ)義驅(qū)動(dòng)簡(jiǎn)介
要回答這個(gè)問(wèn)題,我們需要從語(yǔ)音機(jī)器人的基礎(chǔ)能力介紹起
1、語(yǔ)音機(jī)器人簡(jiǎn)介及挑戰(zhàn)
語(yǔ)音機(jī)器人(電話(huà)機(jī)器人),主要包括兩種形態(tài):呼入,即由機(jī)器人來(lái)承接用戶(hù)電話(huà)咨詢(xún)業(yè)務(wù);外呼,即由機(jī)器人主動(dòng)發(fā)起電話(huà),觸達(dá)用戶(hù),從而完成語(yǔ)音對(duì)話(huà)。
不論呼入,還是外呼,核心都包括電話(huà)通信技術(shù)、語(yǔ)音識(shí)別技術(shù)、對(duì)話(huà)技術(shù),從當(dāng)前行業(yè)來(lái)說(shuō),由于電話(huà)通信技術(shù)比較成熟,語(yǔ)音機(jī)器人效果瓶頸主要在:語(yǔ)音識(shí)別技術(shù)、對(duì)話(huà)技術(shù)。要優(yōu)化語(yǔ)音與對(duì)話(huà)的體驗(yàn),核心主要包括兩方面:一方面對(duì)用戶(hù)的理解越來(lái)越準(zhǔn)確,另一方面提供盡量順暢的交互能力,最終達(dá)成好的交互體驗(yàn)和業(yè)務(wù)效果。
由于實(shí)際語(yǔ)音交互中,口語(yǔ)化表達(dá)、噪音干擾、短詞短句等情況廣泛存在,實(shí)際業(yè)務(wù)中對(duì)于用戶(hù)聲音轉(zhuǎn)寫(xiě)為文本、很難達(dá)到一個(gè)比較好的效果。

2、語(yǔ)音機(jī)器人與用戶(hù)交互模式
典型的語(yǔ)音機(jī)器人與用戶(hù)交互,在用戶(hù)聲音輸入后,通常包括幾個(gè)處理流程:
ASR:Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別技術(shù),即將用戶(hù)輸入的聲音信息轉(zhuǎn)寫(xiě)成對(duì)應(yīng)的文本
NLU:Natural Language Understanding,自然語(yǔ)言理解,可以簡(jiǎn)單理解為,解析文本中包含的意圖/目的
DM:Dialog Management,對(duì)話(huà)管理,即基于NLU返回結(jié)果進(jìn)行決策,確定機(jī)器人下一步行動(dòng),可能是回復(fù)某個(gè)答案、也可能是表示對(duì)用戶(hù)問(wèn)題的不理解,也可能需要對(duì)用戶(hù)進(jìn)行反問(wèn)意圖確認(rèn)。
NLG:Natural Language Generation,自然語(yǔ)言生成,可以理解為,生成回復(fù)給用戶(hù)的答案,需要注意的是,此時(shí)的答案還是文本形式。
TTS:Text To Speech,從文本到語(yǔ)音,即語(yǔ)音合成,把NLG生成的文本答案合成為語(yǔ)音答案,從而播放給用戶(hù)。
由于整個(gè)對(duì)話(huà)的核心模塊(NLU、DM、NLG)是完全基于文本操作的,所以丟失了一些語(yǔ)音模態(tài)的信息,如用戶(hù)情緒化的語(yǔ)氣就無(wú)法傳遞給模型,同時(shí)ASR也會(huì)給下游帶來(lái)誤差傳播。
3、語(yǔ)音語(yǔ)義驅(qū)動(dòng)讓語(yǔ)音機(jī)器人更聰明
基于以上問(wèn)題,阿里對(duì)于A(yíng)SR和NLU,提出了語(yǔ)音特色的文本驅(qū)動(dòng)對(duì)話(huà)。語(yǔ)音特色的文本驅(qū)動(dòng)對(duì)話(huà),本質(zhì)是一個(gè)具有容錯(cuò)能力的模型,用戶(hù)聲音信息的理解,不在割裂為ASR和NLU兩段,機(jī)器人可同時(shí)基于發(fā)音信息和語(yǔ)義信息來(lái)解決用戶(hù)意思,在某些字有錯(cuò)誤的情況下,由于模型同時(shí)包含了語(yǔ)音、語(yǔ)義信息,因而具有更高的容錯(cuò)能力。
基于語(yǔ)音語(yǔ)義驅(qū)動(dòng)技術(shù),阿里的機(jī)器人能更準(zhǔn)確的理解用戶(hù)的意思,成為更聰明的機(jī)器人。
文章來(lái)源:沃豐科技