解放千萬智能家居,度家給出語音控制的最優(yōu)解

什么是智能?
可以找到的回答有很多,不過近幾年逐漸有了統(tǒng)一的答案。
當你想要知道明天的天氣情況時,可以直接問家里的智能音箱;當你開車時想要切換導(dǎo)航路線,可以直接說出新的目的地;當你感覺空調(diào)不夠涼爽的時候,也可以直接告訴空調(diào)把溫度調(diào)低一些……
智能化的標準或許很廣泛,但語音交互已經(jīng)是最基礎(chǔ)的門檻。
剛剛結(jié)束的2021云智技術(shù)論壇上,百度智能云將不小的篇幅留給了度家語音語義一體化平臺。在語音能力逐漸成為“智能”的代名詞,并升格為IoT產(chǎn)品標配的大環(huán)境下,百度智能云所謀為何?
01 技術(shù)的幸存者偏差
和機器“對話”似乎并不是什么新概念。
早在上世紀80年代,語音識別就開始走出實驗室有了商業(yè)應(yīng)用,盡管機器還只能識別單個詞匯,識別準確率也維持在相當?shù)偷乃疁剩瑓s未能阻擋人們的嘗鮮心態(tài),IBM的Via-vioce系統(tǒng)、微軟的Whisper系統(tǒng)、英國劍橋大學(xué)的HTK系統(tǒng)等先后誕生。
2010年是語音識別的轉(zhuǎn)折點,一些學(xué)者開始將深度學(xué)習(xí)技術(shù)引入到語音識別領(lǐng)域,語音識別的準確率不斷刷新紀錄。
到了2015年末,百度語音識別的準確率首次達到90%,等同于人類速記同樣一段對話的水平。Google在2017年6月宣布語音識別的準確率達到95%,短短10個月后就被百度以97%的準確率超越。

技術(shù)被證實是產(chǎn)業(yè)繁榮的催化劑,語音識別的商業(yè)化就是直接的例子。
根據(jù)華西證券的調(diào)研報告,AIoT是大眾接觸消費者最普遍的渠道,目前智能語音已經(jīng)應(yīng)用于智能手機、可穿戴設(shè)備、智能車載、智能家居等產(chǎn)品,2020年的市場規(guī)模為241.1億元,預(yù)計到2023年市場規(guī)模將達到570.3億元。
語音技術(shù)的成熟以及語音市場的持續(xù)繁榮,是否預(yù)示著語音交互的用戶體驗已經(jīng)徹底告別嘗鮮期?
事實可能會讓人有些失望。心理學(xué)中有個概念叫幸存者偏差,如果把目光聚焦于百度這樣的技術(shù)派,語音交互已然邁向了新臺階,但在相當比重的智能硬件產(chǎn)品中,諸如喚醒率偏低、識別率低、答非所問等現(xiàn)象仍然是一種常態(tài)。像百度這樣的頭部玩家仍在刷新紀錄,可很多主打語音控制產(chǎn)品還處于偽智能的階段。
02 度家給出的最優(yōu)解
并不難對這一市場現(xiàn)象給出合理的解釋。
語音技術(shù)在消費級業(yè)務(wù)中的落地通常有兩種方式:一是將語音技術(shù)能力封裝為SDK或API,下游的客戶或開發(fā)者可以直接調(diào)用,優(yōu)勢在于成本較低,但技術(shù)能力因人而異;二是提供定制化的解決方案,即根據(jù)客戶需求進行定制化、深度合作,在一定程度上保障了終端的用戶體驗,缺點是成本偏高。
這大抵也是百度智能云推出度家平臺的原因所在,區(qū)別于上述兩種合作模式,度家語音語義一體化的思路讓外界看到了三重優(yōu)勢:
首先,度家輸出的是軟硬一體的解決方案,集成了百度自主研發(fā)的鴻鵠芯片,在性能、兼容性、擴展性上打破了傳統(tǒng)方案的制約。

比如傳統(tǒng)芯片的平均功耗往往很高,而鴻鵠芯片將提取的語音特征直接在云端進行高精準識別,既保證了語音識別的準確性,平均功耗也只有100mw;鴻鵠芯片支持多達六路的麥克陣列語音信號,并支持deep peak、deep cnn語音喚醒以及百度最新的雙麥克模型波束算法,可以滿足設(shè)備喚醒后360度無死角識別;同時還能和各種安卓、linux芯片集成為onboard方案。
其次,語音語義一體化彌補了語義能力的短板,如果只有語音識別而缺少語義理解,折射到用戶體驗上就是答非所問的尷尬。
除了流式多級截斷注意力模型、端到端建模等語音識別上的算法優(yōu)勢,百度智能云的另一個強項在于語義理解。在傳統(tǒng)的開發(fā)模式中,開發(fā)者想要讓理解語音的指令,需要花費很大的功夫理解意圖、詞槽、模板、特征詞等等,度家平臺的方案是語義物模型,開發(fā)者只需要理解設(shè)備屬性、控制動作、設(shè)備狀態(tài)等內(nèi)容,進行簡單的配置就能驅(qū)動設(shè)備根據(jù)用戶的語音指令作出正確的反應(yīng)。
最后,通過開源框架和訂制開發(fā)板的產(chǎn)品矩陣,幫助開發(fā)者進一步降低技術(shù)落地的時間和成本,加速語音技術(shù)的規(guī)?;瘧?yīng)用。

譬如在硬件層面,度家和樂鑫聯(lián)合開發(fā)了集成鴻鵠芯片的開發(fā)模組,采用了雙麥克風的設(shè)計,可以在5米范圍內(nèi)精準拾音,同時搭載了DeepPeak喚醒引擎、端到端建模技術(shù)和流式截斷的多層注意力模型,極大地提升了語音識別的準確度,并且擁有方言識別、中英文混合識別等能力。配合百度官方的開源框架,開發(fā)者在極短時間里就能將智能語音應(yīng)用于智能家居、智能機器人等產(chǎn)品。
在智能語音市場高速增長,而語音控制的用戶體驗卻有些掉隊的局面下,度家的語音語義一體化方案可以說是當前的最優(yōu)解。
03 萬物皆可語音控制
百度智能云押注度家的野心也就不難理解。
一種解釋是智能語音市場的掘金空間。曾有人在2019年對AI市場進行細分,其中智能語音的市場占比為22%,僅次于已經(jīng)實現(xiàn)大規(guī)模商業(yè)化的機器視覺,倘若算上自然語言理解16%的市場份額,等待語音語義一體化的將是一個體量不輸于機器視覺的藍海市場,百度智能云無疑有著充足的用武之地。
即使是在智能家居市場,行業(yè)也還處于起步階段。2020年空調(diào)的出貨量為5100萬臺,智能語音的搭載率僅為15%,小家電市場在2020年的銷售額約為7000億元,可智能語音的搭載率卻不到1%。以電視市場高達70%的智能語音搭載率為準繩的話,僅智能家居行業(yè)就存在著毋庸置疑的機會。
如果只是從市場規(guī)模的維度審視度家,可能會低估百度的戰(zhàn)略布局,何況還有一種站在長遠視角上的解釋。
綜合不同調(diào)研機構(gòu)的報告,目前智能音箱在國內(nèi)的月銷量穩(wěn)定在300萬臺左右,累計出貨量已經(jīng)超過1億臺。按照國內(nèi)當前的城鎮(zhèn)化水平,智能音箱在城鎮(zhèn)家庭中的滲透率業(yè)已超過20%,等同于智能手機在2012年前后的滲透程度,也就預(yù)示著語音交互的市場教育有了初步的基礎(chǔ)。

在百度的戰(zhàn)略謀劃中,小度系列產(chǎn)品擔綱了消費者教育的角色,小度的屢屢破圈就是最直接的寫照。作為百度AI To B的核心渠道,百度智能云自然扮演了智能語音向B端輸出的角色,進而從B和C兩端加速智能語音的市場滲透。
可以佐證的是:度家已經(jīng)為TCL的高端電視提供音喚醒及識別服務(wù),解決了TCL原有語音方案遠場喚醒效果不佳、抗外噪能力弱等痛點,重構(gòu)了TCL高端電視的語音交互體驗,未來TCL會有更多的家電將搭載度家的服務(wù);針對掃地機器人、集成灶等工作環(huán)境復(fù)雜難以語音控制的產(chǎn)品,度家通過端云一體的方案消除了技術(shù)落地的瓶頸;即便是智能風扇、咖啡機等低成本的小家電上,在鴻鵠芯片的賦能下實現(xiàn)了控制場景下的自由說,不再局限于劃定的指令詞。
就度家最新的動作來看,正在借助端云一體、開源框架、訂制硬件的綜合優(yōu)勢,給予開發(fā)者足夠的自主權(quán),進一步降低智能語音技術(shù)的應(yīng)用和開發(fā)門檻,讓開發(fā)者們以極低的成本將智能語音移植到新產(chǎn)品中,以潛移默化的方式逐步消除幸存者偏差的現(xiàn)象。
畢竟人類大腦每天處理的信息中,聲音信息的占比高達20%。作為人類和外界最重要的溝通紐帶,智能語音注定是人機交互的主流趨勢之一,萬物皆可語音控制將是屬于智能化時代的鮮明特征。
04 寫在最后
確切地說,度家只是百度智能云在IoT領(lǐng)域的落子之一。根據(jù)IDC發(fā)布的報告,在中國AI公有云服務(wù)市場,百度智能云市場份額連續(xù)四年排名中國第一。
正如2021云智技術(shù)論壇蘇州站上所呈現(xiàn)的,端邊云全面智能化的天工AIoT平臺將AI能力和物聯(lián)網(wǎng)進行了深度融合,諸如美欣達等合作伙伴在百度智能云的賦能下實現(xiàn)了低碳運營,AIoT視覺智能已經(jīng)深入到工業(yè)質(zhì)檢、智能制造、城市管理等場景中……
攜AI進場的百度智能云,正進一步釋放了物聯(lián)網(wǎng)底層能量。
解放千萬智能家居,度家給出語音控制的最優(yōu)解的評論 (共 條)
