最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

大咖面對(duì)面 | 陳果果博士談智能語(yǔ)音

2021-10-15 16:28 作者:深藍(lán)學(xué)院  | 我要投稿

智能語(yǔ)音在近年一直是個(gè)很火的話題,商業(yè)應(yīng)用也在不斷增加,在10月10號(hào)的深藍(lán)&大咖面對(duì)面活動(dòng)中,我們邀請(qǐng)到了語(yǔ)音界大佬陳果果博士,針對(duì)目前語(yǔ)音領(lǐng)域問(wèn)題進(jìn)行分享與探討。

目錄

  1. 嘉賓介紹

  2. 直播精華

  3. 精選網(wǎng)友提問(wèn)

1.嘉賓介紹

陳果果,SEASALT.AI聯(lián)合創(chuàng)始人,約翰霍普金斯大學(xué)博士,清華大學(xué)本科。

師從當(dāng)前最流行的開(kāi)源語(yǔ)音識(shí)別工具Kaldi之父Daniel Povey,以及美國(guó)人類語(yǔ)言技術(shù)卓越中心(HLTCOE)和約翰霍普金斯語(yǔ)言語(yǔ)音處理中心(CLSP)的Sanjeev Khudanpur教授,主要研究方向是語(yǔ)音識(shí)別以及關(guān)鍵詞檢索方向。

博士期間為Google開(kāi)發(fā)了Google的喚醒詞Okay Google的原型,現(xiàn)在已經(jīng)用到數(shù)以億計(jì)的安卓設(shè)備上。博士期間同時(shí)也參與開(kāi)發(fā)語(yǔ)音識(shí)別開(kāi)源系統(tǒng)Kaldi,以及神經(jīng)網(wǎng)絡(luò)開(kāi)源工具CNTK。

博士畢業(yè)后,聯(lián)合創(chuàng)辦KITT.Al,致力于語(yǔ)音喚醒和自然語(yǔ)音交互技術(shù)的研究開(kāi)發(fā),公司曾被CBInsights評(píng)選為首屆AI 100公司,2017年被百度收購(gòu)后加入百度度秘事業(yè)部,擔(dān)任主任架構(gòu)師。2020年離開(kāi)百度,聯(lián)合創(chuàng)辦Seasalt.Al以及Vobil.com,聚焦于語(yǔ)音識(shí)別和自然語(yǔ)言處理相關(guān)的企業(yè)服務(wù)。2020年同時(shí)發(fā)起志愿者組織SpeechColab,并發(fā)布GigaSpeech數(shù)據(jù)集,包括10000小時(shí)帶標(biāo)注的英文語(yǔ)音識(shí)別數(shù)據(jù),以及33000小時(shí)半監(jiān)督、無(wú)監(jiān)督英文語(yǔ)音識(shí)別數(shù)據(jù)。

2.直播精華

1.目前語(yǔ)音領(lǐng)域(包括語(yǔ)音識(shí)別,喚醒)的進(jìn)展,以及實(shí)際落地中遇到的困難

識(shí)別和喚醒的發(fā)展還是挺不一樣的。關(guān)于喚醒的功能,最早我是在google的時(shí)候,做了一個(gè)基于DNN的喚醒引擎,然后在安卓的手機(jī)上進(jìn)行部署。那時(shí)候關(guān)于喚醒的工作還相對(duì)較少,在功能的實(shí)現(xiàn)過(guò)程中也遇到了不少挑戰(zhàn),比如怎么降低誤喚醒的概率。不過(guò)經(jīng)過(guò)這么多年的發(fā)展,喚醒的功能已經(jīng)比較成熟了。

一是從效果上來(lái)看非常好,這就體現(xiàn)在高頻率喚醒的情況下,誤喚醒能保證在一個(gè)非常低的概率。第二個(gè)是硬件功耗不斷減小,早期我們的工作可能需要基于手機(jī)或者高性能的芯片,而如今,在電池的支持下,低功耗的設(shè)備就能維持喚醒功能的正常運(yùn)行。所以,從個(gè)人角度,我認(rèn)為喚醒的功能已經(jīng)發(fā)展的很成熟了。

語(yǔ)音識(shí)別是類似的,如果你看過(guò)去十多年的發(fā)展,會(huì)發(fā)現(xiàn)進(jìn)度非??臁?/p>

我是2010年開(kāi)始讀博的,那時(shí)候包括谷歌和微軟等企業(yè)的一些產(chǎn)品,語(yǔ)音識(shí)別的效果還非常糟糕。從工作機(jī)會(huì)的角度來(lái)說(shuō),在08年金融危機(jī)之后,這部分的工作機(jī)會(huì)還是相對(duì)“僧多粥少”的。但是自從12年Siri的出現(xiàn),工作崗位越來(lái)越多,很多公司的投入也越來(lái)越大,語(yǔ)音識(shí)別的效果提高也非常快,所以有種觀點(diǎn)就是:語(yǔ)音識(shí)別是一個(gè)已經(jīng)解決的問(wèn)題,因?yàn)樵诤芏鄨?chǎng)景下,語(yǔ)音識(shí)別已經(jīng)能實(shí)現(xiàn)很高的準(zhǔn)確度。

但是如果大家深入研究,就會(huì)發(fā)現(xiàn),語(yǔ)音識(shí)別其實(shí)還是有很多具有挑戰(zhàn)性的工作。一是從效果方面看,面對(duì)有噪聲的場(chǎng)景,比如聚會(huì)等,語(yǔ)音識(shí)別的效果還是很糟糕,經(jīng)常會(huì)出現(xiàn)一些讓人啼笑皆非的判斷;二是從計(jì)算資源的角度看,比如如何保護(hù)用戶的隱私?在應(yīng)用一些規(guī)模較大的模型時(shí),如何進(jìn)行裁剪才能應(yīng)用到一些小芯片上,并能保證很好的效果?如何實(shí)現(xiàn)數(shù)據(jù)的回流以及迭代?這些都是一些未解決的問(wèn)題。

總體來(lái)看,喚醒是一個(gè)我認(rèn)為已經(jīng)基本解決的問(wèn)題,而語(yǔ)音識(shí)別在復(fù)雜場(chǎng)景下的效果優(yōu)化,在低功耗設(shè)備上的移植等問(wèn)題上,還是有很多內(nèi)容值得研究和討論的。

2.智能語(yǔ)音在嵌入式設(shè)備端落地式,相比于服務(wù)端,有哪些需要特別考慮的因素?

我認(rèn)為數(shù)據(jù)回流是一個(gè)比較頭疼的問(wèn)題。當(dāng)用戶的數(shù)據(jù)返回到服務(wù)器端時(shí),我們可以在保護(hù)用戶隱私的同時(shí),對(duì)模型進(jìn)行訓(xùn)練迭代,從而讓網(wǎng)絡(luò)的效果越來(lái)越好。

而如果在低功耗的芯片上部署時(shí),這些數(shù)據(jù)很難回傳到服務(wù)器上,這意味著廠家很難接收到數(shù)據(jù)進(jìn)行訓(xùn)練。這就是一個(gè)很大的挑戰(zhàn)。如何在數(shù)據(jù)無(wú)法回流的情況下,提升模型的效果?我個(gè)人認(rèn)為聯(lián)邦學(xué)習(xí)是一個(gè)很好的方向,只不過(guò)大家目前做的還不夠成熟。

第二個(gè)是功耗問(wèn)題,設(shè)備端的資源通常是有限的,有時(shí)候設(shè)備需要依賴電池來(lái)進(jìn)行供電,我們自然更加希望產(chǎn)品的功耗較低,那么這其中就有很多工作可以做。比如,我們?cè)诙鷻C(jī)上實(shí)現(xiàn)喚醒的功能,就需要做模型的裁剪和壓縮,以及指令集的優(yōu)化;再比如用高效的匯編指令來(lái)實(shí)現(xiàn)FFT等功能。我個(gè)人認(rèn)為,語(yǔ)音識(shí)別在嵌入式設(shè)備上的部署,雖然還面臨著標(biāo)準(zhǔn)不統(tǒng)一等一些問(wèn)題,但它仍然是這門(mén)技術(shù)發(fā)展的一個(gè)趨勢(shì)。

3.對(duì)于正在從事語(yǔ)音領(lǐng)域的科研同行以及在校學(xué)生,有哪些建議?

語(yǔ)音領(lǐng)域的發(fā)展很快,知識(shí)的更新迭代也非???。我認(rèn)為作為學(xué)生,如果能做一個(gè)可用的語(yǔ)音識(shí)別系統(tǒng),是非常有鍛煉價(jià)值的。

我對(duì)學(xué)生的建議是多參與接近實(shí)際的工作,這對(duì)找工作和研究都有很大幫助,不要局限于對(duì)一些數(shù)據(jù)集和一些開(kāi)源方案的魔改。因?yàn)楹芏鄷r(shí)候,這些東西難以落地。

比如做Kaldi這個(gè)工作的時(shí)候,我們就做了很多并行化的工作,從而讓系統(tǒng)更加實(shí)用且可用。同時(shí)我們也注意到了一些問(wèn)題,當(dāng)下公司和學(xué)校的區(qū)別在于公司有海量的計(jì)算資源和數(shù)據(jù)可以使用,而學(xué)校資源的不足就可能會(huì)讓同學(xué)們無(wú)法展開(kāi)研究,所以,我們也在通過(guò)GigaSpeech等工作去解決這個(gè)問(wèn)題。

4.關(guān)于語(yǔ)音識(shí)別數(shù)據(jù)集GigaSpeech的介紹

其實(shí)最早在百度的時(shí)候,我們就想做一個(gè)大型開(kāi)源的中文語(yǔ)音開(kāi)源數(shù)據(jù)集,但是由于種種原因沒(méi)有開(kāi)放。所以,后來(lái),我們就想和小伙伴們做一個(gè)更加通用的數(shù)據(jù)集,也是為了保證數(shù)據(jù)集的通用性,我們選擇了英文作為數(shù)據(jù)集的語(yǔ)言。

為什么我們想做GigaSpeech這個(gè)工作呢?

一個(gè)原因是“效果”,語(yǔ)音識(shí)別算法在libriSpeech等數(shù)據(jù)集上已經(jīng)被優(yōu)化的非常好,識(shí)別準(zhǔn)確性也非常高,所以我們希望提供新的數(shù)據(jù)集作為訓(xùn)練和測(cè)試的選擇。第二個(gè)是因?yàn)榻┠旯I(yè)界傾向于采用由公司自己制作的大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練,而學(xué)術(shù)界使用的數(shù)據(jù)集則規(guī)模較小。我們工作的初衷,也是想給學(xué)術(shù)界和工業(yè)界提供一個(gè)大規(guī)模并且開(kāi)源的數(shù)據(jù)集,像GigaSpeech這種已經(jīng)優(yōu)化充足的。

這個(gè)數(shù)據(jù)集是怎么實(shí)現(xiàn)的呢?

第一步就是收集數(shù)據(jù),剛開(kāi)始我們想播客節(jié)目來(lái)提取語(yǔ)音以及對(duì)應(yīng)的文本,但僅僅是播客的數(shù)據(jù)源還是不夠多,所以我們又從有聲書(shū)中獲得了大量數(shù)據(jù),另一個(gè)來(lái)源是Youtube的各種視頻。我們對(duì)于這些音頻的要求是配有人工生成的文本,而如果文本是通過(guò)算法自動(dòng)生成的,我們也會(huì)篩選去除。

第二步是文本的規(guī)范化,比如字母大小寫(xiě)的調(diào)整,特殊字符的去除,數(shù)字到文本的轉(zhuǎn)變。

第三步是強(qiáng)制對(duì)齊,這一工作非常重要,因?yàn)楹芏嘁纛l和字幕并沒(méi)有完全對(duì)齊。我們后來(lái)采取的方式是,把音頻和文本信息分別拼接,然后做強(qiáng)制對(duì)齊,從而把每個(gè)字的時(shí)間都標(biāo)注出來(lái)。

第四步的工作是斷句,比如對(duì)于靜音超過(guò)一定時(shí)間,或者在說(shuō)話過(guò)程中的突然停頓,我們會(huì)進(jìn)行斷句,同時(shí),對(duì)于單句時(shí)間過(guò)長(zhǎng)或者噪聲較大等異常的數(shù)據(jù),我們也會(huì)選擇去除。

第五步是驗(yàn)證,在用簡(jiǎn)單的解碼器做強(qiáng)制對(duì)齊后,很多句子會(huì)出現(xiàn)錯(cuò)誤,比如在一些語(yǔ)句的語(yǔ)氣詞停頓處,以及面對(duì)一些如”I mean“,”you know“的短語(yǔ),轉(zhuǎn)寫(xiě)可能會(huì)發(fā)生錯(cuò)誤,所以,我們后來(lái)應(yīng)用了自己設(shè)計(jì)的一個(gè)解碼圖。這個(gè)解碼圖的優(yōu)點(diǎn)是我們?cè)谶M(jìn)行強(qiáng)制對(duì)齊的時(shí)候,能夠允許出現(xiàn)一些預(yù)先定義好的語(yǔ)氣詞和垃圾話。當(dāng)最后解碼的效果和參考一模一樣時(shí),我們才會(huì)選擇保留語(yǔ)句。

GigaSpeech 所采用的解碼圖結(jié)構(gòu)

接下來(lái)的工作是評(píng)估,我們對(duì)人工標(biāo)注的測(cè)試集進(jìn)行處理,對(duì)于幀級(jí)別的分類結(jié)果進(jìn)行分析,并進(jìn)行調(diào)參。為了保證最后有一萬(wàn)小時(shí)的可用數(shù)據(jù),我們需要把詞錯(cuò)誤率(word error rate)控制在4%左右。

在數(shù)據(jù)完成后,我們要對(duì)測(cè)試集進(jìn)行人工標(biāo)注,總共有40小時(shí)的測(cè)試集,還是相當(dāng)大的。同時(shí)為了避免和libriSpeech的測(cè)試集重疊,我們沒(méi)有包含有聲書(shū)的測(cè)試集。此外,我們還在維護(hù)一個(gè)排行榜,來(lái)展示效果最佳的網(wǎng)絡(luò)。

而在未來(lái),針對(duì)GigaSpeech這個(gè)志愿者項(xiàng)目,首先,我們計(jì)劃添加更多的語(yǔ)種,第二個(gè)是希望開(kāi)放更多的數(shù)據(jù)進(jìn)行評(píng)測(cè)開(kāi)放,目的是讓大家有更多的數(shù)據(jù)對(duì)于實(shí)驗(yàn)效果進(jìn)行公平的評(píng)估,第三和第四點(diǎn)是希望開(kāi)放一些預(yù)訓(xùn)練和微調(diào)的網(wǎng)絡(luò)讓大家可以更便捷的使用。此外,我們也希望分享一些好用的解碼器,還有就是我們也在維護(hù)一個(gè)代碼庫(kù),叫PySpeechColab,目前已經(jīng)實(shí)現(xiàn)的是GigaSpeech數(shù)據(jù)集的下載和安裝,其他的功能還在討論中。

3.精選網(wǎng)友提問(wèn)

1.應(yīng)屆生在秋招過(guò)程中選擇語(yǔ)音方向就業(yè)公司的時(shí)候,需要重點(diǎn)關(guān)注什么?

我不是太有經(jīng)驗(yàn),因?yàn)槲移鋵?shí)也沒(méi)有在秋招找過(guò)工作。從我自己的一些感受來(lái)說(shuō),我認(rèn)為團(tuán)隊(duì)和管理者很重要。

團(tuán)隊(duì)的文化是否和你的個(gè)人氣質(zhì)匹配,團(tuán)隊(duì)是否會(huì)在你感興趣的方向進(jìn)一步投入,都是需要考慮的。對(duì)于那些突然決定做語(yǔ)音產(chǎn)品然后瘋狂招人的公司,大家要慎重,因?yàn)榭赡苷Z(yǔ)音這塊的內(nèi)容和這些公司本身的核心產(chǎn)品不是強(qiáng)相關(guān)的,所以之后也很有可能放棄。

另外,我比較關(guān)注所在部門(mén)是否有很好的管理者,和自己在溝通,未來(lái)的規(guī)劃上是否合拍,這也是很重要的。

2.是否準(zhǔn)備開(kāi)展中文語(yǔ)音數(shù)據(jù)集的工作?

我們也確實(shí)在做這個(gè)工作。關(guān)于數(shù)據(jù)的整理標(biāo)注,我們這塊的處理流程其實(shí)已經(jīng)比較完善了。但是我們現(xiàn)在更關(guān)注的其實(shí)是數(shù)據(jù)的源頭,數(shù)據(jù)集是否能包括更多更豐富的數(shù)據(jù)源頭,比如電話語(yǔ)音等,是我們想提高的方面或者解決的問(wèn)題。也歡迎大家多提意見(jiàn)來(lái)共同解決這個(gè)問(wèn)題。

3.語(yǔ)音識(shí)別的未來(lái)方向,商業(yè)化前景可能有哪些?

按我的理解,語(yǔ)音更多的是一個(gè)工具,未來(lái)的發(fā)展可能更多的把語(yǔ)音作為一個(gè)便捷易使用的工具,這意味著語(yǔ)音識(shí)別的門(mén)檻需要越來(lái)越低,使用它也越來(lái)越方便。語(yǔ)音目前主要的商業(yè)應(yīng)用主要還是客服中心(call center),很多公司也愿意為它買(mǎi)單。

而關(guān)于智能化語(yǔ)音,有音箱,API這類的產(chǎn)品形式,除此之外的盈利方式還包括還有政府的智能化項(xiàng)目和一些云服務(wù)。當(dāng)然,未來(lái)可能也會(huì)有更多更豐富的商業(yè)模式出現(xiàn),這也是很難預(yù)期的。


大咖面對(duì)面 | 陳果果博士談智能語(yǔ)音的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
北碚区| 临汾市| 临沂市| 汨罗市| 永登县| 墨竹工卡县| 三河市| 辽源市| 宁都县| 合山市| 横山县| 新民市| 开平市| 军事| 山西省| 青冈县| 汤原县| 承德市| 精河县| 瓦房店市| 建昌县| 昌吉市| 青海省| 双城市| 山西省| 阳高县| 雅安市| 宁晋县| 宜黄县| 固安县| 淮安市| 滦平县| 岑溪市| 晋中市| 平和县| 嘉兴市| 肇源县| 岳西县| 罗城| 土默特右旗| 石台县|