最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

百度AI最牛語音技術(shù)強(qiáng)力加持百度地圖,這才是智能時(shí)代樣子!

2019-09-20 21:04 作者:Alter聊  | 我要投稿

詹姆斯· 弗拉霍斯在《智能語音時(shí)代》中有一個(gè)大膽的預(yù)測:智能語音有可能成為最有感情的技術(shù)。

不過在太多人眼中,當(dāng)下的合成語音很難和情感特征相關(guān)聯(lián),韻律表現(xiàn)上不夠靈活,聲音變化上相對死板。幾乎無法讓人相信那些冷冰冰的機(jī)械音可以承載豐富的情感,直到百度地圖的一場發(fā)布會(huì)。

用戶只需要在百度地圖App上錄制20句話,然后等待15分鐘左右的時(shí)間,即可生成有自己聲音特色的個(gè)性化語音包。有些預(yù)料之外的是,原本被某手機(jī)廠商預(yù)定的朋友圈,猛然被百度地圖語音定制的截圖刷了屏。

以至于有人在朋友圈中寫下了這樣一句話:充滿“人氣”的導(dǎo)航語音定制,正在打破語音時(shí)代的“花園圍墻”。

只要20分鐘,聽見自己的聲音

作為對新技術(shù)永遠(yuǎn)有著嘗鮮欲望的泛極客,我在第一時(shí)間去AppStore更新了最新版的百度地圖,滿懷期待地錄制了自己的語音包。為了方便大家對“語音定制功能”的理解,這里將整個(gè)體驗(yàn)分為三個(gè)過程:

第一步,錄制環(huán)境的準(zhǔn)備。

語音導(dǎo)航早已不是什么新事物,之所以在過去那么長時(shí)間里沒有出現(xiàn)個(gè)性化定制的語音包,最大的門檻就在于錄制條件:首先要找到一個(gè)專業(yè)的錄音棚,然后錄制上萬句導(dǎo)航文本,最后花上半年的時(shí)間進(jìn)行處理。即便是定制化的明星語音包,也需要在通用語音庫的基礎(chǔ)上錄制一兩千句語音,大概要在錄音棚里待兩個(gè)禮拜的時(shí)間,再花兩個(gè)月的時(shí)間用語音技術(shù)生成語音包。

“想要定制自己的導(dǎo)航語音,要么你爸爸是王健林,要么你自己是王思聰?!贝蟾啪褪呛芏嗳藢φZ音定制的原始印象。

但在最新版的百度地圖App中,只需要語音喚醒“小度小度”后說“錄制我的語音”,或者在個(gè)人中心中找到“語音定制”的按鈕,即可進(jìn)入到語音定制的界面。不需要跑到專業(yè)的錄音棚中,只要不是那么嘈雜的環(huán)境,達(dá)到系統(tǒng)自動(dòng)檢測的噪音標(biāo)準(zhǔn)后,即可在手機(jī)上定制屬于自己的語音包。

第二步,語音定制的過程。

進(jìn)入語音定制的界面后,百度地圖提供了個(gè)性化的選擇,在性別上可以選擇男聲、女聲以及童聲女和童聲男,可供選擇的錄制文本包括推薦文本、卡通文本、電影臺(tái)詞和超短文本。比較貼心的是,卡通文本中可以看到《喜羊羊與灰太狼》、《超級飛俠》、小豬佩奇等時(shí)下熱門動(dòng)畫片的臺(tái)詞,并且在朗讀文本前設(shè)定了“自動(dòng)跟讀”,針對兒童群體進(jìn)行了一系列細(xì)節(jié)上的打磨優(yōu)化。

占用5分鐘的時(shí)間錄制20句左右的文本,然后等待15分鐘上下的時(shí)間進(jìn)行云端語音處理,即可下載自己專屬的語音包。

簡單的對比即可以發(fā)現(xiàn),百度地圖已然最大程度的降低了語音定制的門檻,原本動(dòng)輒幾個(gè)月的語音包生產(chǎn)過程,被壓縮到幾分鐘的時(shí)間,重新定義語音包生產(chǎn)模式的同時(shí),也讓語音定制進(jìn)一步普惠化。不再局限在幾個(gè)明星的語音包,人人都可以是“大明星”。

第三步,場景體驗(yàn)的感受。

市面上并不缺少商用語音合成的產(chǎn)品和服務(wù),但絕大多數(shù)都是構(gòu)建在傳統(tǒng)的TTS框架上,至于語音合成的效果,往往少不了合成語音的機(jī)械感。

關(guān)于百度地圖“語音定制”的體驗(yàn),最大的感受就是驚艷。

首先在音色上,合成語音和原始聲音的相似度在90%以上,或許一些實(shí)驗(yàn)室里可以做到95%左右的水平,考慮到百度地圖的規(guī)?;瘧?yīng)用,這樣的成績已經(jīng)足夠令人興奮。同樣讓人驚嘆的是,僅僅錄制了20個(gè)短句,有個(gè)人特色的短句方式被完美保留,比如我在讀一個(gè)長句時(shí)習(xí)慣在中間進(jìn)行停頓,百度地圖的語音包中精準(zhǔn)呈現(xiàn)了這一細(xì)節(jié)。

其次在場景上,本以為只是應(yīng)用在路線導(dǎo)航的特定場景中,在使用自己的語音包后,每次在百度地圖中喚醒“小度小度”,聽到的居然是自己的聲音,進(jìn)一步深入體驗(yàn)后發(fā)現(xiàn)定制的語音包可以在景區(qū)智能語音導(dǎo)覽、智能語音交互、導(dǎo)航等全部場景使用。

不客氣地說,如果Siri的出現(xiàn)開啟了語音助理的時(shí)代,百度地圖的“語音定制功能”開啟了智能語音規(guī)?;瘧?yīng)用的先河。告別冷冰冰的機(jī)械感,自然、有情感、高表現(xiàn)力的聲音,將是語音技術(shù)進(jìn)一步在生活中滲透的開始。

7年技術(shù)打磨,語音合成的進(jìn)階

羅馬不是一天建成的,語音技術(shù)也是如此。

原先幾個(gè)月才能搞定的語音包,百度為何在15分鐘的時(shí)間內(nèi)完成,百度語音首席架構(gòu)師賈磊在百度地圖的發(fā)布會(huì)上進(jìn)行了“揭秘”:

先來熟悉下百度在語音技術(shù)上的深耕,也許是讀懂百度語音合成技術(shù)躍遷的關(guān)鍵。

我在之前的文章中梳理過語音識(shí)別的進(jìn)化簡史,比如百度2012年開始把深度學(xué)習(xí)技術(shù)DNN技術(shù)用于語音搜索,2013年開始基于CNN模型進(jìn)行研究,2015年初推出基于LSTM –HMM的語音識(shí)別,年底發(fā)展出基于LSTM-CTC的端對端語音識(shí)別系統(tǒng),今年1月份又發(fā)布了流式多級的截?cái)嘧⒁饬δP汀?/p>

其實(shí)百度的語音技術(shù)進(jìn)化還存在另一條曲線,即語音合成技術(shù)的創(chuàng)新進(jìn)化史。2013年就已啟動(dòng)TSS研發(fā),2014年實(shí)現(xiàn)了HTS離線參數(shù)合成,2016年在基于深度學(xué)習(xí)的語音合成產(chǎn)品落地上持續(xù)發(fā)力,并打造了世界上第一個(gè)能在云端提供大規(guī)模WaveRNN實(shí)時(shí)語音合成服務(wù)的系統(tǒng)……

僅以WaveRNN技術(shù)為例,傳統(tǒng)的RNN技術(shù)是單點(diǎn)遞推的,只有計(jì)算完當(dāng)前的音頻點(diǎn),才能計(jì)算下一個(gè)音頻點(diǎn),而百度創(chuàng)新的并行WaveRNN技術(shù),可以把一句話分成若干個(gè)音節(jié),每個(gè)音節(jié)同時(shí)并行合成,從而實(shí)現(xiàn)了WaveRNN技術(shù)可以線上大規(guī)模使用,為語音合成的商業(yè)化應(yīng)用奠定了基礎(chǔ)。

當(dāng)然作為普通的“吃瓜群眾”,我們無須熟知上述提到的專有名詞,在討論百度地圖的語音定制功能時(shí),還要從百度獨(dú)創(chuàng)的風(fēng)格遷移技術(shù)Meitron模型說起,特點(diǎn)主要體現(xiàn)在音色轉(zhuǎn)換、多情感朗讀和韻律遷移三個(gè)方面。

關(guān)于“音色轉(zhuǎn)換”可能很多人并不陌生,在動(dòng)畫片《名偵探柯南》中,柯南正是通過胸口的“蝴蝶結(jié)變聲器”模仿其他人的聲音。現(xiàn)實(shí)中的“音色轉(zhuǎn)換”少了些魔法的光環(huán),需要收集大量的聲音數(shù)據(jù),生成訓(xùn)練模型,再通過個(gè)性化的學(xué)習(xí)完成音色的變換。但在百度的Meitron模型中,可以利用少量語音快速合成一個(gè)人的專屬音庫。

“多情感朗讀”顧名思義就是讓合成語音擁有自然、有情感的聲音,常見的思路是從說話人的情感語音語料中獲得平均音模型,對說話人的情感說句進(jìn)行自適應(yīng)變換,構(gòu)建目標(biāo)情感的聲學(xué)參數(shù)模型,繼而合成出目標(biāo)說話人的情感語音效果。同樣的,Meitron模型減少了語音庫中的個(gè)體差異,只需要少量語料,就能在合成的語音中注入不同的情感。

“韻律遷移”通俗的說就是一個(gè)人的聲音可以講出不同風(fēng)格的文本,比如一個(gè)人說話時(shí)的音調(diào)、音節(jié)、停頓等,目的是讓合成語音正確表達(dá)語義,聽起來更加自然。倘若缺少韻律前移模型,無法無法精確控制語音的發(fā)聲,語音的表現(xiàn)力和自然地也就無從談起。百度地圖的“語音定制功能”之所以可以實(shí)現(xiàn)個(gè)性化的語音合成,與“韻律遷移”方面的方面的深厚積累無不關(guān)系。

從時(shí)間上來看,百度并非是第一家進(jìn)行語音合成研究的公司,然而百度地圖“語音定制”的國民級應(yīng)用,無疑闡述了這樣一個(gè)事實(shí):那些動(dòng)輒需要幾十個(gè)小時(shí)的語音采集,消耗幾個(gè)月的時(shí)間進(jìn)行拼接合成的語音技術(shù)已經(jīng)過時(shí),在人工智能技術(shù)的賦能下,語音合成技術(shù)正在創(chuàng)造無限可能。

分鐘級語音定制,開啟大生產(chǎn)時(shí)代

在體驗(yàn)和技術(shù)之外,不應(yīng)該被忽略的是,百度地圖選擇在這個(gè)時(shí)間點(diǎn)上線“語音定制功能”,本質(zhì)上在于解決了兩個(gè)棘手問題:

一是語音合成技術(shù)本身,業(yè)已實(shí)現(xiàn)了核心技術(shù)的突破,以及與工業(yè)級應(yīng)用的結(jié)合;

二是語音合成的成本控制,百度深度學(xué)習(xí)平臺(tái)飛槳實(shí)現(xiàn)了純端側(cè)的廉價(jià)GPU部署,無疑是個(gè)性化語音合成技術(shù)規(guī)?;涞氐年P(guān)鍵。

由此來看,百度語音技術(shù)的想象空間遠(yuǎn)沒有局限在百度地圖的個(gè)性化語音包上,開始從積累和沉淀進(jìn)入商業(yè)化的爆發(fā)期。

就應(yīng)用場景而言,除了導(dǎo)航語音之外,電子閱讀、智能硬件、智能音箱、機(jī)器人等都將是個(gè)性化語音的潛在市場。特別是即將到來的5G時(shí)代,或?qū)⒂猩习賰|臺(tái)設(shè)備入網(wǎng),作為萬物互聯(lián)以及AIoT的一個(gè)重要入口,智能語音賽道終將成為搜索、電商、社交之外的下一個(gè)“現(xiàn)金奶?!?。

就情感維系來說,鍵盤、觸控乃至現(xiàn)階段的語音,以往的人機(jī)交互都是效率主導(dǎo)的,在很大程度上缺少了人情味兒,但百度的個(gè)性化語音定制已經(jīng)釋放了積極的信號,語音不僅是高效的交互方式,也是情感的載體,人類與機(jī)器之間的隔閡勢必會(huì)進(jìn)一步縮小,取而代之的是親和力。

同時(shí)對于百度這樣的互聯(lián)網(wǎng)巨頭而言,過去幾十年中的技術(shù)深耕,注定會(huì)在人工智能進(jìn)入大生產(chǎn)時(shí)代時(shí)一步步變現(xiàn)。

作者 | Alter 公眾號 | Alter聊IT

作者系獨(dú)立撰稿人,微信號imhefei

鈦媒體2018十大作者

品途商業(yè)評論2018十佳專欄作者

百家號千分好文出彩創(chuàng)作者

人人都是產(chǎn)品經(jīng)理年度作者

入駐虎嗅、創(chuàng)業(yè)邦、界面等50余家科技媒體


百度AI最牛語音技術(shù)強(qiáng)力加持百度地圖,這才是智能時(shí)代樣子!的評論 (共 條)

分享到微博請遵守國家法律
衡山县| 北京市| 黑山县| 张家港市| 太原市| 都安| 迁安市| 岢岚县| 育儿| 陇川县| 大荔县| 平潭县| 太和县| 新疆| 华池县| 板桥市| 原阳县| 双辽市| 建德市| 丹棱县| 武冈市| 沙河市| 吉安县| 土默特左旗| 惠州市| 武山县| 延边| 柳河县| 保亭| 和田市| 高邑县| 芜湖县| 合水县| 洛隆县| 景宁| 扶沟县| 甘孜县| 墨竹工卡县| 介休市| 北票市| 靖边县|