最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

喜馬拉雅AI音頻研究成果再獲世界頂級(jí)學(xué)術(shù)會(huì)議ICASSP 2022認(rèn)可

2022-02-16 14:38 作者:姚科技  | 我要投稿

近日,由國(guó)際音頻頂級(jí)會(huì)議ICASSP(International Conference on Acoustics, Speech, and Signal Processing,國(guó)際音頻、語(yǔ)音與信號(hào)處理會(huì)議)聯(lián)合阿里巴巴發(fā)起的ICASSP 2022多通道多方會(huì)議轉(zhuǎn)錄挑戰(zhàn)賽(M2MeT)落下帷幕,喜馬拉雅智能語(yǔ)音實(shí)驗(yàn)室和中國(guó)科學(xué)技術(shù)大學(xué)合作,在說(shuō)話人日志賽道獲得第三名。同時(shí),相關(guān)論文已經(jīng)被ICASSP 2022收錄,并受邀于今年5月份在新加坡舉辦的線上/線下會(huì)議中進(jìn)行展示,這是今年喜馬拉雅的第二項(xiàng)研究技術(shù)成果得到ICASSP 2022的認(rèn)可。

此前,喜馬拉雅自研的跨語(yǔ)言語(yǔ)音合成創(chuàng)新技術(shù)論文有關(guān)跨語(yǔ)言語(yǔ)音合成創(chuàng)新技術(shù)的論文已被ICASSP 2022錄用。ICASSP是由IEEE(電氣電子工程師學(xué)會(huì))主辦的在信號(hào)處理及其應(yīng)用方面的頂級(jí)會(huì)議,在國(guó)際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。今年是ICASSP的第47屆會(huì)議,會(huì)議主題為“以人為本的信號(hào)處理”。

而M2MeT挑戰(zhàn)賽是ICASSP2022信號(hào)處理大挑戰(zhàn)(Grand Challenge)之一,包括說(shuō)話人日志和多說(shuō)話人語(yǔ)音識(shí)別兩個(gè)賽道,旨在進(jìn)一步促進(jìn)該領(lǐng)域的深入研究。喜馬拉雅和中國(guó)科學(xué)技術(shù)大學(xué)合作在說(shuō)話人日志賽道取得了4.05% 的日志錯(cuò)誤率(DER)結(jié)果,名列第三位。 第一、第二名分別由昆山杜克大學(xué)的李明教授團(tuán)隊(duì)(2.98%)和騰訊-香港中文大學(xué)團(tuán)隊(duì)(3.98%)獲得。

說(shuō)話人日志技術(shù),也稱說(shuō)話人分段聚類,通過(guò)記錄多說(shuō)話人音頻數(shù)據(jù)上屬于特定說(shuō)話人的語(yǔ)音事件來(lái)解決“誰(shuí)在什么時(shí)候說(shuō)話”的問(wèn)題,比如在語(yǔ)音聊天室場(chǎng)景中,可以告訴開會(huì)者當(dāng)前誰(shuí)在說(shuō)話。同時(shí),該技術(shù)也在其他相關(guān)的語(yǔ)音處理技術(shù)中扮演著重要角色,比如會(huì)議轉(zhuǎn)寫的語(yǔ)音識(shí)別,或者為語(yǔ)音分離、VAD等其他語(yǔ)音技術(shù)提供關(guān)鍵的先驗(yàn)信息。

會(huì)議場(chǎng)景是語(yǔ)音技術(shù)應(yīng)用中最有價(jià)值、同時(shí)也是最具挑戰(zhàn)性的場(chǎng)景之一。因?yàn)檫@樣的場(chǎng)景包含了豐富的講話風(fēng)格和復(fù)雜的聲學(xué)條件,需要考慮到重疊語(yǔ)音、數(shù)量未知的說(shuō)話人、大型會(huì)議室中的遠(yuǎn)場(chǎng)信號(hào)、噪音和混響等挑戰(zhàn)。而此次的M2MeT挑戰(zhàn)賽便聚焦中文會(huì)議數(shù)據(jù),對(duì)參賽團(tuán)隊(duì)提出了挑戰(zhàn)。

為了提高日志準(zhǔn)確率,喜馬拉雅和中國(guó)科學(xué)技術(shù)大學(xué)合作研發(fā)的系統(tǒng),在語(yǔ)音的預(yù)處理上,首先使用麥克陣列技術(shù)對(duì)信號(hào)進(jìn)行降噪、降混響,使得信號(hào)相對(duì)純凈,之后使用基于深度學(xué)習(xí)的聲紋模型和譜聚類方法,對(duì)多人遠(yuǎn)場(chǎng)數(shù)據(jù)進(jìn)行初步處理,并使用多通道標(biāo)簽融合技術(shù)對(duì)不同通道的結(jié)果進(jìn)行融合,進(jìn)一步提升準(zhǔn)確率。

由于在挑戰(zhàn)賽的會(huì)議場(chǎng)景中,多人同時(shí)說(shuō)話的比例達(dá)到30~40%,傳統(tǒng)聚類方法在該場(chǎng)景下會(huì)產(chǎn)生極高的漏判錯(cuò)誤(MISS ERROR),因此喜馬拉雅創(chuàng)新研發(fā)的系統(tǒng)還使用target-speaker VAD將聚類問(wèn)題轉(zhuǎn)化為多標(biāo)簽問(wèn)題處理,并使用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模和訓(xùn)練。在采用多種數(shù)據(jù)增強(qiáng)和后處理策略后,成功將DER由基線的15.6%降低到4.05%,基本達(dá)到了實(shí)用要求。

喜馬拉雅已在AI語(yǔ)音技術(shù)領(lǐng)域潛心鉆研多年,并在內(nèi)部專門成立了喜馬拉雅智能語(yǔ)音實(shí)驗(yàn)室這一核心部門,長(zhǎng)期專注于語(yǔ)音合成、識(shí)別、語(yǔ)音信號(hào)處理、編解碼以及智能音效的研究和開發(fā),而這次說(shuō)話人日志技術(shù)的研究成果便來(lái)自于這一部門。目前,喜馬拉雅已經(jīng)在研發(fā)類似會(huì)議場(chǎng)景的多人同時(shí)會(huì)議轉(zhuǎn)寫項(xiàng)目,其中說(shuō)話人日志解決了誰(shuí)在什么時(shí)候說(shuō)話的問(wèn)題,大幅度提升了撰寫效果。未來(lái),喜馬拉雅的說(shuō)話人日志技術(shù),也將可能被應(yīng)用到更多場(chǎng)景中,比如語(yǔ)音聊天室,告訴參與者當(dāng)前誰(shuí)在說(shuō)話;又比如喜馬拉雅的AI文稿,說(shuō)話人日志技術(shù)通過(guò)提供說(shuō)話人的信息,有利于進(jìn)一步提高AI文稿的準(zhǔn)確率。

除了說(shuō)話人日志,喜馬拉雅的TTS(語(yǔ)音合成)技術(shù)也處于行業(yè)前列,并已經(jīng)廣泛被運(yùn)用于評(píng)書、新聞、小說(shuō)等多種內(nèi)容的制作中,正助力喜馬拉雅在現(xiàn)有的“UGC + PGC + PUGC”內(nèi)容生態(tài)之外,進(jìn)一步拓展AIGC的可能性。

2021年,喜馬拉雅通過(guò)將自主設(shè)計(jì)單獨(dú)的韻律提取模塊融入到 HiTTS 技術(shù)框架,完美復(fù)現(xiàn)了單田芳的“聲音”,目前已用單田芳的AI合成音上線了超過(guò)80張的“單田芳聲音重現(xiàn)”專輯,其中,《毛氏三兄弟》和歷史類作品的聲音完播率遠(yuǎn)超過(guò)普通人聲作品,為未來(lái)出版物大量有聲化提供了新的解決方案。此前喜馬拉雅被ICASSP 2022S收錄的自研跨語(yǔ)言語(yǔ)音合成技術(shù),未來(lái)將可能讓我們聽到單田芳先生的“聲音”來(lái)播講英文內(nèi)容。同時(shí),2021年,還有新京報(bào)、環(huán)球時(shí)報(bào)、瀟湘晨報(bào)、時(shí)代周報(bào)、海外網(wǎng)、刺猬公社等眾多主流媒體入駐喜馬拉雅,借助喜馬拉雅TTS技術(shù)加速制作新聞?lì)愐纛l節(jié)目,讓聽眾有了更多的渠道聽到更權(quán)威的新聞。

未來(lái),喜馬拉雅將持續(xù)投入語(yǔ)音技術(shù)的研發(fā)升級(jí),不斷創(chuàng)新和突破,進(jìn)一步打開對(duì)于聲音的想象,讓技術(shù)加持聲音、讓聲音服務(wù)生活。


喜馬拉雅AI音頻研究成果再獲世界頂級(jí)學(xué)術(shù)會(huì)議ICASSP 2022認(rèn)可的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
双城市| 宁明县| 色达县| 裕民县| 乡城县| 光山县| 西盟| 平南县| 龙游县| 呼图壁县| 温宿县| 襄汾县| 汶川县| 伊宁市| 富平县| 宜川县| 贡山| 南川市| 仙桃市| 辉县市| 新邵县| 确山县| 从化市| 洛宁县| 建德市| 绍兴县| 天津市| 浦城县| 吕梁市| 稷山县| 义马市| 通山县| 小金县| 常山县| 乌审旗| 乐平市| 龙南县| 宜黄县| 大关县| 舒城县| 阜康市|