在線語音合成:突破口語限制,為生活開啟無限想象
隨著科技的不斷發(fā)展,人們對于交流方式的需求也在不斷升級。語音成為一種越來越受人們關(guān)注的交互方式。在線語音合成技術(shù)的應(yīng)用領(lǐng)域也越來越廣泛,為不同群體的人們帶來更多便利和趣味。
在線語音合成技術(shù)的核心是說話人轉(zhuǎn)換,即提取一位說話者的聲音和語音特點(diǎn),并使用算法生成新的語音。這意味著每個(gè)人都可以用自己的聲音來朗讀文章、播報(bào)節(jié)目,甚至為動畫游戲和語音助手創(chuàng)造獨(dú)特的聲音角色。在線語音合成技術(shù)為人們帶來了自由和隨心所欲的交流方式,突破了口語限制。

智能語音技術(shù)領(lǐng)域在語音合成通用框架方面做出了豐富的工作,包括VITS等端到端建模和韻律表征技術(shù)??拼笥嶏w在線語音合成推出了新一代語音合成引擎——聆系列主播,結(jié)合SMART-TTS框架和虛擬音色生成技術(shù)。
SMART-TTS框架將語音合成過程進(jìn)行模塊化拆解,通過預(yù)訓(xùn)練和加強(qiáng)學(xué)習(xí)來提升語音合成性能。SMART-TTS框架中,文本編碼預(yù)訓(xùn)練階段包含了跟發(fā)音韻律相關(guān)的信息,韻律特征提取時(shí)采用對比學(xué)習(xí)方式,有利于增強(qiáng)語音韻律的表征能力,VAE等編碼技術(shù)可以在編碼基礎(chǔ)上幫助恢復(fù)聲學(xué)特征。SMART-TTS框架已在許多產(chǎn)品中得到應(yīng)用,可以在訊飛開放平臺、學(xué)習(xí)強(qiáng)國和訊飛有聲APP等地方感受語音合成效果。
科大訊飛在線語音合成還開發(fā)了虛擬音色生成技術(shù)構(gòu)建語音模型。通過音色編碼模塊提取音色相關(guān)表征,然后在隱層表征空間投影、聯(lián)合文本表征和韻律表征做語音合成,訓(xùn)練還會標(biāo)注音色特征標(biāo)簽,便于配置音色控制標(biāo)簽生成,提高指示性和內(nèi)插等屬性。目前,已有超過500個(gè)符合音色控制標(biāo)簽的合成音色,其自然度超過了4.0MOS。
聆系列主播是一種新一代智能語音合成引擎,用戶可以直接體驗(yàn)語音合成效果??拼笥嶏w在線語音合成技術(shù)可以在訊飛開放平臺官網(wǎng)進(jìn)行體驗(yàn),在線語音合成技術(shù)給人們帶來了更多的便利和創(chuàng)意,在交流方式的選擇上更加靈活和多樣化。
點(diǎn)擊下方鏈接即可體驗(yàn)
https://t.xfyun.cn/u7quUDq