最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

三點(diǎn)幾嚟,飲茶先啦!PaddleSpeech發(fā)布全流程粵語語音合成

2023-04-03 16:10 作者:飛槳PaddlePaddle  | 我要投稿

PaddleSpeech?是飛槳開源語音模型庫,其提供了一套完整的語音識(shí)別、語音合成、聲音分類和說話人識(shí)別等多個(gè)任務(wù)的解決方案。近日,PaddleSpeech?迎來了重要更新——r1.4.0版本。在這個(gè)版本中,PaddleSpeech?帶來了中文?wAV2vec2.0 fine-tune?流程、升級(jí)的中英文語音識(shí)別以及全流程粵語語音合成等重要更新。接下來,我們將詳細(xì)介紹這些更新內(nèi)容以及亮點(diǎn)。

01?中文?wAV2vec2.0 fine-tune

在r1.4.0版本中,我們實(shí)現(xiàn)了中文 wAV2vec2.0 fine-tune 流程。wAV2vec2.0 是一種基于自監(jiān)督學(xué)習(xí)的語音特征提取方法,通過訓(xùn)練未標(biāo)注的語音數(shù)據(jù),學(xué)習(xí)到音頻信號(hào)的有用表示。

wAV2vec2.0 使用一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的編碼器來提取語音特征,然后使用一個(gè) Transformer 架構(gòu)的上下文網(wǎng)絡(luò)來捕捉特征之間的時(shí)序關(guān)系。在 fine-tune 階段,通過添加一個(gè)線性分類層來適應(yīng)中文語音識(shí)別任務(wù)。

wAV2vec2.0 的主要組成部分

  • 前處理?

原始音頻數(shù)據(jù)首先經(jīng)過預(yù)處理,包括采樣率轉(zhuǎn)換、聲道數(shù)調(diào)整等,以滿足模型輸入的要求。

  • 特征提取器?

對(duì)預(yù)處理后的音頻數(shù)據(jù)進(jìn)行特征提取,將其轉(zhuǎn)換為適合模型輸入的形式。wAV2vec2.0 模型使用了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為特征提取器,將連續(xù)的音頻數(shù)據(jù)轉(zhuǎn)換為一系列的特征向量。

  • 上下文網(wǎng)絡(luò)

特征向量經(jīng)過上下文網(wǎng)絡(luò)進(jìn)行處理,捕獲不同時(shí)間步長(zhǎng)之間的關(guān)聯(lián)信息,上下文網(wǎng)絡(luò)使用的是 Transformer 結(jié)構(gòu)。

  • 自監(jiān)督學(xué)習(xí)

wAV2vec2.0 采用自監(jiān)督學(xué)習(xí)的方法進(jìn)行訓(xùn)練,它使用了一個(gè)“掩碼”策略,在輸入數(shù)據(jù)中隨機(jī)選擇一些時(shí)間步長(zhǎng)并將其置為均勻分布的隨機(jī)?embedding 向量,然后訓(xùn)練模型去預(yù)測(cè)被掩碼量化后的特征。這種方法允許模型在沒有文本標(biāo)注的情況下學(xué)習(xí)音頻數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。

  • 線性分類器

在自監(jiān)督學(xué)習(xí)的基礎(chǔ)上,為了實(shí)現(xiàn)音頻到文本的轉(zhuǎn)換,模型在最后一層添加了一個(gè)線性分類器。這個(gè)分類器將上下文網(wǎng)絡(luò)輸出的特征向量映射到對(duì)應(yīng)的 token。

通過這一流程,PaddleSpeech 能夠在無需大量標(biāo)注數(shù)據(jù)的情況下,提供高效準(zhǔn)確的中文語音識(shí)別模型。在 PaddleSpeech 給出的 fine-tune 流程示例中,預(yù)訓(xùn)練模型基于 WenetSpeech Dataset ,使用 aishell1 數(shù)據(jù)集進(jìn)行微調(diào),在兩塊32G V100 上訓(xùn)練80個(gè) Epoch ,batch size 設(shè)置為5,Encoder 使用 wAV2vec2.0,?Decoder 階段使用 CTC?,解碼階段使用 Greedy search?。最終在 aishell1 測(cè)試數(shù)據(jù)集上字錯(cuò)誤率(CER)為0.051,折算成識(shí)別正確率94.9%。

開發(fā)者們可以通過 wAV2vec2.0 的中文 fine-tuning 流程,在自己的數(shù)據(jù)集上進(jìn)行微調(diào),以便獲得在特定場(chǎng)景中表現(xiàn)更優(yōu)秀的模型。

項(xiàng)目體驗(yàn)傳送門

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/aishell/asr3


02?全流程粵語語音合成

PaddleSpeech?r1.4.0 版本還提供了全流程粵語語音合成解決方案,包括語音合成前端、聲學(xué)模型、聲碼器、動(dòng)態(tài)圖轉(zhuǎn)靜態(tài)圖、推理部署全流程工具鏈。語音合成前端負(fù)責(zé)將文本轉(zhuǎn)換為音素,實(shí)現(xiàn)粵語語言的自然合成。為實(shí)現(xiàn)這一目標(biāo),聲學(xué)模型采用了基于深度學(xué)習(xí)的端到端模型 FastSpeech2 ,聲碼器則使用基于對(duì)抗神經(jīng)網(wǎng)絡(luò)的 HiFiGAN 模型。這兩個(gè)模型都支持動(dòng)轉(zhuǎn)靜,可以將動(dòng)態(tài)圖模型轉(zhuǎn)化為靜態(tài)圖模型,從而在不損失精度的情況下,提高運(yùn)行速度。

  • 訓(xùn)練全流程體驗(yàn)

    https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/canton/tts3

通過 AI?Studio,可以快速體驗(yàn)粵語語音合成,項(xiàng)目在線體驗(yàn)地址:?https://aistudio.baidu.com/aistudio/projectdetail/5601925?channelType=0&channel=0

Python 示例

from?paddlespeech.cli.tts?import?TTSExecutor
tts_executor?=?TTSExecutor()
wav_file?=?tts_executor(
????text='三點(diǎn)幾嚟,飲茶先啦!',
????am='fastspeech2_canton',
????voc='hifigan_csmsc',
????lang='canton',
????spk_id=10,
????use_onnx=True,
????output='api_1.wav',
????cpu_threads=2)


推理全流程則實(shí)現(xiàn)了從輸入文本到語音合成的完整過程,包括文本處理、聲學(xué)模型預(yù)測(cè)以及聲碼器合成。在文本處理階段,我們采用了自然語言處理技術(shù),將文本轉(zhuǎn)換為音素序列。在聲學(xué)模型預(yù)測(cè)階段,利用預(yù)訓(xùn)練的 FastSpeech2 模型生成聲學(xué)特征。最后,通過聲碼器 HiFiGAN 將聲學(xué)特征轉(zhuǎn)換為可聽見的語音信號(hào)。通過這一全流程粵語語音合成解決方案,PaddleSpeech 能夠?yàn)橛脩籼峁└幼匀?、真?shí)的粵語語音合成體驗(yàn)。?

你也可以參考 PaddleSpeech 的語音合成部署示例,將粵語語音合成模型部署到手機(jī)或者其它邊緣設(shè)備中,你可以參考以下流程:

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/TTSAndroid


03?中英文語音識(shí)別模型

在這次更新中,PaddleSpeech 發(fā)布了中英文語音識(shí)別預(yù)訓(xùn)練模型 conformer_talcs ,通過命令行工具 CLI 或者 Python 接口可以快速使用。開發(fā)者們可以基于這部分工作搭建自己的智能語音應(yīng)用,也可以參考示例 examples/tal_cs/asr1 訓(xùn)練自己的中英文語音識(shí)別模型。該模型采用 Conformer 架構(gòu)和 CTC 損失函數(shù),實(shí)現(xiàn)對(duì)中英文混合語音的識(shí)別。Conformer 架構(gòu)使用自注意力機(jī)制捕獲輸入序列中的長(zhǎng)距離依賴關(guān)系,從而提高語音識(shí)別的準(zhǔn)確性。同時(shí),CTC 損失函數(shù)允許模型在不需要對(duì)齊輸入和輸出的情況下進(jìn)行訓(xùn)練,簡(jiǎn)化了訓(xùn)練過程。針對(duì)中英文混合場(chǎng)景,我們?cè)谟?xùn)練數(shù)據(jù)上引入了 code-switch 標(biāo)簽,使模型能夠在單一語言和混合語言之間靈活切換。這一技術(shù)為用戶帶來了更優(yōu)質(zhì)的中英文混合語音識(shí)別體驗(yàn)。

Python 接口快速體驗(yàn)

import?paddle
from?paddlespeech.cli.asr?import?ASRExecutor
asr_executor?=?ASRExecutor()
text?=?asr_executor(
????model='conformer_talcs',
????lang='zh_en',
????sample_rate=16000,
????config=None,?
????ckpt_path=None,
????audio_file='./ch_zh_mix.wav',
????codeswitch=True,
????force_yes=False,
????device=paddle.get_device())
print('ASR?Result:?\n{}'.format(text))


04?應(yīng)用場(chǎng)景展望

基于上述詳細(xì)的技術(shù)原理,PaddleSpeech r1.4.0 所帶來的中文 wAV2vec2.0 finetune 、中英文語音識(shí)別及全流程粵語語音合成等重要更新將在以下應(yīng)用場(chǎng)景發(fā)揮重要作用:

智能客服

PaddleSpeech 的語音識(shí)別和語音合成技術(shù)可以為智能客服提供強(qiáng)大支持,實(shí)現(xiàn)更為流暢、自然的多語言語音互動(dòng),提升客戶體驗(yàn)。

教育領(lǐng)域

中英文混合語音識(shí)別技術(shù)將有助于跨國教育的發(fā)展,提高雙語教學(xué)質(zhì)量,同時(shí)全流程粵語語音合成技術(shù)也可應(yīng)用于方言地區(qū)的教育場(chǎng)景。

語音助手

PaddleSpeech 的升級(jí)將為智能語音助手帶來更加準(zhǔn)確的語音識(shí)別和更為自然的語音合成能力,進(jìn)一步提升用戶體驗(yàn)。

會(huì)議記錄與翻譯

PaddleSpeech 的中英文語音識(shí)別技術(shù)可廣泛應(yīng)用于跨國會(huì)議的記錄與翻譯,幫助與會(huì)者更好地溝通交流。此外,PaddleSpeech r1.4.0 的技術(shù)更新還可在多種場(chǎng)景中發(fā)揮作用,如醫(yī)療、法律、廣播等領(lǐng)域。我們期待廣大開發(fā)者在實(shí)際應(yīng)用中發(fā)掘 PaddleSpeech 的更多潛力,共同推進(jìn)語音技術(shù)的發(fā)展。感謝開源社區(qū)貢獻(xiàn)者在此,我們特別感謝 PaddleSpeech 的開源社區(qū)貢獻(xiàn)者們。正是有了大家的共同努力,才使得 PaddleSpeech 能夠持續(xù)發(fā)展、不斷優(yōu)化。未來,我們將繼續(xù)致力于為開發(fā)者提供更加優(yōu)秀的語音技術(shù)解決方案。


參考文獻(xiàn)

[1]?Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli: “wAV2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations”, 2020

[2]?Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu: “FastSpeech 2: Fast and High-Quality End-to-End Text to Speech”, 2020

[3] Jungil Kong, Jaehyeon Kim, Jaekyoung Bae: “HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis”, 2020





三點(diǎn)幾嚟,飲茶先啦!PaddleSpeech發(fā)布全流程粵語語音合成的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
光泽县| 仙桃市| 剑河县| 太康县| 疏勒县| 太仓市| 辉县市| 南宁市| 仁布县| 游戏| 吴忠市| 五常市| 平湖市| 广昌县| 南澳县| 贵港市| 泸州市| 肇庆市| 福贡县| 贡嘎县| 吴堡县| 边坝县| 乌鲁木齐县| 土默特左旗| 天长市| 营口市| 苏尼特左旗| 洛浦县| 平武县| 东平县| 饶河县| 车险| 盐津县| 扶沟县| 保康县| 呼玛县| 温泉县| 泌阳县| 敖汉旗| 日照市| 吴江市|