散文網(wǎng) » 科技 »汽車 » 聲音克隆在問(wèn)界車機(jī)上的應(yīng)用

聲音克隆在問(wèn)界車機(jī)上的應(yīng)用

2023-08-11 00:46 作者:出云呢 0人讀過(guò) | 我要投稿

問(wèn)界車機(jī)上的小藝默認(rèn)是支持訓(xùn)練自己的聲音作為語(yǔ)音交互的，就是在車機(jī)的小藝設(shè)置中按照他的要求讀指定的15句話，然后再華為云訓(xùn)練20來(lái)分鐘就出成果了。但是華為團(tuán)隊(duì)其實(shí)不懂車友的需求，我們需要的是大嘴的聲音，畢竟只有大嘴才能讓我們歡樂(lè)。。。

作為一個(gè)資深的CTRL+CV工程師，對(duì)于沒(méi)有大嘴的聲音是不能忍的，于是一個(gè)想法就誕生了，用聲音克隆的方式讓大嘴給我們讀者15句話。

第一步：環(huán)境搭建

我是在WSL中搭建的。

首先需要裝CUDA，先檢查下自己的顯卡驅(qū)動(dòng)，CUDA版本，在NVDIA的驅(qū)動(dòng)面板中：

然后在developer.nvidia.com/cuda-toolkit這個(gè)地址去找對(duì)應(yīng)版本的即可。我是12.2，因此下面的MD文檔以12.2為例

第二步：依賴安裝

然后照著大佬的視頻安裝相關(guān)依賴，當(dāng)然你也可以和大佬一樣用云，只是我用的本地部署。

視頻地址：KanTTS中文聲音克隆首發(fā)！訓(xùn)練5分鐘，使用不限時(shí)！AI快速擬聲，一鍵訓(xùn)練和部署的詳細(xì)教程，快來(lái)試試吧，看筆記本即可

當(dāng)然更建議閱讀達(dá)摩官方的文檔，地址是：SambertHifigan個(gè)性化語(yǔ)音合成-中文-預(yù)訓(xùn)練-16k · 模型庫(kù) (modelscope.cn).

pip install openai-whisper

pip install modelscope

pip install tts-autolabel -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

pip install typeguard==2.3.1

pip install sox

pip install bitstring

pip install pysptk --no-build-isolation

pip install kantts -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

pip install pytorch_wavelets

pip install tensorboardX

git clone https://github.com/fbcotter/pytorch_wavelets

pip install matplotlib

pip install numpy==1.22.0