聲音克隆在問(wèn)界車機(jī)上的應(yīng)用
問(wèn)界車機(jī)上的小藝默認(rèn)是支持訓(xùn)練自己的聲音作為語(yǔ)音交互的,就是在車機(jī)的小藝設(shè)置中按照他的要求讀指定的15句話,然后再華為云訓(xùn)練20來(lái)分鐘就出成果了。但是華為團(tuán)隊(duì)其實(shí)不懂車友的需求,我們需要的是大嘴的聲音,畢竟只有大嘴才能讓我們歡樂(lè)。。。
作為一個(gè)資深的CTRL+CV工程師,對(duì)于沒(méi)有大嘴的聲音是不能忍的,于是一個(gè)想法就誕生了,用聲音克隆的方式讓大嘴給我們讀者15句話。
第一步:環(huán)境搭建
我是在WSL中搭建的。
首先需要裝CUDA,先檢查下自己的顯卡驅(qū)動(dòng),CUDA版本,在NVDIA的驅(qū)動(dòng)面板中:



然后在developer.nvidia.com/cuda-toolkit這個(gè)地址去找對(duì)應(yīng)版本的即可。我是12.2,因此下面的MD文檔以12.2為例

第二步:依賴安裝
然后照著大佬的視頻安裝相關(guān)依賴,當(dāng)然你也可以和大佬一樣用云,只是我用的本地部署。
視頻地址:KanTTS中文聲音克隆首發(fā)!訓(xùn)練5分鐘,使用不限時(shí)!AI快速擬聲,一鍵訓(xùn)練和部署的詳細(xì)教程,快來(lái)試試吧,看筆記本即可
當(dāng)然更建議閱讀達(dá)摩官方的文檔,地址是:SambertHifigan個(gè)性化語(yǔ)音合成-中文-預(yù)訓(xùn)練-16k · 模型庫(kù) (modelscope.cn).
pip install openai-whisper
pip install modelscope
pip install tts-autolabel -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
pip install typeguard==2.3.1
pip install sox
pip install bitstring
pip install pysptk --no-build-isolation
pip install kantts -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
pip install pytorch_wavelets
pip install tensorboardX
git clone https://github.com/fbcotter/pytorch_wavelets
pip install matplotlib
pip install numpy==1.22.0
第三步:準(zhǔn)備素材與訓(xùn)練
在根目錄新建3個(gè)文件夾:"test_wavs", "output_training_data", "pretrain_work_dir"
下載視頻到根目錄,我是用的youtube-dl下載的,也可以用其他方式下載

? 3. 音畫分離,不懂就問(wèn)它:

4.將聲音文件放進(jìn)根目錄注意名稱,后續(xù)代碼中要對(duì)應(yīng)改
5.運(yùn)行大佬的聲音分割代碼,我只上貼圖了:


6.將分割后的語(yǔ)音移動(dòng)過(guò)去:
mv ?-v ./dataset_raw/test/* ./test_wavs/
7.自動(dòng)標(biāo)注:

8.訓(xùn)練:

9.推理:

第四步:錄入小藝
用手機(jī)掃描車機(jī)上的小藝二維碼,在打開的網(wǎng)頁(yè)中選擇三只小豬的故事,用另一個(gè)設(shè)備播放這15句話,一直下一步,提交后等待20分鐘,華為訓(xùn)練完成