【真人語音】訊飛星火個人聲音訓練及導出工具V0.2.exe

2023-08-22 08:07 作者:civilpy 0人讀過 | 我要投稿

【項目背景】

小編一直在嘗試著短視頻技術，在讀文案的時候經常會讀錯；所以，只能用微軟或者剪映的文本轉語音軟件。

很早之前在Github上也看到過真人人聲訓練的開源代碼，嘗試過一番之后，也是以失敗告終；就在前幾個月歌手語音的訓練、個人真人聲音的訓練又火了一波，新的開源代碼小編手上也有，但是無奈自己的N卡太弱，跑pytorch心有余而力不足。

這不，隨著國內擅長聲音處理的訊飛大模型融合了真人聲音訓練，小編借此機會對其做了一個小小的封裝。

【項目實現(xiàn)】

https://xinghuo.xfyun.cn/desk

首先，需要用訊飛的大模型訓練自己的聲音，右上角點擊創(chuàng)建發(fā)音人，這個時候需要錄制10段個人語音，云端訓練大概需要5~10分鐘，訓練好之后的界面同上圖，可以選擇發(fā)音人（真人人聲）。

然后，就可以將自己的文本投喂給大模型，可以是問題，也可以是自己已經寫好的文本，具體例子：

用戶：請潤色下面文本，并擬定1個吸睛的標題。
文本：
土木工程現(xiàn)在房地產大環(huán)境下不是太熱門，其實大學的專業(yè)作為對于每個人來講（個人觀點），本身就是將來對于自己的一個謀生的手段，這個專業(yè)大家最多的印象最多的就是提桶跑路吧，但是每個專業(yè)都有每個專業(yè)的好處與壞處，這個專業(yè)門檻低，就業(yè)前期工作收入比較高，就業(yè)方向比較多，造價，施工、設計，監(jiān)理等，適合善于交際的人。壞處大家都應該知道，環(huán)境相對別的專業(yè)較差，有時候面對的班組勞務的教育水平不是很高，人際關系不好后期發(fā)展受限等。

星火大模型回答的文本，就出出現(xiàn)一個語音按鈕，點擊該按鈕就可以聽到你的真人發(fā)音。但是，該大模型已經禁止瀏覽使用開發(fā)模式，生成的TTS音頻無法通過插件工具實現(xiàn)音頻導出。

解決方案：通過聲卡復制類軟件，實現(xiàn)在朗讀語音時，對聲卡數(shù)據(jù)進行復制，進而實現(xiàn)音頻導出。

請重新輸出以下文本：土木工程現(xiàn)在房地產大環(huán)境下不是太熱門，其實大學的專業(yè)作為對于每個人來講（個人觀點），本身就是將來對于自己的一個謀生的手段，這個專業(yè)大家最多的印象最多的就是提桶跑路吧，但是每個專業(yè)都有每個專業(yè)的好處與壞處，這個專業(yè)門檻低，就業(yè)前期工作收入比較高，就業(yè)方向比較多，造價，施工、設計，監(jiān)理等，適合善于交際的人。

作為一個準程序員，這種方案可以解決問題，但總是差強人意。

于是，在想，能不能通過fiddler分析轉換接口，形成API或者封裝成一個工具？說干就干，剛好西安周末下雨，宅在家里，對其進行分析，最終封裝成一個exe。

使用該工具，需要下載fiddler，獲取ID和cookies。

上圖，點擊①鏈接，在②處復制header即可獲取到cookie，在③處可以獲取到ID（tts）。

接下來就可以用剪映工具制作視頻（真人原聲），從此告別千篇一律的機器聲。

【工具下載】

https://intumu.com/article/202

【應用拓展】

真人人聲+MD數(shù)字人？可以衍生出很多Ideas，感興趣的小伙伴也可以加小編微信探討。

學Python并不難，會敲鍵盤就能學！

標簽：