【真人語音】訊飛星火個人聲音訓練及導出工具V0.2.exe
【項目背景】
小編一直在嘗試著短視頻技術,在讀文案的時候經常會讀錯;所以,只能用微軟或者剪映的文本轉語音軟件。
很早之前在Github上也看到過真人人聲訓練的開源代碼,嘗試過一番之后,也是以失敗告終;就在前幾個月歌手語音的訓練、個人真人聲音的訓練又火了一波,新的開源代碼小編手上也有,但是無奈自己的N卡太弱,跑pytorch心有余而力不足。
這不,隨著國內擅長聲音處理的訊飛大模型融合了真人聲音訓練,小編借此機會對其做了一個小小的封裝。
【項目實現(xiàn)】

https://xinghuo.xfyun.cn/desk
首先,需要用訊飛的大模型訓練自己的聲音,右上角點擊創(chuàng)建發(fā)音人,這個時候需要錄制10段個人語音,云端訓練大概需要5~10分鐘,訓練好之后的界面同上圖,可以選擇發(fā)音人(真人人聲)。
然后,就可以將自己的文本投喂給大模型,可以是問題,也可以是自己已經寫好的文本,具體例子:
用戶:請潤色下面文本,并擬定1個吸睛的標題。
文本:
土木工程現(xiàn)在房地產大環(huán)境下不是太熱門,其實大學的專業(yè)作為對于每個人來講(個人觀點),本身就是將來對于自己的一個謀生的手段,這個專業(yè)大家最多的印象最多的就是提桶跑路吧,但是每個專業(yè)都有每個專業(yè)的好處與壞處,這個專業(yè)門檻低,就業(yè)前期工作收入比較高,就業(yè)方向比較多,造價,施工、設計,監(jiān)理等,適合善于交際的人。壞處大家都應該知道,環(huán)境相對別的專業(yè)較差,有時候面對的班組勞務的教育水平不是很高,人際關系不好后期發(fā)展受限等。
星火大模型回答的文本,就出出現(xiàn)一個語音按鈕,點擊該按鈕就可以聽到你的真人發(fā)音。但是,該大模型已經禁止瀏覽使用開發(fā)模式,生成的TTS音頻無法通過插件工具實現(xiàn)音頻導出。
解決方案:通過聲卡復制類軟件,實現(xiàn)在朗讀語音時,對聲卡數(shù)據(jù)進行復制,進而實現(xiàn)音頻導出。
請重新輸出以下文本:土木工程現(xiàn)在房地產大環(huán)境下不是太熱門,其實大學的專業(yè)作為對于每個人來講(個人觀點),本身就是將來對于自己的一個謀生的手段,這個專業(yè)大家最多的印象最多的就是提桶跑路吧,但是每個專業(yè)都有每個專業(yè)的好處與壞處,這個專業(yè)門檻低,就業(yè)前期工作收入比較高,就業(yè)方向比較多,造價,施工、設計,監(jiān)理等,適合善于交際的人。

作為一個準程序員,這種方案可以解決問題,但總是差強人意。
于是,在想,能不能通過fiddler分析轉換接口,形成API或者封裝成一個工具?說干就干,剛好西安周末下雨,宅在家里,對其進行分析,最終封裝成一個exe。

使用該工具,需要下載fiddler,獲取ID和cookies。

上圖,點擊①鏈接,在②處復制header即可獲取到cookie,在③處可以獲取到ID(tts)。
接下來就可以用剪映工具制作視頻(真人原聲),從此告別千篇一律的機器聲。
【工具下載】
https://intumu.com/article/202
【應用拓展】
真人人聲+MD數(shù)字人?可以衍生出很多Ideas,感興趣的小伙伴也可以加小編微信探討。
學Python并不難,會敲鍵盤就能學!