Fish Diffusion一鍵包&使用教程 V2.0(等待修復)
宇宙安全聲明:
請自行解決數(shù)據集授權問題,禁止使用非授權數(shù)據集進行訓練!任何由于使用非授權數(shù)據集進行訓練造成的問題,需自行承擔全部責任和后果!嚴禁損害他人名譽權以及肖像權!

更新日志:
2023-05-02:
1.使用補丁修復Tensorboard log路徑寫死的問題
2.更新第7步的內容
2023-05-01:
1.棄用由miniconda3打包的虛擬環(huán)境,改用python embed重新制作運行環(huán)境
2.完全重寫批處理操作邏輯,簡單的進行了美化,加入了少量的操作指引
3.加入了多配置文件支持
4.微調了一鍵包的文件結構

倉庫鏈接:https://github.com/fishaudio/fish-diffusion
wiki鏈接:https://fishaudio.github.io/fish-diffusion
配置要求:
1.至少一張Nvidia顯卡(官方目前實測最低可以在GTX1650 4G上成功訓練)
2.充足的硬盤空間,內存和CPU沒有硬性要求
3.安裝一個編輯器(Sublime Text,VS?Code),并且將.py文件的默認打開方式設置為編輯器
一鍵包腳本內%errorlevel%變量有問題,等待修復
百度網盤:https://pan.baidu.com/s/1JfhskdO3piGeTEvC7WUXRw?pwd=gi4c
阿里云盤:https://www.aliyundrive.com/s/ZgNJPAnAK2j
百度網盤下載所有文件塊直接解壓即可
阿里云盤下載所有文件塊后需要刪除所有的.exe后綴才能解壓
一鍵包存放的路徑中不要有中文,也不要出現(xiàn)空格,空格可以用英文下劃線_替代
基本使用方法
1.Launcher.bat是一鍵包的啟動器,大部分流程均在啟動器內操作即可
2.打開啟動器時需要同意使用協(xié)議(輸入y),不同意則直接退出啟動器(輸入n)
3.白底黑字的選項輸入后無需回車確認,只能輸入括號內的選項

4.黑底白字的選項輸入后需要回車確認,輸入時請將輸入法切換到英文模式,注意大小寫

第1、2步:更新、安裝項目
1.在啟動器內先后輸入 1 和 2 對項目進行更新以及安裝即可
第3步:準備&預處理數(shù)據集
1.將所有的音頻切片至5-15s后放入dataset_original文件夾內(必須是同一個角色的聲音)
2.在啟動器內輸入 3 并且選擇一個合適地配置文件對數(shù)據集進行預處理,下面是配置文件的選擇解釋:
名稱中有hifisinger的是hifisinger架構,其他都是Diffusion架構
Diffusion的極限性能好,hifisinger在臟樣本上表現(xiàn)好
帶有finetune的配置文件都是在預訓練模型上進行微調,數(shù)據集時長短的可以嘗試一下
響度均衡,訓練集和驗證集的劃分,提取特征都是全自動的,不需要手動操作
第4步:調整訓練參數(shù)
1.在啟動器內輸入 4 并且選擇第3步使用的配置文件,啟動器會用編輯器打開兩個.py文件,方便修改,下面是需要修改的部分:
在base.py 中:
log_every_n_steps:每n步記錄一次loss值,建議值:10
val_check_interval:每n步對驗證集進行驗證,建議值:1000
precision:16是半精度訓練,32是單精度訓練
every_n_train_steps:每n步保存一次模型,建議值:1000
在naive_svc.py或者hifi_svc.py中:
train=dict(
? ? ? ? batch_size:批大小,依據使用顯卡的顯存進行調節(jié)
第5步:開始訓練
1.在啟動器內輸入 5?并且選擇第3步使用的配置文件,如需中斷訓練按下Ctrl+C即可
第6步:繼續(xù)訓練
1.在啟動器內輸入 6?并且選擇第3步使用的配置文件
2.輸入上一個檢查點的文件路徑,文件位于logs\xxxx\version_x\xxxx.ckpt,回車即可
第7步:Tensorboard可視化監(jiān)控
1.在啟動器內輸入 7 并且選擇使用的架構(配置文件中有Hifisinger是Hifisinger架構,其他均為Diffusion架構)
2.輸入一個Version,回車確認啟動服務,在瀏覽器中打開http://localhost:6006/即可
第8步:推理音頻
1.在啟動器內輸入 8?并且選擇第3步使用的配置文件
2.輸入檢查點的路徑(xxxxx.ckpt),回車確認
3.輸入干聲路徑(xxxxx.wav),回車確認,生成的output.wav就是推理結果