手機站首頁散文詩歌雜文隨筆日記小小說

散文網 » 科技 »學習 » Fish Diffusion一鍵包&使用教程 V2.0（等待修復）

Fish Diffusion一鍵包&使用教程 V2.0（等待修復）

2023-05-01 19:04 作者:TheMandateOfRock 0人讀過 | 我要投稿

宇宙安全聲明:

請自行解決數(shù)據集授權問題，禁止使用非授權數(shù)據集進行訓練！任何由于使用非授權數(shù)據集進行訓練造成的問題，需自行承擔全部責任和后果！嚴禁損害他人名譽權以及肖像權！

更新日志:

2023-05-02:

1.使用補丁修復Tensorboard log路徑寫死的問題

2.更新第7步的內容

2023-05-01:

1.棄用由miniconda3打包的虛擬環(huán)境，改用python embed重新制作運行環(huán)境

2.完全重寫批處理操作邏輯，簡單的進行了美化，加入了少量的操作指引

3.加入了多配置文件支持

4.微調了一鍵包的文件結構

倉庫鏈接：https://github.com/fishaudio/fish-diffusion

wiki鏈接：https://fishaudio.github.io/fish-diffusion

配置要求:

1.至少一張Nvidia顯卡（官方目前實測最低可以在GTX1650 4G上成功訓練）

2.充足的硬盤空間，內存和CPU沒有硬性要求

3.安裝一個編輯器（Sublime Text，VS?Code），并且將.py文件的默認打開方式設置為編輯器

一鍵包腳本內%errorlevel%變量有問題，等待修復

百度網盤：https://pan.baidu.com/s/1JfhskdO3piGeTEvC7WUXRw?pwd=gi4c

阿里云盤：https://www.aliyundrive.com/s/ZgNJPAnAK2j

百度網盤下載所有文件塊直接解壓即可

阿里云盤下載所有文件塊后需要刪除所有的.exe后綴才能解壓

一鍵包存放的路徑中不要有中文，也不要出現(xiàn)空格，空格可以用英文下劃線_替代

基本使用方法

1.Launcher.bat是一鍵包的啟動器，大部分流程均在啟動器內操作即可

2.打開啟動器時需要同意使用協(xié)議（輸入y），不同意則直接退出啟動器（輸入n）

3.白底黑字的選項輸入后無需回車確認，只能輸入括號內的選項

4.黑底白字的選項輸入后需要回車確認，輸入時請將輸入法切換到英文模式，注意大小寫

第1、2步：更新、安裝項目

1.在啟動器內先后輸入 1 和 2 對項目進行更新以及安裝即可

第3步：準備&預處理數(shù)據集

1.將所有的音頻切片至5-15s后放入dataset_original文件夾內（必須是同一個角色的聲音）

2.在啟動器內輸入 3 并且選擇一個合適地配置文件對數(shù)據集進行預處理，下面是配置文件的選擇解釋：

名稱中有hifisinger的是hifisinger架構，其他都是Diffusion架構

Diffusion的極限性能好，hifisinger在臟樣本上表現(xiàn)好

帶有finetune的配置文件都是在預訓練模型上進行微調，數(shù)據集時長短的可以嘗試一下

響度均衡，訓練集和驗證集的劃分，提取特征都是全自動的，不需要手動操作

第4步：調整訓練參數(shù)

1.在啟動器內輸入 4 并且選擇第3步使用的配置文件，啟動器會用編輯器打開兩個.py文件，方便修改，下面是需要修改的部分：

在base.py 中：

log_every_n_steps：每n步記錄一次loss值，建議值：10

val_check_interval：每n步對驗證集進行驗證，建議值：1000

precision：16是半精度訓練，32是單精度訓練

every_n_train_steps：每n步保存一次模型，建議值：1000

在naive_svc.py或者hifi_svc.py中：

train=dict(

? ? ? ? batch_size：批大小，依據使用顯卡的顯存進行調節(jié)

第5步：開始訓練

1.在啟動器內輸入 5?并且選擇第3步使用的配置文件，如需中斷訓練按下Ctrl+C即可

第6步：繼續(xù)訓練

1.在啟動器內輸入 6?并且選擇第3步使用的配置文件

2.輸入上一個檢查點的文件路徑，文件位于logs\xxxx\version_x\xxxx.ckpt，回車即可

第7步：Tensorboard可視化監(jiān)控

1.在啟動器內輸入 7 并且選擇使用的架構（配置文件中有Hifisinger是Hifisinger架構，其他均為Diffusion架構）

2.輸入一個Version，回車確認啟動服務，在瀏覽器中打開http://localhost:6006/即可

第8步：推理音頻

1.在啟動器內輸入 8?并且選擇第3步使用的配置文件

2.輸入檢查點的路徑（xxxxx.ckpt），回車確認

3.輸入干聲路徑（xxxxx.wav），回車確認，生成的output.wav就是推理結果

標簽：