關(guān)于stable diffusion的lora訓(xùn)練在云服務(wù)器的部署

在云服務(wù)器部署lora training,一大問題就是依賴缺失和沖突??梢岳胢iniconda或者anaconda建立虛擬環(huán)境來解決。
安裝anaconda 或者?miniconda(官網(wǎng)上也有教程):
建立虛擬環(huán)境:
現(xiàn)在進(jìn)入到虛擬環(huán)境中
首先解決cuda的配置,其中要配置合適的cuda版本以及對應(yīng)版本的cuDNN
conda官方庫中的cuda包都不完全,無法激活nvcc命令,因此使用conda-forge庫中的cudatoolkit包,以及dev包來確保可以激活nvcc命令。這里以cuda11.7版本為例。
例如:
之后安裝對應(yīng)版本的tensorflow:
參考:https://docs.nvidia.com/deeplearning/frameworks/tensorflow-release-notes/rel-23-02.html#rel-23-02
可知我們需要的tensorflow的版本是2.8.0版本,tensorRT版本是8.2.5
之后安裝pytorch:
或者,你可以使用pip的話:
以及安裝pytorchvision:同樣可以使用:
或者:
安裝triton
安裝trainer本體
下面參考:https://github.com/zwh20081/LoRA_onekey_deploy_script/blob/main/onekey_with_xformers_new.sh
之后可以安裝xformers來加速lora的訓(xùn)練:
這時你的xformer 應(yīng)當(dāng)安裝完畢。
之后安裝Lora訓(xùn)練器:
此時可能會更新:
但是tensorflow可能會錯誤的升級到2.10版本。因此根據(jù)你的cuda版本降級tensorflow。
我這里還是降級到2.8.0:
之后
這時應(yīng)當(dāng)可以正常使用了。
configure 過程中可能有一些設(shè)置,推薦是:
使用:
修改ArgsList.py中的參數(shù)設(shè)置
之后再main.py的目錄中使用:
Enjoy