轉(zhuǎn)載:在linux中使用A卡進(jìn)行ai模型訓(xùn)練
原文鏈接:https://blog.csdn.net/qq_44948500/article/details/127346390
原作者:XiaozhouTAT
前言:由于之前在視頻中引用的文章,原作者做了一些修改,現(xiàn)在視頻引用部分和文章的內(nèi)容有些許差異,為了不讓看視頻學(xué)習(xí)安裝NovelAI的朋友們迷惑,我把之前保存的離線網(wǎng)頁(yè)的內(nèi)容轉(zhuǎn)載到這里。
吐槽
rocm都更新這么多版本了怎么還沒(méi)有windows的
使用的設(shè)備配置
linux:Ubuntu20.04
CPU:R9-5900hx
GPU:RX6800M 12G
python:3.10.6
安裝GPU驅(qū)動(dòng)
如果你已經(jīng)安裝成功了gpu驅(qū)動(dòng)可以跳過(guò)
如果之前裝過(guò)其它版本沒(méi)有驅(qū)動(dòng)成功的,在終端輸入sudo amdgpu-install --uninstall
卸載驅(qū)動(dòng)
訪問(wèn)amd官網(wǎng)下載 amdgpu-install_xxxxxx.xxxxxx_all.deb
https://www.amd.com/en/support/kb/release-notes/rn-amdgpu-unified-linux-22-20
進(jìn)入安裝包所在的目錄
接著在終端輸入:sudo apt install ./amdgpu-install_xxxxxxx-xxxxxx_all.deb
(注:amdgpu-install_xxxxxxx-xxxxxx_all.deb指的是你下載的amdgpu版本
然后sudo apt update
再sudo apt upgrade -y
開(kāi)始安裝驅(qū)動(dòng)
sudo amdgpu-install --usecase=dkms
amdgpu-install -y --usecase=rocm
//安裝完后重啟
sudo reboot
測(cè)試
# 顯示gpu性能監(jiān)控
rocm-smi
配置環(huán)境
ls -l /dev/dri/render*
sudo usermod -a -G render $LOGNAME
sudo usermod -a -G video $LOGNAME
sudo reboot
rocm-llvm依賴python但無(wú)法安裝它
找個(gè)目錄進(jìn)行操作
apt download rocm-llvm
ar x rocm-llvm_xxxx.xxxxx_amd64.deb
tar xf control.tar.xz
#編輯文件,如果沒(méi)有vim將先安裝sudo apt install vim
vim control
#找到如下一行:
Depends: python, libc6, libstdc++6|libstdc++8, libstdc++-5-dev|libstdc++-7-dev, libgcc-5-dev|libgcc-7-dev, rocm-core
#改為如下內(nèi)容:
Depends: python3, libc6, libstdc++6|libstdc++8, libstdc++-5-dev|libstdc++-7-dev|libstdc++-10-dev, libgcc-5-dev|libgcc-7-dev|libgcc-10-dev, rocm-core
#重新打包
tar c postinst prerm control | xz -c > control.tar.xz
ar rcs rocm-llvm.deb debian-binary control.tar.xz data.tar.xz
#安裝前先安裝依賴
sudo apt install libstdc++-10-dev libgcc-10-dev rocm-core
#安裝
sudo dpkg -i rocm-llvm.deb
#重新安裝驅(qū)動(dòng)
sudo amdgpu-install
rocm-gdb依賴libpython3.8解決
進(jìn)軟件和更新——其他軟件——添加下面軟件源
deb https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy main
更新一下軟件源
sudo apt upgrade
sudo apt update
安裝libpython3.8并重新運(yùn)行amdgpu-install
sudo apt install libpython3.8
sudo amdgpu-install
安裝pytorch
(此命令是完整的一行,看起來(lái)兩行是因?yàn)樽詣?dòng)換行)
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/rocm5.1.1
安裝MIopen
//安裝hip
apt-get install miopen-hip
運(yùn)行stable-diffusion-webui
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
python -m pip install --upgrade pip wheel
HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half
//一般來(lái)講會(huì)提示沒(méi)有模型,如果有扔./models/Stable-diffusion里,本文不提供,自行百度
提示cuda錯(cuò)誤,解決方法
#打開(kāi)launch.py找到這句代碼
commandline_args = os.environ.get('COMMANDLINE_ARGS', "")
#改成
commandline_args = os.environ.get('COMMANDLINE_ARGS', "--skip-torch-cuda-test")
愉快玩耍
進(jìn)webui目錄執(zhí)行以下操作
HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half
如果運(yùn)行時(shí)出現(xiàn)什么hip錯(cuò)誤找不到gfx1030還三其他版號(hào)的可以不用管,等待一會(huì)將可以了,后面生成就不會(huì)提示,(每次啟動(dòng)第一次運(yùn)行都會(huì)這樣)