最流行的作業(yè)調(diào)度系統(tǒng)-Slurm安裝 | 材料計算模擬軟件@Linux服務(wù)器安裝

Slurm是一個開源、容錯、高度可擴展的集群管理和作業(yè)調(diào)度系統(tǒng),適用于各種規(guī)模Linux集群。
Centos7的Linux系統(tǒng)安裝過程舉例:
1.安裝前的配置:
- 安裝epel源并生成數(shù)據(jù)緩存
yum install -y epel-release && yum makecache
- 安裝GUI支持的GUI命令
yum groups install -y "Server with GUI"
- 重啟服務(wù)器
- 修改主機名,這里改為slurm-master
hostnamectl set-hostname slurm-master?
- 重啟服務(wù)器
- 配置時間同步服務(wù)
~ 查看狀態(tài) systemctl status chronyd.service
~ 修改時間同步服務(wù)的配置文件
vi /etc/chrony.conf
將現(xiàn)有的四個同步服務(wù)進行注銷(句首加#號),然后添加阿里云的時間同步。
server ntp.aliyun.com iburst
添加本機的ip地址
allow 192.168.xx.xx
保存退出。
~ 重新啟動時間同步服務(wù)
systemctl restart chronyd.service
再查看服務(wù)狀態(tài),可以看到服務(wù)重新啟動。
systemctl status chronyd.service
- 配置munge程序
安裝munge程序
yum install -y munge munge-libs munge-devel
對munge程序文件權(quán)限進行調(diào)整(三條命令)
chmod -R 0700 /etc/munge /var/log/munge && chmod -R 0711 /var/lib/munge && chmod -R 0755 /var/run/munge?
dd if=/dev/urandom bs=1 count=1024 >/etc/munge/munge.key
chown munge:munge /etc/munge/munge.key && chmod 0600 /etc/munge/munge.key
啟動munge程序
systemctl start munge.service
查看程序狀態(tài)
systemctl status munge.service
添加到自啟動
systemctl enable munge.service
驗證是否成功
munge -n | unmunge
2.部署slurm程序
- 安裝依賴庫
yum install -y rpm-build bzip2-devel openssl openssl-devel zlib-devel perl-DBI perl-ExtUtils-MakeMaker pam-devel readline-devel mariadb-devel python3 gtk2 gtk2-devel gcc make
- 創(chuàng)建slurm管理用戶的配套用戶
groupadd -g 200 slurm && useradd -u 200 -g 200 -s /sbin/noLogin -M slurm?
- 轉(zhuǎn)到根目錄并下載slurm軟件
cd & wget https://download.schedmd.com/slurm/slurm-20.11.9.tar.bz2
- 編譯
rpmbuild -ta --clean slurm-20.11.9.tar.bz2
- 轉(zhuǎn)到生成的rpm文件路徑,并進行安裝
cd rpmbuild/RPMS/x86_64/
ls
yum install -y slurm-*.rpm
- 修改slurm配置文件
cd /etc/slurm/
ls
cp slurm.conf.example slurm.conf
vi slurm.conf
做如下修改


- 啟動slurm服務(wù)
systemctl start slurmd
systemctl restart slurmctld.service
systemctl status slurmctld.service
