cmp集群管理手册

Oct 26, 2018 00:00 · 1383 words · 3 minute read cluster admin system Author: unkcpz, qiusb

新建用户

获取root

[root] # useradd -m username
[root] # passwd username
[root] # usermod -a -G labuser test123 (将test123用户加入labuser组)
[root] # sacctmgr add user test123 account=local (将新建test123用户加入slurm数据库)

删除用户

获取root

[root] # userdel username
[root] # more /etc/passwd
[root] # find / -name "*username*"
[root] # rm -rf dirname

查看passwd是为了再次确认要删除该用户,接下来是找到与该用户有关的文件,并彻底删除。

slurm 用户任务限制

限制用户使用总CPU数

sacctmgr modify user test set GrpTRES=cpu=48 

限制test用户使用cpu总核数不超过48,将值改为-1则无限制

sacctmgr modify user test set GrpTRES=Node=cn96100

限制test用户只能使用cn96100节点,将值改为-1则无限制

限制用户最大可提交任务的数量

sacctmgr modify user test set maxsubmitjobs=10

限制test用户只能最多提交10个任务,超过则需要等待已提交任务完成后再提交,修改为-1解除限制

限制用户最大可运行任务的数量

sacctmgr modify user test set maxjobs=10

限制test用户最多只能有10个任务同时运行,修改为-1解除限制

查看用户的限制

sacctmgr show assoc

批量执行限制

cd /share/home
for i in `ls` ; do sacctmgr modify user $i set maxjobs=12 < ../t; done
for i in `ls` ; do sacctmgr modify user $i set GrpTRES=cpu=300 < ../t; done

其中../t的内容为y

slurm配置

slurm是集群的计算管理软件。在加入新机器后,需要在配置文件中加入新机器的信息。

在NODES部分增加节点信息(参考已有节点,若遇到硬件差别很大的机器,联系客服人员寻求帮助)。

pdsh -w cn99105 systemctl start slurmd开启节点的slurmd,(可以for来开启多个节点slurmd),再用systemctl restart slurmctld重启管理节点的slurmctld客户端服务。

在集群环境中,slurm的主客关系为,计算节点为服务器端,管理节点作为客户端想计算节点请求当前任务 的状态信息。

使用sinfo -Nel查看节点信息,若节点为down, 则使用scontrol update nodename=cn99105 state=resume开启这个节点状态。

节点状态显示drain

用sinfo查看信息的时候看到部分节点状态总是 drain

[root] # scontrol update NodeName=<node> State=DOWN Reason=hung_completing
[root] # scontrol update NodeName=<node> State=resume
修改用户可用内存

先进入root,

edquota -u cenyj

修改其中的hard项,具体每项的含义可以自行查询。

ipmi配置(主要用于远程开关机):

BMC配置命令
ipmitool lan print 1 #打印当前ipmi 地址配置信息。
ipmitool lan set 1 ipsrc static  # 设置 id 1 为静态IP地址。
ipmitool lan set 1 ipaddr ip  # 设置 IPMI 地址。
ipmitool lan set 1 netmask 255.255.255.0 # 设置 IPMI 子网掩码。
ipmitool lan set 1 defgw ipaddr ip # 设置 IPMI 网关。

Ipmitool user list 1  # 显示 IPMI 用户列表。
ipmitool user set name 2 admin #创建用户,一般服务器有默认的超级用户(root,admin,ADMIN),可以直接修改超级用户的密码,不用重新创建。
ipmitool user set password 3 xxxxxx  #创建密码
ipmitool channel setaccess 1 3 callin=on ipmi=on link=on privilege=4 #开权限 
ipmitool user list 1 # 查看chanenel1的用户信息

获取当前的电源状态:

ipmitool -I lan -H ip -U admin -P xxxxxx power status

开机:

ipmitool -I lanplus -H ip -U admin -P xxxxxx power on #如果服务器已经是在开机的情况下,再执行这个命令,服务器是不会重启的

重启:

ipmitool -I lanplus -H ip -U admin -P xxxxxx power reset #注意:机器在关机的情况下,这个reset命令用不了的。

冷重启:

ipmitool  -I lanplus -H  ip -U admin -P xxxxxx reset cold 

关机:

ipmitool -I lanplus -H ip -U admin -P xxxxxx power off

具体的每台节点的ip

一些重要的文件位置

软件的压缩包/项目文件放这里:

/share/apps/softwares/

软件对应的module模块的文件位置(需要配置该文件才能在module模块中使用):

/share/apps/modulefiles/

slurm配置文件路径:

/etc/slurm/slurm.conf
/usr/lib/systemd/system/slurmd.service

服务器登陆日志路径:

/var/log/secure

该网页的github项目:

https://github.com/scut-ccmp/lab-blog-source

其他可能用到的命令:

查看当前网络配置/网关地址:

netstat -r

查看UDP/TCP的开放端口:

netstat -nupl
netstat -ntpl

查看某个用户的所有进程:

ps -u cenyj

查看一级目录下的每个文件的硬盘占用:

du -h --max-depth=1