HPC 运维
Slurm 作业调度系统安装与配置服务
为单节点服务器或小型集群配置 munge、slurm.conf、分区、用户作业测试和基础运维说明。
适用对象
- 课题组服务器管理员
- 多用户共享服务器团队
- 小型集群用户
支持系统与软件
系统
Rocky Linux / CentOS / Ubuntu
软件
Slurm / Munge / NFS / MariaDB
服务内容
- Munge 密钥配置
- slurmctld/slurmd 配置
- 分区与资源策略
- 用户提交测试
- 常见 drain 原因排查
交付物
- slurm.conf 说明
- 服务状态检查命令
- sbatch/srun 测试脚本
不包含内容
- 不提供商业软件破解、许可证绕过或未经授权安装介质
- 不承诺在特定硬件上达到理论极限性能
- 不替代课题组自行购买服务器、软件授权或云资源
验收方式
- sinfo/squeue 正常
- 普通用户可提交测试作业
- 节点状态符合约定
常见问题
单节点也需要 Slurm 吗?
多人共享、需要排队和资源隔离时,单节点 Slurm 也有价值。