HPC HPCSoft.cn
菜单

HPC 运维

Slurm 作业调度系统安装与配置服务

为单节点服务器或小型集群配置 munge、slurm.conf、分区、用户作业测试和基础运维说明。

适用对象

  • 课题组服务器管理员
  • 多用户共享服务器团队
  • 小型集群用户

支持系统与软件

系统

Rocky Linux / CentOS / Ubuntu

软件

Slurm / Munge / NFS / MariaDB

服务内容

  • Munge 密钥配置
  • slurmctld/slurmd 配置
  • 分区与资源策略
  • 用户提交测试
  • 常见 drain 原因排查

交付物

  • slurm.conf 说明
  • 服务状态检查命令
  • sbatch/srun 测试脚本

不包含内容

  • 不提供商业软件破解、许可证绕过或未经授权安装介质
  • 不承诺在特定硬件上达到理论极限性能
  • 不替代课题组自行购买服务器、软件授权或云资源

验收方式

  • sinfo/squeue 正常
  • 普通用户可提交测试作业
  • 节点状态符合约定

常见问题

单节点也需要 Slurm 吗?

多人共享、需要排队和资源隔离时,单节点 Slurm 也有价值。