问题背景
一台服务器多人共享时,直接登录运行任务容易造成资源抢占。单节点 Slurm 可以把 CPU、内存、GPU 和作业队列纳入统一管理。
适用环境
适用于课题组共享服务器、GPU 工作站和教学服务器。
安装步骤
- TODO:确认主机名、CPU、内存、GPU 信息。
- TODO:安装 munge 和 slurm。
- TODO:生成并分发配置文件。
- TODO:设置 systemd 服务和普通用户测试。
验证命令
TODO:记录 sinfo、squeue、srun hostname 和 sbatch 测试结果。
常见错误
常见问题包括 munge key 不一致、NodeName 不匹配、服务未启动、普通用户无权限提交。
解决方法
先保证 munge 正常,再检查 slurmctld 和 slurmd 日志,不要只看客户端命令输出。
服务入口
HPCSoft.cn 可提供 Slurm 单节点或小型集群配置服务。
免责声明
配置模板需按现场环境调整。