错误现象
sinfo 显示节点为 drain,作业无法调度到该节点。
典型报错
TODO:记录 sinfo -R 和 scontrol show node 输出。
可能原因
- 管理员手动 drain。
- slurmd 异常或配置不一致。
- 硬件资源与 slurm.conf 不匹配。
- 作业触发节点健康检查失败。
排查命令
TODO:检查 slurmctld/slurmd 日志、节点资源和服务状态。
解决步骤
先确认 drain reason,再修复根因,最后由管理员恢复节点状态。
验证方法
节点回到 idle 或 alloc 状态,并可提交测试作业。
相关服务入口
参见 /services/slurm-install。