HPC HPCSoft.cn
菜单

Slurm 节点进入 drain 状态

排查 Slurm 节点 drain 的原因字段、日志、恢复命令和硬件状态。

错误现象

sinfo 显示节点为 drain,作业无法调度到该节点。

典型报错

TODO:记录 sinfo -Rscontrol show node 输出。

可能原因

  • 管理员手动 drain。
  • slurmd 异常或配置不一致。
  • 硬件资源与 slurm.conf 不匹配。
  • 作业触发节点健康检查失败。

排查命令

TODO:检查 slurmctld/slurmd 日志、节点资源和服务状态。

解决步骤

先确认 drain reason,再修复根因,最后由管理员恢复节点状态。

验证方法

节点回到 idle 或 alloc 状态,并可提交测试作业。

相关服务入口

参见 /services/slurm-install

仍无法解决?

请提供系统版本、硬件配置、软件名称与版本、权限情况、报错日志和期望完成时间。