问题背景
Slurm 的 SelectTypeParameters 会影响 CPU、核心和内存的分配方式。配置不清楚时,用户看到的可用资源与实际分配可能不一致。
适用环境
适用于多人共享节点、小型集群和需要控制内存申请的服务器。
安装步骤
- TODO:阅读当前
slurm.conf中 SelectType 相关配置。 - TODO:确认节点 CPU 拓扑和内存。
- TODO:用短作业测试不同申请方式。
验证命令
TODO:记录 scontrol show config、scontrol show node 与测试作业输出。
常见错误
包括作业申请内存后无法启动、CPU 数显示异常、用户误以为 --mem 是全局参数。
解决方法
修改资源选择策略前应先备份配置,并在测试分区验证。
服务入口
可协助排查 Slurm 作业资源申请和节点状态问题。
免责声明
生产集群调整需管理员确认维护窗口。