HPC HPCSoft.cn
菜单

Slurm CR_Core_Memory 资源选择的理解框架

解释 Slurm 中 CPU 与内存资源绑定策略的排查思路,避免作业资源分配混乱。

更新:2026-05-24 · 分类:Slurm · 难度:较难

问题背景

Slurm 的 SelectTypeParameters 会影响 CPU、核心和内存的分配方式。配置不清楚时,用户看到的可用资源与实际分配可能不一致。

适用环境

适用于多人共享节点、小型集群和需要控制内存申请的服务器。

安装步骤

  1. TODO:阅读当前 slurm.conf 中 SelectType 相关配置。
  2. TODO:确认节点 CPU 拓扑和内存。
  3. TODO:用短作业测试不同申请方式。

验证命令

TODO:记录 scontrol show configscontrol show node 与测试作业输出。

常见错误

包括作业申请内存后无法启动、CPU 数显示异常、用户误以为 --mem 是全局参数。

解决方法

修改资源选择策略前应先备份配置,并在测试分区验证。

服务入口

可协助排查 Slurm 作业资源申请和节点状态问题。

免责声明

生产集群调整需管理员确认维护窗口。