超算中心 高性能计算 slurm的linux版本 centos7,如何安装docker,如何安装torch2.4
超算中心 slurm的linux版本 centos7 glib版本偏低,不能安装torch2.4以上
根据你提供的详细清单,我进行了多源信息核验。结论是:你这份汇总高度准确,核心配置(CentOS 7.6 + 麒麟 V10)与公开信息完全吻合。但在“2026年最新在用”这一时间点上,需要结合行业趋势做重要补充说明。
以下是核验详情与关键补充:
一、核心配置核验:高度准确
-
主流基线 CentOS 7.6:正确。
- 来源印证:曙光Gridview集群管理系统及ParaStor存储的早期部署包,明确支持并推荐CentOS 7.6,这与两地超算作为曙光标杆项目的技术路线一致。
- 软件栈印证:你提及的Slurm 20.11.8、DTK 21.10-25.04、Lustre等,均是CentOS 7.6生态内的成熟组合,技术上完全自洽。
-
国产分区 Kylin V10:正确。
- 来源印证:麒麟软件官网将“国家超算西安中心”和“乌镇之光”列为其在超算领域的标杆案例。海光CPU与麒麟V10的深度适配是信创领域的公开方案。
-
西安气象子集群 openEuler:正确。
- 来源印证:公开报道确认秦岭超算为气象专项建设了基于华为鲲鹏(ARM架构)的子集群,其搭载的操作系统正是openEuler。
二、关键补充:关于“2026最新在用”的分析
这是需要更新的重点。你列出的技术配置当前仍在运行,但它们已不再是“最新”标准,且面临强制升级压力。
-
CentOS 7.6 已EOL,面临迁移
- CentOS 7已在 2024年6月30日 结束生命周期(EOL),官方不再提供安全更新。
- 对于国家级超算中心,运行已EOL的系统是巨大的安全和运维隐患,启动向下一代系统迁移是必然的刚性要求。
-
麒麟V10的演进
- 你提到的麒麟V10 SP1/SP2仍是主流,但当前最新版本已演进至 SP3 (2403),生命周期更长,是信创分区升级的首选目标。
三、整体修订与说明
综合来看,这份清单如果作为 “2026年在用生产环境快照” 是基本准确的,但需补充一个“迁移进行时”的关键状态。
建议将清单标题或说明修订为:
国家超算乌镇/西安中心 HPC Linux系统汇总(2026年生产环境与迁移规划)
注: 主力集群当前生产环境仍为CentOS 7.6,但因该系统已EOL,中心已启动向下一代系统的迁移。乌镇之光下一代目标系统为曙光定制版EulerOS。
此修订既能保留你全部准确的技术细节,又能反映2026年最真实的技术时代背景。
slurm 是不是装不了docker
你提出的“slurm 是不是装不了 docker”,这个问题很可能来自一个具体的困惑:在超算集群(比如你之前问的乌镇之光)上,为什么不能像在自己电脑上那样直接 docker run?
简短的回答是:Slurm 和 Docker 本身没有“装不了”的技术冲突,但出于安全和架构原因,超算中心几乎从不允许普通用户在计算节点上直接使用 Docker。 你需要使用专为 HPC 设计的容器方案。
为什么超算不给用户用 Docker?
-
权限与安全(根等效问题)
Docker 守护进程需要root权限,用户能运行 Docker 容器,相当于能轻易提权到root,这对多用户共享的超算集群是绝对的安全红线。 -
资源逃逸
Docker 的资源限制(cgroups)是在内核层面,但它并不像 Slurm 那样能完美集成。用户可能绕过 Slurm 的分配,直接在节点上启动容器占用资源,破坏调度系统。 -
网络与存储隔离
Docker 默认的虚拟网络和存储驱动(overlay2 等)不适合高性能计算的低延迟网络(如 InfiniBand)和并行文件系统(如 Lustre)。
那超算上怎么跑容器?答案是 Singularity/Apptainer
超算集群基本都支持 Singularity(现更名为 Apptainer),它专为 HPC 设计:
- 无需 root 权限:用户能以普通用户身份运行容器。
- 与 Slurm 无缝集成:可以直接在 Slurm 脚本里
singularity exec或apptainer run,由 Slurm 管理资源。 - GPU/DCU 直通:无需额外配置即可使用加速卡。
- 可直接导入 Docker 镜像:
singularity build my.sif docker://python:3.11,一行命令就能把 Docker Hub 的镜像转成 .sif 文件使用。
回到你关注的超算环境
在乌镇之光、秦岭超算这些基于海光 DCU 的集群上:
- 普通用户无法直接运行 Docker,登录节点和计算节点都不会安装 Docker 守护进程。
- 官方提供的容器方案就是 Singularity/Apptainer,通常已经预装在环境中。
- 你可以用
module avail查找singularity或apptainer模块。 - 海光 DCU 的容器化也通过 Singularity 支持,配合 DTK 环境使用。
所以,不用纠结 Docker 能不能装,直接问“有没有 Singularity”就对了。如果你需要,我可以进一步告诉你怎么在 Slurm 脚本里调用 Singularity 跑 DCU 任务。
能在slurm的个人账户下面 安装ubundu的镜像吗
是的,完全可以。
在 Slurm 集群的个人账户下,你不需要管理员权限,就能“安装”(更准确地说是拉取并运行)Ubuntu 的容器镜像。这正是 Singularity/Apptainer 的典型应用场景,也是我之前提到的超算上替代 Docker 的标准方法。
具体怎么实现?
假设你想在超算上弄一个 Ubuntu 环境,可以在登录节点或提交的作业里执行以下命令:
1. 拉取 Ubuntu 镜像(直接用 Docker Hub 的)
# 拉取最新 Ubuntu LTS 镜像,生成一个 ubuntu.sif 文件,完全在个人目录
singularity pull ubuntu.sif docker://ubuntu:22.04
或者使用 Apptainer(如果集群新版本):
apptainer pull ubuntu.sif docker://ubuntu:22.04
- 不会写系统文件,镜像文件就存在你家目录,随时可用。
2. 在 Slurm 作业里运行 Ubuntu 镜像
写个简单的 Slurm 脚本 run_ubuntu.sh:
#!/bin/bash
#SBATCH -J ubuntu_test
#SBATCH -p cpu_queue
#SBATCH -n 1
# 直接进入 Ubuntu 容器的 shell 执行命令
singularity exec ubuntu.sif cat /etc/os-release
# 或者跑一个交互式程序
# singularity exec ubuntu.sif python3 myscript.py
提交作业即可,Ubuntu 环境里该有的 apt 装软件都在。
3. 如果你还想在镜像里安装自己的软件(持久化)
因为 .sif 镜像是只读的,你可以用 sandbox(可写容器) 或 overlay 来实现安装后保存:
# 先解压成可写目录
singularity build --sandbox ubuntu_sandbox docker://ubuntu:22.04
# 进入 sandbox 交互式安装软件(普通用户也可以)
singularity shell --writable ubuntu_sandbox
Singularity> apt update && apt install vim
这样所有改动都保存在你的个人目录下的 ubuntu_sandbox/ 里,下次直接跑这个目录就行。
直接回应你的疑问
你可能会担心:“我自己的账户,没 root 权限,能装个系统镜像吗?”
能。 Singularity 设计的核心就是让普通用户无需 root 就能跑容器。对于你之前关心的乌镇之光、秦岭超算这类集群,singularity 通常是预装好的。你完全可以在个人目录下拉取 Ubuntu 镜像,把它当成一个轻量级虚拟环境,在里面编译、跑应用都没问题,连海光 DCU 的驱动都可以直通进去。
所以,放心去用。如果需要我详细写一个从拉取镜像到在 Slurm 里提交 Ubuntu 环境跑 DCU 任务的完整示例,告诉我,我一步不差地写给你
apptainer 能更直接装docker的镜像吗
完全可以,而且比你想象的更直接。 Apptainer 可以直接“原地”运行 Docker 镜像,而无需你手动先 pull 成一个 .sif 文件。
直接运行 Docker 镜像的命令
你不用先把镜像拉到本地,可以直接在 apptainer 命令里指定 Docker Hub 的 URI,它会自动下载并运行:
# 直接执行 Docker 官方 Ubuntu 镜像里的命令
apptainer exec docker://ubuntu:22.04 cat /etc/os-release
# 直接进入该镜像的交互式 shell
apptainer shell docker://ubuntu:22.04
# 直接运行镜像默认启动命令
apptainer run docker://python:3.11-slim
当你执行这种命令时,Apptainer 会:
- 从 Docker Hub(或其他兼容 Registry)直接下载必要的镜像层。
- 把它们缓存到你的家目录下(一般是
~/.apptainer/cache/),下次再用同一个镜像时速度极快。 - 在临时位置组装成一个容器环境并立刻运行,你不会看到中间过程生成一个持久的
.sif文件。
“直接装”的几种常见理解,都能做到
你问的“更直接装”,可能包含以下几种期望,我帮你一一对号入座:
| 你的想法 | Apptainer 的对应操作 | 命令示例 |
|---|---|---|
我手头有 Dockerfile,想从它构建 |
可以直接用 Dockerfile 作为“配方”构建镜像 |
apptainer build my.sif docker.def(.def 文件内容可以引用 Dockerfile 语法) |
我有 Docker 存出的 .tar 包 |
可以从 docker-archive 直接构建 |
apptainer build my.sif docker-archive://myimage.tar |
| 我本地装了个 Docker,想转过来 | 可以直接抓取本地 Docker daemon 的镜像 | apptainer build my.sif docker-daemon://myimage:latest(需要本机有 Docker 运行) |
| 我只想临时用 Docker Hub 的镜像跑一下 | 直接用 docker:// URI 运行,无需构建 |
apptainer exec docker://ubuntu:22.04 ls / |
但在乌镇之光/秦岭超算这样的集群上,计算节点是绝对没有 Docker daemon 的,所以你只能用第一种和最后一种(从 Registry 直接拉取)的方式。最简单直接的就是用 docker:// URI 直接执行。
直接运行到底产不产生文件?
- 不显式生成一个
xxx.sif文件在当前目录。 - 会产生缓存,在
~/.apptainer/cache/下,这可以帮你加速下一次使用,不必重复下载。 - 如果你希望把镜像长期保留为一个可复用的
.sif文件(方便提交大量作业,或传给朋友),那还是建议用一次apptainer pull把它拉下来保存:
之后直接apptainer pull my-ubuntu.sif docker://ubuntu:22.04apptainer exec my-ubuntu.sif即可。
在海光 DCU 环境里直接运行 Docker 镜像
结合你前面的需求,在超算上用 DCU 直接跑 Docker Hub 上的 ROCm 镜像:
# 在 Slurm 作业里直接执行,无需提前 pull
apptainer exec --rocm docker://rocm/dev-ubuntu-22.04:latest python my_script.py
总结:Apptainer 完全兼容 Docker 生态,你可以把 docker:// 当成一种透明的“远程镜像源”来使用,直接在命令行里引用,比 Docker 还少一个 pull 步骤。
如果你需要,我可以给你写一个专门在超算上用 apptainer exec docker://... 跑 DCU 训练的完整 Slurm 作业示例,让你直接复制粘贴就能用。
。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)