ComputePilot 系列(一):从登录到数据中心,快速认识 GPU/HPC 控制平台
写在前面
最近升级了ComputePilot 这套 GPU/HPC 管理平台。把节点、GPU、任务、工作流、推理服务、数据集、模型、存储、用户权限和运维能力放在同一个 Web 控制台里,适合用来统一管理实验室、团队或小型集群的计算资源。
一、登录入口:管理员进入控制台
打开平台地址后,首先看到的是 ComputePilot 登录页。页面很简洁,只有用户名、密码和登录按钮。登录完成后,系统会进入后台控制台,并在右上角显示当前用户角色和调度后端。

二、数据中心:先看资源全貌
登录后的默认页面是“数据中心”。这是平台最适合作为首页的地方,因为它把资源状态、任务状态和节点健康情况集中展示出来。
在当前环境里,数据中心展示了 1 个健康节点、8 个 CPU 核心、15.6 GB 内存、1 张 GPU、195.8 GB 总存储,以及当前运行任务数量。对于管理员来说,这一屏可以快速回答三个问题:集群是否在线、资源是否空闲、是否有任务正在占用资源。
数据中心顶部还提供了综合、处理器、显卡、内存、磁盘、网络几个监控分类。后续排查性能问题时,可以直接从这里切换到对应维度查看。

三、平台功能地图
从左侧导航可以看出,ComputePilot 的功能不是单点工具,而是一套围绕计算任务生命周期设计的控制台。大致可以分为以下几类:
|
模块 |
功能入口 |
适合关注的问题 |
|
数据中心 |
综合、处理器、显卡、内存、磁盘、网络 |
资源是否健康,CPU/GPU/内存/磁盘/网络是否有压力 |
|
资源管理 |
CPU 节点、GPU 节点、GPU/MIG 管理、存储管理 |
节点如何接入,GPU 如何分配,存储空间如何管理 |
|
任务中心 |
任务调度、工作流编排、推理服务 |
训练、批处理、Jupyter、推理服务和流程任务如何运行 |
|
数据与环境 |
数据集、模型库、环境管理、计算应用库 |
数据、模型、运行环境和应用模板如何沉淀复用 |
|
用户与权限 |
用户管理、配额计量、审批管理 |
多用户资源配额、权限和审批流程如何控制 |
|
运维管理 |
集群管理、监控告警、日志审计、AI 助手、报表 |
集群状态、告警、审计日志和报表如何查看 |
|
系统 |
API 服务、配置、更新、关于、授权 |
平台集成、系统配置、版本升级和授权如何管理 |
四、任务调度:后续最值得展开的一条主线
任务调度页是平台的核心工作区之一。它可以查看任务 ID、用户、任务名称、类型、状态、资源申请、调度 ID 和服务映射。列表中还提供日志、克隆配置、一键重跑、取消等操作入口。
从页面说明可以看到,这里覆盖批处理、Jupyter、预约、抢占和存储脚本任务。也就是说,用户不仅可以提交普通训练任务,还能围绕交互式开发、定时运行、资源预约和失败后复现实验做管理。

五、GPU/MIG 管理:看清显卡资源怎么被使用
GPU/MIG 管理页适合管理员查看 GPU 的实际可用情况。当前页面展示了服务器、集群、GPU 编号、型号、MIG、显存、利用率、温度、功耗、状态、当前任务和 MIG 剩余容量。

六、存储管理:计算任务离不开数据空间
存储管理页展示了当前用户的配额、已用空间、剩余空间和当前目录。示例中 admin/default 空间配额为 20.0 GB,已用 3.30 GB,剩余 16.7 GB。
页面还提供新增共享存储、空间分配、文件管理和共享文件能力。管理员可以配置 NFS 共享存储,给用户分配空间;普通使用者则可以在文件管理区域上传、下载、新建、编辑和共享文件。
这让 ComputePilot 不只是任务提交入口,也能承接数据、脚本和结果文件的日常管理。

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)