写在前面

        最近升级了ComputePilot 这套 GPU/HPC 管理平台。把节点、GPU、任务、工作流、推理服务、数据集、模型、存储、用户权限和运维能力放在同一个 Web 控制台里,适合用来统一管理实验室、团队或小型集群的计算资源。

一、登录入口:管理员进入控制台

         打开平台地址后,首先看到的是 ComputePilot 登录页。页面很简洁,只有用户名、密码和登录按钮。登录完成后,系统会进入后台控制台,并在右上角显示当前用户角色和调度后端。

二、数据中心:先看资源全貌

        登录后的默认页面是“数据中心”。这是平台最适合作为首页的地方,因为它把资源状态、任务状态和节点健康情况集中展示出来。

        在当前环境里,数据中心展示了 1 个健康节点、8 个 CPU 核心、15.6 GB 内存、1 张 GPU、195.8 GB 总存储,以及当前运行任务数量。对于管理员来说,这一屏可以快速回答三个问题:集群是否在线、资源是否空闲、是否有任务正在占用资源。

        数据中心顶部还提供了综合、处理器、显卡、内存、磁盘、网络几个监控分类。后续排查性能问题时,可以直接从这里切换到对应维度查看。

三、平台功能地图

        从左侧导航可以看出,ComputePilot 的功能不是单点工具,而是一套围绕计算任务生命周期设计的控制台。大致可以分为以下几类:

模块

功能入口

适合关注的问题

数据中心

综合、处理器、显卡、内存、磁盘、网络

资源是否健康,CPU/GPU/内存/磁盘/网络是否有压力

资源管理

CPU 节点、GPU 节点、GPU/MIG 管理、存储管理

节点如何接入,GPU 如何分配,存储空间如何管理

任务中心

任务调度、工作流编排、推理服务

训练、批处理、Jupyter、推理服务和流程任务如何运行

数据与环境

数据集、模型库、环境管理、计算应用库

数据、模型、运行环境和应用模板如何沉淀复用

用户与权限

用户管理、配额计量、审批管理

多用户资源配额、权限和审批流程如何控制

运维管理

集群管理、监控告警、日志审计、AI 助手、报表

集群状态、告警、审计日志和报表如何查看

系统

API 服务、配置、更新、关于、授权

平台集成、系统配置、版本升级和授权如何管理

四、任务调度:后续最值得展开的一条主线

        任务调度页是平台的核心工作区之一。它可以查看任务 ID、用户、任务名称、类型、状态、资源申请、调度 ID 和服务映射。列表中还提供日志、克隆配置、一键重跑、取消等操作入口。

        从页面说明可以看到,这里覆盖批处理、Jupyter、预约、抢占和存储脚本任务。也就是说,用户不仅可以提交普通训练任务,还能围绕交互式开发、定时运行、资源预约和失败后复现实验做管理。

五、GPU/MIG 管理:看清显卡资源怎么被使用

       GPU/MIG 管理页适合管理员查看 GPU 的实际可用情况。当前页面展示了服务器、集群、GPU 编号、型号、MIG、显存、利用率、温度、功耗、状态、当前任务和 MIG 剩余容量。

六、存储管理:计算任务离不开数据空间

        存储管理页展示了当前用户的配额、已用空间、剩余空间和当前目录。示例中 admin/default 空间配额为 20.0 GB,已用 3.30 GB,剩余 16.7 GB。

        页面还提供新增共享存储、空间分配、文件管理和共享文件能力。管理员可以配置 NFS 共享存储,给用户分配空间;普通使用者则可以在文件管理区域上传、下载、新建、编辑和共享文件。

这让 ComputePilot 不只是任务提交入口,也能承接数据、脚本和结果文件的日常管理。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐