V3.2.8 数算岛开源智算平台(SSD-PAI) —— 异构算力统一调度、全流程研发工具链、多粒度GPU资源管理、在线开发环境、容器云架构、私有化部署、开源免费商用

如果对您有帮助,您可以点右上角 “Star” ❤ 支持一下谢谢!

📖 项目介绍

数算岛智算平台(SSD-PAI)是一款面向智能研发场景的开源一体化算力服务解决方案,代码全开源无加密,可免费商用,适合高校、科研院所、企业研发团队及开发者快速构建统一算力管理平台。平台针对传统算力场景中资源碎片化、用户需求多样化、运维管理工作量大、研发流程割裂等痛点,可整合零散异构算力资源进行统一管理与调度,化零为整提升算力整体利用率,为用户提供可伸缩、可定制、相对隔离且开箱即用的在线计算环境,完整支撑数据准备→运行环境→训练计算→成果归档复用的研发全流程,助力科研与研发效率提升。
在这里插入图片描述

技术架构

平台基于容器云微服务架构构建,前后端分离设计清晰,底层打通多类型异构算力资源,上层覆盖数据管理、环境定制、模型训练、成果沉淀全研发链路。依托Web化全在线能力,用户仅通过浏览器即可使用完整平台功能,实现任何人、任何时间、任何地点均可接入使用。同时平台架构灵活可扩展,支持私有化部署与功能定制,适配不同规模团队的算力管理需求,二次开发便捷高效。

核心功能

平台围绕算力管理与研发全流程设计核心能力,覆盖资源层、环境层、工具层、生态层全链路:

  • 异构算力统一管理调度
    可接入多集群算力资源,打破算力孤岛实现统一管控;支持不同型号GPU、CPU、内存等异构硬件的统一管理,用户可按需指定资源类型,平台自动完成调度分配,实现算力资源的整合与高效利用。
    在这里插入图片描述

  • 丰富便捷的在线研发环境
    内置云桌面、Jupyter、SSH、Web IDE、Web Terminal、低代码拖拉拽流程建模等多款开箱即用的算力使用环境,满足不同研发场景需求;支持一键导入社区开源Docker镜像,无需改动即可在线使用,大幅提升科研与开发效率。
    在这里插入图片描述

  • 全流程研发工具支撑
    提供数据标注、离线运行、训练记录、GPU分布式计算等工具与框架支持,完整覆盖数据准备→运行环境→模型训练→成果归档→成果复用的研发闭环,配套数据集、镜像、项目、模型全生命周期管理能力。
    在这里插入图片描述

  • 精细化资源配额管理
    管理员可针对用户/用户组设置资源总配额与单项目资源上限,对CPU、内存、GPU等资源用量进行精准管控;支持自动、手动、延迟等多种资源释放策略,可设置项目最长运行时长,到期自动回收资源,在保障用户使用的同时提升资源周转效率。
    在这里插入图片描述

  • 开放共享的研发生态
    支持模型、项目、数据集、软件镜像等科研成果的公开与复用,内置应用中心支持开发者发布服务与应用,促进成果交流与科研协作;配套多粒度资源监控能力,支撑团队协同研发与资源统筹。
    在这里插入图片描述

  • 多粒度GPU算力适配
    支持vGPU切分技术,实现单张显卡多用户同时使用;支持GPU分布式计算,满足单任务多卡并行的算力需求,灵活适配从个人轻量研发到大规模模型训练的不同场景。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

系统优势

  • 成熟稳定的容器云架构
    基于容器云架构构建资源调度体系,搭配微服务化的平台后端,资源调度灵活高效,系统稳定可靠,可承载大规模算力资源与多用户同时在线使用。
  • 全链路研发能力覆盖
    从数据管理、环境配置到模型训练、成果沉淀,平台提供完整的研发工具链,无需搭配多个第三方工具,一站式满足AI研发全流程需求。
  • 灵活精细的资源管控
    支持多维度配额管理与多样化释放策略,兼顾使用灵活性与资源利用率,适配团队级、部门级、院校级等不同规模的算力管理场景。
  • 低门槛开箱即用
    全Web化操作界面,预置大量主流镜像与算法模型,无需复杂的本地环境配置,浏览器接入即可开展研发工作,使用门槛低、上手速度快。
  • 开放共享的生态能力
    支持成果共享与应用发布,内置丰富的预设模型与算法,可快速复用社区开源资源,同时支持私有化镜像仓库,保障内部资产安全。
  • 高可用与灵活部署
    支持私有化部署,适配公有云、私有云、自有IDC等多种基础设施环境,架构可扩展,可随业务规模弹性扩容,满足不同阶段的使用需求。

💻 技术特点

运行环境及框架

  • 前端访问:全Web化设计,兼容主流浏览器,支持浏览器端直接使用全部功能
  • 后台服务:基于微服务架构与容器云技术构建,支持Docker容器化部署
  • 算力层:支持多型号GPU异构接入,兼容vGPU切分与分布式计算
  • 运行环境:支持Linux服务器部署,适配公有云、私有云、物理服务器等多种基础设施
  • 运行条件:Docker环境、Kubernetes集群、对应数据库与缓存服务

核心技术栈清单

1. 容器云调度:Docker + Kubernetes
2. 后端微服务:Spring Boot + Spring Cloud
3. 前端框架:Vue + ElementUI
4. 数据库:MySQL + Redis
5. GPU能力:vGPU切分 + 分布式计算支持
6. 开发环境:Jupyter + Web IDE + 云桌面
7. 镜像管理:私有化镜像仓库
8. 资源监控:多粒度资源监控与告警

平台核心模块

1. ssdpai-control     控制中心服务   平台核心管控与业务调度
2. ssdpai-scheduler   资源调度服务   算力资源分配与生命周期管理
3. ssdpai-datamgr     数据管理服务   数据集上传、预览与标注管理
4. ssdpai-model       模型管理服务   模型仓库与成果入库管理
5. ssdpai-image       镜像管理服务   镜像定制与私有仓库管理
6. ssdpai-web         WEB程序        PC端管理与研发前端工程
7. ssdpai-docs        文档           部署文档、使用文档、二开文档
8. ssdpai-deploy      部署脚本       容器化部署与环境配置脚本

系统演示

📚 项目资料

资料支持

  • 源码仓库:https://github.com/roinli/SSD-GPU-POOL Github主仓库 与 Gitee 镜像仓库同步更新
  • 使用文档:部署完成后可查看平台内置使用指南
  • 部署文档:配套详细的容器化部署教程与环境配置说明
  • 二开文档:支持基于开源源码进行功能定制与扩展

部署说明

平台支持容器化快速部署,参照部署文档配置对应基础设施后,即可完成平台搭建,快速上线使用。

🎨 核心功能全景图

🔴 算力服务 🟠 研发支撑 🟡 资源管理 🟢 平台能力
异构算力统一接入 Jupyter在线环境 多维度配额管理 全Web化访问
vGPU切分调度 Web IDE开发环境 资源释放策略 多租户隔离
GPU分布式计算 3D云桌面环境 运行时长管控 团队协同支持
多集群统一管理 SSH远程连接 用量统计监控 离线任务支持
资源弹性伸缩 低代码流程建模 项目资源上限 插件扩展能力
硬件状态监控 Web终端工具 用户组权限管理 页面风格定制
🔵 数据与模型 🟣 镜像与环境 🟤 部署与运维 ⚫ 生态与价值
多源数据集管理 预置主流镜像 容器化部署 成果共享复用
数据在线预览 在线镜像定制 私有化部署 应用中心生态
数据在线标注 私有镜像仓库 系统监控告警 研发效率提升
预设算法模型 Docker镜像兼容 备份与恢复 算力利用率提升
模型入库管理 环境一键复用 日志管理 研发流程闭环
模型文件预览 环境版本追溯 定时任务 降低运维成本

文慧的科技江湖

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐