开放基础设施赋能 AI:OpenStack 在下一代云中的角色
最近做项目,需要重新熟悉一下openstack,于是翻译一下openstack的白皮书,版权属于原作者。
开放基础设施赋能 AI:OpenStack 在下一代云中的角色
OpenStack for AI White Paper — 中文版
原文链接:https://www.openstack.org/openstack-for-ai-white-paper
作者:Mark Collier, General Manager, AI and Infrastructure, Linux Foundation 等(共 23 位作者)
许可证:Apache 2.0 | 支持组织:OpenInfra Foundation
一、引言:OpenStack 与 AI 基础设施变革
“AI 就像 1993 年的互联网。” —— Sinead Bovell(未来学家)
核心观点
AI 已从实验室和初创公司演示走向每个主要企业、政府和研究机构竞相采用的技术。这不仅是软件浪潮,而是基础设施的根本性转变。每次到达这样的转折点(互联网、云、现在 AI),都需要重新思考:计算、存储、网络。
行业数据
| 数据点 | 内容 |
|---|---|
| 麦肯锡预测 | 到 2030 年,AI 工作负载将增长三倍以上,推动全球数据中心容量增加 124 吉瓦 |
| Meta 规模 | 正在建造多吉瓦级园区用于训练 LLaMA 等 AI 模型 |
| Google 规模 | 每月通过其 AI 基础设施处理一千万亿个 token |
| NVIDIA 实践 | 正在运行 OpenStack Swift 集群,每天摄取 PB 级数据用于内部模型训练 |
OpenStack 的 AI 能力演进
| 能力 | 说明 |
|---|---|
| GPU 感知调度 | 已成熟部署 |
| PCI 透传 | 支持直接 GPU 分配 |
| vGPU 和 MIG 支持 | NVIDIA 技术支持 |
| SR-IOV | AMD 支持 |
| GPU 实例实时迁移 | 生产环境可用 |
| Cyborg 项目 | 一流加速器管理框架 |
社区优势
- 由实际运行 OpenStack 的人员构建
- 新需求出现时不会被搁置在供应商路线图上
- 过去三个 OpenStack 版本都包含 GPU 相关增强功能
- 已加入 Linux Foundation 家族,与 Kubernetes、Kata Containers 等协作
二、核心应用场景
场景 1:基础模型训练与服务
重要性: 这是任何希望利用 AI 的组织的基础起点。
描述: 数据科学家和开发者被分配 GPU 和 CPU 资源,在 Jupyter Notebook 或 Visual Studio Code 等环境中开发和训练模型。训练好的模型随后部署到 API 服务器以集成到应用程序中。
所需组件:
| 组件 | 功能 |
|---|---|
| 多租户与资源隔离 (Keystone) | 用户身份认证和项目隔离 |
| 可靠虚拟机配置 (Nova) | 快速创建具有各种 CPU、内存和 GPU 规格的 VM |
| 块存储和对象存储 (Cinder/Swift) | 为训练数据集和模型制品提供稳定存储 |
| 基本网络 (Neutron) | 配置虚拟网络环境 |
| 容器支持 (Magnum) | 配置 Kubernetes 集群 |
场景 2:GPU 即服务(GPUaaS)平台
重要性: GPU 强大但极其昂贵,GPUaaS 就像"GPU 公寓楼"——用户可以租用虚拟 GPU 切片而非购买整张物理 GPU。
描述: 用户通过云门户或 API 分配具有特定要求(vGPU、MIG)的 GPU 到其 VM。管理员监控资源使用情况、应用计费策略,确保每个租户的工作完全隔离。
所需组件:
| 组件 | 功能 |
|---|---|
| 多租户与资源隔离 (Keystone) | 用户身份认证和项目隔离 |
| GPU 虚拟化 (vGPU/MIG) | 将单个物理 GPU 分割为多个逻辑实例 |
| 智能 GPU 编排和调度 (Cyborg/Placement) | 智能分配工作负载到最合适的 GPU |
| PCI 透传 | 将物理 GPU 直接分配给 VM 以保证最大性能 |
| 使用计量与计费 (Ceilometer/CloudKitty) | 准确测量 GPU 资源使用并集成计费系统 |
| 自助服务门户 (Horizon) | 基于 Web 的控制面板 |
场景 3:全自动化 MLOps 平台
重要性: 生产中的 AI 模型不是"设置后不管"的工具。MLOps 就像创建自动化的工业装配线——自动化整个流程,确保 AI 服务始终最新、可靠且能快速安全改进。
描述: 代码更改时,模型会自动测试、重新训练并在性能验证后部署到生产环境。如果检测到模型性能下降,会自动生成警报并触发重新训练管道。
所需组件:
| 组件 | 功能 |
|---|---|
| CI/CD 管道集成 | 与 Jenkins 或 GitLab CI 等工具集成 |
| 工作流编排 (Kubeflow/Airflow) | 管理复杂的训练和部署管道 |
| 模型和数据版本控制 (MLflow/DVC) | 跟踪模型、数据和实验结果以确保可重现性 |
| 强大的网络和存储 | 与 Neutron、Cinder 和 Ceph 紧密集成 |
场景 4:高性能计算(HPC)集群用于大规模 AI 研究
重要性: 某些 AI 模型非常庞大,在单台计算机上训练可能需要数年。这是关于专门为 AI 构建超级计算机——用超高速连接连接数百或数千个 GPU。
描述: 研究人员使用 MPI 等并行计算框架在多个节点上分布式训练大型模型。基础设施经过优化以最小化 GPU 间通信延迟并快速处理海量数据集。
所需组件:
| 组件 | 功能 |
|---|---|
| 高速网络 (InfiniBand/RDMA) | 利用 SR-IOV 等技术最小化通信瓶颈 |
| 高性能并行文件系统 (Lustre/BeeGFS) | 支持对大规模训练数据的高速并行访问 |
| 裸金属配置 (Ironic) | 消除虚拟化开销,最大化硬件性能 |
| GPU 拓扑感知调度 | 考虑物理硬件架构优化放置 |
场景 5:AIoT 和边缘计算
重要性: 将所有智能设备数据发送到中央云通常太慢太贵,当决策必须在几分之一秒内完成时。这是关于将更小、高效的 AI 系统直接放到设备本身(“边缘”)。
描述: 边缘设备收集的数据在本地处理,而中央云根据这些数据重新训练模型并将更新后的模型部署回边缘。
所需组件:
| 组件 | 功能 |
|---|---|
| 分布式/轻量级架构 (如 StarlingX) | 高效管理中央数据中心和多个边缘站点 |
| 专用边缘加速器支持 | 支持低功耗边缘设备和加速器 |
| 轻量级容器环境 (K3s/MicroK8s) | 针对资源受限边缘环境的容器编排 |
| 中央到边缘的安全和管理 | 安全通信和远程部署能力 |
三、基础设施需求详解
3.1 加速计算
Cyborg —— 加速器管理框架
OpenStack Cyborg 通过提供专用的加速器管理服务填补空白,使 AI 工作负载能够高效部署在异构基础设施上。
| 功能 | 说明 |
|---|---|
| 发现和清单 | 自动检测计算节点上的 GPU、FPGA、NPU 和 SmartNIC |
| 调度和放置 | 与 Placement 服务集成,确保工作负载调度到正确的节点 |
| 生命周期管理 | 提供 API 在实例创建和删除期间分配、绑定和释放加速器 |
| 供应商无关 | 支持 NVIDIA、AMD、Intel、Xilinx 等的可插拔驱动模型 |
Nova —— 计算服务引擎
| 版本 | GPU 支持能力 |
|---|---|
| Icehouse 起 | GPU 透传(PCI passthrough)—— 允许将物理 GPU 直接分配给 VM |
| Queens 起 | NVIDIA GRID 虚拟 GPU(vGPU)—— 单个物理 GPU 可在多个 VM 之间共享 |
3.2 GPU 启用技术
PCI 透传
优势:
- 简单性和广泛兼容性
- 基于 flavor 配置轻松向 VM 暴露 GPU
- 支持异构 GPU 硬件集群
- 供应商中立且无许可费用
注意事项:
- 通过 PCI 透传分配的 GPU 专用于单个 VM,限制资源共享
- 大规模集群管理可能变得复杂
- 需要处理 IOMMU 组隔离等问题
NVIDIA vGPU vs MIG 对比
| 特性 | vGPU | MIG |
|---|---|---|
| 类型 | 软件驱动的虚拟化 | 硬件强制分区机制 |
| 原理 | 时间和空间共享 GPU | 将 GPU 分割为多个隔离的独立实例 |
| 隔离性 | 易受"吵闹邻居"问题影响 | 确定性、无干扰隔离 |
| 适用场景 | VDI 和通用工作负载 | 延迟敏感推理、多租户云环境 |
| 推出时间 | 十多年前推出 | 2020 年随 NVIDIA Ampere 引入 |
AMD SR-IOV
AMD MxGPU 技术代表基于硬件的 GPU 虚拟化方法:
- SR-IOV(Single Root I/O Virtualization): 从单个"物理功能"(PF) 创建"虚拟功能"(VF)
- GIM 驱动: 主机端内核中介,管理 VF 的创建和配置
- VF 驱动程序: 安装在 VM 中的 ROCm 软件栈组件
高速 GPU 互连技术:
| 技术 | 提供商 | 特点 |
|---|---|---|
| NVLink | NVIDIA | 高带宽低延迟互连,绕过 PCIe 总线 |
| Infinity Fabric | AMD | 可扩展互连架构,高吞吐量低延迟 |
3.3 存储
AI 工作负载呈现复杂存储挑战:海量数据集、高吞吐量需求和容错架构。Ceph 作为开源软件定义存储系统提供统一解决方案。
AI 工作负载三阶段存储需求:
| 阶段 | 存储需求 |
|---|---|
| 数据准备阶段 | 高吞吐量顺序读取;支持多种数据类型 |
| 模型训练阶段 | 持续高带宽;处理随机数据访问模式;检查点功能至关重要 |
| 推理服务阶段 | 低延迟访问模型和实时数据处理;处理并发请求 |
Ceph 存储接口
| 接口 | 用途 |
|---|---|
| RBD | 具有快照和精简配置的持久卷 |
| RGW | S3 兼容对象存储,适用于训练数据集和制品 |
| CephFS | 协作工作流和分布式训练 |
Manila 共享文件系统
研究行业的常见做法,支持基于角色的访问控制、分层、配额管理和快照创建。
3.4 网络
AI 常被描述为以数据为中心的学科,大量数据的高效移动带来网络挑战。
网络选项连续体(从便利性到性能):
| 层级 | 技术方案 |
|---|---|
| 标准半虚拟化网络 | 启用多队列等功能进行聚合吞吐量优化 |
| 高性能以太网 | SR-IOV 和 Open vSwitch 硬件卸载 |
| InfiniBand 网络 | 支持分区密钥的多租户网络隔离 |
| 裸金属计算 | 移除计算虚拟化开销,满足最高性能需求 |
Neutron 关键特性
| 特性 | 说明 |
|---|---|
| 服务质量 (QoS) | 配置保证带宽和每秒数据包数的策略 |
| SR-IOV 集成 | 物理网络设备功能的直接附加到 VM |
| DPDK 加速虚拟交换 | 高性能用户空间数据包处理 |
| 无状态安全组 | 性能增强的数据包过滤替代方案 |
四、指标采集
GPU 工作负载除了标准平台指标外还引入新的监控需求:
- NVIDIA dcgm-exporter 等代理报告 GPU 性能、功率使用和利用率的详细信息
- 完全设备 PCI 透传场景: 供应商代理无法在平台级别运行,必须在 VM 内部运行
- GPU 虚拟化场景(vGPU/MIG/SR-IOV): 可以在计算节点 或 VM 内部 运行监控代理
五、AI 工作负载的服务模型
vLLM 概述
vLLM 作为高性能推理运行时,将原始 GPU 容量转换为优化的服务层。
核心创新:
| 创新 | 解决的问题 | 效果 |
|---|---|---|
| PagedAttention | 静态 KV cache 分配导致内存碎片化和 GPU 利用率差 | 引入 KV cache 的虚拟内存抽象 |
| Continuous Batching | 传统静态批处理导致 GPU 利用率不足 | 动态合并新请求到已运行的执行图 |
vLLM + OpenAI 兼容 API 的优势
- 降低迁移障碍: 企业可将工作负载从专有 SaaS 环境迁移到私有云
- 多云灵活性: 同一应用可根据成本、延迟或合规性要求选择部署位置
混合去中心化边缘 AI 云
- 中央 OpenStack 云 = “大脑”:训练大型基础模型并推送更新
- 边缘服务器 = “肢体”:执行低延迟推理
| 组件 | 技术实现 |
|---|---|
| 边缘微服务器 | Nova 和 Cyborg 配置轻量级容器和专用边缘加速器 |
| 微秒级连接 | Neutron 优化中央云与边缘节点之间的安全直接通信 |
| 分散式存储 | Ceph 在边缘提供本地弹性存储 |
六、OpenStack 核心组件详解
Keystone —— 身份和访问管理
Keystone 在 AI 工作负载中充当安全骨干:
| 能力 | 说明 |
|---|---|
| 保护数据和模型 | 精确定义谁能读取、写入或删除训练数据和模型文件 |
| 控制基础设施访问 | 确保只有授权人员才能启动昂贵的 GPU 资源 |
| 环境分隔 | 创建开发、测试和生产环境之间的严格边界 |
| RBAC | 定义一组角色规定允许的操作 |
| 应用凭据 | 特殊的非人类身份,具有细粒度角色和时间限制 |
| 合规和审计 | 全面操作日志,支持 GDPR、HIPAA 等合规标准 |
Horizon —— 统一 Web 仪表板
简化配置和管理计算、存储和网络资源的过程:
| 能力 | 实现方式 |
|---|---|
| 计算能力 | 通过 Nova 启动和管理具有 GPU 加速器的 VM |
| 可扩展存储 | Cinder(块存储)+ Swift(对象存储) |
| 网络管理 | 创建私有网络、管理浮动 IP、配置安全组 |
| 可重现性 | 上传和使用预配置自定义镜像 |
| 资源和用户管理 | 通过 Keystone 管理用户、角色和配额 |
七、不断增长的 AI 支持
随着 AI 使用的扩展,OpenStack 将继续发展以满足新需求。
OpenInfra AI 工作组
- 目标:揭示用例并增强 OpenInfra 项目支持 AI 工作负载的方式
- 向 OpenInfra 社区开放,定期举行会议
- 专注于案例研究和协作项目
八、生产案例研究与参考架构
案例 1:中国移动 ECloud
背景: OpenInfra 基金会金牌会员,中国移动通信集团旗下云计算品牌。
基础设施规模:
| 维度 | 数据 |
|---|---|
| 架构 | “4+N+31+X” 分布式计算架构 |
| 总算力 | 20 EFlops |
| 管理 | CPU、DPU 和 GPU 统一管理和智能调度 |
| 国际市场 | 德国、巴基斯坦等推出公有云、私有云和边缘云 |
典型案例:
- 利用当地清洁能源和高性能裸金属服务器集群为 AI 大模型训练和推理提供极致性能
- 采用"租赁而非建设"模式,成为中国能源化工行业标杆案例
- 被选为中国与上海合作组织国家数字经济合作典型案例
技术优势:
- 自研 DPU 芯片提升第六代云主机性能高达 80%
- 通用计算产品每核成本降低 55%
- 千台机器规模的分钟级快速交付
- 主机服务 SLA 高达 99.995%
案例 2:FPT Smart Cloud(越南)
通过 AI Factory 提供一系列可定制的 OpenStack 服务:
| 服务 | 技术实现 |
|---|---|
| GPU H100/H200 裸金属即服务 | OpenStack Ironic 驱动 |
| GPU/vGPU 云实例 | PCI-Passthrough 和 SRIOV 技术 |
| GPU Kubernetes 引擎 | OpenStack Magnum |
| GPU 容器即服务 | NVIDIA MIG 技术 |
| 附加服务 | 负载均衡(Octavia)、自动扩缩容(Senlin)、存储备份(Cinder) |
“与传统封闭源平台不同,OpenStack 赋予用户开放式创新、社区驱动开发和深度集成能力,专为 AI 需求量身定制。”
案例 3:Rackspace Technology
FAIR 方法学: 结合 OpenStack 的可扩展性和开放性,赋能客户安全高效地构建、部署和扩展 AI 工作负载。
GPU 启用方案:
| 产品 | GPU 支持 |
|---|---|
| OpenStack Flex(公有云) | GPU 透传实例(A30、H100、P40) |
| OpenStack Business(混合云) | GPU 透传实例 |
| Rackspace Spot | 托管的 GPU 启用 Kubernetes 集群 |
| OpenStack Enterprise(私有云) | 本地 AI 工作负载部署 |
案例 4:StackHPC - 6G AI Sweden(瑞典)
目标: 为瑞典公司提供世界一流的 AI 能力,同时保持绝对数据主权
硬件规格(基于 NVIDIA HGX):
| 组件 | 规格 |
|---|---|
| GPU | 8 × NVIDIA H200 GPUs |
| 高速网络 | 8 × 400G NDR InfiniBand |
| 本地存储 | 8 × NVMe 存储(每 GPU 本地) |
| 以太网智能网卡 | 2 × 200G Bluefield-3 |
OpenStack 部署:
| 组件 | 实现 |
|---|---|
| 云配置 | Kayobe(基础设施即代码) |
| AI 计算节点 | Ironic(裸金属云) |
| 多租户网络 | OVN 实现的 Neutron |
| InfiniBand 网络 | networking-mellanox 驱动 + NVIDIA UFM 集成 |
| 存储 | VAST Data 支持 Glance、Cinder 和 Manila |
案例 5:ZTE(中兴通讯)
三层软件架构:
| 层级 | 内容 | 说明 |
|---|---|---|
| 硬件基础设施层 | GPU 服务器、RDMA 交换机、高性能存储 | 提供 AI 硬件设备 |
| 资源平台层 | OpenStack | 管理服务器、网络设备、存储对接 |
| AI 平台层 | Kubernetes + AI Studio | 算力调度基础 + 自研 AI 工具链平台 |
典型应用:电信网络云
- 中心训练,边缘推理
- IT 资源池:OpenStack 分发虚拟机 + Ironic 裸金属
- 训练场景:Baremetal 调度实现模型训练
- 推理场景:应用运行在 VM 上,模型运行在 baremetal 上
九、总结
OpenStack 已经从传统的云计算平台演变为支撑 AI 工作负载的全功能开放基础设施。通过其丰富的生态系统——包括 GPU 调度(Cyborg/Nova)、弹性存储(Ceph/Manila)、高性能网络(Neutron/InfiniBank)、安全的多租户隔离(Keystone),以及统一管理界面(Horizon)——OpenStack 能够满足从基础模型训练到边缘 AI 推理的全方位需求。
全球领先企业(中国移动、FPT、Rackspace、StackHPC、中兴等)的生产实践证明,OpenStack 是构建安全、可靠、高性能 AI 基础设施的成熟选择。
文档版本:OpenStack 2026.1 Gazpacho
原文链接:https://www.openstack.org/openstack-for-ai-white-paper
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)