最近做项目,需要重新熟悉一下openstack,于是翻译一下openstack的白皮书,版权属于原作者。

开放基础设施赋能 AI:OpenStack 在下一代云中的角色

OpenStack for AI White Paper — 中文版

原文链接:https://www.openstack.org/openstack-for-ai-white-paper

作者:Mark Collier, General Manager, AI and Infrastructure, Linux Foundation 等(共 23 位作者)

许可证:Apache 2.0 | 支持组织:OpenInfra Foundation


一、引言:OpenStack 与 AI 基础设施变革

“AI 就像 1993 年的互联网。” —— Sinead Bovell(未来学家)

核心观点

AI 已从实验室和初创公司演示走向每个主要企业、政府和研究机构竞相采用的技术。这不仅是软件浪潮,而是基础设施的根本性转变。每次到达这样的转折点(互联网、云、现在 AI),都需要重新思考:计算、存储、网络

行业数据

数据点 内容
麦肯锡预测 到 2030 年,AI 工作负载将增长三倍以上,推动全球数据中心容量增加 124 吉瓦
Meta 规模 正在建造多吉瓦级园区用于训练 LLaMA 等 AI 模型
Google 规模 每月通过其 AI 基础设施处理一千万亿个 token
NVIDIA 实践 正在运行 OpenStack Swift 集群,每天摄取 PB 级数据用于内部模型训练

OpenStack 的 AI 能力演进

能力 说明
GPU 感知调度 已成熟部署
PCI 透传 支持直接 GPU 分配
vGPU 和 MIG 支持 NVIDIA 技术支持
SR-IOV AMD 支持
GPU 实例实时迁移 生产环境可用
Cyborg 项目 一流加速器管理框架

社区优势

  • 由实际运行 OpenStack 的人员构建
  • 新需求出现时不会被搁置在供应商路线图上
  • 过去三个 OpenStack 版本都包含 GPU 相关增强功能
  • 已加入 Linux Foundation 家族,与 Kubernetes、Kata Containers 等协作

二、核心应用场景

场景 1:基础模型训练与服务

重要性: 这是任何希望利用 AI 的组织的基础起点。

描述: 数据科学家和开发者被分配 GPU 和 CPU 资源,在 Jupyter Notebook 或 Visual Studio Code 等环境中开发和训练模型。训练好的模型随后部署到 API 服务器以集成到应用程序中。

所需组件:

组件 功能
多租户与资源隔离 (Keystone) 用户身份认证和项目隔离
可靠虚拟机配置 (Nova) 快速创建具有各种 CPU、内存和 GPU 规格的 VM
块存储和对象存储 (Cinder/Swift) 为训练数据集和模型制品提供稳定存储
基本网络 (Neutron) 配置虚拟网络环境
容器支持 (Magnum) 配置 Kubernetes 集群

场景 2:GPU 即服务(GPUaaS)平台

重要性: GPU 强大但极其昂贵,GPUaaS 就像"GPU 公寓楼"——用户可以租用虚拟 GPU 切片而非购买整张物理 GPU。

描述: 用户通过云门户或 API 分配具有特定要求(vGPU、MIG)的 GPU 到其 VM。管理员监控资源使用情况、应用计费策略,确保每个租户的工作完全隔离。

所需组件:

组件 功能
多租户与资源隔离 (Keystone) 用户身份认证和项目隔离
GPU 虚拟化 (vGPU/MIG) 将单个物理 GPU 分割为多个逻辑实例
智能 GPU 编排和调度 (Cyborg/Placement) 智能分配工作负载到最合适的 GPU
PCI 透传 将物理 GPU 直接分配给 VM 以保证最大性能
使用计量与计费 (Ceilometer/CloudKitty) 准确测量 GPU 资源使用并集成计费系统
自助服务门户 (Horizon) 基于 Web 的控制面板

场景 3:全自动化 MLOps 平台

重要性: 生产中的 AI 模型不是"设置后不管"的工具。MLOps 就像创建自动化的工业装配线——自动化整个流程,确保 AI 服务始终最新、可靠且能快速安全改进。

描述: 代码更改时,模型会自动测试、重新训练并在性能验证后部署到生产环境。如果检测到模型性能下降,会自动生成警报并触发重新训练管道。

所需组件:

组件 功能
CI/CD 管道集成 与 Jenkins 或 GitLab CI 等工具集成
工作流编排 (Kubeflow/Airflow) 管理复杂的训练和部署管道
模型和数据版本控制 (MLflow/DVC) 跟踪模型、数据和实验结果以确保可重现性
强大的网络和存储 与 Neutron、Cinder 和 Ceph 紧密集成

场景 4:高性能计算(HPC)集群用于大规模 AI 研究

重要性: 某些 AI 模型非常庞大,在单台计算机上训练可能需要数年。这是关于专门为 AI 构建超级计算机——用超高速连接连接数百或数千个 GPU。

描述: 研究人员使用 MPI 等并行计算框架在多个节点上分布式训练大型模型。基础设施经过优化以最小化 GPU 间通信延迟并快速处理海量数据集。

所需组件:

组件 功能
高速网络 (InfiniBand/RDMA) 利用 SR-IOV 等技术最小化通信瓶颈
高性能并行文件系统 (Lustre/BeeGFS) 支持对大规模训练数据的高速并行访问
裸金属配置 (Ironic) 消除虚拟化开销,最大化硬件性能
GPU 拓扑感知调度 考虑物理硬件架构优化放置

场景 5:AIoT 和边缘计算

重要性: 将所有智能设备数据发送到中央云通常太慢太贵,当决策必须在几分之一秒内完成时。这是关于将更小、高效的 AI 系统直接放到设备本身(“边缘”)。

描述: 边缘设备收集的数据在本地处理,而中央云根据这些数据重新训练模型并将更新后的模型部署回边缘。

所需组件:

组件 功能
分布式/轻量级架构 (如 StarlingX) 高效管理中央数据中心和多个边缘站点
专用边缘加速器支持 支持低功耗边缘设备和加速器
轻量级容器环境 (K3s/MicroK8s) 针对资源受限边缘环境的容器编排
中央到边缘的安全和管理 安全通信和远程部署能力

三、基础设施需求详解

3.1 加速计算

Cyborg —— 加速器管理框架

OpenStack Cyborg 通过提供专用的加速器管理服务填补空白,使 AI 工作负载能够高效部署在异构基础设施上。

功能 说明
发现和清单 自动检测计算节点上的 GPU、FPGA、NPU 和 SmartNIC
调度和放置 与 Placement 服务集成,确保工作负载调度到正确的节点
生命周期管理 提供 API 在实例创建和删除期间分配、绑定和释放加速器
供应商无关 支持 NVIDIA、AMD、Intel、Xilinx 等的可插拔驱动模型
Nova —— 计算服务引擎
版本 GPU 支持能力
Icehouse 起 GPU 透传(PCI passthrough)—— 允许将物理 GPU 直接分配给 VM
Queens 起 NVIDIA GRID 虚拟 GPU(vGPU)—— 单个物理 GPU 可在多个 VM 之间共享

3.2 GPU 启用技术

PCI 透传

优势:

  • 简单性和广泛兼容性
  • 基于 flavor 配置轻松向 VM 暴露 GPU
  • 支持异构 GPU 硬件集群
  • 供应商中立且无许可费用

注意事项:

  • 通过 PCI 透传分配的 GPU 专用于单个 VM,限制资源共享
  • 大规模集群管理可能变得复杂
  • 需要处理 IOMMU 组隔离等问题
NVIDIA vGPU vs MIG 对比
特性 vGPU MIG
类型 软件驱动的虚拟化 硬件强制分区机制
原理 时间和空间共享 GPU 将 GPU 分割为多个隔离的独立实例
隔离性 易受"吵闹邻居"问题影响 确定性、无干扰隔离
适用场景 VDI 和通用工作负载 延迟敏感推理、多租户云环境
推出时间 十多年前推出 2020 年随 NVIDIA Ampere 引入
AMD SR-IOV

AMD MxGPU 技术代表基于硬件的 GPU 虚拟化方法:

  • SR-IOV(Single Root I/O Virtualization): 从单个"物理功能"(PF) 创建"虚拟功能"(VF)
  • GIM 驱动: 主机端内核中介,管理 VF 的创建和配置
  • VF 驱动程序: 安装在 VM 中的 ROCm 软件栈组件

高速 GPU 互连技术:

技术 提供商 特点
NVLink NVIDIA 高带宽低延迟互连,绕过 PCIe 总线
Infinity Fabric AMD 可扩展互连架构,高吞吐量低延迟

3.3 存储

AI 工作负载呈现复杂存储挑战:海量数据集、高吞吐量需求和容错架构。Ceph 作为开源软件定义存储系统提供统一解决方案。

AI 工作负载三阶段存储需求:

阶段 存储需求
数据准备阶段 高吞吐量顺序读取;支持多种数据类型
模型训练阶段 持续高带宽;处理随机数据访问模式;检查点功能至关重要
推理服务阶段 低延迟访问模型和实时数据处理;处理并发请求
Ceph 存储接口
接口 用途
RBD 具有快照和精简配置的持久卷
RGW S3 兼容对象存储,适用于训练数据集和制品
CephFS 协作工作流和分布式训练
Manila 共享文件系统

研究行业的常见做法,支持基于角色的访问控制、分层、配额管理和快照创建。


3.4 网络

AI 常被描述为以数据为中心的学科,大量数据的高效移动带来网络挑战。

网络选项连续体(从便利性到性能):

层级 技术方案
标准半虚拟化网络 启用多队列等功能进行聚合吞吐量优化
高性能以太网 SR-IOV 和 Open vSwitch 硬件卸载
InfiniBand 网络 支持分区密钥的多租户网络隔离
裸金属计算 移除计算虚拟化开销,满足最高性能需求
Neutron 关键特性
特性 说明
服务质量 (QoS) 配置保证带宽和每秒数据包数的策略
SR-IOV 集成 物理网络设备功能的直接附加到 VM
DPDK 加速虚拟交换 高性能用户空间数据包处理
无状态安全组 性能增强的数据包过滤替代方案

四、指标采集

GPU 工作负载除了标准平台指标外还引入新的监控需求:

  • NVIDIA dcgm-exporter 等代理报告 GPU 性能、功率使用和利用率的详细信息
  • 完全设备 PCI 透传场景: 供应商代理无法在平台级别运行,必须在 VM 内部运行
  • GPU 虚拟化场景(vGPU/MIG/SR-IOV): 可以在计算节点 或 VM 内部 运行监控代理

五、AI 工作负载的服务模型

vLLM 概述

vLLM 作为高性能推理运行时,将原始 GPU 容量转换为优化的服务层。

核心创新:

创新 解决的问题 效果
PagedAttention 静态 KV cache 分配导致内存碎片化和 GPU 利用率差 引入 KV cache 的虚拟内存抽象
Continuous Batching 传统静态批处理导致 GPU 利用率不足 动态合并新请求到已运行的执行图

vLLM + OpenAI 兼容 API 的优势

  1. 降低迁移障碍: 企业可将工作负载从专有 SaaS 环境迁移到私有云
  2. 多云灵活性: 同一应用可根据成本、延迟或合规性要求选择部署位置

混合去中心化边缘 AI 云

  • 中央 OpenStack 云 = “大脑”:训练大型基础模型并推送更新
  • 边缘服务器 = “肢体”:执行低延迟推理
组件 技术实现
边缘微服务器 Nova 和 Cyborg 配置轻量级容器和专用边缘加速器
微秒级连接 Neutron 优化中央云与边缘节点之间的安全直接通信
分散式存储 Ceph 在边缘提供本地弹性存储

六、OpenStack 核心组件详解

Keystone —— 身份和访问管理

Keystone 在 AI 工作负载中充当安全骨干

能力 说明
保护数据和模型 精确定义谁能读取、写入或删除训练数据和模型文件
控制基础设施访问 确保只有授权人员才能启动昂贵的 GPU 资源
环境分隔 创建开发、测试和生产环境之间的严格边界
RBAC 定义一组角色规定允许的操作
应用凭据 特殊的非人类身份,具有细粒度角色和时间限制
合规和审计 全面操作日志,支持 GDPR、HIPAA 等合规标准

Horizon —— 统一 Web 仪表板

简化配置和管理计算、存储和网络资源的过程:

能力 实现方式
计算能力 通过 Nova 启动和管理具有 GPU 加速器的 VM
可扩展存储 Cinder(块存储)+ Swift(对象存储)
网络管理 创建私有网络、管理浮动 IP、配置安全组
可重现性 上传和使用预配置自定义镜像
资源和用户管理 通过 Keystone 管理用户、角色和配额

七、不断增长的 AI 支持

随着 AI 使用的扩展,OpenStack 将继续发展以满足新需求。

OpenInfra AI 工作组

  • 目标:揭示用例并增强 OpenInfra 项目支持 AI 工作负载的方式
  • 向 OpenInfra 社区开放,定期举行会议
  • 专注于案例研究和协作项目

八、生产案例研究与参考架构

案例 1:中国移动 ECloud

背景: OpenInfra 基金会金牌会员,中国移动通信集团旗下云计算品牌。

基础设施规模:

维度 数据
架构 “4+N+31+X” 分布式计算架构
总算力 20 EFlops
管理 CPU、DPU 和 GPU 统一管理和智能调度
国际市场 德国、巴基斯坦等推出公有云、私有云和边缘云

典型案例:

  • 利用当地清洁能源和高性能裸金属服务器集群为 AI 大模型训练和推理提供极致性能
  • 采用"租赁而非建设"模式,成为中国能源化工行业标杆案例
  • 被选为中国与上海合作组织国家数字经济合作典型案例

技术优势:

  • 自研 DPU 芯片提升第六代云主机性能高达 80%
  • 通用计算产品每核成本降低 55%
  • 千台机器规模的分钟级快速交付
  • 主机服务 SLA 高达 99.995%

案例 2:FPT Smart Cloud(越南)

通过 AI Factory 提供一系列可定制的 OpenStack 服务:

服务 技术实现
GPU H100/H200 裸金属即服务 OpenStack Ironic 驱动
GPU/vGPU 云实例 PCI-Passthrough 和 SRIOV 技术
GPU Kubernetes 引擎 OpenStack Magnum
GPU 容器即服务 NVIDIA MIG 技术
附加服务 负载均衡(Octavia)、自动扩缩容(Senlin)、存储备份(Cinder)

“与传统封闭源平台不同,OpenStack 赋予用户开放式创新、社区驱动开发和深度集成能力,专为 AI 需求量身定制。”


案例 3:Rackspace Technology

FAIR 方法学: 结合 OpenStack 的可扩展性和开放性,赋能客户安全高效地构建、部署和扩展 AI 工作负载。

GPU 启用方案:

产品 GPU 支持
OpenStack Flex(公有云) GPU 透传实例(A30、H100、P40)
OpenStack Business(混合云) GPU 透传实例
Rackspace Spot 托管的 GPU 启用 Kubernetes 集群
OpenStack Enterprise(私有云) 本地 AI 工作负载部署

案例 4:StackHPC - 6G AI Sweden(瑞典)

目标: 为瑞典公司提供世界一流的 AI 能力,同时保持绝对数据主权

硬件规格(基于 NVIDIA HGX):

组件 规格
GPU 8 × NVIDIA H200 GPUs
高速网络 8 × 400G NDR InfiniBand
本地存储 8 × NVMe 存储(每 GPU 本地)
以太网智能网卡 2 × 200G Bluefield-3

OpenStack 部署:

组件 实现
云配置 Kayobe(基础设施即代码)
AI 计算节点 Ironic(裸金属云)
多租户网络 OVN 实现的 Neutron
InfiniBand 网络 networking-mellanox 驱动 + NVIDIA UFM 集成
存储 VAST Data 支持 Glance、Cinder 和 Manila

案例 5:ZTE(中兴通讯)

三层软件架构:

层级 内容 说明
硬件基础设施层 GPU 服务器、RDMA 交换机、高性能存储 提供 AI 硬件设备
资源平台层 OpenStack 管理服务器、网络设备、存储对接
AI 平台层 Kubernetes + AI Studio 算力调度基础 + 自研 AI 工具链平台

典型应用:电信网络云

  • 中心训练,边缘推理
  • IT 资源池:OpenStack 分发虚拟机 + Ironic 裸金属
  • 训练场景:Baremetal 调度实现模型训练
  • 推理场景:应用运行在 VM 上,模型运行在 baremetal 上

九、总结

OpenStack 已经从传统的云计算平台演变为支撑 AI 工作负载的全功能开放基础设施。通过其丰富的生态系统——包括 GPU 调度(Cyborg/Nova)、弹性存储(Ceph/Manila)、高性能网络(Neutron/InfiniBank)、安全的多租户隔离(Keystone),以及统一管理界面(Horizon)——OpenStack 能够满足从基础模型训练到边缘 AI 推理的全方位需求。

全球领先企业(中国移动、FPT、Rackspace、StackHPC、中兴等)的生产实践证明,OpenStack 是构建安全、可靠、高性能 AI 基础设施的成熟选择。


文档版本:OpenStack 2026.1 Gazpacho
原文链接:https://www.openstack.org/openstack-for-ai-white-paper

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐