开放基础设施赋能 AI：OpenStack 在下一代云中的角色

eucalytus

416人浏览 · 2026-05-01 01:28:07

eucalytus · 2026-05-01 01:28:07 发布

最近做项目，需要重新熟悉一下openstack，于是翻译一下openstack的白皮书，版权属于原作者。

开放基础设施赋能 AI：OpenStack 在下一代云中的角色

OpenStack for AI White Paper — 中文版

原文链接：https://www.openstack.org/openstack-for-ai-white-paper

作者：Mark Collier, General Manager, AI and Infrastructure, Linux Foundation 等（共 23 位作者）

许可证：Apache 2.0 | 支持组织：OpenInfra Foundation

一、引言：OpenStack 与 AI 基础设施变革

“AI 就像 1993 年的互联网。” —— Sinead Bovell（未来学家）

核心观点

AI 已从实验室和初创公司演示走向每个主要企业、政府和研究机构竞相采用的技术。这不仅是软件浪潮，而是基础设施的根本性转变。每次到达这样的转折点（互联网、云、现在 AI），都需要重新思考：计算、存储、网络。

行业数据

数据点	内容
麦肯锡预测	到 2030 年，AI 工作负载将增长三倍以上，推动全球数据中心容量增加 124 吉瓦
Meta 规模	正在建造多吉瓦级园区用于训练 LLaMA 等 AI 模型
Google 规模	每月通过其 AI 基础设施处理一千万亿个 token
NVIDIA 实践	正在运行 OpenStack Swift 集群，每天摄取 PB 级数据用于内部模型训练

OpenStack 的 AI 能力演进

能力	说明
GPU 感知调度	已成熟部署
PCI 透传	支持直接 GPU 分配
vGPU 和 MIG 支持	NVIDIA 技术支持
SR-IOV	AMD 支持
GPU 实例实时迁移	生产环境可用
Cyborg 项目	一流加速器管理框架

社区优势

由实际运行 OpenStack 的人员构建
新需求出现时不会被搁置在供应商路线图上
过去三个 OpenStack 版本都包含 GPU 相关增强功能
已加入 Linux Foundation 家族，与 Kubernetes、Kata Containers 等协作

二、核心应用场景

场景 1：基础模型训练与服务

重要性： 这是任何希望利用 AI 的组织的基础起点。

描述： 数据科学家和开发者被分配 GPU 和 CPU 资源，在 Jupyter Notebook 或 Visual Studio Code 等环境中开发和训练模型。训练好的模型随后部署到 API 服务器以集成到应用程序中。

所需组件：

组件	功能
多租户与资源隔离 (Keystone)	用户身份认证和项目隔离
可靠虚拟机配置 (Nova)	快速创建具有各种 CPU、内存和 GPU 规格的 VM
块存储和对象存储 (Cinder/Swift)	为训练数据集和模型制品提供稳定存储
基本网络 (Neutron)	配置虚拟网络环境
容器支持 (Magnum)	配置 Kubernetes 集群

场景 2：GPU 即服务（GPUaaS）平台

重要性： GPU 强大但极其昂贵，GPUaaS 就像"GPU 公寓楼"——用户可以租用虚拟 GPU 切片而非购买整张物理 GPU。

描述： 用户通过云门户或 API 分配具有特定要求（vGPU、MIG）的 GPU 到其 VM。管理员监控资源使用情况、应用计费策略，确保每个租户的工作完全隔离。

所需组件：

组件	功能
多租户与资源隔离 (Keystone)	用户身份认证和项目隔离
GPU 虚拟化 (vGPU/MIG)	将单个物理 GPU 分割为多个逻辑实例
智能 GPU 编排和调度 (Cyborg/Placement)	智能分配工作负载到最合适的 GPU
PCI 透传	将物理 GPU 直接分配给 VM 以保证最大性能
使用计量与计费 (Ceilometer/CloudKitty)	准确测量 GPU 资源使用并集成计费系统
自助服务门户 (Horizon)	基于 Web 的控制面板

场景 3：全自动化 MLOps 平台

重要性： 生产中的 AI 模型不是"设置后不管"的工具。MLOps 就像创建自动化的工业装配线——自动化整个流程，确保 AI 服务始终最新、可靠且能快速安全改进。

描述： 代码更改时，模型会自动测试、重新训练并在性能验证后部署到生产环境。如果检测到模型性能下降，会自动生成警报并触发重新训练管道。

所需组件：

组件	功能
CI/CD 管道集成	与 Jenkins 或 GitLab CI 等工具集成
工作流编排 (Kubeflow/Airflow)	管理复杂的训练和部署管道
模型和数据版本控制 (MLflow/DVC)	跟踪模型、数据和实验结果以确保可重现性
强大的网络和存储	与 Neutron、Cinder 和 Ceph 紧密集成

场景 4：高性能计算（HPC）集群用于大规模 AI 研究

重要性： 某些 AI 模型非常庞大，在单台计算机上训练可能需要数年。这是关于专门为 AI 构建超级计算机——用超高速连接连接数百或数千个 GPU。

描述： 研究人员使用 MPI 等并行计算框架在多个节点上分布式训练大型模型。基础设施经过优化以最小化 GPU 间通信延迟并快速处理海量数据集。

所需组件：

组件	功能
高速网络 (InfiniBand/RDMA)	利用 SR-IOV 等技术最小化通信瓶颈
高性能并行文件系统 (Lustre/BeeGFS)	支持对大规模训练数据的高速并行访问
裸金属配置 (Ironic)	消除虚拟化开销，最大化硬件性能
GPU 拓扑感知调度	考虑物理硬件架构优化放置

场景 5：AIoT 和边缘计算

重要性： 将所有智能设备数据发送到中央云通常太慢太贵，当决策必须在几分之一秒内完成时。这是关于将更小、高效的 AI 系统直接放到设备本身（“边缘”）。

描述： 边缘设备收集的数据在本地处理，而中央云根据这些数据重新训练模型并将更新后的模型部署回边缘。

所需组件：

组件	功能
分布式/轻量级架构 (如 StarlingX)	高效管理中央数据中心和多个边缘站点
专用边缘加速器支持	支持低功耗边缘设备和加速器
轻量级容器环境 (K3s/MicroK8s)	针对资源受限边缘环境的容器编排
中央到边缘的安全和管理	安全通信和远程部署能力

三、基础设施需求详解

3.1 加速计算

Cyborg —— 加速器管理框架

OpenStack Cyborg 通过提供专用的加速器管理服务填补空白，使 AI 工作负载能够高效部署在异构基础设施上。

功能	说明
发现和清单	自动检测计算节点上的 GPU、FPGA、NPU 和 SmartNIC
调度和放置	与 Placement 服务集成，确保工作负载调度到正确的节点
生命周期管理	提供 API 在实例创建和删除期间分配、绑定和释放加速器
供应商无关	支持 NVIDIA、AMD、Intel、Xilinx 等的可插拔驱动模型

Nova —— 计算服务引擎

版本	GPU 支持能力
Icehouse 起	GPU 透传（PCI passthrough）—— 允许将物理 GPU 直接分配给 VM
Queens 起	NVIDIA GRID 虚拟 GPU（vGPU）—— 单个物理 GPU 可在多个 VM 之间共享

3.2 GPU 启用技术

PCI 透传

优势：

简单性和广泛兼容性
基于 flavor 配置轻松向 VM 暴露 GPU
支持异构 GPU 硬件集群
供应商中立且无许可费用

注意事项：

通过 PCI 透传分配的 GPU 专用于单个 VM，限制资源共享
大规模集群管理可能变得复杂
需要处理 IOMMU 组隔离等问题

NVIDIA vGPU vs MIG 对比

特性	vGPU	MIG
类型	软件驱动的虚拟化	硬件强制分区机制
原理	时间和空间共享 GPU	将 GPU 分割为多个隔离的独立实例
隔离性	易受"吵闹邻居"问题影响	确定性、无干扰隔离
适用场景	VDI 和通用工作负载	延迟敏感推理、多租户云环境
推出时间	十多年前推出	2020 年随 NVIDIA Ampere 引入

AMD SR-IOV

AMD MxGPU 技术代表基于硬件的 GPU 虚拟化方法：

SR-IOV（Single Root I/O Virtualization）： 从单个"物理功能"(PF) 创建"虚拟功能"(VF)
GIM 驱动： 主机端内核中介，管理 VF 的创建和配置
VF 驱动程序： 安装在 VM 中的 ROCm 软件栈组件

高速 GPU 互连技术：

技术	提供商	特点
NVLink	NVIDIA	高带宽低延迟互连，绕过 PCIe 总线
Infinity Fabric	AMD	可扩展互连架构，高吞吐量低延迟

3.3 存储

AI 工作负载呈现复杂存储挑战：海量数据集、高吞吐量需求和容错架构。Ceph 作为开源软件定义存储系统提供统一解决方案。

AI 工作负载三阶段存储需求：

阶段	存储需求
数据准备阶段	高吞吐量顺序读取；支持多种数据类型
模型训练阶段	持续高带宽；处理随机数据访问模式；检查点功能至关重要
推理服务阶段	低延迟访问模型和实时数据处理；处理并发请求

Ceph 存储接口

接口	用途
RBD	具有快照和精简配置的持久卷
RGW	S3 兼容对象存储，适用于训练数据集和制品
CephFS	协作工作流和分布式训练

Manila 共享文件系统

研究行业的常见做法，支持基于角色的访问控制、分层、配额管理和快照创建。

3.4 网络

AI 常被描述为以数据为中心的学科，大量数据的高效移动带来网络挑战。

网络选项连续体（从便利性到性能）：

层级	技术方案
标准半虚拟化网络	启用多队列等功能进行聚合吞吐量优化
高性能以太网	SR-IOV 和 Open vSwitch 硬件卸载
InfiniBand 网络	支持分区密钥的多租户网络隔离
裸金属计算	移除计算虚拟化开销，满足最高性能需求

Neutron 关键特性

特性	说明
服务质量 (QoS)	配置保证带宽和每秒数据包数的策略
SR-IOV 集成	物理网络设备功能的直接附加到 VM
DPDK 加速虚拟交换	高性能用户空间数据包处理
无状态安全组	性能增强的数据包过滤替代方案

四、指标采集

GPU 工作负载除了标准平台指标外还引入新的监控需求：

NVIDIA dcgm-exporter 等代理报告 GPU 性能、功率使用和利用率的详细信息
完全设备 PCI 透传场景： 供应商代理无法在平台级别运行，必须在 VM 内部运行
GPU 虚拟化场景（vGPU/MIG/SR-IOV）： 可以在计算节点 或 VM 内部 运行监控代理

五、AI 工作负载的服务模型

vLLM 概述

vLLM 作为高性能推理运行时，将原始 GPU 容量转换为优化的服务层。

核心创新：

创新	解决的问题	效果
PagedAttention	静态 KV cache 分配导致内存碎片化和 GPU 利用率差	引入 KV cache 的虚拟内存抽象
Continuous Batching	传统静态批处理导致 GPU 利用率不足	动态合并新请求到已运行的执行图

vLLM + OpenAI 兼容 API 的优势

降低迁移障碍： 企业可将工作负载从专有 SaaS 环境迁移到私有云
多云灵活性： 同一应用可根据成本、延迟或合规性要求选择部署位置

混合去中心化边缘 AI 云

中央 OpenStack 云 = “大脑”：训练大型基础模型并推送更新
边缘服务器 = “肢体”：执行低延迟推理

组件	技术实现
边缘微服务器	Nova 和 Cyborg 配置轻量级容器和专用边缘加速器
微秒级连接	Neutron 优化中央云与边缘节点之间的安全直接通信
分散式存储	Ceph 在边缘提供本地弹性存储

六、OpenStack 核心组件详解

Keystone —— 身份和访问管理

Keystone 在 AI 工作负载中充当安全骨干：

能力	说明
保护数据和模型	精确定义谁能读取、写入或删除训练数据和模型文件
控制基础设施访问	确保只有授权人员才能启动昂贵的 GPU 资源
环境分隔	创建开发、测试和生产环境之间的严格边界
RBAC	定义一组角色规定允许的操作
应用凭据	特殊的非人类身份，具有细粒度角色和时间限制
合规和审计	全面操作日志，支持 GDPR、HIPAA 等合规标准

Horizon —— 统一 Web 仪表板

简化配置和管理计算、存储和网络资源的过程：

能力	实现方式
计算能力	通过 Nova 启动和管理具有 GPU 加速器的 VM
可扩展存储	Cinder（块存储）+ Swift（对象存储）
网络管理	创建私有网络、管理浮动 IP、配置安全组
可重现性	上传和使用预配置自定义镜像
资源和用户管理	通过 Keystone 管理用户、角色和配额

七、不断增长的 AI 支持

随着 AI 使用的扩展，OpenStack 将继续发展以满足新需求。

OpenInfra AI 工作组

目标：揭示用例并增强 OpenInfra 项目支持 AI 工作负载的方式
向 OpenInfra 社区开放，定期举行会议
专注于案例研究和协作项目

八、生产案例研究与参考架构

案例 1：中国移动 ECloud

背景： OpenInfra 基金会金牌会员，中国移动通信集团旗下云计算品牌。

基础设施规模：

维度	数据
架构	“4+N+31+X” 分布式计算架构
总算力	20 EFlops
管理	CPU、DPU 和 GPU 统一管理和智能调度
国际市场	德国、巴基斯坦等推出公有云、私有云和边缘云

典型案例：

利用当地清洁能源和高性能裸金属服务器集群为 AI 大模型训练和推理提供极致性能
采用"租赁而非建设"模式，成为中国能源化工行业标杆案例
被选为中国与上海合作组织国家数字经济合作典型案例

技术优势：

自研 DPU 芯片提升第六代云主机性能高达 80%
通用计算产品每核成本降低 55%
千台机器规模的分钟级快速交付
主机服务 SLA 高达 99.995%

案例 2：FPT Smart Cloud（越南）

通过 AI Factory 提供一系列可定制的 OpenStack 服务：

服务	技术实现
GPU H100/H200 裸金属即服务	OpenStack Ironic 驱动
GPU/vGPU 云实例	PCI-Passthrough 和 SRIOV 技术
GPU Kubernetes 引擎	OpenStack Magnum
GPU 容器即服务	NVIDIA MIG 技术
附加服务	负载均衡(Octavia)、自动扩缩容(Senlin)、存储备份(Cinder)

“与传统封闭源平台不同，OpenStack 赋予用户开放式创新、社区驱动开发和深度集成能力，专为 AI 需求量身定制。”

案例 3：Rackspace Technology

FAIR 方法学： 结合 OpenStack 的可扩展性和开放性，赋能客户安全高效地构建、部署和扩展 AI 工作负载。

GPU 启用方案：

产品	GPU 支持
OpenStack Flex（公有云）	GPU 透传实例（A30、H100、P40）
OpenStack Business（混合云）	GPU 透传实例
Rackspace Spot	托管的 GPU 启用 Kubernetes 集群
OpenStack Enterprise（私有云）	本地 AI 工作负载部署

案例 4：StackHPC - 6G AI Sweden（瑞典）

目标： 为瑞典公司提供世界一流的 AI 能力，同时保持绝对数据主权

硬件规格（基于 NVIDIA HGX）：

组件	规格
GPU	8 × NVIDIA H200 GPUs
高速网络	8 × 400G NDR InfiniBand
本地存储	8 × NVMe 存储（每 GPU 本地）
以太网智能网卡	2 × 200G Bluefield-3

OpenStack 部署：

组件	实现
云配置	Kayobe（基础设施即代码）
AI 计算节点	Ironic（裸金属云）
多租户网络	OVN 实现的 Neutron
InfiniBand 网络	networking-mellanox 驱动 + NVIDIA UFM 集成
存储	VAST Data 支持 Glance、Cinder 和 Manila

案例 5：ZTE（中兴通讯）

三层软件架构：

层级	内容	说明
硬件基础设施层	GPU 服务器、RDMA 交换机、高性能存储	提供 AI 硬件设备
资源平台层	OpenStack	管理服务器、网络设备、存储对接
AI 平台层	Kubernetes + AI Studio	算力调度基础 + 自研 AI 工具链平台

典型应用：电信网络云

中心训练，边缘推理
IT 资源池：OpenStack 分发虚拟机 + Ironic 裸金属
训练场景：Baremetal 调度实现模型训练
推理场景：应用运行在 VM 上，模型运行在 baremetal 上

九、总结

OpenStack 已经从传统的云计算平台演变为支撑 AI 工作负载的全功能开放基础设施。通过其丰富的生态系统——包括 GPU 调度（Cyborg/Nova）、弹性存储（Ceph/Manila）、高性能网络（Neutron/InfiniBank）、安全的多租户隔离（Keystone），以及统一管理界面（Horizon）——OpenStack 能够满足从基础模型训练到边缘 AI 推理的全方位需求。

全球领先企业（中国移动、FPT、Rackspace、StackHPC、中兴等）的生产实践证明，OpenStack 是构建安全、可靠、高性能 AI 基础设施的成熟选择。

文档版本：OpenStack 2026.1 Gazpacho
原文链接：https://www.openstack.org/openstack-for-ai-white-paper