阿里云盘古存储系统：EB级分布式存储的架构革命与技术突破

2401_83558630

500人浏览 · 2026-05-14 11:40:32

2401_83558630 · 2026-05-14 11:40:32 发布

一、盘古存储系统的战略定位与技术演进

盘古（Pangu）是阿里云飞天操作系统中的核心存储底座，也是整个阿里云体系里最关键的基础设施之一。很多人理解阿里云时，往往会先想到 ECS、OSS、数据库、CDN、AI 平台这些上层产品，但实际上这些云服务背后真正负责“数据落地”的核心，就是盘古存储系统。它承担的不仅仅是“存文件”这么简单，而是整个阿里云数百万服务器、海量数据中心、万亿级对象规模背后的统一数据基础设施。

如果把神龙看作阿里云的计算内核，把洛神看作云网络核心，那么盘古就是整个阿里云的数据生命线。

盘古最初诞生于阿里集团“去 IOE”时期。当年淘宝、支付宝业务高速增长，传统高端存储设备已经无法满足阿里对于规模、成本、扩展性以及可靠性的要求。阿里云最终选择完全自研分布式存储体系，希望在普通 X86 服务器之上，实现类似 EMC、NetApp、IBM 小型机级别的高可靠存储能力。

盘古最早采用的是典型的 Client-Master-ChunkServer 架构，核心思想与 Google GFS 有相似之处，但随着阿里业务规模爆炸式增长，传统中心化元数据管理已经无法支撑数十万节点规模，因此盘古开始进入全面分布式演进阶段。

从盘古 1.0 到盘古 2.0，整个架构发生了非常大的变化。

早期盘古主要依赖三副本机制保证可靠性，虽然性能高，但存储成本极大。随着阿里云规模进入 EB 时代，仅靠副本已经无法控制成本，因此盘古开始大量引入纠删码（EC）机制，并且针对不同数据冷热程度动态切换编码策略。

传统云厂商很多只做 Reed-Solomon EC，但盘古进一步做了：

LRC 局部恢复、智能调度、热冷数据分层、动态 EC 切换、跨机架容错域优化、恢复流量削峰、在线无感迁移、冷热混合编码等大量深度优化，使其不仅降低了存储冗余成本，还大幅提升了故障恢复速度。尤其是在单节点故障场景下，LRC 可以只恢复局部数据块，而不是像传统 RS 那样全量重建，大幅减少网络带宽消耗与恢复时间。

随着阿里云全面进入云原生时代，盘古也不再只是“存储系统”，而是逐渐演化为统一数据平台。现在的盘古已经同时支撑：

块存储 EBS
对象存储 OSS
文件存储 NAS
表格存储 TableStore
MaxCompute 大数据平台
PolarDB
云原生 Kubernetes 持久卷
AI 训练数据集
湖仓一体架构

这意味着盘古并不是一个单纯的分布式文件系统，而是整个阿里云数据基础设施的统一底层。

目前盘古单集群已经可以支持十万台服务器级别扩展，整体部署规模达到 EB 级，文件数量达到万亿级别，数据可靠性达到 12 个 9（99.9999999999%），远高于传统企业级存储系统。

更重要的是，盘古不是单纯的软件系统，而是深度软硬一体化架构。

它与阿里云自研的：

神龙虚拟化
CIPU
洛神网络
RDMA
SmartNIC
NVMe ZNS SSD
SPDK 用户态 IO
自研 SSD 控制器

进行了深度融合。

尤其是在 RDMA 与 NVMe over Fabrics 引入后，盘古存储延迟已经从毫秒级进入微秒级时代。

目前盘古 4KB 随机读 P99 延迟已经能够做到 80 微秒左右，而传统企业级分布式存储很多仍然停留在 300~800 微秒区间。

IOPS 更是达到 300 万级别。

这意味着现在的盘古已经不仅仅是“大容量存储”，而是真正进入高性能云原生存储时代。

二、盘古 2.0 架构深度解析

盘古 2.0 最大的变化，其实是“去中心化”。

早期分布式存储很多都存在中心节点瓶颈，例如：

NameNode
Metadata Master
Controller
Central Scheduler

一旦元数据规模达到一定程度，就会出现：

热点
锁竞争
扩展困难
跨地域同步问题
主节点故障风险

因此盘古 2.0 最大升级之一，就是全面分布式元数据管理。

盘古将 Volume 作为逻辑管理单元，每个 Volume 对应不同元数据分区，再通过一致性哈希、Raft、多副本日志同步实现水平扩展。

整个 MetaServer 不再是单点，而是一个完全分布式元数据集群。

每个 Volume 会动态映射到不同 MetaServer 节点：

自动负载均衡
自动故障切换
自动迁移
自动扩缩容

从而避免传统中心化元数据瓶颈。

在数据层，盘古采用 ChunkServer 管理实际数据块。

每个 Chunk 默认 64MB 左右。

数据写入时并不是简单“落盘”，而是经过：

WAL 日志
校验和验证
多副本同步
Quorum 提交
Lease 主副本确认
异步刷盘
后台压缩
EC 编码

等完整链路。

尤其是主副本 Lease 机制，是盘古高性能写入的重要关键。

只有拥有 Lease 的 Primary Replica 才允许执行写入操作，其余副本负责同步，从而避免传统强一致分布式存储里的大量锁竞争。

与此同时，盘古还做了大量数据路径优化。

例如：

零拷贝 IO
用户态存储栈
RDMA 直通
SPDK 加速
Batch Commit
Pipeline Replication
多队列 NVMe 并行

这些优化本质上都是为了减少：

CPU 上下文切换
Kernel Trap
Buffer Copy
网络中断
IO Wait

因为在超大规模分布式存储里，真正的瓶颈很多时候不是磁盘，而是 CPU 与网络。

尤其是在 AI 训练场景下，GPU 集群对数据吞吐要求极高。

如果存储无法提供稳定高带宽，GPU 很容易空转。

因此盘古后来进一步引入：

RDMA 网络
RoCE
NVMe-oF
GPU Direct Storage

来降低训练数据读取延迟。

目前很多阿里云 AI 集群，其实已经实现：

GPU → RDMA → NVMe

的近直通数据链路。

这也是为什么现在 AI 对存储系统要求越来越高。

因为 AI 时代真正的问题已经不是“算力够不够”，而是：

“数据喂不喂得进去”。

三、盘古的核心技术突破

盘古真正厉害的地方，其实不只是“规模大”，而是它在超大规模下还能保持：

高一致性
高可靠性
高性能
高扩展性

这背后其实涉及大量底层算法优化。

例如在一致性协议层面，盘古没有直接照搬传统 Paxos，而是做了大量 Multi-Paxos 深度优化。

包括：

Batch Propose
Pipeline Replication
Lease Fast Path
Fast Quorum
Parallel Accept
Latency-aware Replica Selection

这些优化本质上都是为了降低网络 RTT。

因为传统 Paxos 最大问题就是：

“消息太多”。

而盘古通过租约机制，在 Lease 有效期间可以跳过 Prepare 阶段，直接进入 Accept 阶段，大幅减少网络往返。

与此同时，盘古还会根据节点 RTT 动态选择最快副本组成 Fast Quorum。

这意味着：

不同副本并不是“地位平等”的。

系统会优先选择低延迟节点参与快速提交。

这也是盘古微秒级延迟的重要原因之一。

另外一个非常关键的技术，就是动态纠删码。

很多传统存储系统的 EC 策略是固定的。

写进去是什么编码，后面一直都不变。

但盘古会根据：

访问频率
生命周期
数据大小
热度变化
业务类型

动态切换 EC 策略。

例如：

热点数据可能采用：

三副本
LRC

因为恢复速度快。

温数据可能采用：

RS(10,4)

平衡成本与可靠性。

冷数据则可能采用：

ZK-16-3
高密度 EC

最大化存储效率。

并且整个切换过程是：

在线
动态
无感知

的。

这其实是非常难的。

因为 EC 切换意味着数据重编码。

而重编码本身会带来：

网络压力
CPU 压力
IO 压力

因此盘古内部还有专门的数据迁移调度系统。

会动态分析：

网络利用率
机器负载
数据冷热
故障概率
磁盘健康度

再决定什么时候迁移。

这已经不只是传统存储，而更像一个大型“智能数据操作系统”。

四、12 个 9 的可靠性体系

很多人会疑惑：

为什么盘古能做到 12 个 9？

其实这背后并不是靠单一技术，而是多层保护机制叠加。

盘古的数据保护体系包括：

数据校验
多副本
纠删码
跨机架容灾
跨数据中心复制
静默错误检测
后台 Scrub
自动修复
实时快照
异地备份
主动故障预测

例如磁盘坏道并不一定会立刻报错。

有些属于 Silent Data Corruption。

也就是：

“数据坏了，但系统不知道”。

因此盘古会定期后台扫描所有 Chunk：

校验 CRC
对比 Checksum
检查 Metadata
验证 EC Block

发现异常后自动修复。

同时，盘古还有 AI 驱动的故障预测系统。

它会分析：

SMART 信息
IO 延迟
ECC 错误
温度
电源波动
网络异常

提前预测硬盘故障概率。

很多时候磁盘还没真正坏掉，系统已经提前完成数据迁移。

这也是大规模云存储和普通企业 NAS 最大区别之一。

传统企业存储很多是：

“坏了再修”。

而盘古属于：

“预测后提前修”。

另外，在跨地域容灾层面，盘古支持：

同城双活
两地三中心
异地多活

即使整个机房故障，也不会影响数据可用性。

对于金融、支付、电商核心业务来说，这是必须的。

因为淘宝、支付宝这种业务，本质上不允许真正意义上的“停机”。

五、盘古背后的真正意义

很多人会觉得：

“存储系统不就是硬盘堆起来吗？”

但实际上，现代超大规模分布式存储，已经是全球最复杂的软件工程之一。

因为它需要同时解决：

网络问题
一致性问题
IO 问题
调度问题
硬件故障问题
多租户隔离问题
成本控制问题
扩展性问题
数据安全问题

而盘古最厉害的地方在于：

它不是实验室系统。

而是真正长期支撑：

双11
支付宝
淘宝
阿里国际站
AI 大模型训练
云数据库
全球 OSS

这种超高并发场景。

并且经历了十几年生产环境验证。

从某种意义上说，盘古其实已经不是“阿里云的存储系统”。

而是一套中国超大规模云计算基础设施能力的体现。

它代表的是：

中国已经具备从底层存储、芯片、网络、虚拟化到云操作系统的全栈自研能力。

而随着 AI、大模型、云原生、湖仓一体进一步发展，未来盘古还会继续向：

存算分离
AI 原生存储
GPU 高吞吐数据链路
智能数据调度
全闪存数据中心
一云多芯异构支持

方向继续演进。

下一代云竞争，拼的已经不只是“服务器数量”。

而是谁能真正掌控：

数据。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【HarmonyOS 6.1 全场景实战】《灵犀厨房》实战（十三）之【智能厨电模拟】用代码“凭空”创造智能厨房：《灵犀厨房》的全场景前奏

AtomGit开源社区

Science｜全球首个家猫泛癌肿瘤基因组图谱

AtomGit开源社区

被盗 iPhone 黑色产业链：钓鱼解锁与身份劫持攻击研究

AtomGit开源社区

所有评论(0)

查看更多评论

2401_83558630

@2401_83558630

已为社区贡献11条内容

阿里云盘古存储系统：EB级分布式存储的架构革命与技术突破

2401_83558630

一、盘古存储系统的战略定位与技术演进

二、盘古 2.0 架构深度解析

三、盘古的核心技术突破

四、12 个 9 的可靠性体系

五、盘古背后的真正意义

所有评论(0)

温馨提示：您尚未绑定手机号

2401_83558630