阿里云盘古存储系统:EB级分布式存储的架构革命与技术突破
一、盘古存储系统的战略定位与技术演进
盘古(Pangu)是阿里云飞天操作系统中的核心存储底座,也是整个阿里云体系里最关键的基础设施之一。很多人理解阿里云时,往往会先想到 ECS、OSS、数据库、CDN、AI 平台这些上层产品,但实际上这些云服务背后真正负责“数据落地”的核心,就是盘古存储系统。它承担的不仅仅是“存文件”这么简单,而是整个阿里云数百万服务器、海量数据中心、万亿级对象规模背后的统一数据基础设施。
如果把神龙看作阿里云的计算内核,把洛神看作云网络核心,那么盘古就是整个阿里云的数据生命线。
盘古最初诞生于阿里集团“去 IOE”时期。当年淘宝、支付宝业务高速增长,传统高端存储设备已经无法满足阿里对于规模、成本、扩展性以及可靠性的要求。阿里云最终选择完全自研分布式存储体系,希望在普通 X86 服务器之上,实现类似 EMC、NetApp、IBM 小型机级别的高可靠存储能力。
盘古最早采用的是典型的 Client-Master-ChunkServer 架构,核心思想与 Google GFS 有相似之处,但随着阿里业务规模爆炸式增长,传统中心化元数据管理已经无法支撑数十万节点规模,因此盘古开始进入全面分布式演进阶段。
从盘古 1.0 到盘古 2.0,整个架构发生了非常大的变化。
早期盘古主要依赖三副本机制保证可靠性,虽然性能高,但存储成本极大。随着阿里云规模进入 EB 时代,仅靠副本已经无法控制成本,因此盘古开始大量引入纠删码(EC)机制,并且针对不同数据冷热程度动态切换编码策略。
传统云厂商很多只做 Reed-Solomon EC,但盘古进一步做了:
LRC 局部恢复、智能调度、热冷数据分层、动态 EC 切换、跨机架容错域优化、恢复流量削峰、在线无感迁移、冷热混合编码等大量深度优化,使其不仅降低了存储冗余成本,还大幅提升了故障恢复速度。尤其是在单节点故障场景下,LRC 可以只恢复局部数据块,而不是像传统 RS 那样全量重建,大幅减少网络带宽消耗与恢复时间。
随着阿里云全面进入云原生时代,盘古也不再只是“存储系统”,而是逐渐演化为统一数据平台。现在的盘古已经同时支撑:
- 块存储 EBS
- 对象存储 OSS
- 文件存储 NAS
- 表格存储 TableStore
- MaxCompute 大数据平台
- PolarDB
- 云原生 Kubernetes 持久卷
- AI 训练数据集
- 湖仓一体架构
这意味着盘古并不是一个单纯的分布式文件系统,而是整个阿里云数据基础设施的统一底层。
目前盘古单集群已经可以支持十万台服务器级别扩展,整体部署规模达到 EB 级,文件数量达到万亿级别,数据可靠性达到 12 个 9(99.9999999999%),远高于传统企业级存储系统。
更重要的是,盘古不是单纯的软件系统,而是深度软硬一体化架构。
它与阿里云自研的:
- 神龙虚拟化
- CIPU
- 洛神网络
- RDMA
- SmartNIC
- NVMe ZNS SSD
- SPDK 用户态 IO
- 自研 SSD 控制器
进行了深度融合。
尤其是在 RDMA 与 NVMe over Fabrics 引入后,盘古存储延迟已经从毫秒级进入微秒级时代。
目前盘古 4KB 随机读 P99 延迟已经能够做到 80 微秒左右,而传统企业级分布式存储很多仍然停留在 300~800 微秒区间。
IOPS 更是达到 300 万级别。
这意味着现在的盘古已经不仅仅是“大容量存储”,而是真正进入高性能云原生存储时代。
二、盘古 2.0 架构深度解析
盘古 2.0 最大的变化,其实是“去中心化”。
早期分布式存储很多都存在中心节点瓶颈,例如:
- NameNode
- Metadata Master
- Controller
- Central Scheduler
一旦元数据规模达到一定程度,就会出现:
- 热点
- 锁竞争
- 扩展困难
- 跨地域同步问题
- 主节点故障风险
因此盘古 2.0 最大升级之一,就是全面分布式元数据管理。
盘古将 Volume 作为逻辑管理单元,每个 Volume 对应不同元数据分区,再通过一致性哈希、Raft、多副本日志同步实现水平扩展。
整个 MetaServer 不再是单点,而是一个完全分布式元数据集群。
每个 Volume 会动态映射到不同 MetaServer 节点:
- 自动负载均衡
- 自动故障切换
- 自动迁移
- 自动扩缩容
从而避免传统中心化元数据瓶颈。
在数据层,盘古采用 ChunkServer 管理实际数据块。
每个 Chunk 默认 64MB 左右。
数据写入时并不是简单“落盘”,而是经过:
- WAL 日志
- 校验和验证
- 多副本同步
- Quorum 提交
- Lease 主副本确认
- 异步刷盘
- 后台压缩
- EC 编码
等完整链路。
尤其是主副本 Lease 机制,是盘古高性能写入的重要关键。
只有拥有 Lease 的 Primary Replica 才允许执行写入操作,其余副本负责同步,从而避免传统强一致分布式存储里的大量锁竞争。
与此同时,盘古还做了大量数据路径优化。
例如:
- 零拷贝 IO
- 用户态存储栈
- RDMA 直通
- SPDK 加速
- Batch Commit
- Pipeline Replication
- 多队列 NVMe 并行
这些优化本质上都是为了减少:
- CPU 上下文切换
- Kernel Trap
- Buffer Copy
- 网络中断
- IO Wait
因为在超大规模分布式存储里,真正的瓶颈很多时候不是磁盘,而是 CPU 与网络。
尤其是在 AI 训练场景下,GPU 集群对数据吞吐要求极高。
如果存储无法提供稳定高带宽,GPU 很容易空转。
因此盘古后来进一步引入:
- RDMA 网络
- RoCE
- NVMe-oF
- GPU Direct Storage
来降低训练数据读取延迟。
目前很多阿里云 AI 集群,其实已经实现:
GPU → RDMA → NVMe
的近直通数据链路。
这也是为什么现在 AI 对存储系统要求越来越高。
因为 AI 时代真正的问题已经不是“算力够不够”,而是:
“数据喂不喂得进去”。
三、盘古的核心技术突破
盘古真正厉害的地方,其实不只是“规模大”,而是它在超大规模下还能保持:
- 高一致性
- 高可靠性
- 高性能
- 高扩展性
这背后其实涉及大量底层算法优化。
例如在一致性协议层面,盘古没有直接照搬传统 Paxos,而是做了大量 Multi-Paxos 深度优化。
包括:
- Batch Propose
- Pipeline Replication
- Lease Fast Path
- Fast Quorum
- Parallel Accept
- Latency-aware Replica Selection
这些优化本质上都是为了降低网络 RTT。
因为传统 Paxos 最大问题就是:
“消息太多”。
而盘古通过租约机制,在 Lease 有效期间可以跳过 Prepare 阶段,直接进入 Accept 阶段,大幅减少网络往返。
与此同时,盘古还会根据节点 RTT 动态选择最快副本组成 Fast Quorum。
这意味着:
不同副本并不是“地位平等”的。
系统会优先选择低延迟节点参与快速提交。
这也是盘古微秒级延迟的重要原因之一。
另外一个非常关键的技术,就是动态纠删码。
很多传统存储系统的 EC 策略是固定的。
写进去是什么编码,后面一直都不变。
但盘古会根据:
- 访问频率
- 生命周期
- 数据大小
- 热度变化
- 业务类型
动态切换 EC 策略。
例如:
热点数据可能采用:
- 三副本
- LRC
因为恢复速度快。
温数据可能采用:
- RS(10,4)
平衡成本与可靠性。
冷数据则可能采用:
- ZK-16-3
- 高密度 EC
最大化存储效率。
并且整个切换过程是:
在线
动态
无感知
的。
这其实是非常难的。
因为 EC 切换意味着数据重编码。
而重编码本身会带来:
- 网络压力
- CPU 压力
- IO 压力
因此盘古内部还有专门的数据迁移调度系统。
会动态分析:
- 网络利用率
- 机器负载
- 数据冷热
- 故障概率
- 磁盘健康度
再决定什么时候迁移。
这已经不只是传统存储,而更像一个大型“智能数据操作系统”。
四、12 个 9 的可靠性体系
很多人会疑惑:
为什么盘古能做到 12 个 9?
其实这背后并不是靠单一技术,而是多层保护机制叠加。
盘古的数据保护体系包括:
- 数据校验
- 多副本
- 纠删码
- 跨机架容灾
- 跨数据中心复制
- 静默错误检测
- 后台 Scrub
- 自动修复
- 实时快照
- 异地备份
- 主动故障预测
例如磁盘坏道并不一定会立刻报错。
有些属于 Silent Data Corruption。
也就是:
“数据坏了,但系统不知道”。
因此盘古会定期后台扫描所有 Chunk:
- 校验 CRC
- 对比 Checksum
- 检查 Metadata
- 验证 EC Block
发现异常后自动修复。
同时,盘古还有 AI 驱动的故障预测系统。
它会分析:
- SMART 信息
- IO 延迟
- ECC 错误
- 温度
- 电源波动
- 网络异常
提前预测硬盘故障概率。
很多时候磁盘还没真正坏掉,系统已经提前完成数据迁移。
这也是大规模云存储和普通企业 NAS 最大区别之一。
传统企业存储很多是:
“坏了再修”。
而盘古属于:
“预测后提前修”。
另外,在跨地域容灾层面,盘古支持:
- 同城双活
- 两地三中心
- 异地多活
即使整个机房故障,也不会影响数据可用性。
对于金融、支付、电商核心业务来说,这是必须的。
因为淘宝、支付宝这种业务,本质上不允许真正意义上的“停机”。
五、盘古背后的真正意义
很多人会觉得:
“存储系统不就是硬盘堆起来吗?”
但实际上,现代超大规模分布式存储,已经是全球最复杂的软件工程之一。
因为它需要同时解决:
- 网络问题
- 一致性问题
- IO 问题
- 调度问题
- 硬件故障问题
- 多租户隔离问题
- 成本控制问题
- 扩展性问题
- 数据安全问题
而盘古最厉害的地方在于:
它不是实验室系统。
而是真正长期支撑:
- 双11
- 支付宝
- 淘宝
- 阿里国际站
- AI 大模型训练
- 云数据库
- 全球 OSS
这种超高并发场景。
并且经历了十几年生产环境验证。
从某种意义上说,盘古其实已经不是“阿里云的存储系统”。
而是一套中国超大规模云计算基础设施能力的体现。
它代表的是:
中国已经具备从底层存储、芯片、网络、虚拟化到云操作系统的全栈自研能力。
而随着 AI、大模型、云原生、湖仓一体进一步发展,未来盘古还会继续向:
- 存算分离
- AI 原生存储
- GPU 高吞吐数据链路
- 智能数据调度
- 全闪存数据中心
- 一云多芯异构支持
方向继续演进。
下一代云竞争,拼的已经不只是“服务器数量”。
而是谁能真正掌控:
数据。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)