2026年4月7日,AWS 正式上线了名为 Amazon S3 Files 的新功能,它允许用户在不移动或转换已有数据的前提下,直接把 Amazon S3 存储桶当作一个高性能的共享文件系统来使用,并且可以挂载到 EC2 实例、容器环境甚至 Lambda 函数等多种计算资源上,这是 AWS 首次为 S3 提供原生且完整的文件系统访问能力。

作为对象存储的代表,S3 一直以来在扩展能力和成本控制方面表现突出,但它缺少传统文件系统所具备的目录结构、随机读写支持以及多客户端并发访问的能力,这在 AI/ML 和高性能计算(HPC)等场景中长期是个短板;而如今 S3 Files 的推出,是否意味着对象存储和文件系统之间的界限正在逐渐消失?它和开源的分布式文件系统 JuiceFS 又有哪些关键区别?

大家可以继续往下阅读and看我的博客笔记-Annie的技术笔记


一、Amazon S3 Files 的核心机制

1.1 支持标准 NFS 协议

S3 Files 完整兼容 NFS v4.1 及更高版本,能够执行包括创建、读取、修改和删除在内的所有常规文件操作,这意味着应用程序无需任何代码调整就能通过普通文件接口直接访问 S3 中的数据,多个计算节点也可以同时挂载同一个 S3 存储桶以实现共享访问,而且所有对文件系统的改动都会自动同步回底层的 S3 存储桶中。

1.2 无需迁移已有数据

S3 Files 并不是一个独立的新存储系统,而是 S3 的一种新型使用方式,用户可以直接把现有的 S3 存储桶挂载成文件系统,既不需要复制数据,也不用改变格式,这种零迁移的设计大幅降低了使用门槛,特别适合那些已经拥有大量 S3 数据资产的企业快速启用文件系统功能。

1.3 元数据与实际数据分开处理

虽然 AWS 尚未公开 S3 Files 的具体架构细节,但根据其功能定位可以合理推测:像 lsmkdirstat 这类元数据操作由 S3 Files 服务层进行加速处理,而真正的数据读写仍然直接对接 S3 对象存储,从而保留了 S3 高可靠性和全球分布的优势,同时系统可能还采用了缓存预热、智能预取等技术手段来优化小文件访问和随机 I/O 的效率。


二、性能上限和主要限制

尽管 S3 Files 提供了类似文件系统的接口,但由于其底层依然是对象存储,因此存在一些天然的约束条件。

2.1 小文件处理效率不高

当面对海量小文件时,S3 本身容易因为元数据响应慢、请求频率受限而表现不佳,即使 S3 Files 引入了元数据缓存机制,在高频创建或删除小文件的场景下,整体性能仍然可能成为瓶颈。

2.2 多人同时写入同一文件存在困难

由于 S3 的对象本质上是不可变的,任何写入操作都必须生成一个全新的对象并覆盖旧版本,这就导致系统无法真正支持字节级别的随机写入,多个进程若同时修改同一个文件,很容易引发冲突或造成数据覆盖,虽然 S3 Files 可能通过临时文件加原子重命名的方式来模拟写操作,但依然难以完全复现本地文件系统的完整行为。

2.3 跨区域访问延迟较高

目前 S3 Files 仅支持挂载与计算实例位于同一 AWS 区域的 S3 存储桶,如果需要跨区域访问,则仍需依赖传统的 S3 API,无法享受到低延迟的文件系统体验。


三、和 JuiceFS 的对比

方面 Amazon S3 Files JuiceFS
用途 S3 的文件访问方式 开源的分布式 POSIX 文件系统
支持的存储后端 仅限 Amazon S3 兼容 S3、阿里云 OSS、Google Cloud Storage、MinIO 等 80 多种对象存储
元数据存储选项 由 AWS 托管(用户无法自选) 可选用 Redis、TiKV、MySQL、PostgreSQL 等多种数据库
是否支持多云部署 仅适用于 AWS 环境 支持混合云、多云及私有化部署
POSIX 兼容程度 支持 NFS v4.1,部分 POSIX 功能 完整支持 POSIX,包含 mmap、flock、硬链接等高级特性
缓存策略 未公开说明(推测包含本地缓存) 支持内存 + 本地 SSD 的多级缓存架构
是否开源 是(采用 Apache 2.0 许可)
典型应用场景 AWS 内部的 AI 训练、日志分析等 跨云 AI 工作流、Kubernetes 共享卷、大数据处理等

主要差异总结:

JuiceFS 在灵活性方面明显更强,因为它允许用户自主选择元数据引擎和缓存方案,更适合复杂的企业环境;在性能方面,凭借客户端缓存和智能分块机制,它在小文件密集型任务或需要频繁随机读写的场景中通常表现更优;此外,JuiceFS 已经深度集成到 Kubernetes、Spark、Flink 等主流框架中,而 S3 Files 目前只能在 AWS 生态内部使用。


四、如何选择

如果你的业务完全运行在 AWS 上,希望用最小改动接入现有 S3 数据,并且主要负载是顺序读写(比如视频转码或日志聚合),那么 Amazon S3 Files 是一个简单直接的选择。

但如果你需要在多个云平台或混合云环境中运行任务,对文件系统的一致性要求很高(例如科学计算或芯片设计工具链),希望精细控制缓存策略、性能调优和总体成本,或者不想被单一云厂商锁定,那么 JuiceFS 会是更合适的选择。


结语

Amazon S3 Files 的发布标志着对象存储向文件系统融合迈出了重要一步,它显著简化了 S3 的使用方式,为数据分析和人工智能应用提供了更自然的操作接口;然而,在对性能、并发能力或兼容性有较高要求的场景中,像 JuiceFS 这样的专业分布式文件系统依然具有不可替代的价值。

未来我们很可能会看到更多“对象存储 + 文件语义”的混合架构出现,而如何在成本、性能和架构自由度之间找到最佳平衡点,将成为每位系统设计者必须认真思考的问题。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐