英伟达参投Vast Data:AI时代的数据基础设施战争

一笔10亿美元融资背后的产业信号

2026年4月23日,AI数据基础设施公司Vast Data宣布完成一轮10亿美元融资,公司估值达到300亿美元

投资方阵容豪华:英伟达(NVIDIA)领投,加上多家顶级VC。

这则消息在一众AI大模型发布中显得有点"不起眼",但如果仔细看,它透露的信号可能比任何一个大模型都重要:

当所有人都在关注"模型有多强"的时候,聪明的钱已经开始布局"数据基础设施"了。

Vast Data是谁?

被忽视的基础设施玩家

在AI圈,Vast Data的知名度远不如OpenAI、Anthropic这些明星公司。但在数据基础设施领域,它是一个不容忽视的存在。

Vast Data成立于2016年,专注于为AI应用提供大规模数据管理软件。其核心产品是DASE架构(Data Processing and Storage Engine)——一种专门为AI工作负载设计的分布式数据平台。

为什么Vast Data能获得如此高估值?

根据公开信息,Vast Data的核心客户包括:

  • CoreWeave:北美最大的GPU云计算服务商
  • Mistral:欧洲AI独角兽
  • 美国空军:军方AI应用
  • Cursor:AI编程工具
  • 多家头部AI实验室:名字未披露

这些客户有一个共同特点:他们都在训练或运行大规模AI模型。

而训练大模型的本质,是数据处理。海量数据的存储、读取、预处理、流转——这些听起来不性感的"脏活累活",其实是大模型能力的基础。

DASE架构:为什么它是AI时代的"正确"基础设施?

传统数据架构的困境

要理解DASE的价值,我们需要先理解传统数据架构在AI场景下的困境。

传统Hadoop/Spark架构的问题

数据流:存储 → 计算 → 存储 → 计算...
问题:
├── 频繁的I/O成为瓶颈
├── 扩展性受限于单机性能
├── AI负载下的碎片化读写效率低
└── 数据孤岛难以打通

当处理TB/PB级的AI训练数据时,传统的"存储-计算分离"架构会产生大量的跨节点数据传输,成为系统瓶颈。

DASE的核心创新

Vast Data的DASE架构,核心思路是存算一体化

DASE架构:

┌─────────────────────────────────────┐
│         Unified Data Plane          │
│  ┌───────────┐    ┌───────────┐    │
│  │  Storage  │ ←→ │  Compute  │    │
│  │  (NVMe)   │    │  (GPU)    │    │
│  └───────────┘    └───────────┘    │
│         ↓               ↓          │
│  ┌─────────────────────────────────┐│
│  │     高速互联(RDMA/NVLink)      ││
│  └─────────────────────────────────┘│
└─────────────────────────────────────┘

优势:
├── 数据局部性最大化
├── 减少跨节点传输
├── 支持GPU直读
└── 弹性扩展

这种架构的优势在于:数据和计算可以更紧密地协同,减少数据移动的开销。

英伟达为什么要投Vast Data?

生态布局的逻辑

英伟达的战略很清晰:不只卖GPU,还要构建完整的AI生态

英伟达AI生态全景图:

【底层硬件】
├── GPU (H100, B100, Blackwell)
├── DPU (BlueField)
└── 网络 (NVLink, NVSwitch)

【软件栈】
├── CUDA (并行计算框架)
├── cuDNN (深度学习优化)
├── Triton (推理服务)
├── NeMo (训练框架)
└── ? Vast Data (数据基础设施)

【云服务】
├── DGX Cloud
└── CoreWeave合作

【应用生态】
├── AI模型训练 (OpenAI, Anthropic等)
├── 自动驾驶 (DRIVE)
└── 机器人 (Isaac)

投资Vast Data,是英伟达补全数据基础设施这一环的战略动作。

技术协同

更重要的是,Vast Data和英伟达的技术有天然的协同:

1. GPU直读存储
Vast Data支持GPU直读数据,绕过传统CPU路径。这对于需要频繁访问训练数据的AI场景意义重大。

2. RDMA网络集成
Vast Data利用RDMA(远程直接内存访问)技术实现高速数据传输,与英伟达的NVLink/NVSwitch生态天然兼容。

3. 大规模并行训练支持
当训练集群扩展到数千GPU时,数据供给成为瓶颈。Vast Data的架构专门优化了这一点。

AI基础设施战争的三个玩家

当前格局

围绕AI数据基础设施,一场"三国演义"正在上演:

玩家 代表产品 优势 劣势
Vast Data DASE 存算一体,AI原生 生态封闭
Databricks Delta Lake 生态成熟,企业信任 云厂商锁定
Snowflake Cortex AI 数据仓库基础 AI原生性弱

各家的战略选择

Vast Data的策略:AI原生,从零设计数据平台

  • 优势:架构最优化
  • 风险:需要说服企业迁移

Databricks的策略:在现有Lakehouse基础上叠加AI能力

  • 优势:存量用户多
  • 风险:架构历史包袱

Snowflake的策略:云数据仓库+AI服务

  • 优势:企业关系深
  • 风险:多云策略可能稀释专注度

对创业者的启示

为什么"基础设施"是个好赛道?

Vast Data的融资估值,给AI基础设施赛道打了一针强心剂。这条赛道的价值在于:

1. 护城河深
基础设施一旦被采用,迁移成本极高。企业用户倾向于"能用就别换"。

2. 受益于整个AI行业
不论哪个AI模型最终胜出,训练数据的企业都需要基础设施。就像19世纪的淘金热,真正的赢家不是淘金者,而是卖铲子的。

3. 可防御性
不像模型公司面临的技术迭代风险,基础设施公司的壁垒在于工程积累和运营经验。

创业者应该关注的机会

机会1:垂直领域的数据平台
Vast Data做的是通用平台,但某些垂直领域可能有特殊需求:

  • 自动驾驶数据平台(大规模视频处理)
  • 医疗影像数据平台(隐私合规)
  • 金融数据平台(低延迟+合规)

机会2:边缘数据处理
当AI推理从云端下沉到边缘,数据在哪里处理、怎么同步是个问题。边缘数据基础设施可能是下一个热点。

机会3:AI数据合规与治理
随着AI监管加强,数据来源、血统追踪、合规审计等需求会爆发。这可能是"数据基础设施"的新增长点。

英伟达的"卖铲子"哲学

从淘金热到卖铲子

在19世纪加州淘金热中,真正赚大钱的不一定是淘到金子的矿工,而是给矿工卖铲子、牛仔裤、水的人。

英伟达深谙此道:

英伟达的"铲子"矩阵:

矿工(AI公司)需要什么?
├── 计算能力(GPU)✓ 英伟达做
├── 数据存储(Vast Data)✗ 投资/合作
├── 网络互联(NVLink)✓ 英伟达做
├── 软件栈(CUDA)✓ 英伟达做
├── 云服务(DGX Cloud)✓ 英伟达做
└── 应用(自动驾驶/机器人)✓ 英伟达做

通过控制最底层的基础设施,英伟达可以在AI浪潮中立于不败之地——无论哪个AI公司最终成功,都需要用英伟达的"铲子"

这对整个行业意味着什么?

当基础设施被少数玩家控制,可能会形成"芯片-软件-数据"的三位一体垄断。这对AI行业的竞争格局会有深远影响:

  • AI公司的差异化更难:当大家都用同样的基础设施,竞争优势来自哪里?
  • 新入局者的门槛提高:没有足够资本,租不到最好的"铲子"
  • 监管的关注点转移:反垄断的对象可能从模型转向基础设施

写在最后

Vast Data的300亿美元估值,或许有些泡沫,但它揭示的趋势是真实的:

AI行业的竞争,正在从"模型能力"向"基础设施"延伸。

当大模型的性能差距逐渐缩小,数据供给能力、训练效率、推理成本会成为新的竞争焦点。这些本质上都是"基础设施问题"。

对投资人来说,这是一个值得关注的信号——也许下一波AI浪潮的赢家,不是训练出最强模型的公司,而是提供最好基础设施的公司。

对从业者来说,也是一个提醒——别只顾着追模型热点,基础设施的机会可能更大。


相关链接

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐