英伟达参投Vast-Data-300亿美元估值背后的AI基础设施战争

西里尤琦

522人浏览 · 2026-04-24 09:40:32

西里尤琦 · 2026-04-24 09:40:32 发布

英伟达参投Vast Data：AI时代的数据基础设施战争

一笔10亿美元融资背后的产业信号

2026年4月23日，AI数据基础设施公司Vast Data宣布完成一轮10亿美元融资，公司估值达到300亿美元。

投资方阵容豪华：英伟达（NVIDIA）领投，加上多家顶级VC。

这则消息在一众AI大模型发布中显得有点"不起眼"，但如果仔细看，它透露的信号可能比任何一个大模型都重要：

当所有人都在关注"模型有多强"的时候，聪明的钱已经开始布局"数据基础设施"了。

Vast Data是谁？

被忽视的基础设施玩家

在AI圈，Vast Data的知名度远不如OpenAI、Anthropic这些明星公司。但在数据基础设施领域，它是一个不容忽视的存在。

Vast Data成立于2016年，专注于为AI应用提供大规模数据管理软件。其核心产品是DASE架构（Data Processing and Storage Engine）——一种专门为AI工作负载设计的分布式数据平台。

为什么Vast Data能获得如此高估值？

根据公开信息，Vast Data的核心客户包括：

CoreWeave：北美最大的GPU云计算服务商
Mistral：欧洲AI独角兽
美国空军：军方AI应用
Cursor：AI编程工具
多家头部AI实验室：名字未披露

这些客户有一个共同特点：他们都在训练或运行大规模AI模型。

而训练大模型的本质，是数据处理。海量数据的存储、读取、预处理、流转——这些听起来不性感的"脏活累活"，其实是大模型能力的基础。

DASE架构：为什么它是AI时代的"正确"基础设施？

传统数据架构的困境

要理解DASE的价值，我们需要先理解传统数据架构在AI场景下的困境。

传统Hadoop/Spark架构的问题：

数据流：存储 → 计算 → 存储 → 计算...
问题：
├── 频繁的I/O成为瓶颈
├── 扩展性受限于单机性能
├── AI负载下的碎片化读写效率低
└── 数据孤岛难以打通

当处理TB/PB级的AI训练数据时，传统的"存储-计算分离"架构会产生大量的跨节点数据传输，成为系统瓶颈。

DASE的核心创新

Vast Data的DASE架构，核心思路是存算一体化：

DASE架构：

┌─────────────────────────────────────┐
│         Unified Data Plane          │
│  ┌───────────┐    ┌───────────┐    │
│  │  Storage  │ ←→ │  Compute  │    │
│  │  (NVMe)   │    │  (GPU)    │    │
│  └───────────┘    └───────────┘    │
│         ↓               ↓          │
│  ┌─────────────────────────────────┐│
│  │     高速互联（RDMA/NVLink）      ││
│  └─────────────────────────────────┘│
└─────────────────────────────────────┘

优势：
├── 数据局部性最大化
├── 减少跨节点传输
├── 支持GPU直读
└── 弹性扩展

这种架构的优势在于：数据和计算可以更紧密地协同，减少数据移动的开销。

英伟达为什么要投Vast Data？

生态布局的逻辑

英伟达的战略很清晰：不只卖GPU，还要构建完整的AI生态。

英伟达AI生态全景图：

【底层硬件】
├── GPU (H100, B100, Blackwell)
├── DPU (BlueField)
└── 网络 (NVLink, NVSwitch)

【软件栈】
├── CUDA (并行计算框架)
├── cuDNN (深度学习优化)
├── Triton (推理服务)
├── NeMo (训练框架)
└── ? Vast Data (数据基础设施)

【云服务】
├── DGX Cloud
└── CoreWeave合作

【应用生态】
├── AI模型训练 (OpenAI, Anthropic等)
├── 自动驾驶 (DRIVE)
└── 机器人 (Isaac)

投资Vast Data，是英伟达补全数据基础设施这一环的战略动作。

技术协同

更重要的是，Vast Data和英伟达的技术有天然的协同：

1. GPU直读存储
Vast Data支持GPU直读数据，绕过传统CPU路径。这对于需要频繁访问训练数据的AI场景意义重大。

2. RDMA网络集成
Vast Data利用RDMA（远程直接内存访问）技术实现高速数据传输，与英伟达的NVLink/NVSwitch生态天然兼容。

3. 大规模并行训练支持
当训练集群扩展到数千GPU时，数据供给成为瓶颈。Vast Data的架构专门优化了这一点。

AI基础设施战争的三个玩家

当前格局

围绕AI数据基础设施，一场"三国演义"正在上演：

玩家	代表产品	优势	劣势
Vast Data	DASE	存算一体，AI原生	生态封闭
Databricks	Delta Lake	生态成熟，企业信任	云厂商锁定
Snowflake	Cortex AI	数据仓库基础	AI原生性弱

各家的战略选择

Vast Data的策略：AI原生，从零设计数据平台

优势：架构最优化
风险：需要说服企业迁移

Databricks的策略：在现有Lakehouse基础上叠加AI能力

优势：存量用户多
风险：架构历史包袱

Snowflake的策略：云数据仓库+AI服务

优势：企业关系深
风险：多云策略可能稀释专注度

对创业者的启示

为什么"基础设施"是个好赛道？

Vast Data的融资估值，给AI基础设施赛道打了一针强心剂。这条赛道的价值在于：

1. 护城河深
基础设施一旦被采用，迁移成本极高。企业用户倾向于"能用就别换"。

2. 受益于整个AI行业
不论哪个AI模型最终胜出，训练数据的企业都需要基础设施。就像19世纪的淘金热，真正的赢家不是淘金者，而是卖铲子的。

3. 可防御性
不像模型公司面临的技术迭代风险，基础设施公司的壁垒在于工程积累和运营经验。

创业者应该关注的机会

机会1：垂直领域的数据平台
Vast Data做的是通用平台，但某些垂直领域可能有特殊需求：

自动驾驶数据平台（大规模视频处理）
医疗影像数据平台（隐私合规）
金融数据平台（低延迟+合规）

机会2：边缘数据处理
当AI推理从云端下沉到边缘，数据在哪里处理、怎么同步是个问题。边缘数据基础设施可能是下一个热点。

机会3：AI数据合规与治理
随着AI监管加强，数据来源、血统追踪、合规审计等需求会爆发。这可能是"数据基础设施"的新增长点。

英伟达的"卖铲子"哲学

从淘金热到卖铲子

在19世纪加州淘金热中，真正赚大钱的不一定是淘到金子的矿工，而是给矿工卖铲子、牛仔裤、水的人。

英伟达深谙此道：

英伟达的"铲子"矩阵：

矿工（AI公司）需要什么？
├── 计算能力（GPU）✓ 英伟达做
├── 数据存储（Vast Data）✗ 投资/合作
├── 网络互联（NVLink）✓ 英伟达做
├── 软件栈（CUDA）✓ 英伟达做
├── 云服务（DGX Cloud）✓ 英伟达做
└── 应用（自动驾驶/机器人）✓ 英伟达做

通过控制最底层的基础设施，英伟达可以在AI浪潮中立于不败之地——无论哪个AI公司最终成功，都需要用英伟达的"铲子"。