英伟达参投Vast-Data-300亿美元估值背后的AI基础设施战争
英伟达参投Vast Data:AI时代的数据基础设施战争
一笔10亿美元融资背后的产业信号
2026年4月23日,AI数据基础设施公司Vast Data宣布完成一轮10亿美元融资,公司估值达到300亿美元。
投资方阵容豪华:英伟达(NVIDIA)领投,加上多家顶级VC。
这则消息在一众AI大模型发布中显得有点"不起眼",但如果仔细看,它透露的信号可能比任何一个大模型都重要:
当所有人都在关注"模型有多强"的时候,聪明的钱已经开始布局"数据基础设施"了。
Vast Data是谁?
被忽视的基础设施玩家
在AI圈,Vast Data的知名度远不如OpenAI、Anthropic这些明星公司。但在数据基础设施领域,它是一个不容忽视的存在。
Vast Data成立于2016年,专注于为AI应用提供大规模数据管理软件。其核心产品是DASE架构(Data Processing and Storage Engine)——一种专门为AI工作负载设计的分布式数据平台。
为什么Vast Data能获得如此高估值?
根据公开信息,Vast Data的核心客户包括:
- CoreWeave:北美最大的GPU云计算服务商
- Mistral:欧洲AI独角兽
- 美国空军:军方AI应用
- Cursor:AI编程工具
- 多家头部AI实验室:名字未披露
这些客户有一个共同特点:他们都在训练或运行大规模AI模型。
而训练大模型的本质,是数据处理。海量数据的存储、读取、预处理、流转——这些听起来不性感的"脏活累活",其实是大模型能力的基础。
DASE架构:为什么它是AI时代的"正确"基础设施?
传统数据架构的困境
要理解DASE的价值,我们需要先理解传统数据架构在AI场景下的困境。
传统Hadoop/Spark架构的问题:
数据流:存储 → 计算 → 存储 → 计算...
问题:
├── 频繁的I/O成为瓶颈
├── 扩展性受限于单机性能
├── AI负载下的碎片化读写效率低
└── 数据孤岛难以打通
当处理TB/PB级的AI训练数据时,传统的"存储-计算分离"架构会产生大量的跨节点数据传输,成为系统瓶颈。
DASE的核心创新
Vast Data的DASE架构,核心思路是存算一体化:
DASE架构:
┌─────────────────────────────────────┐
│ Unified Data Plane │
│ ┌───────────┐ ┌───────────┐ │
│ │ Storage │ ←→ │ Compute │ │
│ │ (NVMe) │ │ (GPU) │ │
│ └───────────┘ └───────────┘ │
│ ↓ ↓ │
│ ┌─────────────────────────────────┐│
│ │ 高速互联(RDMA/NVLink) ││
│ └─────────────────────────────────┘│
└─────────────────────────────────────┘
优势:
├── 数据局部性最大化
├── 减少跨节点传输
├── 支持GPU直读
└── 弹性扩展
这种架构的优势在于:数据和计算可以更紧密地协同,减少数据移动的开销。
英伟达为什么要投Vast Data?
生态布局的逻辑
英伟达的战略很清晰:不只卖GPU,还要构建完整的AI生态。
英伟达AI生态全景图:
【底层硬件】
├── GPU (H100, B100, Blackwell)
├── DPU (BlueField)
└── 网络 (NVLink, NVSwitch)
【软件栈】
├── CUDA (并行计算框架)
├── cuDNN (深度学习优化)
├── Triton (推理服务)
├── NeMo (训练框架)
└── ? Vast Data (数据基础设施)
【云服务】
├── DGX Cloud
└── CoreWeave合作
【应用生态】
├── AI模型训练 (OpenAI, Anthropic等)
├── 自动驾驶 (DRIVE)
└── 机器人 (Isaac)
投资Vast Data,是英伟达补全数据基础设施这一环的战略动作。
技术协同
更重要的是,Vast Data和英伟达的技术有天然的协同:
1. GPU直读存储
Vast Data支持GPU直读数据,绕过传统CPU路径。这对于需要频繁访问训练数据的AI场景意义重大。
2. RDMA网络集成
Vast Data利用RDMA(远程直接内存访问)技术实现高速数据传输,与英伟达的NVLink/NVSwitch生态天然兼容。
3. 大规模并行训练支持
当训练集群扩展到数千GPU时,数据供给成为瓶颈。Vast Data的架构专门优化了这一点。
AI基础设施战争的三个玩家
当前格局
围绕AI数据基础设施,一场"三国演义"正在上演:
| 玩家 | 代表产品 | 优势 | 劣势 |
|---|---|---|---|
| Vast Data | DASE | 存算一体,AI原生 | 生态封闭 |
| Databricks | Delta Lake | 生态成熟,企业信任 | 云厂商锁定 |
| Snowflake | Cortex AI | 数据仓库基础 | AI原生性弱 |
各家的战略选择
Vast Data的策略:AI原生,从零设计数据平台
- 优势:架构最优化
- 风险:需要说服企业迁移
Databricks的策略:在现有Lakehouse基础上叠加AI能力
- 优势:存量用户多
- 风险:架构历史包袱
Snowflake的策略:云数据仓库+AI服务
- 优势:企业关系深
- 风险:多云策略可能稀释专注度
对创业者的启示
为什么"基础设施"是个好赛道?
Vast Data的融资估值,给AI基础设施赛道打了一针强心剂。这条赛道的价值在于:
1. 护城河深
基础设施一旦被采用,迁移成本极高。企业用户倾向于"能用就别换"。
2. 受益于整个AI行业
不论哪个AI模型最终胜出,训练数据的企业都需要基础设施。就像19世纪的淘金热,真正的赢家不是淘金者,而是卖铲子的。
3. 可防御性
不像模型公司面临的技术迭代风险,基础设施公司的壁垒在于工程积累和运营经验。
创业者应该关注的机会
机会1:垂直领域的数据平台
Vast Data做的是通用平台,但某些垂直领域可能有特殊需求:
- 自动驾驶数据平台(大规模视频处理)
- 医疗影像数据平台(隐私合规)
- 金融数据平台(低延迟+合规)
机会2:边缘数据处理
当AI推理从云端下沉到边缘,数据在哪里处理、怎么同步是个问题。边缘数据基础设施可能是下一个热点。
机会3:AI数据合规与治理
随着AI监管加强,数据来源、血统追踪、合规审计等需求会爆发。这可能是"数据基础设施"的新增长点。
英伟达的"卖铲子"哲学
从淘金热到卖铲子
在19世纪加州淘金热中,真正赚大钱的不一定是淘到金子的矿工,而是给矿工卖铲子、牛仔裤、水的人。
英伟达深谙此道:
英伟达的"铲子"矩阵:
矿工(AI公司)需要什么?
├── 计算能力(GPU)✓ 英伟达做
├── 数据存储(Vast Data)✗ 投资/合作
├── 网络互联(NVLink)✓ 英伟达做
├── 软件栈(CUDA)✓ 英伟达做
├── 云服务(DGX Cloud)✓ 英伟达做
└── 应用(自动驾驶/机器人)✓ 英伟达做
通过控制最底层的基础设施,英伟达可以在AI浪潮中立于不败之地——无论哪个AI公司最终成功,都需要用英伟达的"铲子"。
这对整个行业意味着什么?
当基础设施被少数玩家控制,可能会形成"芯片-软件-数据"的三位一体垄断。这对AI行业的竞争格局会有深远影响:
- AI公司的差异化更难:当大家都用同样的基础设施,竞争优势来自哪里?
- 新入局者的门槛提高:没有足够资本,租不到最好的"铲子"
- 监管的关注点转移:反垄断的对象可能从模型转向基础设施
写在最后
Vast Data的300亿美元估值,或许有些泡沫,但它揭示的趋势是真实的:
AI行业的竞争,正在从"模型能力"向"基础设施"延伸。
当大模型的性能差距逐渐缩小,数据供给能力、训练效率、推理成本会成为新的竞争焦点。这些本质上都是"基础设施问题"。
对投资人来说,这是一个值得关注的信号——也许下一波AI浪潮的赢家,不是训练出最强模型的公司,而是提供最好基础设施的公司。
对从业者来说,也是一个提醒——别只顾着追模型热点,基础设施的机会可能更大。
相关链接:
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)