我觉得很有意思啊,SmartX 和 ZStack 这周竟然在前后脚发了关于高性能超融合的文章,不知道是不是偶然啊。

文章的链接在这里

浅析 kernel bypass 网卡及其在超融合架构的性能表现
 

智算云时代,ZStack如何在实践中重塑全栈硬件加速架构?

SmartX 和 ZStack 这两篇文章,表面上都在讲 Kernel Bypass,实际上是在争夺一件事——谁来定义下一代高性能云基础设施。

过去十年,超融合靠什么吃饭?

靠通用硬件,靠软件定义,靠标准服务器加一套分布式软件,把计算、存储、网络打包起来,交付更快、运维更简单、成本更低。

这套逻辑没问题。

但今天问题变了。

金融极速交易要微秒级延迟,核心数据库要高 IOPS 和稳定低抖动,AI 训练推理要 GPU、RDMA、高性能存储一起上,信创场景还要国产 CPU、国产网卡、国产加速卡协同。

一句话,客户已经不满足于“云平台能管起来”。

客户开始问:你能不能把最硬的生产业务也跑起来?

这就是 SmartX 和 ZStack 这轮隔空交锋的背景。

1. SmartX 先打穿了一个点

有一说一,SmartX 这篇 Kernel Bypass 文章写得很聪明。

它没有一上来讲大而全,也没有铺一堆平台能力,而是抓住一个足够锋利的场景:金融极速交易。

Solarflare 低延时网卡,Onload 加速,SR-IOV / PCI 直通,榫卯超融合,延迟做到 2-3 微秒。

这个数字有传播力。

对于金融高频交易来说,微秒不是技术参数,是钱。

你讲十页架构图,不如一句“延迟低至 2-3 微秒”来得直接。

SmartX 的核心观点也很清楚——过去大家觉得超融合适合一般业务、虚拟化替代、资源池化,但不适合极致性能场景。现在通过 Kernel Bypass 网卡和直通能力,超融合也能进入证券、期货、高频交易这些低延时战场。

说白了,SmartX 是在证明:

超融合不是只能跑普通业务,它也能摸到核心交易的门槛。

这个判断是成立的。

而且它的文章有一个很强的技术营销模板——先讲牧本波动,说明专用硬件回潮;再讲传统 TCP/IP 协议栈为什么慢;然后讲 Kernel Bypass 怎么绕过内核;最后落到榫卯超融合 + Solarflare 的实测结果。

逻辑闭环。

数字清楚。

场景明确。

但话说回来,它的问题也在这里。

这太像一个单点突破。

SmartX 证明了低延时网卡可以被超融合承接,证明了 SR-IOV 和 PCI 直通可以让虚拟机获得接近物理机的网络能力。

这很重要。

但它还没有回答更大的问题——网络快了,存储怎么办?核心数据库怎么办?AI 训练怎么办?DPU 怎么办?GPU 怎么办?VMware 替代之后的统一运维、容灾、信创适配、异构算力调度,又怎么办?

你不能只靠一张网卡定义下一代基础设施。

再锋利的钉子,也只是钉子。

2. 但ZStack 把这个点拉成了一张网

ZStack 后面这篇文章,明显不是在简单回应“我也支持 Kernel Bypass”。

它真正想说的是:

别只看低延时网卡。真正的高性能云基础设施,要同时看网络、存储、算力。

不吹不黑,这就是 ZStack 的叙事升级。

SmartX 讲的是 Kernel Bypass 网卡进入超融合。

ZStack 讲的是全栈硬件加速进入私有云、虚拟化、智算和一体机。

两者差别很大。

ZStack 把网络侧拆成 SR-IOV、VF 热迁移、Bond + SR-IOV 切割还原、OVS-DPDK、DPU、PTP 授时、NUMA 绑定。

翻译成大白话就是——不只是让虚拟机网卡更快,还要让它能迁移、能高可用、能做租户隔离、能做软件交换、能把基础设施流量卸载到 DPU 上。

这就比单纯直通网卡复杂多了。

因为云平台最难的地方,从来不是让一台机器跑得快。

物理机当然快。

难的是在保持性能的同时,还能统一调度、统一运维、故障迁移、资源隔离、弹性扩展。

这才叫云。

存储侧,ZStack 拿 ZBS 讲 RDMA / RoCE 零拷贝、SPDK 用户态存储栈、全闪分布式存储。

这部分很关键。

金融和数据库场景里,网络延迟只是第一关,存储抖动才是很多系统真正的噩梦。

你网卡再快,后端存储一抖,核心业务照样跪。

算力侧,ZStack 又把 AIOS 拉进来,讲 GPU 全直通、dGPU 动态切片、InfiniBand / RoCE / RDMA 高性能网络、真武 810E 和阿里云软硬协同。

这说明它不是只想打金融低延时。

它想把金融、信创、VMware 替代、AI Infra 一体机都收进同一套底座里。

一言概之:

SmartX 是用 Kernel Bypass 证明超融合能跑低延时,ZStack 是用全栈硬件加速证明自己能做高性能云底座。

一个是尖刀。

一个是阵地。

3. 真正的行业变化:软件定义进入下半场

这件事最值得看的,不是谁 diss 了谁。

厂商互相打嘴仗,行业里天天都有,没什么稀奇。

真正有意思的是,超融合和专有云行业的底层逻辑正在变。

过去十年,行业主线是“软件定义一切”。

软件定义计算,软件定义存储,软件定义网络。

通用服务器足够便宜,CPU 性能持续增长,软件层可以不断抽象、池化、调度、管理。

所以超融合起来了。

私有云起来了。

但今天,摩尔定律放缓,高性能业务上云,AI 进入生产,金融系统要低延时,国产化又带来新的硬件组合。

这时候,单靠“通用硬件 + 软件定义”不够了。

专用硬件重新上桌。

低延时网卡、RDMA 网卡、DPU、GPU、国产加速卡、NVMe 全闪、InfiniBand,都开始成为基础设施竞争的一部分。

但这里有个坑。

专用硬件回归,不等于回到烟囱式架构。

如果每个业务都重新买一套专用硬件,每个部门都自己调优,每个系统都自己运维,那不是进步,那是倒退。

真正有价值的方向,是用云平台把专用硬件重新纳管起来。

硬件负责性能。

软件负责调度。

平台负责统一交付。

这才是下一代高性能云基础设施的方向。

所以 SmartX 的价值,是把“超融合能不能承接低延时专用硬件”这个问题打穿了一个样板。

ZStack 的价值,是试图把这个样板继续往外扩,扩成网络、存储、算力一体化的全栈硬件加速平台。

两者都没有对错,但是很明显——前者更适合传播,后者更考验体系。

4. 这场仗最后拼的不是术语,而是客户路径

客户其实不关心你叫 Kernel Bypass,还是 OVS-DPDK,还是 SPDK,还是 DPU。

客户关心的东西很朴素:

交易系统能不能跑?

核心数据库能不能上云?

VMware 能不能替?

GPU 能不能用起来?

国产化能不能过?

出了故障能不能迁?

后面扩容会不会推倒重来?

所以,SmartX 的优势在于用一个极致场景给客户信心:低延时超融合不是玄学,是可以测出来、跑出来、降成本的。

ZStack 的优势在于给客户一条更长的路径——从 ZVF 做 VMware 替代,到 ZCF 做私有云平台,再到 ZBS 做高性能存储,到 AIOS 做智算,到 HCI 做软硬一体交付。

这两种打法都成立。

但位置不一样。

SmartX 更像是在说:我这个点打得很深。

ZStack 更像是在说:我这张网铺得更大。

如果只看一篇技术文章,SmartX 的 2-3 微秒更抓人。

如果看一个客户未来三到五年的基础设施演进,ZStack 的全栈底座叙事更有想象空间。

这就是差别。

一句话——单点性能决定你能不能上牌桌,但全栈架构才能决定你能不能一直坐在牌桌上。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐