别只盯着 2 微秒,超融合真正的新战场是全栈硬件加速
我觉得很有意思啊,SmartX 和 ZStack 这周竟然在前后脚发了关于高性能超融合的文章,不知道是不是偶然啊。
文章的链接在这里
1 浅析 kernel bypass 网卡及其在超融合架构的性能表现
2 智算云时代,ZStack如何在实践中重塑全栈硬件加速架构?
SmartX 和 ZStack 这两篇文章,表面上都在讲 Kernel Bypass,实际上是在争夺一件事——谁来定义下一代高性能云基础设施。
过去十年,超融合靠什么吃饭?
靠通用硬件,靠软件定义,靠标准服务器加一套分布式软件,把计算、存储、网络打包起来,交付更快、运维更简单、成本更低。
这套逻辑没问题。
但今天问题变了。
金融极速交易要微秒级延迟,核心数据库要高 IOPS 和稳定低抖动,AI 训练推理要 GPU、RDMA、高性能存储一起上,信创场景还要国产 CPU、国产网卡、国产加速卡协同。
一句话,客户已经不满足于“云平台能管起来”。
客户开始问:你能不能把最硬的生产业务也跑起来?
这就是 SmartX 和 ZStack 这轮隔空交锋的背景。
1. SmartX 先打穿了一个点
有一说一,SmartX 这篇 Kernel Bypass 文章写得很聪明。
它没有一上来讲大而全,也没有铺一堆平台能力,而是抓住一个足够锋利的场景:金融极速交易。
Solarflare 低延时网卡,Onload 加速,SR-IOV / PCI 直通,榫卯超融合,延迟做到 2-3 微秒。
这个数字有传播力。
对于金融高频交易来说,微秒不是技术参数,是钱。
你讲十页架构图,不如一句“延迟低至 2-3 微秒”来得直接。
SmartX 的核心观点也很清楚——过去大家觉得超融合适合一般业务、虚拟化替代、资源池化,但不适合极致性能场景。现在通过 Kernel Bypass 网卡和直通能力,超融合也能进入证券、期货、高频交易这些低延时战场。
说白了,SmartX 是在证明:
超融合不是只能跑普通业务,它也能摸到核心交易的门槛。
这个判断是成立的。
而且它的文章有一个很强的技术营销模板——先讲牧本波动,说明专用硬件回潮;再讲传统 TCP/IP 协议栈为什么慢;然后讲 Kernel Bypass 怎么绕过内核;最后落到榫卯超融合 + Solarflare 的实测结果。
逻辑闭环。
数字清楚。
场景明确。
但话说回来,它的问题也在这里。
这太像一个单点突破。
SmartX 证明了低延时网卡可以被超融合承接,证明了 SR-IOV 和 PCI 直通可以让虚拟机获得接近物理机的网络能力。
这很重要。
但它还没有回答更大的问题——网络快了,存储怎么办?核心数据库怎么办?AI 训练怎么办?DPU 怎么办?GPU 怎么办?VMware 替代之后的统一运维、容灾、信创适配、异构算力调度,又怎么办?
你不能只靠一张网卡定义下一代基础设施。
再锋利的钉子,也只是钉子。
2. 但ZStack 把这个点拉成了一张网
ZStack 后面这篇文章,明显不是在简单回应“我也支持 Kernel Bypass”。
它真正想说的是:
别只看低延时网卡。真正的高性能云基础设施,要同时看网络、存储、算力。
不吹不黑,这就是 ZStack 的叙事升级。
SmartX 讲的是 Kernel Bypass 网卡进入超融合。
ZStack 讲的是全栈硬件加速进入私有云、虚拟化、智算和一体机。
两者差别很大。
ZStack 把网络侧拆成 SR-IOV、VF 热迁移、Bond + SR-IOV 切割还原、OVS-DPDK、DPU、PTP 授时、NUMA 绑定。
翻译成大白话就是——不只是让虚拟机网卡更快,还要让它能迁移、能高可用、能做租户隔离、能做软件交换、能把基础设施流量卸载到 DPU 上。
这就比单纯直通网卡复杂多了。
因为云平台最难的地方,从来不是让一台机器跑得快。
物理机当然快。
难的是在保持性能的同时,还能统一调度、统一运维、故障迁移、资源隔离、弹性扩展。
这才叫云。
存储侧,ZStack 拿 ZBS 讲 RDMA / RoCE 零拷贝、SPDK 用户态存储栈、全闪分布式存储。
这部分很关键。
金融和数据库场景里,网络延迟只是第一关,存储抖动才是很多系统真正的噩梦。
你网卡再快,后端存储一抖,核心业务照样跪。
算力侧,ZStack 又把 AIOS 拉进来,讲 GPU 全直通、dGPU 动态切片、InfiniBand / RoCE / RDMA 高性能网络、真武 810E 和阿里云软硬协同。
这说明它不是只想打金融低延时。
它想把金融、信创、VMware 替代、AI Infra 一体机都收进同一套底座里。
一言概之:
SmartX 是用 Kernel Bypass 证明超融合能跑低延时,ZStack 是用全栈硬件加速证明自己能做高性能云底座。
一个是尖刀。
一个是阵地。
3. 真正的行业变化:软件定义进入下半场
这件事最值得看的,不是谁 diss 了谁。
厂商互相打嘴仗,行业里天天都有,没什么稀奇。
真正有意思的是,超融合和专有云行业的底层逻辑正在变。
过去十年,行业主线是“软件定义一切”。
软件定义计算,软件定义存储,软件定义网络。
通用服务器足够便宜,CPU 性能持续增长,软件层可以不断抽象、池化、调度、管理。
所以超融合起来了。
私有云起来了。
但今天,摩尔定律放缓,高性能业务上云,AI 进入生产,金融系统要低延时,国产化又带来新的硬件组合。
这时候,单靠“通用硬件 + 软件定义”不够了。
专用硬件重新上桌。
低延时网卡、RDMA 网卡、DPU、GPU、国产加速卡、NVMe 全闪、InfiniBand,都开始成为基础设施竞争的一部分。
但这里有个坑。
专用硬件回归,不等于回到烟囱式架构。
如果每个业务都重新买一套专用硬件,每个部门都自己调优,每个系统都自己运维,那不是进步,那是倒退。
真正有价值的方向,是用云平台把专用硬件重新纳管起来。
硬件负责性能。
软件负责调度。
平台负责统一交付。
这才是下一代高性能云基础设施的方向。
所以 SmartX 的价值,是把“超融合能不能承接低延时专用硬件”这个问题打穿了一个样板。
ZStack 的价值,是试图把这个样板继续往外扩,扩成网络、存储、算力一体化的全栈硬件加速平台。
两者都没有对错,但是很明显——前者更适合传播,后者更考验体系。
4. 这场仗最后拼的不是术语,而是客户路径
客户其实不关心你叫 Kernel Bypass,还是 OVS-DPDK,还是 SPDK,还是 DPU。
客户关心的东西很朴素:
交易系统能不能跑?
核心数据库能不能上云?
VMware 能不能替?
GPU 能不能用起来?
国产化能不能过?
出了故障能不能迁?
后面扩容会不会推倒重来?
所以,SmartX 的优势在于用一个极致场景给客户信心:低延时超融合不是玄学,是可以测出来、跑出来、降成本的。
ZStack 的优势在于给客户一条更长的路径——从 ZVF 做 VMware 替代,到 ZCF 做私有云平台,再到 ZBS 做高性能存储,到 AIOS 做智算,到 HCI 做软硬一体交付。
这两种打法都成立。
但位置不一样。
SmartX 更像是在说:我这个点打得很深。
ZStack 更像是在说:我这张网铺得更大。
如果只看一篇技术文章,SmartX 的 2-3 微秒更抓人。
如果看一个客户未来三到五年的基础设施演进,ZStack 的全栈底座叙事更有想象空间。
这就是差别。
一句话——单点性能决定你能不能上牌桌,但全栈架构才能决定你能不能一直坐在牌桌上。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)