别只盯着 2 微秒，超融合真正的新战场是全栈硬件加速

运维老炮

142人浏览 · 2026-05-14 19:20:52

运维老炮 · 2026-05-14 19:20:52 发布

我觉得很有意思啊，SmartX 和 ZStack 这周竟然在前后脚发了关于高性能超融合的文章，不知道是不是偶然啊。

文章的链接在这里

1 浅析 kernel bypass 网卡及其在超融合架构的性能表现

2 智算云时代，ZStack如何在实践中重塑全栈硬件加速架构？

SmartX 和 ZStack 这两篇文章，表面上都在讲 Kernel Bypass，实际上是在争夺一件事——谁来定义下一代高性能云基础设施。

过去十年，超融合靠什么吃饭？

靠通用硬件，靠软件定义，靠标准服务器加一套分布式软件，把计算、存储、网络打包起来，交付更快、运维更简单、成本更低。

这套逻辑没问题。

但今天问题变了。

金融极速交易要微秒级延迟，核心数据库要高 IOPS 和稳定低抖动，AI 训练推理要 GPU、RDMA、高性能存储一起上，信创场景还要国产 CPU、国产网卡、国产加速卡协同。

一句话，客户已经不满足于“云平台能管起来”。

客户开始问：你能不能把最硬的生产业务也跑起来？

这就是 SmartX 和 ZStack 这轮隔空交锋的背景。

1. SmartX 先打穿了一个点

有一说一，SmartX 这篇 Kernel Bypass 文章写得很聪明。

它没有一上来讲大而全，也没有铺一堆平台能力，而是抓住一个足够锋利的场景：金融极速交易。

Solarflare 低延时网卡，Onload 加速，SR-IOV / PCI 直通，榫卯超融合，延迟做到 2-3 微秒。

这个数字有传播力。

对于金融高频交易来说，微秒不是技术参数，是钱。

你讲十页架构图，不如一句“延迟低至 2-3 微秒”来得直接。

SmartX 的核心观点也很清楚——过去大家觉得超融合适合一般业务、虚拟化替代、资源池化，但不适合极致性能场景。现在通过 Kernel Bypass 网卡和直通能力，超融合也能进入证券、期货、高频交易这些低延时战场。

说白了，SmartX 是在证明：

超融合不是只能跑普通业务，它也能摸到核心交易的门槛。

这个判断是成立的。

而且它的文章有一个很强的技术营销模板——先讲牧本波动，说明专用硬件回潮；再讲传统 TCP/IP 协议栈为什么慢；然后讲 Kernel Bypass 怎么绕过内核；最后落到榫卯超融合 + Solarflare 的实测结果。

逻辑闭环。

数字清楚。

场景明确。

但话说回来，它的问题也在这里。

这太像一个单点突破。

SmartX 证明了低延时网卡可以被超融合承接，证明了 SR-IOV 和 PCI 直通可以让虚拟机获得接近物理机的网络能力。

这很重要。

但它还没有回答更大的问题——网络快了，存储怎么办？核心数据库怎么办？AI 训练怎么办？DPU 怎么办？GPU 怎么办？VMware 替代之后的统一运维、容灾、信创适配、异构算力调度，又怎么办？

你不能只靠一张网卡定义下一代基础设施。

再锋利的钉子，也只是钉子。

2. 但ZStack 把这个点拉成了一张网

ZStack 后面这篇文章，明显不是在简单回应“我也支持 Kernel Bypass”。

它真正想说的是：

别只看低延时网卡。真正的高性能云基础设施，要同时看网络、存储、算力。

不吹不黑，这就是 ZStack 的叙事升级。

SmartX 讲的是 Kernel Bypass 网卡进入超融合。

ZStack 讲的是全栈硬件加速进入私有云、虚拟化、智算和一体机。

两者差别很大。

ZStack 把网络侧拆成 SR-IOV、VF 热迁移、Bond + SR-IOV 切割还原、OVS-DPDK、DPU、PTP 授时、NUMA 绑定。

翻译成大白话就是——不只是让虚拟机网卡更快，还要让它能迁移、能高可用、能做租户隔离、能做软件交换、能把基础设施流量卸载到 DPU 上。

这就比单纯直通网卡复杂多了。

因为云平台最难的地方，从来不是让一台机器跑得快。

物理机当然快。

难的是在保持性能的同时，还能统一调度、统一运维、故障迁移、资源隔离、弹性扩展。

这才叫云。

存储侧，ZStack 拿 ZBS 讲 RDMA / RoCE 零拷贝、SPDK 用户态存储栈、全闪分布式存储。

这部分很关键。

金融和数据库场景里，网络延迟只是第一关，存储抖动才是很多系统真正的噩梦。

你网卡再快，后端存储一抖，核心业务照样跪。

算力侧，ZStack 又把 AIOS 拉进来，讲 GPU 全直通、dGPU 动态切片、InfiniBand / RoCE / RDMA 高性能网络、真武 810E 和阿里云软硬协同。

这说明它不是只想打金融低延时。

它想把金融、信创、VMware 替代、AI Infra 一体机都收进同一套底座里。

一言概之：

SmartX 是用 Kernel Bypass 证明超融合能跑低延时，ZStack 是用全栈硬件加速证明自己能做高性能云底座。

一个是尖刀。

一个是阵地。

3. 真正的行业变化：软件定义进入下半场

这件事最值得看的，不是谁 diss 了谁。

厂商互相打嘴仗，行业里天天都有，没什么稀奇。

真正有意思的是，超融合和专有云行业的底层逻辑正在变。

过去十年，行业主线是“软件定义一切”。

软件定义计算，软件定义存储，软件定义网络。

通用服务器足够便宜，CPU 性能持续增长，软件层可以不断抽象、池化、调度、管理。

所以超融合起来了。

私有云起来了。

但今天，摩尔定律放缓，高性能业务上云，AI 进入生产，金融系统要低延时，国产化又带来新的硬件组合。

这时候，单靠“通用硬件 + 软件定义”不够了。

专用硬件重新上桌。

低延时网卡、RDMA 网卡、DPU、GPU、国产加速卡、NVMe 全闪、InfiniBand，都开始成为基础设施竞争的一部分。

但这里有个坑。

专用硬件回归，不等于回到烟囱式架构。

如果每个业务都重新买一套专用硬件，每个部门都自己调优，每个系统都自己运维，那不是进步，那是倒退。

真正有价值的方向，是用云平台把专用硬件重新纳管起来。

硬件负责性能。

软件负责调度。

平台负责统一交付。

这才是下一代高性能云基础设施的方向。

所以 SmartX 的价值，是把“超融合能不能承接低延时专用硬件”这个问题打穿了一个样板。

ZStack 的价值，是试图把这个样板继续往外扩，扩成网络、存储、算力一体化的全栈硬件加速平台。

两者都没有对错，但是很明显——前者更适合传播，后者更考验体系。

4. 这场仗最后拼的不是术语，而是客户路径

客户其实不关心你叫 Kernel Bypass，还是 OVS-DPDK，还是 SPDK，还是 DPU。

客户关心的东西很朴素：

交易系统能不能跑？

核心数据库能不能上云？

VMware 能不能替？

GPU 能不能用起来？

国产化能不能过？

出了故障能不能迁？

后面扩容会不会推倒重来？

所以，SmartX 的优势在于用一个极致场景给客户信心：低延时超融合不是玄学，是可以测出来、跑出来、降成本的。

ZStack 的优势在于给客户一条更长的路径——从 ZVF 做 VMware 替代，到 ZCF 做私有云平台，再到 ZBS 做高性能存储，到 AIOS 做智算，到 HCI 做软硬一体交付。

这两种打法都成立。

但位置不一样。

SmartX 更像是在说：我这个点打得很深。

ZStack 更像是在说：我这张网铺得更大。

如果只看一篇技术文章，SmartX 的 2-3 微秒更抓人。

如果看一个客户未来三到五年的基础设施演进，ZStack 的全栈底座叙事更有想象空间。

这就是差别。

一句话——单点性能决定你能不能上牌桌，但全栈架构才能决定你能不能一直坐在牌桌上。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

用PyQt5做一个桌面桌宠！（形象参考re0的爱蜜莉雅）AI对话 + 语音播报，代码已开源

AtomGit开源社区

大模型入门-大模型评估方法

本文全面梳理了大语言模型（LLM）的主流评估方法。基础评估包括文本相似度指标（BLEU、ROUGE、编辑距离）和语言模型内在性能指标（困惑度）。针对长文本处理能力，介绍了"大海捞针"测试方法。此外，重点分析了综合评测基准体系，涵盖中文/通用模型评测（SuperCLUE、C-Eval）、国际权威榜单（Open LLM Leaderboard、Chatbot Arena）以及专项能力评测（MMLU、G