一文读懂 SubQ：为什么“次二次稀疏注意力”可能改变长上下文 AI？

GodGump

460人浏览 · 2026-05-11 23:31:45

GodGump · 2026-05-11 23:31:45 发布

一文读懂 SubQ：为什么“次二次稀疏注意力”可能改变长上下文 AI？

摘要

大语言模型越来越强，但它们在处理超长文本时仍然面临一个核心瓶颈：上下文越长，注意力计算成本越高。传统 Transformer 的注意力机制通常具有近似 O(n²) 的计算复杂度，这意味着输入长度翻倍，注意力计算量可能接近变成四倍。

最近，Subquadratic 推出的 SubQ 模型引发了不少关注。官方称，SubQ 使用了一种 Subquadratic Sparse Attention，次二次稀疏注意力 架构，可以把长上下文处理成本从传统的平方级增长，压到接近线性增长；同时支持最高 1200 万 token 的上下文窗口，并在长上下文与代码任务上给出了较亮眼的基准测试结果。(Subquadratic)

这篇文章将用尽量通俗的方式，带你理解：

为什么传统 Transformer 处理长文本很贵？
什么是“次二次稀疏注意力”？
SubQ 到底声称解决了什么问题？
这些性能数据应该如何理性看待？
Hermes Agent + HyperFrames 这类 AI 视频生成工具又和内容创作有什么关系？

1. 长上下文为什么难？

我们平时使用大模型时，经常会遇到一个问题：
想让 AI 阅读一本书、一整个代码仓库、几十份 PDF 或者一段很长的聊天记录时，模型不是变慢，就是成本变高，甚至还可能“看了但没真正理解”。

根本原因之一在于 Transformer 的核心机制：注意力机制 Attention。

在标准 Transformer 中，每个 token 都需要和其他 token 建立关系。假设输入长度是 n，那么 token 两两交互的数量大致是：

n × n = n²

也就是说，输入越长，计算量不是线性增加，而是平方级增长。

举个例子：

1,000 个 token  → 大约 1,000,000 次关系计算
10,000 个 token → 大约 100,000,000 次关系计算
100,000 个 token → 大约 10,000,000,000 次关系计算

这就是所谓的 Quadratic Attention，二次方注意力瓶颈。

VentureBeat 对 SubQ 的报道中也提到，标准 Transformer 的注意力会比较输入中几乎所有 token 对，因此输入变长后，计算成本会以平方级上升；这也是当前长上下文模型成本高、延迟高的重要原因。(Venturebeat)

2. 一个生活化比喻：全班群聊 vs 圈层沟通

为了更容易理解，可以把 token 想象成一个班级里的学生。

传统 Transformer：全班每个人都互相私聊

如果班里有 1000 个学生，传统注意力机制相当于：

每个学生都要和其他所有学生聊一遍

这种方式信息最完整，但代价也非常高。学生越多，交流次数暴涨。

稀疏注意力：只找真正重要的人聊

稀疏注意力的思路是：

不是所有人都需要互相聊天。
有些人只需要和附近同学交流；
有些信息只需要通过班长、课代表、老师这样的关键节点传播。

这样一来，模型不再计算所有 token 之间的关系，而是尝试只计算“最可能有用”的关系。

这就是 Sparse Attention，稀疏注意力 的核心思想。

3. 什么是“次二次稀疏注意力”？

“次二次”这个词听起来有点拗口，其实它指的是：

计算复杂度低于 O(n²)

常见的复杂度可以简单理解为：

O(n²)     ：平方级，输入越长，成本暴涨
O(n log n)：低于平方级，增长较慢
O(n)      ：线性级，输入翻倍，成本大约也翻倍

SubQ 官方宣称，其架构可以实现接近 O(n) 的长上下文扩展方式，也就是输入长度增长时，计算成本更接近线性增长，而不是平方级增长。(Subquadratic)

这类机制的关键点在于：

不是所有 token 关系都同等重要。
模型应该学会判断哪些 token 之间真的需要建立注意力连接。

换句话说，传统 Transformer 更像是“暴力全连接”，而次二次稀疏注意力更像是“智能筛选连接”。

4. SubQ 声称做到了什么？

根据 SubQ 官方页面，SubQ 被定位为一个面向长上下文任务的 sub-quadratic LLM，主要卖点包括：

上下文窗口：12M tokens
推理速度：官方标称 150 tokens/s
成本：官方称约为其他领先模型的 1/5
架构：fully sub-quadratic sparse-attention architecture

官方还声称，在 1200 万 token 场景下，SubQ 可以将注意力计算量减少接近 1000 倍。(Subquadratic)

这意味着什么？

如果这些数据能够在更多第三方测试中被验证，那么 SubQ 这类架构可能会显著降低以下任务的成本：

完整代码仓库分析
长篇合同审查
大型知识库问答
多月项目记录总结
企业内部文档检索
复杂 Agent 的长期记忆管理

过去这些场景通常需要 RAG、向量数据库、文档切片、摘要链、多 Agent 调度等工程方案绕开上下文限制。SubQ 的思路则更激进：
既然模型上下文不够，那就直接把上下文窗口做得更长，同时让长上下文计算变便宜。

5. SubQ 的基准测试数据怎么看？

SubQ 官方页面列出了一些关键 benchmark：

SWE-Bench Verified：SubQ 1M-Preview 得分 81.8%
RULER @ 128K：95.0%
MRCR v2 8-needle, 1M：65.9%

其中，SWE-Bench Verified 主要衡量模型解决真实软件工程问题的能力；RULER 更偏向长上下文理解与检索能力。SubQ 官方页面显示，其 SWE-Bench Verified 得分为 81.8%，RULER @ 128K 得分为 95.0%。(Subquadratic)

但是，这里需要注意两点。

第一，SubQ 的技术报告目前仍标注为 “coming soon”，也就是说，外界还缺少完整论文、开源细节或更透明的复现实验材料。(Subquadratic)

第二，VentureBeat 在报道中也特别指出，研究社区对 SubQ 的反应比较复杂：有人认为这是值得关注的架构突破，也有人要求更多独立验证，担心它可能只是一次包装精美的长上下文营销。(Venturebeat)

所以更稳妥的说法是：

SubQ 提出了一个非常值得关注的方向，
但它是否真的能成为新一代长上下文架构，
还需要等待技术报告、API 实测和更多第三方评估。

6. 为什么长上下文这么重要？

很多人会问：
“RAG 不是已经能解决知识库问答了吗？为什么还需要 1200 万 token 上下文？”

原因是，RAG 解决的是“从海量资料里找一小部分相关内容”，而超长上下文模型想解决的是“直接把大量资料放进模型，让模型整体理解”。

这两者并不完全相同。

RAG 的典型流程

用户提问
↓
检索相关文档片段
↓
把片段塞进 prompt
↓
模型生成答案

这种方式成本较低，但存在几个问题：

检索可能漏掉关键片段
文档切片可能破坏上下文
模型只能看到局部信息
多跳推理容易失败

长上下文模型的理想状态

把完整代码库、完整文档集、完整历史记录交给模型
让模型在全局范围内推理

这对以下场景非常有价值：

代码重构：理解整个项目结构
法律审查：对比多份合同条款
科研分析：跨论文综合推理
企业助理：理解长期项目历史
AI Agent：保留长期任务状态

如果长上下文计算成本真的降下来，AI 应用的工程架构可能会发生变化：
过去我们花大量精力做“检索、切片、摘要、路由”，未来可能更多转向“直接全量上下文推理”。

7. 稀疏注意力并不是新概念，难点在于“既快又准”

需要强调的是，稀疏注意力本身不是今天才出现的新概念。

此前很多研究都尝试过：

局部窗口注意力
块状稀疏注意力
滑动窗口注意力
全局 token 注意力
检索增强注意力
低秩近似注意力

这些方法的共同目标都是降低注意力成本。

但难点在于：

如果稀疏得太狠，模型会漏掉重要信息；
如果保留太多连接，计算成本又降不下来。

所以真正困难的地方不是“让注意力变稀疏”，而是：

让模型知道什么时候该看哪里。

SubQ 的核心主张正是：
它的 Sparse Attention 不是固定模式，而是根据内容动态判断哪些 token 关系重要。VentureBeat 的报道中也提到，SubQ 的 SSA 会基于内容选择需要关注的位置，而不是只依赖固定的位置模式。(Venturebeat)

如果这一点成立，那么它比简单的滑动窗口注意力更灵活。

8. 对开发者有什么影响？

如果 SubQ 这类架构被验证并逐步开放，对开发者可能有几个直接影响。

8.1 代码助手会更懂整个项目

现在很多 AI 编程助手虽然能读文件，但很难真正理解整个大型仓库。

未来如果模型可以低成本处理百万级甚至千万级 token，那么它可以一次性读取：

完整源码
历史 PR
issue 讨论
测试用例
架构文档
CI 配置

这会让 AI 编程助手从“局部代码补全”进化到“项目级软件工程助手”。

8.2 RAG 架构可能被重新设计

并不是说 RAG 会消失，而是 RAG 的角色可能改变。

过去 RAG 是因为模型上下文不够，不得不只取几个片段。
未来 RAG 可能更多用于：

权限控制
数据更新
结构化索引
高精度召回
多源数据融合

而不是单纯为了“省 token”。

8.3 Agent 会更适合长任务

AI Agent 最大的问题之一是“记不住长期状态”。

如果长上下文足够便宜，Agent 可以保留更多任务历史，例如：

用户长期偏好
项目演进过程
多轮工具调用结果
历史失败尝试
长期计划状态

这会让 Agent 更像一个真正的长期协作伙伴。

9. Hermes Agent + HyperFrames：AI 科普视频的新玩法

原文最后提到的 Hermes Agent 和 HyperFrames，更偏向内容创作工具链。

根据相关社区信息，HyperFrames 可以让 AI Agent 使用 HTML、CSS、JavaScript、GSAP 动画等方式生成视频画面，并通过 headless Chrome 与 FFmpeg 渲染成 MP4。(Reddit)

这类工具的意义在于：

过去制作一个 AI 科普视频，需要写脚本、做分镜、配动画、剪辑、导出；
现在可以尝试让 Agent 根据文本自动生成视频结构和动画。

对于技术博主、自媒体作者、知识分享者来说，这意味着一篇文章可以进一步扩展成：

CSDN 博客
B 站科普视频
小红书图文
公众号长文
短视频脚本
课程讲义

也就是说，AI 不只是模型本身在进化，围绕 AI 的内容生产工具链也在快速进化。

10. 理性总结：SubQ 值得关注，但别急着神化

SubQ 的出现确实很有看点。

它抓住了大模型行业的一个核心矛盾：

模型越来越需要长上下文，
但标准 Transformer 的注意力计算成本太高。

它给出的答案是：

用次二次稀疏注意力减少无效计算，
让模型只关注真正重要的 token 关系。

如果 SubQ 的官方数据能够被更多第三方验证，那么它可能会推动长上下文 AI 应用进入一个新阶段。尤其是在代码分析、企业知识库、法律文档、科研阅读、长期 Agent 等场景中，这种架构的潜力非常大。

但同时，我们也应该保持技术社区应有的谨慎：

技术报告尚未完全公开；
部分 benchmark 仍需要更多独立复现；
真实 API 成本、稳定性、延迟和可用性还需要实测；
长上下文“能放进去”和“能正确用起来”是两回事。

所以，最合理的态度不是盲目吹捧，也不是直接否定，而是：

持续关注，等待实测，用数据说话。

参考资料

SubQ 官方网站：SubQ 12M token context、SSA 架构、benchmark 数据。(Subquadratic)
VentureBeat 对 Subquadratic / SubQ 的报道与独立验证讨论。(Venturebeat)
Hermes Agent + HyperFrames 社区介绍：基于 HTML、CSS、JS、GSAP、Chrome、FFmpeg 生成视频。(Reddit)

写在最后

如果说过去几年大模型的主旋律是“参数更大、数据更多、推理更强”，那么接下来很可能会进入另一个阶段：

谁能更便宜、更稳定、更有效地处理超长上下文，
谁就更接近下一代 AI 基础设施。

SubQ 是否真的会成为这个方向的代表，还需要时间验证。
但“稀疏注意力”和“长上下文低成本推理”这个方向，值得每一个 AI 开发者持续关注。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Gemini 3.5 办公论文写作实战评测

AtomGit开源社区

从“表皮仿生”到“内生心智”：论通用人工智能的架构缺失与演进路径

当前，以大语言模型为代表的深度学习已展现出惊人的模仿能力，但其背后“表皮仿生”式的路径正触及根本性瓶颈。要让机器真正具备通用智能，我们必须正视那些缺失的拼图，并构想一条从被动工具到主动智能体的进化之路。

AtomGit开源社区

基于边缘计算物联网关的机房动力环境监控系统解决方案！

AtomGit开源社区

所有评论(0)

查看更多评论

GodGump

@GodGump

已为社区贡献3条内容

一文读懂 SubQ：为什么“次二次稀疏注意力”可能改变长上下文 AI？

GodGump

一文读懂 SubQ：为什么“次二次稀疏注意力”可能改变长上下文 AI？

摘要

1. 长上下文为什么难？

2. 一个生活化比喻：全班群聊 vs 圈层沟通

传统 Transformer：全班每个人都互相私聊

稀疏注意力：只找真正重要的人聊

3. 什么是“次二次稀疏注意力”？

4. SubQ 声称做到了什么？

5. SubQ 的基准测试数据怎么看？

6. 为什么长上下文这么重要？

RAG 的典型流程

长上下文模型的理想状态

7. 稀疏注意力并不是新概念，难点在于“既快又准”

8. 对开发者有什么影响？

8.1 代码助手会更懂整个项目

8.2 RAG 架构可能被重新设计

8.3 Agent 会更适合长任务

9. Hermes Agent + HyperFrames：AI 科普视频的新玩法

10. 理性总结：SubQ 值得关注，但别急着神化

参考资料

写在最后

所有评论(0)

温馨提示：您尚未绑定手机号

GodGump