在这里插入图片描述

炸裂!Subquadratic 一家创业公司声称打破了 Transformer 七年魔咒

AI 深度观察

12M token 上下文 · 算力降低 1000 倍 · 融资 2900 万美元
这是真正的架构革命,还是又一次 AI 营销泡沫?


两周前,一家叫 Subquadratic 的迈阿密初创公司从隐身模式中杀出,宣称打破了自 2017 年以来定义所有主流 AI 系统的数学约束。它的模型 SubQ,发布 24 小时内获得超过 1200 万次曝光,3 万人涌入候补名单。AI 圈炸了。

先搞懂问题本身

要理解 SubQ 为什么让人兴奋,先要理解 Transformer 架构的根本瓶颈。

SSA 次二阶选择注意力

🟢 SubQ 架构

Attention 计算量 ≈ O(n)

token 翻倍 → 计算量也翻倍

线性增长,长上下文友好

🔴 传统 Transformer

Attention 计算量 = O(n²)

token 翻倍 → 计算量翻四倍

长上下文:越贵 · 越慢 · 注意力退化

正是因为 O(n²),Claude、GPT、Gemini 的上下文越长越贵,越慢,也越容易出现"中间注意力退化"——模型装了一仓库书,却未必真的全记住了。

于是整个行业催生出 RAG(检索增强)、向量数据库、Context Compression、Memory System 这一套复杂体系,本质上是在用工程 patch 绕过架构瓶颈。

SubQ 的核心主张

SubQ 核心主张

指标

12M token 上下文

1000× 算力节省

$29M 种子轮融资

架构 SSA

只关注重要 token

稀疏图动态路由

平方复杂度 → 线性

产品线

全上下文 API

SubQ Code 代码 Agent

SubQ Search 长文档搜索

投资人

Justin Mateen Tinder 联合创始人

Javier Villamizar 前软银

Anthropic OpenAI Stripe Brex 早期投资人

该公司将其架构称为 SSA(Subquadratic Selective Attention,次二阶选择注意力)。它不是让每个 token 看所有 token,而是只关注"重要的 token"——类似稀疏图上的动态路由,理论上将计算复杂度从平方降至线性。

官方数据:在 1M token 下,SSA 比 FlashAttention 快 52 倍;研究版 12M token 时,相比主流前沿模型算力减少接近 1000 倍。产品线包括面向开发者的全上下文 API、代码 Agent SubQ Code,以及长文档搜索工具 SubQ Search,目前均为私测阶段。

投资人阵容包括 Tinder 联合创始人 Justin Mateen、前软银愿景基金合伙人 Javier Villamizar,以及 Anthropic、OpenAI、Stripe、Brex 的早期投资人。

为什么 Agent 圈子最激动

现在 AI Agent 最大的瓶颈,说实话不是"智商",而是上下文。做代码 Agent 的(Cursor、Claude Code、Codex),都在疯狂做 RAG、Chunk、Summary,本质原因就一个:整个工程仓库根本塞不进去。

SubQ 说:老子直接全塞进去

整个代码仓库、全部合同、所有日志、完整交互历史——一次性进 Context。官方甚至直接宣称"RAG 是 Transformer 时代的 workaround"。这句话如果成立,冲击的可不只是模型本身,而是整个 AI 基础设施栈:向量数据库、检索系统、记忆压缩、Context Engineering 工具链——都可能面临重构。

更关键的是,SubQ 主打的不只是"能放进去",而是"放进去还真能理解"。很多号称 1M 上下文的模型存在"Lost in the Middle"问题——表面上支持长上下文,实际注意力早已稀释。SubQ 在 RULER 128K 基准测试上报告了 95% 的精确度,Needle-in-Haystack 和精确复制任务表现也颇为亮眼。

技术路线全景

摆脱 Transformer 平方 Attention 这件事,行业里其实已经跑了好几条路线:

🎯 突破 Transformer O(n²) 天花板

次二阶稀疏注意力

状态空间模型 SSM

线性注意力

检索增强

外部记忆

混合架构

SubQ 🆕

⚠️ 私测中,待验证

Mamba

已有一定规模验证

RetNet / RWKV

下游任务仍有差距

RAG 生态

最成熟,广泛部署

MemGPT 等

应用层 patch

Gemini / Claude 内部

主流厂商折中路线

SubQ 的价值主张在于:之前所有次二阶方案,要么在下游任务上性能不如标准注意力,要么最终变成混合架构(实质还是 Transformer 内核)。他们声称自己是第一个"从头设计、全程次二阶、性能不妥协"的商用模型。

但是,要保持清醒

其他承诺过线性复杂度的方案

Kimi Linear

DeepSeek 稀疏注意力

Mamba

RWKV

💀 历史先例:Magic.dev

2024.08 声称 1 亿 token 上下文

同样宣称 1000× 效率优势

融资 5 亿美元

2026 年初:外部使用证据几乎为零

⚠️ 社区警报

论文细节不够公开

Benchmark 多是自测

API 仍处私测阶段

架构未开源

研究人员指出,过去几年 Kimi Linear、DeepSeek 稀疏注意力、Mamba、RWKV 都承诺过线性复杂度,但共同面临一个问题:理论线性复杂度的架构,在大规模实际任务中往往表现不如标准 Transformer,或者最终混入了传统注意力层。

独立验证之前,"1000 倍效率"这个数字需要打一个大大的问号。

这件事值得长期关注的理由

争议归争议,但这个方向本身是真实的。整个 AI 行业在 2025-2026 年都在尝试突破 Transformer 平方 Attention 的天花板,这不是一家公司的营销话术,而是整个领域共同面对的工程现实。

如果 SubQ 的技术主张能在开放环境中得到独立验证,影响面将会非常广泛:代码 Agent、企业知识库、法律医疗等长文档分析、AI 长期记忆——这些场景都将迎来本质变化,而不只是工程层面的打补丁。

如果不能——那这将成为又一个 AI 行业过度融资、过度承诺的案例。我们拭目以待。

🔍 SubQ 需要通过的三道关

独立基准测试

同行评审

开放访问

✅ 通过 → 行业格局改变

❌ 未通过 → 又一个过度承诺案例

代码 Agent 质变

企业知识库重构

法律医疗长文档分析升级

AI 长期记忆突破


真正改变行业格局的技术,从来不是靠 X 上的曝光量决定的。SubQ 的架构主张,值得认真跟踪,但不值得提前庆祝。 独立基准测试、同行评审、开放访问——这三件事没发生之前,保持观望是最理性的态度。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐