「你的模型有多少参数?」

这个问题在过去几年里,几乎成了衡量 AI 能力的默认标尺。175B、540B、1T——数字越大,仿佛智能就越强。整个行业陷入了一场沉默的「军备竞赛」,大厂们比着堆参数,开发者们比着选大模型,仿佛只要参数足够多,AGI 就会自己涌现出来。

然后,Arena AI 的排行榜上出现了一个反常的现象。

2026 年 4 月,Gemma 4 的 26B MoE 版本登上了 #6 的位置。它打败了一串参数是它 5 倍、10 倍、甚至 20 倍的模型。一个 260 亿参数的小个子,站在了一群巨人中间。

[!INFO] > Gemma 4 核心数据

  • 26B MoE 版本:Arena AI 开放模型榜单 #6
  • 31B Dense 版本:#3
  • 下载量:自第一代发布以来累计超过 4 亿次
  • 许可证:Apache 2.0

Small model defeating large models in arena

这场面有点荒诞,又有点激动人心。它迫使我们重新审视一个被忽略已久的问题:参数量,真的等于智能吗?


被参数量绑架的行业直觉

回溯这几年的 AI 发展史,你会发现整个行业在「越大越好」这条路上走得有多执着。

GPT-3 用了 1750 亿参数,震惊世界。PaLM 堆到 5400 亿,刷新了所有榜单。GPT-4 据说有万亿级参数——虽然 OpenAI 从没正式确认过,但人们的猜测本身就说明了一些问题。

这种思路很直觉:人脑有大约 100 万亿个突触,模型参数越多,就越接近「真正的智能」。就像用沙子堆城堡,堆得越高越大,结构就越复杂精细。

但这个类比从根子上就是错的。

人脑的「参数量」和模型的参数量,运行逻辑完全不同。 人脑不是把所有能力压缩进一个均匀的权重网络里,而是高度模块化、专业化的。视觉皮层处理视觉,前额叶处理规划,海马体处理记忆——不同模块各司其职,协同运作。

传统 Dense 模型的运作方式,更像是把一整个图书馆的书全部撕碎,搅成一团浆糊,再指望从这团浆糊里长出智慧。参数越多,这团浆糊越大,但信息之间的「交通」也越来越拥堵。

这就是架构的意义所在。


为什么架构比武之地更重要

当 Google DeepMind 发布 Gemma 4 时,他们给出了一个清晰的答案:不是参数量不够用,而是架构没有优化到点子上

Gemma 4 的核心突破是 MoE——Mixture of Experts,混合专家架构。这不是新技术,但在 Gemma 4 上,它的实现达到了一个新的效率高度。

Dense vs MoE architecture comparison

Dense 模型工作时,每个 token 都会激活全部参数网络。这就像一个公司里所有员工都要参与每一个项目的每一个决策——人越多,沟通成本越高,效率反而下降。

MoE 的思路则完全不同。它由两部分组成:**共享的「一般知识层」**和若干个专长的「专家网络」。对于每个输入,路由机制(Router)会选择性地激活最相关的几个专家,其他专家则处于休眠状态。

26B MoE 的意思是说:模型有 260 亿参数,但每次推理只激活其中一部分。 这就像一个公司有了 26B 个人员编制,但每个任务只调动最相关的几个人。剩下的「专家」闲着,但他们的能力在那里,需要时可以调用。

这就解释了为什么 26B MoE 能打败「20 倍大」的 Dense 模型——不是参数赢了参数,而是架构让正确的参数在正确的时机被用上了

[!QUOTE] > 数学上更精确的表述是:智能的度量单位,不是参数,而是「有效参数量」——即每次推理时真正被激活并参与计算的那部分参数。

在这个维度上,MoE 的效率远超 Dense。同样的推理成本,MoE 能调度更多「专家知识」;同样的参数量,MoE 的有效利用率远高于 Dense。


另一个隐形战场:训练数据与后训练

但架构只是拼图的一块。参数量不等于智能,还有一个更隐秘的原因:训练数据质量

这两年有一个趋势越来越明显:闭源大厂在大参数模型上的投入开始边际效益递减。原因不是算力不够,而是高质量数据正在枯竭

Common Crawl、WebText、Wikipedia——这些训练数据已经被反复学习、反复蒸馏,以至于模型之间出现了严重的「能力同质化」。大家都是同一个语料库喂出来的,架构相似,训练方法相似,最后的参数规模就成了唯一可差异化的点。

而开源社区正在填补这个空白。BgGPT 是一个很好的例子——保加利亚研究者用 Gemma 4 微调出了一个保加利亚语模型,在保加利亚语任务上打败了所有大厂模型。不是因为 BgGPT 的参数量更大,而是因为它在高质量的小语种数据上做了深度优化。

这个案例说明了一个被忽视的事实:模型能力的上限,往往不是参数的天花板决定的,而是数据的天花板决定的。

当大厂们在大参数的路上走到尽头,开源社区在垂直领域、数据质量上的深耕,反而成了弯道超车的机会。


给开发者的启示:选模型的新逻辑

这场参数效率的变革,对开发者的实际选择意味着什么?

第一,别再迷信「越大越好」。

Arena AI 排行榜的数据已经说明: Gemma 4 26B 在开放模型里排 #6,但它的参数量只有第一名的好几分之一。这意味着,如果你的场景对响应延迟、成本、本地部署有要求,你完全没必要追最大的模型。选对的,比选大的更重要。

第二,架构优先,参数其次。

MoE 已经证明了架构优化的价值。接下来会有更多混合架构出现——稀疏化、模块化、动态路由……这些技术名词背后,是同一个核心思想:让正确的计算在正确的时机发生。选模型时,关注它的架构设计,而不是单纯比数字。

第三,考虑你的数据场景。

垂直领域、微调、本地数据——这些正在成为差异化的关键。一个在通用任务上稍弱,但在你的数据上经过充分训练的模型,往往比一个「全能」但「外行」的大家伙更有价值。BgGPT 打败大厂模型的故事,不是孤例。


智能的度量单位是什么?

回到开头的问题:参数量不等于智能,那智能的真正度量单位是什么?

这个问题没有标准答案。但 Gemma 4 至少告诉了我们一件事:智能是一个多维度的能力集,不是单一标量。推理效率、上下文理解、领域知识、实时学习能力、能耗成本……每一个维度都在定义「智能」的不同切面。

Intelligence equation: Architecture × Data × Parameters

当我们把「有多少参数」当作智能的唯一度量时,就像用体重来衡量一个人的健康程度——忽略了体型、肌肉量、代谢率等等真正重要的指标。

参数是燃料,不是引擎。

架构是引擎。

数据是方向。

三者的配合,才是智能真正的方程式。


这篇文章写给所有在模型选择上感到困惑的开发者。下一个问题也许是:当智能可以从云端下沉到边缘,当开源社区正在改写规则——你会用什么来定义你的 AI 战略?


参考文献

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐