Google开源DiffusionGemma：26B MoE扩散语言模型，放弃自回归实现4倍推理加速

网安蟹佬霸

325人浏览 · 2026-06-11 19:32:05

网安蟹佬霸 · 2026-06-11 19:32:05 发布

事件概述

2026年6月11日，Google正式发布实验性开源模型DiffusionGemma，以Apache 2.0许可证开放。这是一款基于文本扩散（Text Diffusion）机制构建的大语言模型，采用26B参数的MoE（Mixture of Experts，混合专家）架构，推理时仅激活约3.8B参数。与传统自回归（Autoregressive）大语言模型逐token顺序生成的方式不同，DiffusionGemma通过并行去噪的方式输出文本，每次前向传播可并行生成256个token。在单张NVIDIA H100上实测输出速度超过每秒1000个token，在NVIDIA GeForce RTX 5090上超过每秒700个token，相比同等规模的自回归模型实现了最高4倍的推理加速。

DiffusionGemma建立在Gemma 4系列架构与Gemini Diffusion研究成果之上，被Google定位为面向研究者和开发者的实验性模型。它的核心价值不在于云端高并发部署，而在于本地低延迟交互式工作流——包括代码补全、行内编辑、实时辅助写作等对响应速度极其敏感的场景。

详细解读

扩散语言模型 vs 自回归模型：范式级别的根本区别

要理解DiffusionGemma的技术意义，首先需要厘清"扩散语言模型"与"自回归模型"的本质差异。

自回归模型（Autoregressive Model）是当前大语言模型的绝对主流，GPT系列、Llama系列、Gemini标准版均采用这一范式。其工作方式可以类比为"逐字手写"——模型从左到右，每生成一个token，都需要将其纳入上下文，再预测下一个token。这种方式天然是串行的：生成第N个token必须等第N-1个token完成，整个序列的生成长度等于token总数。推理时的延迟主要受限于内存带宽——每个步骤都要从显存中读取KV Cache，频繁的内存访问成为速度瓶颈。

扩散语言模型（Diffusion Language Model）则走了一条完全不同的路。它的灵感直接来源于图像生成领域的Stable Diffusion、DALL-E等模型。图像扩散模型的工作原理是：从一张充满高斯噪声的模糊图片开始，通过多轮迭代逐步去除噪声，最终恢复出清晰的图像。文本扩散模型将这一思路迁移到语言生成上，但由于文本是离散的token而非连续的像素值，不能直接添加连续噪声，因此采用了掩码（Masking）策略。

DiffusionGemma的具体流程是这样的：

初始化画布：接收到用户的提示词后，模型首先生成一个由随机占位token组成的"画布"，长度等于目标输出长度（最多256个token）。
多轮迭代去噪：每一轮迭代中，模型同时审视所有位置，将部分占位token替换为真正构成答案的token。已确认的token被"锁定"作为上下文线索，模型继续修正剩余占位token。
收敛输出：经过若干轮迭代，所有占位token最终被替换为有意义的文本，输出完整响应。

关键区别在于：自回归模型每次只生成1个token，而扩散模型每次前向传播可以并行处理256个token。这种并行化处理正是DiffusionGemma实现4倍加速的根本原因——它将推理瓶颈从"内存带宽"转移到了"计算能力"上，充分利用了GPU的并行计算优势。

此外，DiffusionGemma引入了双向注意力机制（Bidirectional Attention）。传统的因果注意力（Causal Attention）只能看到当前token左侧的上下文，而双向注意力允许模型同时审阅给定词语前后的文本内容。这种机制使得扩散模型在理解全局语境方面具有天然优势，特别适合代码补全、行内编辑、数独求解等需要"纵观全局"的非线性任务。

MoE 26B参数架构分析：用3.8B的激活成本跑出26B的能力

DiffusionGemma的架构设计延续了Gemma 4系列的高效基因，核心在于MoE（Mixture of Experts，混合专家）架构。

DiffusionGemma基于今年4月发布的Gemma 4 26B A4B构建。所谓26B A4B，指的是模型总参数量为260亿，但在推理时仅激活约3.8B（接近4B）参数。MoE架构的原理是将模型内部的FFN（前馈神经网络）层替换为多个"专家"子网络，通过一个Router（路由器）来决定每个token应该被分配给哪些专家处理。由于每次只有少量专家被激活，实际计算量远低于总参数量所暗示的水平。

具体到DiffusionGemma的架构改动，Google做了以下关键调整：

扩散式输出头：替换了原模型的自回归输出头，改为扩散式解码器。这是实现并行去噪的核心组件。
注意力机制替换：原Gemma 4的因果注意力被替换为双向注意力模块，使模型能够同时处理前后文信息，适配扩散模型的迭代精炼过程。
NVFP4轻量级数据格式：采用NVIDIA的NVFP4（4位浮点）格式来进一步压缩内存占用，使得模型能够在消费级GPU上运行。
Gemini Diffusion研究成果：吸收了Google内部在Gemini系列上验证的扩散语言模型技术，保证了架构设计的成熟度。

从工程角度看，这种架构设计带来三个显著优势：

第一，内存效率极高。26B总参数中仅激活3.8B，意味着运行时显存占用与一个4B级别的小模型相当。配合NVFP4格式，DiffusionGemma甚至可以在高端消费级显卡（如RTX 5090）上流畅运行，而传统同等智能水平的稠密模型通常需要专业级GPU。

第二，推理延迟极低。由于激活参数少且采用并行去噪，单张H100上的输出速度超过1000 token/秒，RTX 5090上也超过700 token/秒。这种速度对于交互式场景（如IDE中的代码补全、实时对话）意义重大。

第三，架构成熟度高。基于Gemma 4这一经过充分验证的基础架构进行改造，而非从零构建，降低了工程风险，也便于社区快速上手。

4倍加速的技术原理与实测数据

Google宣称DiffusionGemma实现了最高4倍的推理加速，这个数据需要结合具体的测试条件来理解。

根据Google官方公布的数据：

硬件环境	输出速度
NVIDIA H100（单卡）	>1000 token/秒
NVIDIA GeForce RTX 5090	>700 token/秒

作为对比，同等规模的Gemma 4 26B A4B在自回归模式下，单张H100的典型输出速度约为250-300 token/秒。这意味着DiffusionGemma在H100上确实实现了3-4倍的提升。

加速的来源主要有三个：

第一，并行生成消除序列依赖。 自回归模型生成N个token需要N次串行前向传播，每次传播还伴随着KV Cache的读写。DiffusionGemma通过一次前向传播处理256个token的整块，大幅减少了前向传播的总次数。以生成256个token为例，自回归需要256步，而扩散模型可能只需要10-20轮迭代。

第二，计算密集替代访存密集。 自回归模型的推理瓶颈是内存带宽——每步都要从显存读取大量KV Cache。DiffusionGemma将瓶颈转移到计算能力上，而现代GPU的计算能力（FLOPS）远超内存带宽，因此能更好地利用硬件资源。

第三，MoE稀疏激活的乘数效应。 每次仅激活3.8B参数，本身就带来了相比26B稠密模型的计算量削减。当这种稀疏激活与并行去噪结合时，效率优势进一步放大。

但需要强调几个重要的前提条件：

4倍加速是在专用GPU（如H100、RTX 5090）上测得的，在较旧或中低端硬件上的加速比可能不同。
速度优势主要体现在本地及低并发推理场景。在高并发云端部署中，由于扩散模型的迭代特性，优势会收窄。
并行度越高（即输出越长），加速比越明显。对于非常短的输出（如单token响应），并行化的收益有限。

竞争格局对比：DiffusionGemma vs Inception Labs vs Meta LLaDA

DiffusionGemma并非市场上第一个扩散语言模型，但它是Google——这个拥有最强大模型研发资源的公司——在扩散语言模型赛道的正式下注。让我们把它放在竞争格局中来看。

Inception Labs（Mercury系列）

Inception Labs由斯坦福大学计算机科学教授Stefano Ermon创立，总部位于帕洛阿尔托。该公司于2025年初从秘密研发中走出，发布了基于扩散技术的大语言模型Mercury Coder。Inception将其技术称为"扩散基础的大语言模型"（Diffusion-based Large Language Model，简称DLM）。

Mercury模型同样采用从完全遮蔽内容开始、通过逐步去噪同时显示响应所有部分的方式生成文本。Inception在代码生成场景上表现突出，其Mercury Coder专注于编程辅助，声称推理速度显著超过传统自回归模型。值得注意的是，微软M12于2025年末参与了Inception 5000万美元的种子轮融资，微软甚至传出正与Inception展开收购谈判。这表明扩散语言模型路线已经获得了顶级科技公司真金白银的认可。

Meta LLaDA（Large Language Diffusion Models）

LLaDA是由中国人民大学高瓴人工智能学院和蚂蚁集团联合开发的扩散语言模型。其研究论文《Large Language Diffusion Models》证明了扩散模型在规模化训练、上下文学习（In-context Learning）和指令遵循（Instruction-following）方面，完全可以媲美甚至在某些维度超越主流自回归大模型（如LLaMA-3）。

LLaDA采用了掩码离散扩散模型（Masked Diffusion Model，MDM），而非图像生成中的连续加噪扩散。在前向过程中，所有token以相同的掩码概率被独立随机遮蔽；采样时则模拟从全掩码到无掩码的扩散过程，每步通过灵活的重掩码策略同时预测所有掩码位置。LLaDA已成功从零训练出8B参数规模的扩散模型，为扩散语言模型的可行性提供了坚实的学术证据。

三方对比

维度	DiffusionGemma	Inception Mercury	Meta LLaDA
研发主体	Google DeepMind	Inception Labs（初创）	人大+蚂蚁集团
模型规模	26B（MoE，激活3.8B）	未公开（推测中等规模）	8B
架构基础	Gemma 4 + Gemini Diffusion	自研DLM架构	从零训练的Transformer
开源策略	Apache 2.0	未开源（商业API）	学术论文公开
核心场景	本地交互、代码补全	代码生成	通用文本生成研究
扩散机制	并行去噪+双向注意力	掩码去噪	掩码离散扩散(MDM)
商业化程度	实验性	已推出API产品	研究阶段

从对比可以看出，三方的技术路线在"扩散"这个大框架下各有侧重：LLaDA提供了学术基础，Inception率先商业化，而DiffusionGemma则以顶级公司的开源姿态，将扩散语言模型推向主流开发者社区。Google的加入意味着这条赛道进入了"巨头入场"阶段，资源投入和技术迭代速度将大幅提升。

Apache 2.0开源对开发者的意义

DiffusionGemma以Apache 2.0许可证发布，这对开发者社区是一个重大利好。

Apache 2.0是AI领域最宽松的开源许可证之一，允许自由使用、修改、分发和商业化，且不要求衍生作品使用相同许可证。这意味着：

第一，无门槛接入。 任何开发者、研究机构或企业都可以免费使用DiffusionGemma，无论是本地实验、学术研究还是产品集成，都不存在许可证合规风险。这一点尤其重要——此前Inception Labs的Mercury模型未开源，开发者只能通过API调用；LLaDA虽然论文公开，但缺少工程化的模型权重和推理工具链。DiffusionGemma填补了这个空白。

第二，可商用。 与某些限制商业用途的开源许可证（如某些版本的Gemma系列曾使用的Gemma Terms of Use）不同，Apache 2.0明确允许商业用途。创业公司可以直接将DiffusionGemma集成到自己的产品中，无需担心许可证合规问题或后续被"关停"。

第三，可修改和再分发。 开发者可以对DiffusionGemma进行微调、架构改造或与其他工具链集成，并将修改后的版本分发给其他用户。这对于推动扩散语言模型生态的发展至关重要。

第四，基于成熟生态。 DiffusionGemma建立在Gemma 4系列之上，而Gemma系列已经拥有庞大的工具链生态——Ollama、vLLM、HuggingFace Transformers等主流推理框架均支持Gemma系列。这意味着开发者可以快速将DiffusionGemma集成到现有工作流中，学习成本极低。

当前局限性与适用场景

尽管DiffusionGemma在推理速度上展现了令人印象深刻的提升，但Google非常坦诚地将其定位为"实验性模型"。开发者在评估是否采用时，需要清醒认识以下局限：

生成质量仍低于标准Gemma 4。 Google明确表示，DiffusionGemma的整体输出质量低于标准Gemma 4，生产环境仍建议使用后者。扩散语言模型虽然在并行化上有天然优势，但在生成质量上还需要更多的训练数据和算法优化来追赶自回归模型。这是"速度换质量"的权衡。

高并发场景优势有限。 扩散模型的迭代特性意味着，在高并发云端部署中，每个请求都需要多轮前向传播。当并发量大时，GPU的批量处理优势被稀释，与自回归模型的速度差距收窄。DiffusionGemma的核心价值在本地和低并发场景，而非云端高吞吐部署。

适用任务范围有限。 当前DiffusionGemma最擅长的场景包括：

代码补全和行内编辑（双向注意力机制天然适配）
本地实时对话和交互式AI助手
数独、数学填空等非线性推理任务
实时辅助写作（快速生成草稿）

但对于需要极长上下文推理、复杂多轮对话或高精度任务（如医疗诊断、法律文书生成）的场景，自回归模型仍然是更稳妥的选择。

生态系统尚在早期。 虽然基于Gemma 4的基础架构，但扩散式推理的部署工具链（如量化和推理优化方案）相比自回归模型成熟度低。社区需要时间来开发配套工具和最佳实践。

行业影响

DiffusionGemma的发布对AI行业的影响远超一个开源模型本身——它标志着扩散语言模型正式进入大模型主流玩家的视野。

第一，验证了扩散范式的可扩展性。 在DiffusionGemma之前，扩散语言模型的代表作品要么是学术概念验证（LLaDA的8B模型），要么是初创公司的闭源产品（Inception Mercury）。Google基于Gemma 4的成熟架构构建出26B的扩散模型并开源，等于用顶级公司的背书告诉行业：扩散语言模型不仅在理论上行得通，而且在工程上可以做到生产级。

第二，打开了本地AI的新空间。 当前本地部署大语言模型的主要瓶颈是推理速度——用户在IDE中用AI补全代码或在本地运行AI助手时，几秒钟的延迟就足以破坏体验。DiffusionGemma的4倍加速配合消费级GPU的运行能力，使"本地AI体验接近云端"成为可能。这为本地化AI应用（隐私敏感、离线场景、边缘计算）打开了全新空间。

第三，加速了"混合架构"的探索。 DiffusionGemma并非要取代自回归模型，而是提供了一种互补的生成范式。未来很可能会出现这样的架构：简单、并行化的任务走扩散路径，需要精细控制的任务走自回归路径，甚至两种范式在同一个模型的不同层级协作。Google的入场将推动学术界和工业界加速探索这种混合架构的可能性。

第四，竞争格局的重塑信号。 微软对Inception Labs的收购兴趣、Google正式下场、Meta通过LLaDA参与——扩散语言模型赛道在2026年迅速升温。自GPT-2以来，自回归模型几乎统治了大语言模型领域6年多。DiffusionGemma的出现，让我们第一次看到了"自回归 + 扩散双范式并行发展"的行业格局雏形。

对开发者的意义

对于AI开发者而言，DiffusionGemma的发布带来了几个值得立即关注的方向：

立即可以做的事：

下载体验：作为Apache 2.0开源模型，开发者可以立即从HuggingFace等平台获取模型权重，在本地部署体验扩散语言模型的生成效果和速度差异。
基准测试：如果你的业务场景涉及本地实时推理（代码辅助、对话机器人、文本补全），建议将DiffusionGemma纳入基准测试，量化评估其在你的具体场景中的加速效果和质量表现。
工具链适配：关注vLLM、Ollama、SGLang等主流推理框架对DiffusionGemma的适配进度，以便在技术成熟时快速集成。

中期需要关注的趋势：

混合推理架构：密切关注"扩散 + 自回归"混合架构的研究进展。这很可能是下一代推理系统的方向——简单任务并行处理，复杂任务精细控制。
消费级GPU的AI能力跃升：DiffusionGemma能在RTX 5090上运行，意味着AI本地化部署的硬件门槛正在大幅降低。关注NVIDIA等芯片厂商是否会在硬件层面优化扩散模型的推理路径。
扩散模型的微调和训练工具：随着更多扩散语言模型的开源，社区将涌现出专门的微调和训练工具链（类似于LoRA之于自回归模型），这将是参与生态建设的窗口期。

需要保持清醒的认知：

DiffusionGemma当前是实验性产品，Google自己都建议生产环境使用标准Gemma 4。不要因为4倍加速的噱头就在生产环境中冒进采用。
扩散语言模型不是自回归模型的"替代品"，而是"互补品"。理解每种范式的适用场景，才能做出正确的技术选型。
开源意味着社区驱动的快速迭代，但也意味着早期版本可能存在稳定性问题。建议在充分测试后再纳入关键业务。

总结

DiffusionGemma是2026年大模型领域一个值得认真对待的技术信号。它不是又一个参数更大的自回归模型，而是Google以开源方式对"扩散语言模型"这一非主流范式的一次正式下注。26B MoE架构中仅激活3.8B参数，配合并行去噪实现最高4倍推理加速，使其在本地低延迟交互场景中展现出独特价值。虽然当前生成质量仍逊于标准自回归模型，且定位为实验性产品，但Google的入场、Apache 2.0的开源策略、以及与Inception Labs和Meta LLaDA的同台竞争，共同宣告了扩散语言模型从学术前沿走向主流开发的转折点已至。对于开发者而言，现在正是了解、评估、参与这一新范式生态建设的最佳时机。

📌 作者说：如果这篇文章对你有帮助，欢迎点赞👍收藏📁关注🔔，你的支持是我持续创作的动力！ 💬 有问题欢迎在评论区讨论，我会一一回复。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

让 Agent 说得少做得对：输出压缩与行动优先的提示策略

输出压缩不是简单的缩短输出长度，而是分层输出+权限隔离区块标签可见范围用途输出要求思考层仅Agent系统内部可见，用户完全看不到存储模型的推理过程、工具调用的理由、风险判断逻辑可以完整输出思考过程，不需要精简，用于调试和审计行动层仅Agent系统内部可见，用户完全看不到存储结构化的工具调用指令、参数、优先级必须是符合格式要求的结构化内容，便于系统解析执行结果层仅这个区块的内容会返回给用户存储用户需

AtomGit开源社区

具身智能（Embodied AI）：当 Agent 拥有了物理世界的身体

具身智能是指拥有物理实体（或虚拟具身）的AI Agent，能够通过感知、决策、执行的闭环与物理世界进行交互，在真实环境中自主完成复杂任务，并且在交互过程中持续进化的智能形态。和传统AI、纯数字Agent的核心差异在于：传统AI是“离线智能”，只能处理预先收集的数字数据；纯数字Agent是“虚拟智能”，只能操作数字世界的资源；而具身智能是“落地智能”，能够直接影响和改变物理世界。传统CV/NLP A