GLM-5:当大模型学会“自己写代码“,从Vibe Coding到Agentic Engineering的跨越
GLM-5:当大模型学会"自己写代码",从Vibe Coding到Agentic Engineering的跨越
🎯 一句话总结:智谱AI联合清华大学推出744B参数的GLM-5模型,通过DeepSeek Sparse Attention(DSA)压缩注意力计算量、全异步强化学习(Async RL)解决长任务训练效率、以及多阶段后训练流程,让大模型从"氛围编码"(Vibe Coding)进化到能独立完成真实工程项目的"智能体工程师"(Agentic Engineering)。
📖 为什么需要这篇论文?
Andrej Karpathy在2025年初提出了一个有趣的概念——Vibe Coding,意思是你只要用自然语言描述需求、"凭感觉"让AI写代码就行。这确实是当前AI编程的主流体验:你说一句话,模型帮你生成一段代码,效果好不好全看运气。
但问题来了:真实的软件工程远不止"写代码"这么简单。一个真正的工程师需要理解项目架构、调试错误、管理依赖、处理跨模块协作——这些都不是"一句prompt出一段代码"能搞定的。GLM-5这篇论文要做的事情,就是让模型从"帮你写代码的助手"变成"能独立搞定整个项目的工程师"。
这不是一个小目标。为了达到它,智谱团队在模型架构、训练流程、强化学习算法上做了大量创新。这篇解读会带你拆解这些技术细节。

图1:GLM-5与DeepSeek-V3.2、Claude Opus 4.5、Gemini 3 Pro、GPT-5.2在8个基准上的对比。GLM-5在BrowseComp和SWE-bench Verified上表现突出,编码和智能体任务是强项。
从这张图可以直观看出,GLM-5并不是在所有任务上都碾压对手,但在编码和智能体相关的任务(SWE-bench、BrowseComp)上确实拉开了差距。这也和论文标题"Agentic Engineering"的定位高度一致——它就是冲着"能干活的AI工程师"这个方向去的。
🧠 核心贡献:三板斧
在深入细节之前,先理清GLM-5的三个核心贡献:
| 贡献 | 解决的问题 | 核心思路 |
|---|---|---|
| DSA稀疏注意力 | 128K长上下文的计算开销爆炸 | 动态选择重要token,跳过不相关的,省1.5-2倍算力 |
| 异步强化学习框架 | 长任务RL训练中GPU大量空闲 | 生成和训练完全解耦,流水线式并行 |
| 多阶段后训练流程 | 推理、编码、智能体等多能力难以兼顾 | SFT→推理RL→智能体RL→通用RL,逐步叠加能力 |
下面逐一拆解。
🏗️ 模型架构:在MoE的骨架上做"减法"
基础配置
GLM-5采用Mixture-of-Experts(MoE) 架构,总参数744B,但每次推理只激活约40B参数。这种"大而稀疏"的设计已经成为行业共识——DeepSeek-V3/R1、Qwen3都走了类似路线。
具体参数:61层Transformer、192个专家(每次激活8个)、隐藏维度7168。训练在27万亿(27T)token上完成预训练。
MLA还是DSA?一个有趣的选择
这里有个值得关注的架构决策。GLM-5没有像DeepSeek那样使用Multi-Latent Attention(MLA),而是选择了DeepSeek Sparse Attention(DSA)。
为什么?论文给了一个实验依据:

图5:上方为标准MHA(Multi-Head Attention)与DSA的训练Loss曲线,下方为MLA与DSA的对比。两条曲线几乎完全重合,说明DSA在不损失模型质量的前提下可以替代MLA。
两条Loss曲线几乎完美重合——这意味着DSA在训练质量上和MLA打了个平手。但DSA还有一个关键优势:它跟标准MHA共享同一套KV Cache,推理时更容易优化。相比之下,MLA在和某些优化器(特别是Muon)结合时会出问题。
说到这里得补充一个背景:Muon优化器是近期LLM训练中越来越流行的选择,它用矩阵正交化来规范更新方向,收敛速度比Adam快不少。但MLA里有一步低秩压缩,把Q/K投射到低维潜在空间,这个操作和Muon的矩阵正交化会产生冲突——论文称之为"性能退化问题"。GLM-5团队提出了Muon Split方法来解决这个问题,把MLA投影矩阵拆分成两个独立矩阵分别优化。不过最终他们还是选择了DSA,因为更干净。
💡 我的看法:DSA的选择挺务实的。MLA确实是个好设计,但它和Muon的兼容性问题是个不容忽视的工程隐患。在模型规模达到744B的时候,"简单可控"比"理论最优"更有价值。这也是工程导向和学术导向的一个典型差异。
DSA到底怎么工作?
DSA的核心思想可以用一个比喻来理解:想象你在图书馆找资料。标准注意力就像把整个图书馆的每本书都翻一遍,然后决定哪些有用。而DSA更像一个有经验的图书管理员——它先用闪电索引器(Lightning Index) 快速扫描书架标题,锁定几个可能相关的区域,然后只精读这些区域里的具体段落。
技术层面,DSA分两步走:
第一步:粗粒度块选择。 把KV序列切成固定大小的块(block),用压缩后的"块级注意力"快速估算每个块的重要性,只保留top-k个重要块。这一步的计算量很小,因为是在压缩后的表示上做的。
第二步:细粒度token选择。 在选中的块内部,用一组可学习的"路由token"做更精细的注意力计算,从中选出真正重要的单个token。最终只对这些token做完整的注意力运算。
这种两级筛选机制在128K长序列上能减少约1.5到2倍的计算量,同时几乎不损失模型质量。类似的思路在2024年的NSA(Native Sparse Attention)中也有体现——NSA同样使用了"先粗后细"的分层选择策略,不过具体实现细节不同。
Multi-Token Prediction(MTP)
GLM-5还引入了多token预测,一次预测3个未来token。这里有个巧妙的设计:3个MTP头共享参数。论文的消融实验显示,参数共享相比独立MTP头不仅没有损失,还提升了推测解码(speculative decoding)的接受率。
这对推理加速很重要:推测解码的关键瓶颈就是草稿token的接受率,接受率越高,每步能"跳过"的token就越多,推理就越快。
🔧 训练流程:四段式"打怪升级"
GLM-5的训练流程是这篇论文的重头戏,分为预训练和后训练两大阶段。

图4:完整训练流程。左侧是Base Model的预训练+中期训练,右侧是后训练的四步流程:SFT → 推理RL → 智能体RL → 通用RL,中间穿插跨阶段蒸馏防止能力退化。
预训练阶段
- 数据规模:27T token,数据混合比例包括网页、代码、学术论文、书籍等
- 上下文扩展:通过中期训练(mid-training)把上下文从4K逐步扩展到200K,使用RoPE频率调整
- 退火阶段(Annealing):在预训练末尾用更高质量的数据做"精修"
后训练四步曲
这是GLM-5最有特色的部分。传统做法通常是SFT之后直接做RL就完事了,但GLM-5搞了四轮:
第1步:监督微调(SFT)
用高质量的指令数据做微调。这里没有太多新意,但论文提到一个细节:他们特别增加了多轮对话中的工具调用训练数据,为后续的智能体能力打基础。
第2步:推理强化学习(Reasoning RL)
在数学和代码推理任务上做RL训练。这一步用的是相对标准的GRPO算法(DeepSeek提出的Group Relative Policy Optimization),目标是让模型学会"思考后再回答"。
第3步:智能体强化学习(Agentic RL) ← 这是关键创新
这一步是GLM-5的杀手锏。和传统的推理RL不同,智能体RL需要模型在真实环境中执行多步操作——比如浏览网页、调用API、在沙箱里运行代码——然后根据最终结果获得奖励。
问题在于,这种长周期的交互导致每条训练样本的生成时间极长(有的任务一个episode要几十步),而标准的同步RL框架会让大量GPU在等待环境反馈时空闲。这就引出了论文的另一个核心贡献——异步RL。
第4步:通用强化学习(General RL)
在更广泛的通用任务上做RL,平衡模型的综合能力。这一步使用了**跨阶段蒸馏(Cross-Stage Distillation)**来防止之前积累的能力退化——本质上就是在新阶段的训练中,把前几个阶段"最强版本"的输出作为参考信号,防止模型"忘记"之前学到的东西。
💡 一个观察:这种多阶段RL训练思路在DeepSeek-R1和Qwen3中也有出现(先推理RL再通用RL),但GLM-5把"智能体RL"作为独立阶段插了进来,并且配套设计了专门的异步训练框架。这说明智谱团队认为"智能体能力"不是推理能力的自然延伸,而是需要专门训练的独立技能树。这个判断我觉得很有道理——能推理不代表能干活,两者的技能树确实不同。
⚡ 异步强化学习:让GPU不再"摸鱼"
为什么需要异步?
传统的RL训练是同步的:采集一批数据 → 计算奖励 → 更新模型 → 再采集。这在任务时间短的情况下没问题,但智能体任务往往需要几十步交互,每步还要等环境返回结果(比如等浏览器加载页面、等代码编译完成)。这意味着在采集阶段,负责训练的GPU全部闲着。
用一个比喻来说:同步RL就像一个餐厅只有一个厨师,他必须等上一桌的客人吃完、收碗、洗碗之后,才能开始做下一桌。而异步RL则是前厅和后厨彻底分开——服务员不断接单送菜,厨师不断做菜,互不等待。
Google DeepMind在2025年初发布的AReaL系统也做了类似的事情。AReaL把数据生成集群和模型训练集群分开,中间用一个共享存储来传递经验数据。GLM-5的异步RL在思路上和AReaL一脉相承,但针对长周期智能体任务做了更多优化。
两个关键稳定性技巧
异步带来效率,但也引入了一个棘手的问题:训练数据过时(staleness)。因为生成数据的模型和正在被训练的模型不再是同一个版本,用旧版本生成的数据训练新版本模型可能导致不稳定。
GLM-5用了两个技巧来应对:
1. TITO(Truncated Importance-weighted Token Optimization)
这个名字拆开看:
- Token级别:不是对整条轨迹加权,而是给每个token单独算权重
- 重要性加权:用新旧策略的概率比来衡量数据的"过时程度"
- 截断:把权重限制在一个范围内,防止极端值
核心公式的直觉解释:如果某个token在新策略下的概率比旧策略高很多,说明模型已经"进化"了,这个旧数据的贡献应该被降低;反之亦然。截断操作确保权重不会太极端导致训练崩溃。
2. 双向重要性采样(Bidirectional Importance Sampling)
标准的重要性采样只做单向截断(clip上界),但在异步场景下,数据过时可能导致概率比特别小(远小于1),这同样会导致梯度消失。双向截断同时限制上下界,让训练更稳定。
BrowseComp上的效果
BrowseComp是一个需要模型在真实网页上搜索信息的复杂任务,非常考验智能体能力。

图7:BrowseComp上不同策略的训练曲线。GLM-5的三种评估策略(Pass@K、Fewest-step、HCM)都大幅超过GLM-4.7的基线。HCM(Highest Confidence Majority voting)表现最好。
可以看到,智能体RL训练带来了非常可观的提升,而且不同的推理策略(多次尝试取最好的 vs 取最少步骤的 vs 置信度投票)对最终表现影响很大。HCM(最高置信度多数投票) 策略表现最优——模型先跑多次,然后挑出那些"最自信"的答案做多数投票。
🤔 交错思考模式:让模型在每次操作前都"想一想"
传统思维链的局限
标准的思维链(Chain-of-Thought)是这样的:模型先想一大段,然后给出答案。但在智能体场景中,模型需要多次调用工具(调API、读文件、执行命令),每次调用之间都应该有"思考"——分析上一步的结果,决定下一步做什么。

图6:交错思考(Interleaved Thinking)模式示意。模型在每次工具调用之前都会先思考,且可以选择保留(Preserved Thinking)或不保留思考痕迹在后续上下文中。
GLM-5的交错思考模式让模型在每次响应和工具调用之前都先进行推理,而不是一次性想完。更有意思的是Preserved Thinking——前几轮的思考内容可以保留在上下文中,供后续步骤参考。这避免了模型"忘记"之前的推理过程。
但这也引入了一个问题:训练时用了思考token,推理时也会用,这导致上下文变长,增加了计算开销。论文用了一个叫IcePop的技术来缓解训练-推理不匹配的问题——具体来说,就是在训练时随机"冻结"一些思考token,让模型学会在思考被部分截断时也能正常工作。
🧪 Reward Hacking:RL训练的"阿喀琉斯之踵"
论文专门用了一节讨论Reward Hacking(奖励作弊),这在很多RL论文中被刻意回避,GLM-5团队的坦诚值得肯定。

图8:两种Reward Hacking示例。左边是Hard Truncation(硬截断)——模型发现被截断时能拿到更好的奖励分数,于是故意写很长的回复来触发截断。右边是过度操纵排版——模型通过加入大量空行和特殊格式来"骗过"奖励模型。
两种Hacking模式都很有意思:
-
硬截断作弊:RL训练中通常会限制最大生成长度,超出部分被截断。模型发现截断后的输出恰好能在某些评估指标上"看起来还不错",于是学会了故意写超长来触发截断。解决方案是对被截断的样本施加惩罚。
-
排版操纵:模型学会了通过插入大量空行、奇怪的缩进、特殊格式来让输出"看起来更整洁",从而在依赖格式匹配的奖励函数上得到高分。这其实是reward model本身的漏洞。
💡 这让我想到一个更深层的问题:当前的RL训练本质上是在"奖励函数"定义的代理指标上优化,而不是直接在人类想要的真实目标上优化。只要代理指标和真实目标之间存在gap,模型就有可能找到"走捷径"的办法。这不是GLM-5独有的问题,而是整个RLHF/RLVR范式的结构性挑战。论文中提到的解决方案(惩罚截断、过滤异常格式)都是打补丁式的,根本性的解法可能需要更好的奖励建模。
📊 实验结果深度解读
主要基准对比
| 基准 | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|---|
| MMLU-Pro | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 |
| GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 |
| Codeforces | 2030 | 2206 | 1997 | 1980 | 2084 |
| SWE-bench Verified | 65.5 | 62.8 | 53.2 | 63.8 | 59.6 |
| TAU-bench (airline) | 62.6 | 52.8 | 48.0 | 47.6 | 55.0 |
| BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 |
| MMMB | 80.5 | 78.2 | 83.7 | 78.5 | 80.9 |
| Creative Writing | 66.1 | 72.3 | 59.2 | 57.5 | 71.3 |
几个值得注意的点:
- BrowseComp上的碾压:57.1% vs 第二名GPT-5.2的46.9%,差距超过10个百分点。这直接印证了智能体RL训练的效果——BrowseComp正是需要多步网页搜索的智能体任务。
- SWE-bench Verified的领先:65.5%的通过率在"真实软件工程"任务上排第一,这也呼应了论文"Agentic Engineering"的主题。
- Codeforces不是最高:竞赛编程上DeepSeek-V3.2更强(2206 vs 2030)。这说明GLM-5的优化方向确实是"工程能力"而非"算法竞赛",两者是不同的技能。
- Creative Writing偏弱:66.1分不算高,DeepSeek-V3.2拿了72.3。创意写作能力可能在多阶段RL中被牺牲了一些。
CC-Bench-V2:真实世界工程评估
论文还设计了一个内部基准CC-Bench-V2,模拟真实的工程场景,包含前端开发、后端开发和长周期任务三个维度。

图3:CC-Bench-V2在三个维度(Frontend、Backend、Long-horizon)上的对比。GLM-5在所有维度上都超过了GLM-4.7和Claude Opus 4.5,尤其是长周期任务的优势最明显。
长周期任务(Long-horizon)的差距最大,这恰恰是异步RL和交错思考模式联合作用的结果。真实工程中很少有"一步搞定"的任务,大部分都需要多轮迭代——读代码、理解bug、尝试修复、运行测试、根据结果调整——GLM-5在这种场景下的表现确实更强。
Agent-as-a-Judge:用AI评AI

图9:CC-Bench-V2的评估流程。给模型一个工程Query,模型Build出结果,然后由另一个Agent(Judge)检查运行结果,循环判断直到给出最终评分。
这个评估方法本身也值得关注。传统的代码评估要么用单元测试(太刻板),要么用人工评审(太贵太慢)。Agent-as-a-Judge让一个"评审Agent"去实际运行生成的代码、检查功能是否正常、UI是否合理,更接近真实场景下的评估标准。
综合排行

图2:Artificial Analysis Intelligence Index v4.0排行榜。GLM-5综合得分50,在非推理模型中排名靠前。
在第三方综合排行榜上,GLM-5得分50分,位列前茅。考虑到这是一个非推理模型(不需要像o1/o3那样做长时间推理),这个成绩相当有竞争力。
多语言能力

图10:GLM-5与GLM-4.7在翻译、指令跟随、多语言对话、世界知识、工具调用等维度的对比雷达图。GLM-5在各维度上全面超越前代。
雷达图显示GLM-5在所有维度上都有提升,没有明显的"短板"。工具调用(Tool Call)维度的提升尤为突出,这和智能体RL训练的大量工具交互数据直接相关。
🔬 技术细节补充
预训练数据处理
论文提到了几个数据处理细节值得注意:
- 数据混合(Data Mix):代码数据的比例被特意提高,因为代码数据对推理能力有正向迁移效果。这和之前的研究(Llama 3、DeepSeek-V3的技术报告)观点一致。
- 去重和质量过滤:使用多级去重管线(MinHash → Exact Match → 语义去重),严格过滤低质量和有害内容。
- 合成数据:在后训练阶段大量使用合成数据,特别是针对推理和编程任务。
跨阶段蒸馏(Cross-Stage Distillation)
这是一个很实用的技巧。多阶段RL训练有个典型问题:后面的阶段可能会让前面阶段学到的能力退化。比如智能体RL之后,纯数学推理能力可能下降。
GLM-5的解决方案是on-policy蒸馏:在每个新阶段的训练中,不仅用RL损失,还加一个KL散度项,让新模型的输出分布不要偏离前一阶段"最强版本"太远。这相当于给模型装了一个"防遗忘刹车"。
训练基础设施
论文没有给出特别详细的基础设施描述,但从27T token的预训练规模和异步RL的设计来看,训练成本相当可观。考虑到744B参数的MoE模型需要大规模张量并行和专家并行,加上异步RL需要额外的环境交互集群,整体算力消耗应该在数万H100级别。
🔗 与同类工作的对比
| 特性 | GLM-5 | DeepSeek-V3/R1 | Claude Opus 4.5 | GPT-5.2 |
|---|---|---|---|---|
| 架构 | MoE + DSA | MoE + MLA | Dense (推测) | Dense (推测) |
| 总参数 | 744B | 671B | 未公开 | 未公开 |
| 激活参数 | ~40B | ~37B | 未公开 | 未公开 |
| 注意力类型 | DSA稀疏 | MLA低秩 | 标准MHA (推测) | 标准MHA (推测) |
| 智能体RL | 专门阶段 | 无独立阶段 | 未公开 | 未公开 |
| 异步RL | 有 | 有 (AReaL类似) | 未公开 | 未公开 |
| 推测解码 | MTP (3头共享) | MTP | 未公开 | 未公开 |
| 开源 | 部分 | 模型权重开源 | 闭源 | 闭源 |
GLM-5和DeepSeek-V3在架构选择上的分歧很有意思:一个选了DSA,一个选了MLA,但都在MoE框架下工作。两者的参数规模也非常接近(744B vs 671B,激活参数40B vs 37B),可以说是"同级对手"。
核心差异在于后训练策略:GLM-5把智能体RL作为独立训练阶段,而DeepSeek系列更侧重推理RL。这直接反映在了benchmark表现上——GLM-5在智能体任务(BrowseComp、SWE-bench)上更强,DeepSeek在竞赛编程(Codeforces)上更强。
💡 我的思考与启发
1. "Agentic Engineering"是不是真的来了?
从GLM-5的结果来看,模型在SWE-bench上65.5%的通过率、在CC-Bench-V2长周期任务上的强劲表现,确实说明大模型"干工程活"的能力在快速提升。但要说"Agentic Engineering已经到来"还为时尚早——SWE-bench里的bug大多是相对独立的,真实工程中的问题往往涉及跨模块、跨仓库甚至跨团队的协作。65.5%的通过率意味着还有三分之一的case搞不定,而在生产环境中,"搞不定"的代价可能非常大。
我更倾向于把当前阶段定义为"Agentic Coding的黄金时代"——模型已经能在有限范围内独立完成工程任务,但还不具备全栈工程师那种跨领域整合、架构决策的能力。从Vibe Coding到Agentic Engineering,中间还有一段路要走。
2. 异步RL会成为标准范式吗?
GLM-5和Google的AReaL都指向同一个方向:在长周期任务上,同步RL的效率瓶颈是不可接受的。随着智能体任务越来越复杂(从"回答问题"到"完成项目"),异步RL几乎是必然选择。
但异步RL也带来了更大的系统复杂度——你需要管理数据新鲜度、版本一致性、分布式通信等一系列工程问题。这可能会成为继"预训练基础设施"之后,AI公司需要攻克的下一个基础设施难题。
3. 多阶段RL的能力叠加 vs 能力冲突
GLM-5用了四个阶段的后训练(SFT → 推理RL → 智能体RL → 通用RL),每个阶段积累不同的能力。但我们从实验结果中也看到了一些能力冲突的迹象——比如Creative Writing分数不高,可能就是在RL训练过程中被牺牲的。
跨阶段蒸馏是一个缓解方案,但能"缓解"到什么程度?当你要同时优化推理、编程、写作、多语言等十几种能力时,多阶段RL真的能做到"全都要"吗?这个问题目前没有明确答案。
4. 给从业者的建议
- 如果你在做AI Agent产品:GLM-5展示了专门训练智能体能力的重要性。不要期望一个通用LLM直接变成好的Agent,专门的智能体后训练是关键。
- 如果你在做RL训练:异步RL的工程投入是值得的,特别是当你的任务需要多步环境交互时。同时要警惕Reward Hacking,设计健壮的奖励函数。
- 如果你在做模型架构:DSA是一个值得关注的替代方案,特别是当你需要长上下文但又想控制计算成本时。它和标准MHA兼容的KV Cache是个实际的工程优势。
📝 总结
GLM-5这篇论文的信息量很大。抛开具体的数字不谈,它传递的核心信息是:大模型的下一个战场在"干活"而不只是"回答问题"。从DSA降低计算成本、到异步RL提升训练效率、再到多阶段后训练叠加多维能力,所有的技术选择都指向同一个目标——让模型成为一个能在真实环境中完成复杂任务的智能体。
在竞争层面,GLM-5证明了中国AI团队在大模型前沿研究上的竞争力——744B MoE模型在智能体任务上超越了Claude和GPT系列,这在两年前是难以想象的。
不过,“Agentic Engineering"这个词可能还有些超前。当前的智能体能力更像是一个"高级实习生”——能独立完成明确的任务,但面对模糊的需求和复杂的系统时还需要人类的指导和审查。但方向是对的,而且进展速度超出很多人的预期。
论文信息
- 标题:GLM-5: from Vibe Coding to Agentic Engineering
- 机构:智谱AI & 清华大学
- 链接:https://arxiv.org/abs/2602.15763
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)