Google DeepMind 提出 AutoHarness：先别急着训练大模型，先让它学会“别犯规”

朝阳区靓仔_James

486人浏览 · 2026-04-05 20:05:49

朝阳区靓仔_James · 2026-04-05 20:05:49 发布

很多人讨论大模型 agent 时，注意力都放在“它会不会规划”“它会不会推理”“它能不能多想几步”。

但 Google DeepMind 这篇 2026 年 3 月 5 日发布的论文《AutoHarness: improving LLM agents by automatically synthesizing a code harness》，盯上的却是另一个更朴素、也更致命的问题：

模型不是不会想，而是经常先犯规。

比如下棋时走出非法步、文本游戏里输出环境根本不接受的动作。这种错误看起来不高级，却足以让一个本来“懂规则”的模型，持续输给环境。

DeepMind 的做法很有意思。他们没有先去重新训练一个更大的模型，也没有靠人工手写一堆规则补丁，而是让 Gemini-2.5-Flash 自动给自己写一个代码外壳，也就是 harness。这个外壳负责两件事：一，检查动作是否合法；二，在必要时重试、过滤，甚至直接接管决策。

结果很夸张：

一个更小的 Gemini-2.5-Flash，在加上自动合成的 harness 之后，居然能在不少任务上压过 Gemini-2.5-Pro；如果把这个思路再往前推，直接让代码本身成为 policy，连推理时的 LLM 调用都可以省掉，而且平均得分还超过了 GPT-5.2-High。

这篇论文真正值得看的，不只是一个实验结果，而是它在提醒我们：

Agent 的能力，不一定只来自“模型本体”，也可能来自模型外那层被长期低估的系统结构。

这张图对应论文里的Figure 1，核心是让代码在 rollout、critic、refiner 的闭环里不断自我修正。

正文

一、这篇论文到底在解决什么问题

作者开篇举了一个很典型的例子。

在 Kaggle GameArena 国际象棋比赛里，Gemini-2.5-Flash 的失败中，有 78% 不是因为策略太差，而是因为走了非法步。换句话说，模型很多时候不是“不会博弈”，而是“连进入博弈都没进成功”。

这背后暴露的是一个被很多人低估的问题：LLM 可能理解规则，但不一定稳定地遵守规则；它可能知道什么动作是合理的，但在具体输出时，仍然会给出环境不接受的答案。

如果这个问题不解决，后面所有关于规划、搜索、长推理的讨论，都会被底层执行错误冲掉。

所以这篇论文的切口非常务实：

先别急着让模型更聪明，先让它别犯低级错误。

二、AutoHarness 的核心思想，不是“换模型”，而是“给模型加一个会自我进化的外壳”

什么是 harness？

可以把它理解成模型和环境之间的一层“保险丝”或者“中间件”。模型先提出动作，harness 再判断这个动作能不能被环境接受。如果不行，就拦下、修正、重试。

以前这层东西常常是工程师手写的。

但手写 harness 的问题也很明显：

每个游戏、每个环境都要单独做，成本高，而且非常脆。

AutoHarness 的创新点就在这里：

不是人来写 harness，而是让 LLM 自己根据环境反馈，自动把 harness 写出来、再一点点改好。

更具体一点，它让模型维护两类代码能力：

propose\_action(board)：给出一个动作。

is\_legal\_action(board, action)：判断这个动作是否合法。

如果环境告诉它“这个动作非法”，系统就把出错轨迹、错误信息、旧代码一起喂回去，让模型继续改代码。这个过程不是盲改，而是放在一个树搜索框架里，用 Thompson sampling 在不同候选代码之间做探索与利用。

说白了，它不是让模型直接变强，而是让模型在外面长出一层“不会轻易犯规的程序骨架”。

这张图对应Figure 2，能看到不同游戏里，合法动作率会随着代码迭代快速爬升。

三、这套方法为什么有效

论文最关键的一点，不是“代码比语言强”，而是“把可验证的部分剥离出来”。

下棋是否合法、动作格式对不对、当前局面下哪些选择能被接受，这些问题本质上是可执行、可验证、可外部检查的。

如果你把这些事情全压给 LLM 内部去“想”，它就会出现两个问题：

第一，它的内部世界模型可能是模糊的。

第二，它即使知道规则，也未必每次都输出得稳定。

而一旦把“合法性约束”写成代码，情况就变了。代码不会因为温度变化突然忘记规则，也不会在第 17 步开始莫名其妙输出一个非法格式。

换句话说，AutoHarness 其实是在做一件很重要的系统工程工作：

把“创造性决策”留给模型，把“硬边界约束”交给程序。

这件事听起来不像 AGI 叙事那么热血，但在 agent 落地里往往更值钱。

四、实验结果最震撼的地方，是“小模型+好外壳”能打过“大模型裸奔”

论文在 TextArena 的 145 个文本游戏上训练 harness，并在其中 32 个游戏上做端到端评测。

先看最基础的结果：

作者报告，他们在全部 145 个游戏上都把合法动作成功率做到了 100%。

这意味着，至少在这类有明确规则边界的环境里，AutoHarness 几乎把“非法动作”这个错误类型彻底清掉了。

训练成本也没有夸张到离谱。论文里提到，harness-as-action-verifier 的训练平均只需要 14.5 次树搜索迭代，32 个游戏里有 19 个在 10 次以内就收敛。

这张图对应Figure 3，展示的是 16 个双人游戏里，Gemini-2.5-Flash+Harness 对 Gemini-2.5-Pro 的胜负分布。

更有意思的是对战结果。

在 16 个双人游戏里，Gemini-2.5-Flash 加上 harness 后，打赢了 9 个游戏，对 Gemini-2.5-Pro 的整体胜率达到 56.3%；后者是 38.2%。

这其实是在说：

你不一定要先追求更大的底座模型。很多时候，一个更小但被系统结构保护好的模型，反而比“直接裸用的大模型”更能打。

这对行业的启发非常大，因为它动摇了一个默认假设：

性能提升不一定只能靠参数规模，也可以靠 agent architecture。

五、更激进的一步：连 LLM 推理都不要了，直接让代码当 policy

论文最有冲击力的部分，其实还不是前面，而是后面的 harness-as-policy。

这里作者把事情做得更彻底：

不只是让代码检查动作合不合法，而是直接让代码决定下一步该做什么。也就是说，测试时不再调用 LLM，整个策略就写在 Python 代码里。

这有点像把模型在某个环境里摸索出来的“做事方式”，蒸馏成一段可执行程序。

结果也非常夸张。

在 16 个单人游戏上，Harness-as-Policy 的平均 reward 达到 0.870，高于 Gemini-2.5-Pro 的 0.707，也高于 GPT-5.2-High 的 0.844。

而且论文特别强调了一点：GPT-5.2 和 GPT-5.2-High 的测试成本大约是 640 美元，而 Harness-as-Policy 在测试时几乎没有 LLM 成本，因为它本质上已经变成纯代码执行了。

这张图对应Figure 4，比较的是单人游戏里 Gemini-2.5-Flash+Harness 和 Gemini-2.5-Pro 的 reward。

这件事真正厉害的地方在于，它不只是提升了正确率，还把推理成本结构一起改掉了。

六、这篇论文对 agent 设计最大的启发是什么

过去我们做 agent，太容易把所有问题都理解成“模型能力问题”；但 AutoHarness 说明，很多问题其实是“接口设计问题”“约束表达问题”“执行系统问题”。

一个 agent 至少有三层：

模型本身，负责生成。

外部环境，负责反馈。

中间那层 harness，负责把两者接起来。

很多团队把前两层卷得很厉害，却把第三层当成胶水代码随便处理。可这篇论文反过来证明，第三层也许正是最容易出 alpha 的地方。

如果把这个思路再往外推，你会得到几个很实际的方向：

第一，凡是存在明确约束、明确格式、明确规则边界的任务，都值得把约束外显成程序，而不是全丢给提示词。

第二，很多 agent 优化，不一定要先做 costly fine-tuning，也可以先做可验证的 harness learning。

第三，未来“模型生成代码，再由代码承担执行策略”的范式，可能会比“每一步都让大模型在线思考”更便宜，也更稳。

七、这篇论文也有边界

当然，这篇工作并不是在宣布“代码方法全面取代大模型”。

它至少有几个前提。

第一，它现在主要验证的是规则明确、反馈清晰的游戏环境。这类环境天然适合把合法性和策略结构化。

第二，它目前是“每个环境学一个 harness”，泛化能力还没有被证明。作者在结论里也明确写了，下一步希望把这些环境专属专家再蒸馏回基础模型，或者建立可复用的 harness 库。

第三，双人博弈里如果需要复杂的对手建模和搜索，单靠静态代码 policy 未必够，论文自己也承认 2P 场景更难。

所以更准确的理解不是：

“以后不用更强模型了。”

而是：

“在可验证任务里，模型外的程序结构，可能是比继续堆参数更快见效的杠杆。”

结尾

如果只用一句话概括这篇论文：

AutoHarness 真正证明的，不是小模型突然比大模型更聪明了，而是一个被良好约束、良好包裹、良好校验的小模型，完全可能比一个裸奔的大模型更有战斗力。

它谈的不是抽象的“智能神话”，而是非常具体的 agent engineering：错误怎么被拦住，能力怎么被放大，成本怎么被重写。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

TCP协议的全面复习

AtomGit开源社区

AI 生成代码时代实操指南：如何守住你的系统认知主权

AtomGit开源社区

记几个有意思的面向对象题目

总结一下，对我来说在学习的过程中确实会有很多遗漏的知识点没能掌握，也有很多学过的知识点容遗忘，但是多写代码对知识点的记忆是会有很大益处的，现在是计科的学生，以后成为码农后，代码的敲击是要日复一日来提升自己的，虽然说有AI的帮助，但自己会了才是真的会，没办法，学识浅薄，仍需努力！不过实际上我们在计算哈希值的时候，可以直接调方法，如对象.hashcode();//举个例子就如果说如果我们生成的哈希值是