不换模型改Harness,agent排名从top30到top5—LangChain的实践复盘
LangChain 团队最近做了一个实验:
他们的编码 agent(deepagents-cli)在 Terminal Bench 2.0(编码 agent 界的标准基准测试,89 道题,覆盖 ML、调试、生物信息等)上,从 52.8 分冲到了 66.5 分,从排行榜 Top 30 直接进入 Top 5。
模型完全没换,始终是 gpt-5.2-codex。他们只做了一件事:改 harness。
这也对应了,当前的agent技术叙述正在从Context Engineering转向harness engineering ,如何构建有效环境让agent有效持久运行。
LangChain的编码 agent,harness 包括三类东西:
- System Prompt(系统提示词):给 agent 的工作手册,告诉它怎么思考、怎么干活
- Tools(工具)agent 能调用什么(bash、文件读写、浏览器等)
- Middleware / Hooks(中间件):在 agent 运行过程中自动触发的拦截器,在特定时刻注入提醒、强制验证、检测异常行为
他们怎么知道该改什么?Trace 分析法
第一步:把 agent 的完整行为录像存下来。
每个 agent 的每一步操作:调了什么工具、输入输出是什么、推理了什么、花了多久…全部记录在 LangSmith 里作为 Trace
第二步:让另一个 agent 批量分析失败的 traces。
他们做了一个 Trace Analyzer Skill:自动拉取实验数据 → 并行启动多个分析 agent 找错误 pattern → 主 agent 综合结论并提出改进建议。
第三步:人工审核建议,避免过拟合。
自动化分析出的改进建议,不是直接全盘接受。人需要判断:这个改动是解决了一个通用问题,还是只是在某道特定题上”作弊”?后者会导致其他任务回退。
这套”Trace → 分析 → 改进 → 再验证”的循环,就是他们能系统性提分的原因。
四个失败模式和解法
一:Agent 写完代码就自我感觉良好地停了
这是最大的失败模式。
LangChain 在 traces 里发现一个反复出现的 pattern:agent 写了方案 → 重新读了一遍自己的代码 → “嗯,看起来不错” → 交卷。
它根本没跑测试。
解法:强制进入”构建-验证循环”
他们做了两件事:
一是在系统提示词里加入四步工作流:规划 → 构建 → 验证 → 修复。特别强调验证时要”对照任务要求来检查,而不是对照自己的代码”。
二是加了PreCompletionChecklistMiddleware。这是一个硬机制:当 agent 准备结束任务时,系统自动拦截,问它”你跑完验证了吗?”不过这一关,agent 就不能退出。
二:Agent 不了解自己的工作环境
Agent 被扔进一个陌生的代码库,它不知道目录结构、不知道有什么工具可用、不知道 Python 装在哪。让它自己去探索,经常出错。
解法:自动化的 agent “入职引导”
他们写了一个 LocalContextMiddleware,在 agent 启动时自动执行:扫描目录结构、检测可用工具(Python 版本、包管理器等),把这些信息组织好直接注入 agent 的上下文。
想象一下新员工入职。你是让他第一天自己翻 wiki 找信息(效率低、容易遗漏),还是直接塞给他一份入职手册说”架构在这、规范在这、部署命令是这个”?后者就是 harness engineering 做的事。
他们还做了两个额外处理:
- 教 agent 写可测试的代码:在提示词中告知”你的代码会被自动化测试验证”,这样 agent 会更注意遵循文件路径规范和边界情况
- 注入时间预算:agent 天然不知道自己有时间限制。系统在关键节点提醒”你快没时间了,该转入验证了”
三:Agent 陷入死循环
Agent 一旦选定了某个方案,即使方案是错的,也会在原方案上反复微调,traces 里出现过对同一个文件编辑超过 10 次的情况,每次只做微小变化,但方向本身就是错的。
解法:循环检测中间件
LoopDetectionMiddleware 追踪每个文件被编辑的次数。超过 N 次后,自动注入一段上下文:“你可能需要换个思路了。”
当然原文也提到这类防护栏是为当前模型的缺陷而设计的。 随着模型能力提升,很多 harness 组件会变得不再必要。
四:推理计算资源该怎么分配?
gpt-5.2-codex 有四档推理模式:low、medium、high、xhigh。全程开最高档反而得分低(53.9%),因为频繁超时。
解法:“推理三明治”
- 开头(规划阶段):xhigh——充分理解复杂问题
- 中间(实现阶段):high——正常执行,节省时间
- 结尾(验证阶段):xhigh——认真检查最终结果
最终这个配置把分数推到了 66.5%。
从langchain的实践中可以总结出可直接落地的原则:
-
代替 agent 做上下文准备
别指望 agent 自己探索环境。你帮它准备好目录结构、可用工具、编码规范等信息,直接注入上下文。这个投入的 ROI 非常高。 -
逼 agent 做自我验证
模型总觉得自己第一遍就做对了。你必须在系统层面强制它进入”构建-测试-修复”循环。不是靠 prompt 里说一句”请验证”,而是用中间件硬拦截。 -
用 Trace 做反馈循环
每次 agent 运行都应该有完整的行为记录。分析失败 traces、归类错误 pattern、针对性改进。 -
给当前模型的缺陷打补丁
死循环检测、时间预算提醒、退出前 checklist,这些都是为模型现有弱点设计的工程方案。 -
不同模型需要不同的 harness
LangChain 用同样的早期 harness 跑 Claude Opus 4.6 只得了 59.6%,模型和 harness 之间存在适配性,一套 harness 不可能通吃所有模型。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)