不换模型改Harness，agent排名从top30到top5—LangChain的实践复盘

程序猿李巡天

56人浏览 · 2026-03-18 20:08:57

程序猿李巡天 · 2026-03-18 20:08:57 发布

LangChain 团队最近做了一个实验：
他们的编码 agent（deepagents-cli）在 Terminal Bench 2.0（编码 agent 界的标准基准测试，89 道题，覆盖 ML、调试、生物信息等）上，从 52.8 分冲到了 66.5 分，从排行榜 Top 30 直接进入 Top 5。

模型完全没换，始终是 gpt-5.2-codex。他们只做了一件事：改 harness。

这也对应了，当前的agent技术叙述正在从Context Engineering转向harness engineering ，如何构建有效环境让agent有效持久运行。

LangChain的编码 agent，harness 包括三类东西：

System Prompt（系统提示词）：给 agent 的工作手册，告诉它怎么思考、怎么干活
Tools（工具）agent 能调用什么（bash、文件读写、浏览器等）
Middleware / Hooks（中间件）：在 agent 运行过程中自动触发的拦截器，在特定时刻注入提醒、强制验证、检测异常行为

他们怎么知道该改什么？Trace 分析法

第一步：把 agent 的完整行为录像存下来。
每个 agent 的每一步操作：调了什么工具、输入输出是什么、推理了什么、花了多久…全部记录在 LangSmith 里作为 Trace

第二步：让另一个 agent 批量分析失败的 traces。
他们做了一个 Trace Analyzer Skill：自动拉取实验数据 → 并行启动多个分析 agent 找错误 pattern → 主 agent 综合结论并提出改进建议。

第三步：人工审核建议，避免过拟合。
自动化分析出的改进建议，不是直接全盘接受。人需要判断：这个改动是解决了一个通用问题，还是只是在某道特定题上”作弊”？后者会导致其他任务回退。

这套”Trace → 分析 → 改进 → 再验证”的循环，就是他们能系统性提分的原因。

四个失败模式和解法

一：Agent 写完代码就自我感觉良好地停了
这是最大的失败模式。
LangChain 在 traces 里发现一个反复出现的 pattern：agent 写了方案 → 重新读了一遍自己的代码 → “嗯，看起来不错” → 交卷。
它根本没跑测试。

解法：强制进入”构建-验证循环”

他们做了两件事：
一是在系统提示词里加入四步工作流：规划 → 构建 → 验证 → 修复。特别强调验证时要”对照任务要求来检查，而不是对照自己的代码”。
二是加了PreCompletionChecklistMiddleware。这是一个硬机制：当 agent 准备结束任务时，系统自动拦截，问它”你跑完验证了吗？”不过这一关，agent 就不能退出。

二：Agent 不了解自己的工作环境
Agent 被扔进一个陌生的代码库，它不知道目录结构、不知道有什么工具可用、不知道 Python 装在哪。让它自己去探索，经常出错。

解法：自动化的 agent “入职引导”

他们写了一个 LocalContextMiddleware，在 agent 启动时自动执行：扫描目录结构、检测可用工具（Python 版本、包管理器等），把这些信息组织好直接注入 agent 的上下文。
想象一下新员工入职。你是让他第一天自己翻 wiki 找信息（效率低、容易遗漏），还是直接塞给他一份入职手册说”架构在这、规范在这、部署命令是这个”？后者就是 harness engineering 做的事。

他们还做了两个额外处理：

教 agent 写可测试的代码：在提示词中告知”你的代码会被自动化测试验证”，这样 agent 会更注意遵循文件路径规范和边界情况
注入时间预算：agent 天然不知道自己有时间限制。系统在关键节点提醒”你快没时间了，该转入验证了”

三：Agent 陷入死循环
Agent 一旦选定了某个方案，即使方案是错的，也会在原方案上反复微调，traces 里出现过对同一个文件编辑超过 10 次的情况，每次只做微小变化，但方向本身就是错的。

解法：循环检测中间件

LoopDetectionMiddleware 追踪每个文件被编辑的次数。超过 N 次后，自动注入一段上下文：“你可能需要换个思路了。”
当然原文也提到这类防护栏是为当前模型的缺陷而设计的。随着模型能力提升，很多 harness 组件会变得不再必要。

四：推理计算资源该怎么分配？
gpt-5.2-codex 有四档推理模式：low、medium、high、xhigh。全程开最高档反而得分低（53.9%），因为频繁超时。

解法：“推理三明治”

开头（规划阶段）：xhigh——充分理解复杂问题
中间（实现阶段）：high——正常执行，节省时间
结尾（验证阶段）：xhigh——认真检查最终结果
最终这个配置把分数推到了 66.5%。

从langchain的实践中可以总结出可直接落地的原则：

代替 agent 做上下文准备
别指望 agent 自己探索环境。你帮它准备好目录结构、可用工具、编码规范等信息，直接注入上下文。这个投入的 ROI 非常高。
逼 agent 做自我验证
模型总觉得自己第一遍就做对了。你必须在系统层面强制它进入”构建-测试-修复”循环。不是靠 prompt 里说一句”请验证”，而是用中间件硬拦截。
用 Trace 做反馈循环
每次 agent 运行都应该有完整的行为记录。分析失败 traces、归类错误 pattern、针对性改进。
给当前模型的缺陷打补丁
死循环检测、时间预算提醒、退出前 checklist，这些都是为模型现有弱点设计的工程方案。
不同模型需要不同的 harness
LangChain 用同样的早期 harness 跑 Claude Opus 4.6 只得了 59.6%，模型和 harness 之间存在适配性，一套 harness 不可能通吃所有模型。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

spring security中httpSecurity构建DefaultSecurityFilterChain逻辑

是 Spring Security 中用于配置 Web 层安全的核心类，可以把它理解为整个安全过滤器链的“总设计师”和“建造指挥”。我们日常编写的等配置，本质上都是在与这个“总设计师”交互，指挥它如何组装和配置最终的安全防线——。: 是一个建筑总包公司。它不直接砌砖，但它拥有所有施工队（）的名单和联系方式，并持有所有建筑材料（）的仓库钥匙。: 是各个专业施工队（如水电队、泥工队、油漆队）。每个施工