AI Agent 强大的关键到底是啥——Harness 工程实战解读
你有没有想过一个问题:为什么同样是 Claude 或 GPT,在 ChatGPT 里只能聊聊天,但在 Claude Code 里却能帮你写代码、跑测试、修 Bug?
答案就两个字:Harness(框架)。
说实话,这个问题笔者琢磨了很久。直到看到 LangChain 这篇博客,才恍然大悟:模型只是大脑,Harness 才是让大脑干活的工具箱。
Agent = Model + Harness
作者给出了一个极简公式:
Agent = Model + Harness
用大白话说:如果你不是模型本身,那你就属于 Harness。

所谓 Harness,就是包裹在模型外面的一切:代码、配置、执行逻辑。
具体来说,包括:
- 系统提示:告诉模型角色定位、行为规范
- 工具/技能/MCP:扩展模型能力的"手和脚"
- 基础设施:文件系统、沙箱、浏览器
- 编排逻辑:子代理调度、任务路由
- 钩子/中间件:确定性执行、上下文压缩
光有模型,它只能输出文本。有了 Harness,模型才能变成 Agent。
为什么模型离不开 Harness?
从模型的角度看,它有三个"先天不足":

这三个问题,模型自己解决不了。必须靠 Harness 来补。
比如最简单的"聊天"功能,就需要 Harness 用一个 while 循环来追踪历史消息、追加用户输入。你以为理所当然的体验,背后都是 Harness 在干活。
Harness 的六大核心组件
作者从"想要什么行为"反推"需要什么 Harness 设计",梳理出六大组件:
文件系统:持久存储的基石
想要的行为:Agent 能读写真实数据、跨会话保存工作、卸载超长上下文。
Harness 设计:内置文件系统抽象和操作工具。
文件系统是最基础的 Harness 原语,因为它解锁了三件事:
- Agent 有了"工作台",能读代码、文档、数据
- 工作可以增量进行,不用把所有东西塞进上下文
- 多个 Agent 和人类可以通过共享文件协作
加上 Git,还能版本控制、回滚错误、分支实验。
Bash + 代码执行:通用工具
想要的行为:Agent 能自主解决问题,不需要人类预先设计每个工具。
Harness 设计:提供 Bash 工具,让模型通过写代码、执行命令来解决问题。
这是"给模型一台电脑,让它自己想办法"的思路。模型可以现场设计工具,而不是被限制在固定的工具集里。
沙箱环境:安全隔离
想要的行为:Agent 能安全执行代码、观察结果、验证工作。
Harness 设计:连接沙箱环境,安全隔离执行、按需创建销毁。
沙箱解决了两个问题:
- 安全性:不在本地跑危险代码
- 可扩展性:环境可以动态创建、批量分发、用完销毁
好的沙箱还预装了语言运行时、Git CLI、测试框架、浏览器等工具。
记忆与搜索:持续学习
想要的行为:Agent 能记住见过的东西,获取训练时不存在的新知识。
Harness 设计:
- 记忆:支持 AGENTS.md 等记忆文件,启动时注入上下文
- 搜索:Web Search、MCP 工具(如 Context7)获取实时信息
这实现了"持续学习":Agent 把一个会话的知识存下来,下次会话再用。
上下文管理:对抗"腐烂"
想要的行为:Agent 性能不随对话长度增加而下降。
Harness 设计:
这里有个关键概念:Context Rot(上下文腐烂)。说的是模型在上下文填满后,推理能力会下降。

Harness 需要三种策略来应对:
| 策略 | 解决的问题 |
|---|---|
| 压缩(Compaction) | 上下文快满了怎么办?智能摘要、卸载旧内容 |
| 工具输出卸载 | 大量工具输出占空间?只保留首尾,完整内容存文件 |
| 技能渐进披露 | 启动时加载太多工具?按需加载,减少初始负担 |
长期自主执行:复杂任务的终极目标
想要的行为:Agent 能自主完成复杂任务,跨多个上下文窗口正确执行。
Harness 设计:组合以上所有原语。
这是最难的场景。作者提到了几个关键模式:
- 文件系统 + Git:跟踪跨会话的工作进度
- Ralph Loop:拦截 Agent 的"退出"尝试,用新上下文重新注入原始任务,强制继续
- 规划与自验证:分解目标、检查中间结果、失败时反馈重试
模型与 Harness 的"纠缠"
这里有个有意思的现象:今天的 Agent 产品(如 Claude Code、Codex)在训练时,模型和 Harness 是一起参与的。
这意味着模型会"学习"如何更好地使用特定的 Harness——比如文件操作、Bash 执行、规划拆解。
这形成了一个飞轮:
- 发现有用的原语 → 加入 Harness
- 用新 Harness 训练下一代模型
- 模型在这个 Harness 里更强大
- 循环继续
但这也带来一个问题:过度耦合。
作者举了个例子:Codex-5.3 的 apply_patch 工具逻辑,模型被训练成用特定方式编辑文件。如果你改了工具逻辑,模型性能就会下降。
一个"真正智能"的模型,应该能轻松切换不同的补丁方法。但训练时绑定 Harness,就产生了这种"过拟合"。
笔者的观点是:最好的 Harness 不一定是模型训练时用的那个。Terminal Bench 2.0 的排行榜显示,Opus 4.6 在 Claude Code 里得分远低于在其他 Harness 里的得分。优化 Harness 本身,还有很大空间。
Harness 工程的未来方向
作者最后提到了几个正在探索的开放问题:
- 并行编排:几百个 Agent 同时在共享代码库上工作
- 自我诊断:Agent 分析自己的执行轨迹,识别和修复 Harness 层的失败
- 动态组装:根据任务实时组装工具和上下文,而不是预先配置
笔者的判断是:随着模型越来越强,Harness 不会消失,只会演进。
就像 Prompt Engineering 到今天依然重要一样,Harness 工程也会持续有价值。原因很简单:好的环境配置、合适的工具、持久的存储、验证循环——这些让任何模型都更高效,无论基础智能多强。
结语
这篇文章给笔者最大的启发是:不要把 Agent 想成一个黑盒,它是模型 + 框架的组合。
模型负责智能,Harness 负责让智能变得有用。
如果你想构建自己的 Agent,不妨从这个公式出发:先想清楚想要什么行为,再反推需要什么 Harness 组件。
不得不感叹一句:好的系统设计,是把 1 的智能放大成 10 的生产力。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)