一、什么是 AI Harness Engineering?

2024 年底,一个新词开始在 AI 圈子里冒出来:Harness Engineering

翻译成中文,大概是"智能体架构工程"或"驾驭工程"。但说实话,这个名字本身就挺能说明问题的——我们不再只是"提示"模型,而是在"驾驭"它。

Harness Engineering 的核心思想是:与其期待模型自己把事情做对,不如搭建一套完整的架构,让模型在这个框架内稳定地完成任务。

这听起来可能有点抽象。打个比方:

• 提示词工程:写好一份详细的任务说明书,交给员工执行

• 上下文工程:提供足够的背景资料和参考资料

• Harness Engineering:搭建一套完整的工作流程,包括任务分解、进度跟踪、质量检查、交接机制

三者不是替代关系,而是层层递进。Harness Engineering 包含了前两者,但走得更远。

二、为什么我们需要 Harness Engineering?

2.1 模型的"失忆"问题

如果你用过 Claude 或 GPT 做复杂任务,大概率遇到过这种情况:

• 对话进行到一半,模型开始重复之前说过的话

• 前面提到的要求,后面就忘了

• 上下文越来越长,模型的输出质量却越来越差

这不是模型的 bug,而是 transformer 架构的固有特性。上下文窗口越大,模型的"注意力"就越分散——就像一个人被塞进了太多的信息,反而不知道该关注什么。

Anthropic 的研究把这个现象称为**“上下文衰减”(Context Rot)**。当上下文超过一定长度,模型提取关键信息的准确率就开始下降。

2.2 “上下文焦虑”

还有一个更有意思的现象:模型在接近上下文窗口上限时,会表现出一种"焦虑"——即使还有空间,它也开始匆忙收尾,提前结束任务。

Anthropic 的工程师在实验中发现,Claude Sonnet 4.5 特别容易表现出这种行为。明明还有几万个 token 的空间,它已经开始写"总结"了。这就像一个学生考试时看了眼钟,发现时间还剩 20 分钟,就开始草草结尾——即使时间完全够用。

2.3 自我评价的"老好人"倾向

如果你让模型评价自己完成的工作,它几乎总是给出正面评价。

“这个实现很好!”“功能完整!”“代码质量很高!”

但实际上呢?可能 bug 一堆,功能残缺。模型不是故意撒谎,它就是天然倾向于对自己的输出持积极态度。这在设计类任务中尤其明显——让 Claude 评价自己设计的 UI,它几乎不会说"这个设计很丑"。

这三个问题叠加在一起,就导致了一个尴尬的现实:单靠模型自己,很难完成跨越多个上下文窗口的复杂任务。

三、Harness Engineering 的核心技术

3.1 上下文压缩(Compaction)

当对话快要触及上下文窗口上限时,把整个对话历史压缩成一份精简的摘要,然后用这份摘要开启新的上下文窗口。

这听起来简单,但做起来有几个坑:

• 压缩得太激进,可能会丢掉关键细节

• 压缩得太保守,摘要本身就占用了大量空间

• 不同类型的任务,需要保留的信息不一样

Claude Code 的做法是:保留最近访问的 5 个文件 + 核心决策摘要 + 未解决的 bug 列表。工具调用的原始结果全部丢弃,只保留关键结论。

3.2 结构化笔记(Agentic Memory)

让智能体在执行任务的过程中,持续地把重要信息写入外部文件。下次启动时,先读取这些笔记。

Claude Plays Pokémon 项目提供了一个绝佳的例子。这个智能体在玩宝可梦游戏时,会自动记录:

• “过去 1234 步,我一直在 Route 1 练级,皮卡丘升了 8 级”

• 哪些区域已经探索过

• 不同招式对各种敌人的效果

这些笔记让它能够在上下文重置后,依然保持多小时的连贯策略。

3.3 多智能体架构

把一个大任务拆分给多个专门的智能体,每个智能体负责一个子任务。

Anthropic 的实验中用到了三种角色:

Planner(规划者):把用户的一句话需求扩展成完整的产品规格

Generator(生成者):按照规格一个功能一个功能地实现

Evaluator(评估者):用真实浏览器测试,给出详细的 bug 报告

这个架构的灵感来自 GAN(生成对抗网络)。生成者努力产出,评估者努力挑刺,两者博弈,最终产出的质量远超单智能体。

3.4 特性清单与增量进度

在项目开始时,先让一个智能体生成完整的特性清单(可能包含 200+ 个特性),每个特性都标记为"未通过"。

然后,后续的智能体每次只专注于一个特性。完成后,测试通过,才把状态改成"通过"。

这解决了一个很常见的问题:模型喜欢"一次性搞定",结果往往是虎头蛇尾,功能做到一半上下文就爆了。强制增量开发,反而更稳定。

四、与提示词工程、上下文工程的区别

这三个概念经常被混用,但其实有明确的层次关系。

提示词工程(Prompt Engineering)

关注的是如何写好单个提示。包括:

• 使用清晰的指令

• 提供示例(Few-shot)

• 使用 XML 标签或 Markdown 分隔内容

• 角色扮演(“你是一个专家…”)

适用场景:单次调用、分类任务、文本生成。

上下文工程(Context Engineering)

关注的是如何管理整个上下文窗口。包括:

• 选择哪些信息进入上下文

• 工具返回结果的设计(token 效率)

• 动态检索(Just-in-time context)

• 压缩与摘要策略

适用场景:多轮对话、长文档处理、代码库分析。

Harness Engineering

关注的是如何构建完整的智能体系统。包括:

• 多智能体协作架构

• 跨上下文窗口的状态管理

• 质量保证机制(测试、评估)

• 任务分解与增量执行

• 与外部工具和环境的集成

适用场景:长时间自主任务、复杂软件开发、自动化工作流。

可以用一句话总结:提示词工程解决"怎么说",上下文工程解决"给什么信息",Harness Engineering 解决"怎么组织起来干活"。

五、各大厂商的实践

5.1 Anthropic:Claude Agent SDK + Claude Code

Anthropic 是 Harness Engineering 概念的主要推动者。他们的实践包括:

Claude Agent SDK:一个通用的智能体框架,内置了上下文压缩、工具调用、MCP 协议支持。

Claude Code:一个命令行编程智能体,可以:

• 读取 CLAUDE.md 文件获取项目上下文

• 使用 glob、grep 等工具动态检索代码

• 自动压缩上下文,保持长时间运行

实验案例:用 6 小时、花费 200 美元的 tokens,从一个一句话需求"创建一个 2D 复古游戏编辑器",生成了一个包含关卡编辑器、精灵编辑器、实体行为系统、可玩测试模式的完整应用。

对比组(单智能体,20 分钟,9 美元)生成的应用虽然界面看起来还行,但核心功能——游戏运行——根本动不了。

5.2 OpenAI:Codex

2025 年,OpenAI 发布了Codex——一个云端软件工程智能体。

它的设计有几个特点:

• 每个任务在独立的沙盒环境中运行

• 支持 AGENTS.md 文件(类似 CLAUDE.md)

• 可以并行处理多个任务

• 提供终端日志和测试输出的"可验证证据"

底层模型是 codex-1,基于 o3 优化而来,专门针对软件工程任务做了 RL 训练。

在 SWE-Bench Verified 测试中,codex-1 达到了 72.7% 的通过率(单次尝试)。

5.3 GitHub Copilot:Agents on GitHub

GitHub 在 2025 年推出了Agents on GitHub,支持:

• 直接把 Issue 分配给智能体

• 智能体自动写代码、创建 PR、响应反馈

• 支持多种模型:Copilot 自家、Claude、OpenAI Codex

这意味着你可以把一个 Bug 报告丢给智能体,它自己去读代码、定位问题、写修复、跑测试、提交 PR。你只需要最后 Review 一下。

5.4 Google:Gemini + Antigravity

Google 在 Gemini 3 中强调**“Agentic Coding”**能力,并推出了新的开发平台 Antigravity

Gemini 3.1 Pro 在 SWE-Bench Verified 上达到了 80.6% 的通过率,是目前公开的最高分之一。

Google 的思路是把 IDE 变成"智能体优先"的环境——不是在 IDE 里用 AI,而是 IDE 本身就是为智能体协作设计的。

六、Harness Engineering 的优势与局限

优势

1. 突破上下文窗口限制

通过压缩、笔记、多智能体等技术,可以让智能体连续工作数小时甚至数天,而不受单个上下文窗口的限制。

2. 质量可控

评估者智能体的存在,让输出质量有了保障。不是靠模型"自觉",而是靠独立的检查机制。

3. 任务可追溯

每个智能体的工作都被记录在 git commit、进度文件、测试报告中。出了问题,可以回溯。

4. 适应性强

这套架构不依赖某个特定模型的特性。模型升级了,Harness 可以简化;模型有短板,Harness 可以补。

局限

1. 成本高

Anthropic 的实验中,完整的 Harness 运行一次要 200 美元。虽然产出的质量远超单智能体,但这个成本不是所有场景都能接受。

2. 复杂度高

搭建一个 Harness 需要设计智能体分工、上下文传递机制、测试策略。这不是开箱即用的,需要针对具体场景调优。

3. 模型能力的天花板

Harness 可以让模型表现得更稳定,但不能让模型做它能力范围之外的事。如果模型本身理解不了某个领域,再多的脚手架也没用。

4. 评估者的偏见

评估者智能体本身也是个 LLM。如果评估者的标准设定不当,可能会出现"盲人骑瞎马"的情况——评估者和生成者一起犯错。

七、AI 编程的未来

7.1 趋势:从实时协作到异步委托

今天的 AI 编程工具大多是实时协作型的——你在 IDE 里写代码,AI 在旁边给建议。

但未来会越来越多地转向异步委托型——你把任务丢给智能体,它自己在后台跑,跑完了通知你。

OpenAI 的 Codex 和 GitHub 的 Agents 已经在往这个方向走。你可以同时启动多个智能体,让它们并行处理多个任务,自己专注于更高层次的设计和决策。

7.2 趋势:Harness 的简化

模型在不断变强。Opus 4.6 相比 4.5,已经不再需要那么多的脚手架了。

Anthropic 的工程师发现,当他们把 Opus 4.6 放到之前为 4.5 设计的 Harness 里时,很多组件变得不再必要。原本需要评估者检查的问题,4.6 自己就能处理好。

这意味着 Harness 会越来越轻。今天的复杂架构,明天可能就是一行提示词的事。

但与此同时,新的能力边界会出现。当模型能独立完成今天的"复杂任务"时,我们会对它提出更高的要求。Harness Engineering 的方法论依然适用,只是应用场景会向上迁移。

7.3 程序员会被取代吗?

这个问题被问烂了,但还是值得认真回答。

短期(1-3 年):不会。

今天的智能体虽然能完成很多编程任务,但有几个关键短板:

• 需求理解:用户说的话往往模糊、矛盾、不完整,需要反复沟通澄清

• 系统设计:把模糊的需求转化为清晰的架构,需要领域经验和业务理解

• 责任承担:代码出了问题,不能让 AI 负责

中期(3-5 年):角色转变。

程序员的工作重心会从"写代码"转移到"设计系统 + 驾驭智能体"。你不再是亲自砌砖的建筑工人,而是拿着图纸指挥机器人的工头。

这并不意味着工作变简单了。相反,你需要:

• 更深的技术理解(才能判断智能体的输出是否正确)

• 更广的领域知识(才能把业务需求翻译成技术任务)

• 更强的沟通能力(才能和人类用户、AI 智能体都高效协作)

长期(5 年以上):不好说。

如果 AGI 真的出现,那就不只是程序员的问题了。在那之前,我倾向于认为人类和 AI 的分工是:人类负责"做什么"和"为什么",AI 负责"怎么做"

创造性、判断力、责任——这些依然是人类的领域。而执行、优化、重复劳动——这些会越来越多地交给 AI。

八、如何开始实践?

如果你想在项目中尝试 Harness Engineering,可以从这些步骤开始:

第一步:写一份 AGENTS.md / CLAUDE.md

在项目根目录创建一个文件,告诉智能体:

• 这个项目是做什么的

• 代码结构是怎样的

• 如何运行测试

• 有哪些编码规范

这是最简单的 Harness,成本几乎为零,但能显著提升智能体的表现。

第二步:引入进度跟踪

让智能体在执行任务时,把进度写入一个文件(比如 progress.md 或 progress.json)。每次启动新会话,先读这个文件。

这解决了"上下文重置后失忆"的问题。

第三步:尝试多智能体

把"实现"和"测试"分开。一个智能体写代码,另一个智能体跑测试、报 bug。你会发现 bug 发现率显著提升。

第四步:持续迭代

没有通用的最优 Harness。你需要观察智能体在你的项目中的表现,不断调整架构。

Anthropic 的建议是:先用最简单的方案,只在遇到问题时增加复杂度。

写在最后

Harness Engineering 不是银弹。它是一套方法论,帮你把模型的能力更好地发挥出来。

模型在变强,Harness 会变轻。但**"如何组织智能体工作"这个问题,会长期存在**——就像即使员工能力再强,也需要合理的管理和流程一样。

如果你在用 AI 编程,不妨试试今天提到的一些技巧。从 AGENTS.md 开始,看看效果如何。

毕竟,最好的学习方式就是动手试试。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐