提示词工程进阶指南：AI Harness Engineering 从入门到精通，带你跨越智能体架构门槛！

小天才学习机打游戏

285人浏览 · 2026-03-27 17:49:55

小天才学习机打游戏 · 2026-03-27 17:49:55 发布

一、什么是 AI Harness Engineering？

2024 年底，一个新词开始在 AI 圈子里冒出来：Harness Engineering。

翻译成中文，大概是"智能体架构工程"或"驾驭工程"。但说实话，这个名字本身就挺能说明问题的——我们不再只是"提示"模型，而是在"驾驭"它。

Harness Engineering 的核心思想是：与其期待模型自己把事情做对，不如搭建一套完整的架构，让模型在这个框架内稳定地完成任务。

这听起来可能有点抽象。打个比方：

• 提示词工程：写好一份详细的任务说明书，交给员工执行

• 上下文工程：提供足够的背景资料和参考资料

• Harness Engineering：搭建一套完整的工作流程，包括任务分解、进度跟踪、质量检查、交接机制

三者不是替代关系，而是层层递进。Harness Engineering 包含了前两者，但走得更远。

二、为什么我们需要 Harness Engineering？

2.1 模型的"失忆"问题

如果你用过 Claude 或 GPT 做复杂任务，大概率遇到过这种情况：

• 对话进行到一半，模型开始重复之前说过的话

• 前面提到的要求，后面就忘了

• 上下文越来越长，模型的输出质量却越来越差

这不是模型的 bug，而是 transformer 架构的固有特性。上下文窗口越大，模型的"注意力"就越分散——就像一个人被塞进了太多的信息，反而不知道该关注什么。

Anthropic 的研究把这个现象称为**“上下文衰减”（Context Rot）**。当上下文超过一定长度，模型提取关键信息的准确率就开始下降。

2.2 “上下文焦虑”

还有一个更有意思的现象：模型在接近上下文窗口上限时，会表现出一种"焦虑"——即使还有空间，它也开始匆忙收尾，提前结束任务。

Anthropic 的工程师在实验中发现，Claude Sonnet 4.5 特别容易表现出这种行为。明明还有几万个 token 的空间，它已经开始写"总结"了。这就像一个学生考试时看了眼钟，发现时间还剩 20 分钟，就开始草草结尾——即使时间完全够用。

2.3 自我评价的"老好人"倾向

如果你让模型评价自己完成的工作，它几乎总是给出正面评价。

“这个实现很好！”“功能完整！”“代码质量很高！”

但实际上呢？可能 bug 一堆，功能残缺。模型不是故意撒谎，它就是天然倾向于对自己的输出持积极态度。这在设计类任务中尤其明显——让 Claude 评价自己设计的 UI，它几乎不会说"这个设计很丑"。

这三个问题叠加在一起，就导致了一个尴尬的现实：单靠模型自己，很难完成跨越多个上下文窗口的复杂任务。

三、Harness Engineering 的核心技术

3.1 上下文压缩（Compaction）

当对话快要触及上下文窗口上限时，把整个对话历史压缩成一份精简的摘要，然后用这份摘要开启新的上下文窗口。

这听起来简单，但做起来有几个坑：

• 压缩得太激进，可能会丢掉关键细节

• 压缩得太保守，摘要本身就占用了大量空间

• 不同类型的任务，需要保留的信息不一样

Claude Code 的做法是：保留最近访问的 5 个文件 + 核心决策摘要 + 未解决的 bug 列表。工具调用的原始结果全部丢弃，只保留关键结论。

3.2 结构化笔记（Agentic Memory）

让智能体在执行任务的过程中，持续地把重要信息写入外部文件。下次启动时，先读取这些笔记。

Claude Plays Pokémon 项目提供了一个绝佳的例子。这个智能体在玩宝可梦游戏时，会自动记录：

• “过去 1234 步，我一直在 Route 1 练级，皮卡丘升了 8 级”

• 哪些区域已经探索过

• 不同招式对各种敌人的效果

这些笔记让它能够在上下文重置后，依然保持多小时的连贯策略。

3.3 多智能体架构

把一个大任务拆分给多个专门的智能体，每个智能体负责一个子任务。

Anthropic 的实验中用到了三种角色：

Planner（规划者）：把用户的一句话需求扩展成完整的产品规格

Generator（生成者）：按照规格一个功能一个功能地实现

Evaluator（评估者）：用真实浏览器测试，给出详细的 bug 报告

这个架构的灵感来自 GAN（生成对抗网络）。生成者努力产出，评估者努力挑刺，两者博弈，最终产出的质量远超单智能体。

3.4 特性清单与增量进度

在项目开始时，先让一个智能体生成完整的特性清单（可能包含 200+ 个特性），每个特性都标记为"未通过"。

然后，后续的智能体每次只专注于一个特性。完成后，测试通过，才把状态改成"通过"。

这解决了一个很常见的问题：模型喜欢"一次性搞定"，结果往往是虎头蛇尾，功能做到一半上下文就爆了。强制增量开发，反而更稳定。

四、与提示词工程、上下文工程的区别

这三个概念经常被混用，但其实有明确的层次关系。

提示词工程（Prompt Engineering）

关注的是如何写好单个提示。包括：

• 使用清晰的指令

• 提供示例（Few-shot）

• 使用 XML 标签或 Markdown 分隔内容

• 角色扮演（“你是一个专家…”）

适用场景：单次调用、分类任务、文本生成。

上下文工程（Context Engineering）

关注的是如何管理整个上下文窗口。包括：

• 选择哪些信息进入上下文

• 工具返回结果的设计（token 效率）

• 动态检索（Just-in-time context）

• 压缩与摘要策略

适用场景：多轮对话、长文档处理、代码库分析。

Harness Engineering

关注的是如何构建完整的智能体系统。包括：

• 多智能体协作架构

• 跨上下文窗口的状态管理

• 质量保证机制（测试、评估）

• 任务分解与增量执行

• 与外部工具和环境的集成

适用场景：长时间自主任务、复杂软件开发、自动化工作流。

可以用一句话总结：提示词工程解决"怎么说"，上下文工程解决"给什么信息"，Harness Engineering 解决"怎么组织起来干活"。

五、各大厂商的实践

5.1 Anthropic：Claude Agent SDK + Claude Code

Anthropic 是 Harness Engineering 概念的主要推动者。他们的实践包括：

Claude Agent SDK：一个通用的智能体框架，内置了上下文压缩、工具调用、MCP 协议支持。

Claude Code：一个命令行编程智能体，可以：

• 读取 CLAUDE.md 文件获取项目上下文

• 使用 glob、grep 等工具动态检索代码

• 自动压缩上下文，保持长时间运行

实验案例：用 6 小时、花费 200 美元的 tokens，从一个一句话需求"创建一个 2D 复古游戏编辑器"，生成了一个包含关卡编辑器、精灵编辑器、实体行为系统、可玩测试模式的完整应用。

对比组（单智能体，20 分钟，9 美元）生成的应用虽然界面看起来还行，但核心功能——游戏运行——根本动不了。

5.2 OpenAI：Codex

2025 年，OpenAI 发布了Codex——一个云端软件工程智能体。

它的设计有几个特点：

• 每个任务在独立的沙盒环境中运行

• 支持 AGENTS.md 文件（类似 CLAUDE.md）

• 可以并行处理多个任务

• 提供终端日志和测试输出的"可验证证据"

底层模型是 codex-1，基于 o3 优化而来，专门针对软件工程任务做了 RL 训练。

在 SWE-Bench Verified 测试中，codex-1 达到了 72.7% 的通过率（单次尝试）。

5.3 GitHub Copilot：Agents on GitHub

GitHub 在 2025 年推出了Agents on GitHub，支持：

• 直接把 Issue 分配给智能体

• 智能体自动写代码、创建 PR、响应反馈

• 支持多种模型：Copilot 自家、Claude、OpenAI Codex

这意味着你可以把一个 Bug 报告丢给智能体，它自己去读代码、定位问题、写修复、跑测试、提交 PR。你只需要最后 Review 一下。

5.4 Google：Gemini + Antigravity

Google 在 Gemini 3 中强调**“Agentic Coding”**能力，并推出了新的开发平台 Antigravity。

Gemini 3.1 Pro 在 SWE-Bench Verified 上达到了 80.6% 的通过率，是目前公开的最高分之一。

Google 的思路是把 IDE 变成"智能体优先"的环境——不是在 IDE 里用 AI，而是 IDE 本身就是为智能体协作设计的。

六、Harness Engineering 的优势与局限

优势

1. 突破上下文窗口限制

通过压缩、笔记、多智能体等技术，可以让智能体连续工作数小时甚至数天，而不受单个上下文窗口的限制。

2. 质量可控

评估者智能体的存在，让输出质量有了保障。不是靠模型"自觉"，而是靠独立的检查机制。

3. 任务可追溯

每个智能体的工作都被记录在 git commit、进度文件、测试报告中。出了问题，可以回溯。

4. 适应性强

这套架构不依赖某个特定模型的特性。模型升级了，Harness 可以简化；模型有短板，Harness 可以补。

局限

1. 成本高

Anthropic 的实验中，完整的 Harness 运行一次要 200 美元。虽然产出的质量远超单智能体，但这个成本不是所有场景都能接受。

2. 复杂度高

搭建一个 Harness 需要设计智能体分工、上下文传递机制、测试策略。这不是开箱即用的，需要针对具体场景调优。

3. 模型能力的天花板

Harness 可以让模型表现得更稳定，但不能让模型做它能力范围之外的事。如果模型本身理解不了某个领域，再多的脚手架也没用。

4. 评估者的偏见

评估者智能体本身也是个 LLM。如果评估者的标准设定不当，可能会出现"盲人骑瞎马"的情况——评估者和生成者一起犯错。

七、AI 编程的未来

7.1 趋势：从实时协作到异步委托

今天的 AI 编程工具大多是实时协作型的——你在 IDE 里写代码，AI 在旁边给建议。

但未来会越来越多地转向异步委托型——你把任务丢给智能体，它自己在后台跑，跑完了通知你。

OpenAI 的 Codex 和 GitHub 的 Agents 已经在往这个方向走。你可以同时启动多个智能体，让它们并行处理多个任务，自己专注于更高层次的设计和决策。

7.2 趋势：Harness 的简化

模型在不断变强。Opus 4.6 相比 4.5，已经不再需要那么多的脚手架了。

Anthropic 的工程师发现，当他们把 Opus 4.6 放到之前为 4.5 设计的 Harness 里时，很多组件变得不再必要。原本需要评估者检查的问题，4.6 自己就能处理好。

这意味着 Harness 会越来越轻。今天的复杂架构，明天可能就是一行提示词的事。

但与此同时，新的能力边界会出现。当模型能独立完成今天的"复杂任务"时，我们会对它提出更高的要求。Harness Engineering 的方法论依然适用，只是应用场景会向上迁移。

7.3 程序员会被取代吗？

这个问题被问烂了，但还是值得认真回答。

短期（1-3 年）：不会。

今天的智能体虽然能完成很多编程任务，但有几个关键短板：

• 需求理解：用户说的话往往模糊、矛盾、不完整，需要反复沟通澄清

• 系统设计：把模糊的需求转化为清晰的架构，需要领域经验和业务理解

• 责任承担：代码出了问题，不能让 AI 负责

中期（3-5 年）：角色转变。

程序员的工作重心会从"写代码"转移到"设计系统 + 驾驭智能体"。你不再是亲自砌砖的建筑工人，而是拿着图纸指挥机器人的工头。

这并不意味着工作变简单了。相反，你需要：

• 更深的技术理解（才能判断智能体的输出是否正确）

• 更广的领域知识（才能把业务需求翻译成技术任务）

• 更强的沟通能力（才能和人类用户、AI 智能体都高效协作）

长期（5 年以上）：不好说。

如果 AGI 真的出现，那就不只是程序员的问题了。在那之前，我倾向于认为人类和 AI 的分工是：人类负责"做什么"和"为什么"，AI 负责"怎么做"。

创造性、判断力、责任——这些依然是人类的领域。而执行、优化、重复劳动——这些会越来越多地交给 AI。

八、如何开始实践？

如果你想在项目中尝试 Harness Engineering，可以从这些步骤开始：

第一步：写一份 AGENTS.md / CLAUDE.md

在项目根目录创建一个文件，告诉智能体：

• 这个项目是做什么的

• 代码结构是怎样的

• 如何运行测试

• 有哪些编码规范

这是最简单的 Harness，成本几乎为零，但能显著提升智能体的表现。

第二步：引入进度跟踪

让智能体在执行任务时，把进度写入一个文件（比如 progress.md 或 progress.json）。每次启动新会话，先读这个文件。

这解决了"上下文重置后失忆"的问题。

第三步：尝试多智能体

把"实现"和"测试"分开。一个智能体写代码，另一个智能体跑测试、报 bug。你会发现 bug 发现率显著提升。

第四步：持续迭代

没有通用的最优 Harness。你需要观察智能体在你的项目中的表现，不断调整架构。

Anthropic 的建议是：先用最简单的方案，只在遇到问题时增加复杂度。

写在最后

Harness Engineering 不是银弹。它是一套方法论，帮你把模型的能力更好地发挥出来。

模型在变强，Harness 会变轻。但**"如何组织智能体工作"这个问题，会长期存在**——就像即使员工能力再强，也需要合理的管理和流程一样。

如果你在用 AI 编程，不妨试试今天提到的一些技巧。从 AGENTS.md 开始，看看效果如何。

毕竟，最好的学习方式就是动手试试。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

第十一章：深入剖析 Prompt 提示工程【从基础原理到实战进阶、安全防范】

AtomGit开源社区

Keil5 配置 STM32H7 开发环境踩坑记录：能编译但无法下载，提示 Erase Failed! Flash Download failed - “Cortex-M7“

这次问题表面上是：STM32H743 工程在 Keil 中下载失败，提示H7 的器件包虽然识别了，但对应的 Flash 烧录算法没有装完整。接线芯片保护工程设置启动文件代码逻辑实际上，很多时候根源只是开发环境缺少.FLM文件。编译正常器件正常下载失败而且旧电脑能下，新电脑不能下优先检查里的算法配置，往往能很快找到问题。