本文探讨了AI Agent开发中新兴的Harness(驾驭框架)概念,强调其重要性已超越模型选择和提示词优化。Harness为LLM提供持续工作的环境,通过上下文管理、工具生态、权限控制等六大组件,实现自动化的反馈循环,提升Agent的稳定性和可靠性。文章对比了Prompt Engineering、Context Engineering和Harness Engineering的三代方法,并分析了两大设计流派——信任模型和强化环境,为读者提供了选择和实践Harness的建议。

什么是Harness?

Harness 这个词来自软件工程领域。在传统软件开发中,test harness(测试框架)指的是一套用于自动化测试软件的配套系统——它管理测试数据、执行测试、收集结果。

2024年11月,Anthropic 发布了 Model Context Protocol (MCP)。随后在推出 Claude Agent SDK 时,首次将其描述为 “general-purpose agent harness”。他们发现,Claude Code 背后的架构——那个让 Claude 能够写代码、执行命令、管理上下文的完整系统——比 Claude 本身更有价值。

这个概念很快被行业采纳。OpenAI 的工程师在博客中专门讨论 “Harness Engineering”。LangChain 将新产品 DeepAgents 直接称为 “agent harness”。

简单来说,Harness 是围绕 LLM 的完整架构系统,处理上下文的完整生命周期:从意图捕获、规范、编译、执行、验证到持久化。

核心观点:Harness 不是让模型变聪明, 而是给模型搭建一个能持续工作的环境。


控制反馈模型:一个实际例子

理解 Harness 最好的方式,就是回过头看云原生Kubernetes:

这就是控制反馈模型的本质

组件 在 Agent 中的体现
传感器 测试结果、错误信息、日志输出
控制器 Agent 的推理能力——分析错误、定位问题
执行器 代码修改、配置调整
反馈回路 测试→失败→修复→再测试的循环

没有 Harness 时:这个循环需要人工介入——你看到错误、你分析原因、你告诉Agent怎么改。

有 Harness 时:整个循环自动运行——测试框架自动报错、Agent自动分析、自动修复,直到成功。


这个模式是个Common Sense

记得刚工作时,当时的领导就跟我说过:做软件很多情况下就是在做控制论。事实上这种"声明目标→自动执行→反馈修正"的模式,已经多次出现:

时代 系统 传感器 执行器 反馈回路
18世纪 蒸汽机 转速计 蒸汽阀门 转速→阀门开度
21世纪 Kubernetes 健康检查 Pod调度 状态→副本数
现在 AI Harness 测试/日志 代码修改 结果→修复

每当这个模式出现,背后都是因为有人构建出了足够强大的"传感器"和"执行器",能够在那个层级把反馈回路真正闭合起来。

人的角色转变:从执行者变成系统的设计者和校准者。“你不再亲自去拧阀门,而是开始掌舵。”


三次范式跃迁

理解 Harness Engineering 的最好方式,是看它和前两代方法的区别。

第一代:Prompt Engineering(提示词工程)

问题:怎么让模型输出更准确? 方法:优化指令的表述方式

“你是一个专业的软件工程师,请帮我…”

这就像骑马时对马发出的语音指令:“向右转”、“加速”。

第二代:Context Engineering(上下文工程)

问题:模型不知道项目背景怎么办? 方法:提供必要的背景信息

CLAUDE.md 里写清楚项目结构、编码规范、常用命令…

这就像展示给马看的地图和路标——让马做决策时能看到更多信息。

第三代:Harness Engineering(驾驭框架工程)

问题:模型知道该做什么,但执行不稳定怎么办? 方法:设计约束系统、反馈回路、验证机制

不只是告诉 Agent 做什么,而是搭建一套系统:

  • • 让 Agent 犯了错能自动发现
  • • 让 Agent 不会反复犯同样的错
  • • 让 Agent 的行为可观测、可追溯

这就像缰绳、马鞍、围栏和道路维护——设计整套物理基础设施,确保马在正确的道路上跑,跑偏了有围栏挡回来。

一句话区分

  • • Prompt Engineering 问:“怎么说模型更听得懂?”
  • • Context Engineering 问:“给模型看什么信息?”
  • Harness Engineering 问:“如何设计系统让模型稳定可靠地工作?”

为什么需要Harness?三个真实痛点

痛点一:上下文"失忆"

你是否遇到过这种情况:

Claude,帮我写一个用户登录功能。
好的,我来写…
[写了200行代码]
继续写注册功能。
好的…等等,你刚才写的登录代码在哪?

LLM 有固定的上下文窗口。对话一长,它就会"忘记"之前的内容。

研究发现:当上下文使用超过40% 时,Agent 的可靠性会显著下降。

痛点二:工具调用混乱

用户: 帮我分析这个CSV文件Agent: [调用 read_csv 工具]Agent: [调用 analyze_data 工具]Agent: [调用 visualize 工具]Agent: [调用 read_csv 工具] ← 又来一次?Agent: [报错: 工具调用失败]

没有 Harness 的 Agent 就像一个没有 SOP 的程序员——每次都要重新摸索。

痛点三:长期任务失控

更糟糕的是长期项目:

Day 1: Claude,帮我构建一个电商系统      [写了用户模块]Day 2: 继续      [Claude 忘了昨天做了什么]      [重新理解需求]      [写了商品模块,但和用户模块风格不一致]Day 3: 继续      [又忘了]      [风格更加混乱]Day 7: 系统变成了缝合怪

六大核心组件

一个完整的 Harness 包含六大核心组件(综合自 Anthropic、OpenAI、LangChain 等的工程实践):

1. 上下文管理(Context Management)

问题:对话一长就忘记 解决

  • 自动压缩:在上下文填满前主动摘要
  • 渐进式披露:AGENTS.md 作为目录,指向详细文档
  • 跨会话持久化:CLAUDE.md 记住项目知识

40% 规则:上下文使用超过 40% 时就要压缩

2. 工具生态(Tool Ecosystem)

问题:工具定义塞满上下文 解决MCP Code Mode(减少 98.7% token 使用)

传统方式:所有工具定义加载到上下文(150,000 tokens)
Code Mode:工具作为代码 API(2,000 tokens)

3. 权限控制(Permission Control)

三级权限模式:

  • Auto:自动执行(读文件)
  • Approval:需要确认(写文件)
  • Read-Only:只读(生产环境)

4. 会话状态(Session & State)

跨会话记忆:

  • feature_list.json:特性需求列表
  • claude-progress.txt:进度日志
  • • Git 历史:代码变更记录

5. 循环控制(Loop Control)

Agent 工作循环:

while (!taskComplete) {  1. 收集上下文 (Gather)  2. 采取行动 (Take Action)  3. 验证结果 (Verify)  4. 更新状态 (Update)}

关键机制:

  • 错误处理:失败时重试还是 escalate
  • 验证循环:写完代码 → 跑测试 → 修复错误

6. 可观测性(Observability)

  • • 完整行为轨迹
  • • 性能监控
  • • 调试支持

两大设计流派

业界对 Harness 的设计形成了两大流派。

打个比方:这就像两种管理风格——

  • 信任模型派:给聪明员工一张白纸,让他自己摸索,你只在他需要时递上工具
  • 强化环境派:先搭好流水线、写好 SOP、贴好标签,让员工按流程执行

流派一:信任模型(Reasoning-First)

核心信念:模型足够聪明,保持框架最简单

代表:Claude Code SDK、Mistral Vibe 2.0

具体场景

你让 Agent “帮我实现用户登录功能”。
Agent 自己决定:先读现有代码 → 理解架构风格 → 写代码 → 跑测试 → 修复错误。
你不需要告诉它每一步怎么做。

典型做法

  • 双 Agent 模式:Initializer Agent 设置环境,Coding Agent 增量实现
  • 自动上下文压缩:在上下文"腐烂"前主动摘要
  • CLAUDE.md 层级:项目知识跨会话持久

适合场景:探索性任务、原型开发、需要创造性的工作

流派二:强化环境(Environment-First)

核心信念:Agent 失败时,问题往往在环境,不在模型

代表:Codex CLI、Gemini CLI

具体场景

你让 Agent 写代码,但它写出来的风格和项目不一致。

信任模型派:换个更强的模型,或者改提示词

强化环境派:检查环境——是不是没有代码规范文件?是不是缺少架构说明?
→ 添加 AGENTS.md 作为导航
→ 配置 linter 强制风格
→ 下次 Agent 就能写对了

典型做法

  • 渐进式披露:AGENTS.md (~100行) 作为目录,按需加载详细文档
  • 机械执行:自定义 linter 强制架构边界,代码不合规范直接报错
  • “垃圾回收”:后台 Agent 持续扫描,发现技术债务自动清理

OpenAI 的实践:用这套方法,在5个月内用 Agent 生成了约100万行代码——几乎0行手写代码。

适合场景:大型项目、团队协作、需要稳定输出的企业级任务

如何选择?

需求 推荐流派 代表产品
创造性任务 信任模型 Claude Code
稳定性优先 强化环境 Codex CLI
数据敏感 开源方案 OpenCode
多模型支持 模型无关 OpenCode

给实践者的建议

先诊断:你的问题在哪一层?

很多团队遇到 Agent 问题时,第一反应是"换个更强的模型"或"优化提示词"。但问题往往不在这些地方。

Context 层的信号(单次输出有问题):

  • • Agent 没有引用必要信息
  • • 输出偏离目标
  • • 工具定义太简略

Harness 层的信号(重复使用时质量不稳定):

  • • 单次看起来没问题,跑十次三次出问题
  • • 之前修过的 bug 后面又出现
  • • 架构一致性逐渐退化
  • • 前一个任务的修复在后续任务中被忽略

如果是后者,仅改进 prompt 或 CLAUDE.md 是不够的——你需要 Hooks、标准化 Commands 或验证循环。

成熟度阶梯:从哪里开始?

不要试图一步到位。找到你当前的层级,往上走一层就好:

层级 名称 一句话 你在这层的信号
L0 裸用 每次对话从零开始 Agent 像每天换一个新实习生
L1 指令层 把项目知识写下来 单次输出稳了,但跨任务还是乱
L2 约束层 让机器替你执法 Agent 反复犯同一类错
L3 工作流层 把重复动作标准化 你在反复下达同一套指令序列
L4 委托层 多 Agent 分工协作 单 Agent 上下文不够用了

L0 → L1:写一个 CLAUDE.md(200行以内)

  • • 项目是什么、技术栈
  • • 常用命令
  • • 代码组织结构
  • • 几条最重要的架构约束

L1 → L2:用 Hooks 把规则从"写在文档里"变成"跑在流程中"

  • • PreToolUse:工具调用前拦截检查
  • • PostToolUse:工具调用后自动处理
  • • Stop:任务结束前强制验证

L2 → L3:把重复流程封装成 Skills

  • • 标准化工作流程
  • • 接入反馈信号(测试通过率、构建时间)
  • • 让 Agent 能自我验证

一个真实的案例

一位开发者分享了这样的经历:用 AI Agent 构建复杂系统时,前三天进展顺利——Agent 写代码很快。但第四天问题出现了:风格不一致、重复代码、缺少测试。

他意识到问题不在模型,而是没有给 Agent 足够的环境支持。重新设计了 Harness:

  • • 添加了架构约束(L2)
  • • 建立了进度追踪文件(L1)
  • • 实现了自动测试循环(L3)

两周后,代码质量显著提升。


信号词:你可能需要 Harness 的迹象

当你的 AI Agent 出现以下情况时,是时候考虑 Harness 了:

  • • 长任务中途"忘记"目标
  • • 同样的错误重复出现
  • • 代码风格不一致
  • • 工具调用频繁失败
  • • 需要频繁人工干预

关键洞察:当你发现自己不断"修提示词"时,问题可能不在提示词,而在环境。


总结

LLM API 时代正在过去,Harness API 时代已经到来。

理解 Harness,就是理解了 AI Agent 开发的本质转变:

  • 不是让模型变聪明
  • 而是给模型搭建一个能持续工作的环境

未来,AI 项目的竞争不再是谁有更好的模型,而是谁有更好的 Harness。

你的 Harness,够好吗?

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐