一、一个正在发生的认知转变

过去两年,AI Agent 领域最热闹的话题永远是"哪个模型更强"。GPT-4o 还是 Claude Opus?Gemini 还是 DeepSeek?我们盯着排行榜上的分数,像追赛季积分一样计较着每零点几的差距。

但在生产环境里做过 Agent 系统的人,正在经历一个集体的认知转变:「模型本身越来越不是瓶颈了,包裹在模型外面的那套东西才是。」

Phil Schmid(Hugging Face 技术专家)在 2026 年初发表了一个很有洞察力的观点:顶级模型在静态基准测试上的差距确实在缩小,但这是一种错觉。真正的差距在模型执行第 50 步、第 100 步工具调用之后才显现出来。他把这个叫做「耐久性(Durability)」——模型在长链路任务中保持指令遵循和推理一致性的能力。

但耐久性不是光靠模型训练就能解决的。你需要一整套上下文管理、错误恢复、状态持久化的机制来"托住"模型。

这套机制,就是 「Agent Harness」

二、Harness 不是缰绳,是操作系统

很多人第一次听到 Harness 这个词,直觉反应是"给 AI 加限制"、"套个缰绳让它别乱跑"。这个理解不能说错,但格局小了。

Phil Schmid 给了一个更精准的类比:「如果模型是 CPU,上下文窗口是 RAM,那 Agent Harness 就是操作系统。」

操作系统不是用来限制 CPU 的。它管理内存分配,调度进程,处理 I/O,提供文件系统——它让 CPU 的算力被高效、可靠、持续地利用。没有操作系统的 CPU 就是一堆晶体管,什么也干不了。

同样,没有 Harness 的大模型就是一个孤立的推理引擎。它很聪明,但它不知道该记住什么、忘掉什么,不知道工具调用失败了该怎么重试,不知道任务做到一半被打断了该怎么恢复。

Agent Harness 要管理的核心维度至少包括五个:

  1. 「上下文管理」:什么信息进入模型的上下文窗口,以什么顺序,什么时候该驱逐过时的内容
  2. 「工具选择」:模型可以调用哪些能力,这些工具的接口如何设计才能最大化模型的理解和使用效果
  3. 「错误恢复」:工具调用失败了怎么办,推理走进死胡同了怎么回退,重试逻辑怎么设计
  4. 「状态管理」:Agent 如何在多轮对话、跨会话、甚至跨上下文窗口边界之间记住自己做到了哪一步
  5. 「外部记忆」:如何在有限的上下文窗口之外存储和检索历史信息

这五个维度中的每一个,都不涉及"让模型更聪明"——它们解决的都是「让模型的聪明被持续、稳定地发挥出来」的问题。

三、从一个朴素的问题说起

聊 Harness 的设计,有个问题绕不开:「面对一个具体任务,到底该用多重的"智能"来处理它?」

这不是一个理论问题。每次 Agent 调用都在烧 token,如果一个 JSON 格式转换也要走一遍大模型推理,那账单会先把你逼疯。

围绕这个问题,业界有一个流传很广的分层思路——"三层能力金字塔":

▲
       / \        Agent(智能体)
      /   \       动态决策 · 全自主 · 最慢最贵
     /─────\
    /       \     Skill(技能)
   /         \    半结构化 · 混合执行 · 中等成本
  /───────────\
 /             \   Script(脚本)
/───────────────\  逻辑固定 · 零token · 最快最稳

「底层 Script」 处理所有确定性任务:格式转换、数据校验、模板渲染。给定输入,输出 100% 可预测。零 token 消耗,毫秒级完成。

「中层 Skill」 是半结构化的混合体:流程骨架固定,但某些环节需要 AI 的判断力。比如"从知识库检索相关内容并组织成回答"——检索是确定性的,组织需要语义理解。

「顶层 Agent」 负责真正开放的决策:需求不明确、路径不确定、需要动态规划和试错的任务。

核心原则是"能往下沉的就往下沉"——能用脚本的不要用 Skill,能用 Skill 的不要动用 Agent。

这个分层思路在 Harness 体系里对应的其实是"工具选择"这个维度——决定用什么样的执行方式去消化一个任务。思路本身没问题,但顺着往下想,有两个地方让我觉得不太对劲。

沉淀是对的,但别沉太死

"往下沉"的思路暗含一个假设:沉淀下来的东西是稳定的。但在 AI 能力快速迭代的今天,这个假设值得质疑。

Phil Schmid 在文章中引用了 Rich Sutton 著名的"苦涩的教训"(The Bitter Lesson)——「利用计算的通用方法,总是能打败手工编码的人类知识。」 他观察到,许多公司(包括 LangChain、Vercel 等)不得不频繁重构它们的 Agent 系统,因为新模型的发布改变了构建 Agent 的最佳方式。今天需要复杂管道才能实现的功能,明天可能只需要一个提示词。

这意味着什么?「你辛辛苦苦沉淀下来的 Script 和 Skill,可能在下一个模型版本发布时就过时了。」 过早、过度地把能力固化到底层,可能让你的系统变得僵硬——它很快,但它无法适应变化。

Phil Schmid 给出的建议是"Build to Delete"——「架构必须模块化,随时准备撕毁昨天写的"智能"逻辑。」 这和单纯的"能往下沉就往下沉"有本质区别。不是不该沉淀,而是沉淀时要留好退路,让每一层都可以被轻量级地替换。

分好层之后,Agent 跑偏了怎么办?

分层解决了"任务该交给谁"的问题,但还有一个更现实的问题:Agent 在顶层跑那些复杂任务的时候,谁来兜底?

上下文溢出了怎么办?执行到第 30 步突然"忘了"前面的约定怎么办?工具调用超时了怎么降级?这些不是分层能解决的,它们属于 Harness 的另外几个维度——上下文管理、错误恢复、状态持久化。

分层只是告诉 Agent "做什么",但 Harness 还得管住 Agent "怎么做"以及"做砸了怎么兜"。所以分层只是 Harness 的一个切面,远不是全部。

四、当人类不再写代码:OpenAI 的一次激进实验

说完了分层的思路和它的局限,我们来看一个更具体的案例。OpenAI 在 2026 年 2 月公开了一项实验,算是目前 Harness 实践中最激进的样本。

他们的团队做了一件听起来很疯狂的事:「用 Codex Agent 从零构建一个软件产品,五个月交付上线,约一百万行代码——工程师被禁止直接写代码。」 不是"大部分 AI 生成",而是从第一个 git commit 开始,应用逻辑、测试、CI 配置、API 文档——全部由 Agent 自主产出。

结果呢?3 人团队(后扩展至 7 人),合并了 1,500 个 PR,效率大约是传统开发的 10 倍。

他们把这种新的工作方式叫做 「Harness Engineering」

这里面最值得注意的不是效率数字,而是「工程师角色的根本性转变」

  • 「传统模式」:工程师是实现者(Implementer),直接操作代码细节
  • 「Harness 模式」:工程师是环境设计师(Environment Designer),核心工作是构建让 Agent 有效工作的脚手架和反馈循环

OpenAI 把这个演进总结为三个阶段:「Prompt Engineering → Context Engineering → Harness Engineering」。从"如何跟模型对话",到"如何给模型投喂背景知识",再到"如何构建一个让模型持续可靠工作的系统"。

他们踩过的坑也很有启发:

「第一个坑:AI 废料(AI Slop)。」 没有约束的 Agent 会以机器速度全天候生成垃圾代码。最初团队每周要花 20% 的时间清理"AI 废料"。后来他们把团队的编码标准直接写进 Harness——通过自动化的 Linter、架构约束测试和黄金原则检查,在 CI 阶段就拦截不合格的代码。

「第二个坑:代码漂移。」 Agent 高速生成代码,系统很快就会偏离最初的架构设计。他们的解决方案是建立"垃圾回收"机制——定期运行专门的重构 Agent 扫描代码库中的偏离项,自动发起修复 PR。这就像内存的 GC 一样,对抗系统熵增。

「第三个坑:隐性知识丢失。」 Agent 不像人类同事,它无法自主学习团队的"品味"。解决方案是「知识外化」——把所有关于"什么是好代码"的判断标准、架构约束、审美偏好,显式地转化为机器可读的规则。

这些实践揭示了 Harness 的另一个核心职能:「它不仅管理 Agent 怎么跑,还管理 Agent 产出的质量怎么收。」

五、沉淀与撕毁

前面聊分层的时候提到了"沉淀"。这个思路本身没问题——把 Agent 探索出的成熟模式逐步固化为 Skill 和 Script,确实能降低成本、提升稳定性。

以 AI 辅助代码审查为例。一开始什么都交给 Agent 做,成本高、速度慢。跑了一段时间后,你发现 Agent 反复在做一些类似的检查——命名规范、错误处理完整性、接口参数验证。于是把这些模式提炼成 Skill。再进一步,你发现 Skill 里面"函数超过 80 行报警"、"import 没分组提示"这类判断根本不需要 AI,纯脚本就能搞定。于是固化为 Script。

整个系统越跑越快、越跑越便宜。这是沉淀的价值。

「但问题是:这个循环不能只往一个方向转。」

除了"沉淀",你还需要准备好"撕毁"。当新的模型版本发布,当业务场景发生变化,你之前固化的那些 Script 和 Skill 可能不再是最优解。这时候不是修修补补的问题,而是可能需要直接删掉一层,让 Agent 用新的能力重新来过。

这就形成了一个更完整的循环:

Agent 探索 → 发现模式 → 沉淀为 Skill/Script
     ↑                          |
     |                          ↓
模型能力升级               持续运行、降低成本
     ↑                          |
     |                          ↓
撕毁旧的固化逻辑  ←←  边界被打破 / 更优解出现

「好的 Harness 设计,不仅要让系统能沉淀,还要让系统能优雅地"遗忘"。」 每一层都应该是可热插拔的,撕毁一个 Skill 不应该导致整个系统崩溃。

六、几点不太一样的看法

聊了这么多,说几个我自己的判断,不一定对,但觉得值得讨论。

省钱不是目的,数据飞轮才是

很多人讨论 Harness 时关注点在"节省 token 成本"。没错,但这不是最重要的。

Phil Schmid 指出了一个更深层的价值:「Harness 捕获的轨迹数据,是训练下一代模型的关键资产。」 Agent 在第 50 步开始偏离指令,在第 80 步走进死胡同——这些失败案例,如果被结构化地记录下来,就是改进模型的最佳训练素材。

「好的 Harness 不只是消费模型能力,它还在生产模型训练数据。」 Agent 用得越多,Harness 捕获的数据越多,模型改进得越快,Agent 做得越好。省钱只是副产品,这个飞轮才是真正的竞争壁垒。

验证比生成更值钱

OpenAI 的实验揭示了一个转变:当代码生成成本趋近于零时,「价值锚点从"写出正确的代码"转向"定义什么是正确"和"高效验证产出"。」

对应到 Harness 设计上,Script 层的重点不该是"替代 Agent 生成内容",而是"快速验证 Agent 生成的内容是否合格"。Linter、测试、架构约束检查、格式校验——这些确定性的验证逻辑,才是 Script 层该干的活。

这和朴素的"能脚本做的就不用 Agent"有微妙区别。不是让脚本替代 Agent,而是让脚本守住 Agent 的输出底线。两者是配合关系,不是替代关系。

敬畏变化

"苦涩的教训"在 Agent 领域大概率会重演。今天精心设计的三层架构,明年可能被一个能力更强的模型直接碾平。Harness 太重、太刚性,反而会成为适应新模型的障碍。

所以我的建议是:「沉淀时保持轻量,固化时留好接口,随时准备把"智能"还给 Agent。」 好的 Harness,不是把 Agent 的工作抢过来自己做,而是在 Agent 需要的时候提供支撑,不需要的时候退到一边去。

工程纪律是前置条件

OpenAI 的实验还有一个反直觉的发现:「在 Agent-First 的世界里,传统软件工程的纪律不仅没过时,反而变得前所未有地重要。」

缺乏文档、测试或架构约束的代价被 Agent 无限放大了——因为 Agent 会以机器的速度全天候重复相同的错误。一个 Agent 可以在一天内产出 100 个 PR,如果没有自动化的质量门禁,你需要多少人来审查?

Harness 说到底不是什么高深的 AI 架构,它首先是「把好的软件工程实践真正落地」——清晰的架构文档、完善的测试覆盖、自动化的 CI/CD、可观测的运行时监控。这些在"人类写代码"时代是"应该做但经常偷懒"的事情,在 Agent 时代变成了"不做就出事"的事情。

七、写在最后

Agent Harness 到底是一个新概念,还是旧概念的新包装?

老实说,两者都有。

上下文管理、状态持久化、错误重试、任务分层——这些在分布式系统、微服务架构、DevOps 领域都有成熟的实践。Agent Harness 并没有发明什么全新的东西。

但它确实在一个新的维度上重新组合了这些旧概念:「模型是不确定的。」 传统软件的每一行代码都是确定的,你调一个函数,返回值是可预测的。但 Agent 不是。它的每一次推理都可能给出不同的结果,它会"遗忘"、会"走神"、会"犯懒"。

这种不确定性,要求我们在传统工程纪律之上再加一层——不仅要管代码怎么跑,还要管"智能"怎么用。这就是 Harness 的独特价值。

「2026 年的竞争,不再是"谁的模型更强",而是"谁的 Harness 更稳"。」

当所有人都能调用同一个顶级模型时,真正拉开差距的是:你的上下文管理有多精细,错误恢复有多靠谱,质量门禁有多自动化,数据飞轮转得有多快。模型是大家共享的弹药,Harness 才是你自己的阵地。

 学习资源推荐

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

​因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐