Agent Harness：不是给 AI 套缰绳，而是给它造一个操作系统

程序员小橙

356人浏览 · 2026-04-10 13:32:38

程序员小橙 · 2026-04-10 13:32:38 发布

一、一个正在发生的认知转变

过去两年，AI Agent 领域最热闹的话题永远是"哪个模型更强"。GPT-4o 还是 Claude Opus？Gemini 还是 DeepSeek？我们盯着排行榜上的分数，像追赛季积分一样计较着每零点几的差距。

但在生产环境里做过 Agent 系统的人，正在经历一个集体的认知转变：「模型本身越来越不是瓶颈了，包裹在模型外面的那套东西才是。」

Phil Schmid（Hugging Face 技术专家）在 2026 年初发表了一个很有洞察力的观点：顶级模型在静态基准测试上的差距确实在缩小，但这是一种错觉。真正的差距在模型执行第 50 步、第 100 步工具调用之后才显现出来。他把这个叫做「耐久性（Durability）」——模型在长链路任务中保持指令遵循和推理一致性的能力。

但耐久性不是光靠模型训练就能解决的。你需要一整套上下文管理、错误恢复、状态持久化的机制来"托住"模型。

这套机制，就是 「Agent Harness」。

二、Harness 不是缰绳，是操作系统

很多人第一次听到 Harness 这个词，直觉反应是"给 AI 加限制"、"套个缰绳让它别乱跑"。这个理解不能说错，但格局小了。

Phil Schmid 给了一个更精准的类比：「如果模型是 CPU，上下文窗口是 RAM，那 Agent Harness 就是操作系统。」

操作系统不是用来限制 CPU 的。它管理内存分配，调度进程，处理 I/O，提供文件系统——它让 CPU 的算力被高效、可靠、持续地利用。没有操作系统的 CPU 就是一堆晶体管，什么也干不了。

同样，没有 Harness 的大模型就是一个孤立的推理引擎。它很聪明，但它不知道该记住什么、忘掉什么，不知道工具调用失败了该怎么重试，不知道任务做到一半被打断了该怎么恢复。

Agent Harness 要管理的核心维度至少包括五个：

「上下文管理」：什么信息进入模型的上下文窗口，以什么顺序，什么时候该驱逐过时的内容
「工具选择」：模型可以调用哪些能力，这些工具的接口如何设计才能最大化模型的理解和使用效果
「错误恢复」：工具调用失败了怎么办，推理走进死胡同了怎么回退，重试逻辑怎么设计
「状态管理」：Agent 如何在多轮对话、跨会话、甚至跨上下文窗口边界之间记住自己做到了哪一步
「外部记忆」：如何在有限的上下文窗口之外存储和检索历史信息

这五个维度中的每一个，都不涉及"让模型更聪明"——它们解决的都是「让模型的聪明被持续、稳定地发挥出来」的问题。

三、从一个朴素的问题说起

聊 Harness 的设计，有个问题绕不开：「面对一个具体任务，到底该用多重的"智能"来处理它？」

这不是一个理论问题。每次 Agent 调用都在烧 token，如果一个 JSON 格式转换也要走一遍大模型推理，那账单会先把你逼疯。

围绕这个问题，业界有一个流传很广的分层思路——"三层能力金字塔"：

▲
       / \        Agent（智能体）
      /   \       动态决策 · 全自主 · 最慢最贵
     /─────\
    /       \     Skill（技能）
   /         \    半结构化 · 混合执行 · 中等成本
  /───────────\
 /             \   Script（脚本）
/───────────────\  逻辑固定 · 零token · 最快最稳

「底层 Script」 处理所有确定性任务：格式转换、数据校验、模板渲染。给定输入，输出 100% 可预测。零 token 消耗，毫秒级完成。

「中层 Skill」 是半结构化的混合体：流程骨架固定，但某些环节需要 AI 的判断力。比如"从知识库检索相关内容并组织成回答"——检索是确定性的，组织需要语义理解。

「顶层 Agent」 负责真正开放的决策：需求不明确、路径不确定、需要动态规划和试错的任务。

核心原则是"能往下沉的就往下沉"——能用脚本的不要用 Skill，能用 Skill 的不要动用 Agent。

这个分层思路在 Harness 体系里对应的其实是"工具选择"这个维度——决定用什么样的执行方式去消化一个任务。思路本身没问题，但顺着往下想，有两个地方让我觉得不太对劲。

沉淀是对的，但别沉太死

"往下沉"的思路暗含一个假设：沉淀下来的东西是稳定的。但在 AI 能力快速迭代的今天，这个假设值得质疑。

Phil Schmid 在文章中引用了 Rich Sutton 著名的"苦涩的教训"（The Bitter Lesson）——「利用计算的通用方法，总是能打败手工编码的人类知识。」 他观察到，许多公司（包括 LangChain、Vercel 等）不得不频繁重构它们的 Agent 系统，因为新模型的发布改变了构建 Agent 的最佳方式。今天需要复杂管道才能实现的功能，明天可能只需要一个提示词。

这意味着什么？「你辛辛苦苦沉淀下来的 Script 和 Skill，可能在下一个模型版本发布时就过时了。」 过早、过度地把能力固化到底层，可能让你的系统变得僵硬——它很快，但它无法适应变化。

Phil Schmid 给出的建议是"Build to Delete"——「架构必须模块化，随时准备撕毁昨天写的"智能"逻辑。」 这和单纯的"能往下沉就往下沉"有本质区别。不是不该沉淀，而是沉淀时要留好退路，让每一层都可以被轻量级地替换。

分好层之后，Agent 跑偏了怎么办？

分层解决了"任务该交给谁"的问题，但还有一个更现实的问题：Agent 在顶层跑那些复杂任务的时候，谁来兜底？

上下文溢出了怎么办？执行到第 30 步突然"忘了"前面的约定怎么办？工具调用超时了怎么降级？这些不是分层能解决的，它们属于 Harness 的另外几个维度——上下文管理、错误恢复、状态持久化。

分层只是告诉 Agent "做什么"，但 Harness 还得管住 Agent "怎么做"以及"做砸了怎么兜"。所以分层只是 Harness 的一个切面，远不是全部。

四、当人类不再写代码：OpenAI 的一次激进实验

说完了分层的思路和它的局限，我们来看一个更具体的案例。OpenAI 在 2026 年 2 月公开了一项实验，算是目前 Harness 实践中最激进的样本。

他们的团队做了一件听起来很疯狂的事：「用 Codex Agent 从零构建一个软件产品，五个月交付上线，约一百万行代码——工程师被禁止直接写代码。」 不是"大部分 AI 生成"，而是从第一个 git commit 开始，应用逻辑、测试、CI 配置、API 文档——全部由 Agent 自主产出。

结果呢？3 人团队（后扩展至 7 人），合并了 1,500 个 PR，效率大约是传统开发的 10 倍。

他们把这种新的工作方式叫做 「Harness Engineering」。

这里面最值得注意的不是效率数字，而是「工程师角色的根本性转变」：

「传统模式」：工程师是实现者（Implementer），直接操作代码细节
「Harness 模式」：工程师是环境设计师（Environment Designer），核心工作是构建让 Agent 有效工作的脚手架和反馈循环

OpenAI 把这个演进总结为三个阶段：「Prompt Engineering → Context Engineering → Harness Engineering」。从"如何跟模型对话"，到"如何给模型投喂背景知识"，再到"如何构建一个让模型持续可靠工作的系统"。

他们踩过的坑也很有启发：

「第一个坑：AI 废料（AI Slop）。」 没有约束的 Agent 会以机器速度全天候生成垃圾代码。最初团队每周要花 20% 的时间清理"AI 废料"。后来他们把团队的编码标准直接写进 Harness——通过自动化的 Linter、架构约束测试和黄金原则检查，在 CI 阶段就拦截不合格的代码。

「第二个坑：代码漂移。」 Agent 高速生成代码，系统很快就会偏离最初的架构设计。他们的解决方案是建立"垃圾回收"机制——定期运行专门的重构 Agent 扫描代码库中的偏离项，自动发起修复 PR。这就像内存的 GC 一样，对抗系统熵增。

「第三个坑：隐性知识丢失。」 Agent 不像人类同事，它无法自主学习团队的"品味"。解决方案是「知识外化」——把所有关于"什么是好代码"的判断标准、架构约束、审美偏好，显式地转化为机器可读的规则。

这些实践揭示了 Harness 的另一个核心职能：「它不仅管理 Agent 怎么跑，还管理 Agent 产出的质量怎么收。」

五、沉淀与撕毁

前面聊分层的时候提到了"沉淀"。这个思路本身没问题——把 Agent 探索出的成熟模式逐步固化为 Skill 和 Script，确实能降低成本、提升稳定性。

以 AI 辅助代码审查为例。一开始什么都交给 Agent 做，成本高、速度慢。跑了一段时间后，你发现 Agent 反复在做一些类似的检查——命名规范、错误处理完整性、接口参数验证。于是把这些模式提炼成 Skill。再进一步，你发现 Skill 里面"函数超过 80 行报警"、"import 没分组提示"这类判断根本不需要 AI，纯脚本就能搞定。于是固化为 Script。

整个系统越跑越快、越跑越便宜。这是沉淀的价值。

「但问题是：这个循环不能只往一个方向转。」

除了"沉淀"，你还需要准备好"撕毁"。当新的模型版本发布，当业务场景发生变化，你之前固化的那些 Script 和 Skill 可能不再是最优解。这时候不是修修补补的问题，而是可能需要直接删掉一层，让 Agent 用新的能力重新来过。

这就形成了一个更完整的循环：

Agent 探索 → 发现模式 → 沉淀为 Skill/Script
     ↑                          |
     |                          ↓
模型能力升级               持续运行、降低成本
     ↑                          |
     |                          ↓
撕毁旧的固化逻辑  ←←  边界被打破 / 更优解出现

「好的 Harness 设计，不仅要让系统能沉淀，还要让系统能优雅地"遗忘"。」 每一层都应该是可热插拔的，撕毁一个 Skill 不应该导致整个系统崩溃。

六、几点不太一样的看法

聊了这么多，说几个我自己的判断，不一定对，但觉得值得讨论。

省钱不是目的，数据飞轮才是

很多人讨论 Harness 时关注点在"节省 token 成本"。没错，但这不是最重要的。

Phil Schmid 指出了一个更深层的价值：「Harness 捕获的轨迹数据，是训练下一代模型的关键资产。」 Agent 在第 50 步开始偏离指令，在第 80 步走进死胡同——这些失败案例，如果被结构化地记录下来，就是改进模型的最佳训练素材。

「好的 Harness 不只是消费模型能力，它还在生产模型训练数据。」 Agent 用得越多，Harness 捕获的数据越多，模型改进得越快，Agent 做得越好。省钱只是副产品，这个飞轮才是真正的竞争壁垒。

验证比生成更值钱

OpenAI 的实验揭示了一个转变：当代码生成成本趋近于零时，「价值锚点从"写出正确的代码"转向"定义什么是正确"和"高效验证产出"。」

对应到 Harness 设计上，Script 层的重点不该是"替代 Agent 生成内容"，而是"快速验证 Agent 生成的内容是否合格"。Linter、测试、架构约束检查、格式校验——这些确定性的验证逻辑，才是 Script 层该干的活。

这和朴素的"能脚本做的就不用 Agent"有微妙区别。不是让脚本替代 Agent，而是让脚本守住 Agent 的输出底线。两者是配合关系，不是替代关系。

敬畏变化

"苦涩的教训"在 Agent 领域大概率会重演。今天精心设计的三层架构，明年可能被一个能力更强的模型直接碾平。Harness 太重、太刚性，反而会成为适应新模型的障碍。

所以我的建议是：「沉淀时保持轻量，固化时留好接口，随时准备把"智能"还给 Agent。」 好的 Harness，不是把 Agent 的工作抢过来自己做，而是在 Agent 需要的时候提供支撑，不需要的时候退到一边去。

工程纪律是前置条件

OpenAI 的实验还有一个反直觉的发现：「在 Agent-First 的世界里，传统软件工程的纪律不仅没过时，反而变得前所未有地重要。」

缺乏文档、测试或架构约束的代价被 Agent 无限放大了——因为 Agent 会以机器的速度全天候重复相同的错误。一个 Agent 可以在一天内产出 100 个 PR，如果没有自动化的质量门禁，你需要多少人来审查？

Harness 说到底不是什么高深的 AI 架构，它首先是「把好的软件工程实践真正落地」——清晰的架构文档、完善的测试覆盖、自动化的 CI/CD、可观测的运行时监控。这些在"人类写代码"时代是"应该做但经常偷懒"的事情，在 Agent 时代变成了"不做就出事"的事情。

七、写在最后

Agent Harness 到底是一个新概念，还是旧概念的新包装？

老实说，两者都有。

上下文管理、状态持久化、错误重试、任务分层——这些在分布式系统、微服务架构、DevOps 领域都有成熟的实践。Agent Harness 并没有发明什么全新的东西。

但它确实在一个新的维度上重新组合了这些旧概念：「模型是不确定的。」 传统软件的每一行代码都是确定的，你调一个函数，返回值是可预测的。但 Agent 不是。它的每一次推理都可能给出不同的结果，它会"遗忘"、会"走神"、会"犯懒"。

这种不确定性，要求我们在传统工程纪律之上再加一层——不仅要管代码怎么跑，还要管"智能"怎么用。这就是 Harness 的独特价值。

「2026 年的竞争，不再是"谁的模型更强"，而是"谁的 Harness 更稳"。」

当所有人都能调用同一个顶级模型时，真正拉开差距的是：你的上下文管理有多精细，错误恢复有多靠谱，质量门禁有多自动化，数据飞轮转得有多快。模型是大家共享的弹药，Harness 才是你自己的阵地。

学习资源推荐

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

大语言模型 (LLM) 与 AI Agent Harness Engineering 的本质区别

在2022年底ChatGPT横空出世之后，大语言模型（LLM）迅速成为全球科技领域最热门的话题。LLM展现出了惊人的文本生成、知识问答、代码编写能力，仿佛让我们看到了通用人工智能（AGI）的曙光。然而，随着大家对LLM的使用越来越深入，其局限性也逐渐暴露出来：LLM不会主动使用外部工具（比如查天气、搜资料、订机票），不会做长期规划，不会从错误中反思学习，甚至会一本正经地"胡说八道"（幻觉问题）。为

AtomGit开源社区

为什么 Agent 执行到一半会“忘了“要做什么：记忆机制深度剖析

第一章：Agent 记忆机制的核心概念体系：从记忆的心理学定义出发，结合 LLM 的特性，重构 Agent 的记忆分类体系；详细讲解每种记忆的核心属性、适用场景、数学模型、核心要素组成；通过 ER 图展示记忆之间的关联；通过对比表分析不同记忆的优劣。第二章：Agent 执行忘事的全链路根因分析：使用故障树分析法（FTA）梳理所有可能的记忆丢失场景；详细讲解每类根因的表现形式、触发条件、底层原理；通