请添加图片描述

很多人讨论 Agent 时,谈的是 Prompt 怎么写、模型怎么选。但真正让 Agent 在生产环境中稳定跑起来的,不是这些——而是它运行在什么样的约束框架里。这个框架,就是 Harness。

一句话定义Harness:让 Agent 能长时间、大规模、可重复、不出错地干活,并且越干越强。


00 · 问题定义:一个有效的 Harness,要同时管住三件事

请添加图片描述

很多 Harness 失败,是因为只管住了其中一两件事。三件事缺一不可:

# 要管住的事 本质
01 不乱输出 架构约束
02 不自我欺骗 评估闭环
03 不重复踩坑 可信记忆

如果你的系统任由 Agent 自由生成、自己评估、每次从零开始——那不管模型多强,最终都是一个不可控的黑盒。


01 · 核心架构:Harness 四件套

请添加图片描述

1. 架构护栏 · Architectural Guardrails

不让 Agent 自由发挥,而是强制它遵守规则。参考 OpenAI 的 6 层结构:Types → Config → Repo → Service → Runtime → UI,层次固定,不可乱跳。

设计要点:

  • 用机器可执行规则限制边界:linter、CI、类型检查、权限白名单
  • 禁止跨层依赖、禁止绕过接口、禁止直接操作底层
  • 违规 PR 自动拒绝,不靠文档,不靠自觉
  • 规则是代码,而不是注释

目标:百万行代码级别依然保持一致性,不会架构腐化。


2. 分离式评估闭环 · Separate Evaluator

Anthropic 最关键的工程发现之一:Agent 自评等于无效。生成与评估必须物理或逻辑隔离。

设计要点:

  • Generator ≠ Evaluator,两个独立 Agent
  • 评估不能只看文本,要可执行验证:UI 用 Playwright、代码跑单测、接口发真实请求
  • 固定评估维度:功能完整性、规范合规、鲁棒性、安全性
  • 迭代控制在 5–15 轮,超过阈值触发人工介入

目标:让 Agent 无法自我美化,必须按真实结果迭代。


3. 可信记忆层 · Verified Memory

不是简单存历史,而是防幻觉、防污染、可追溯。记忆写入本身也需要信任机制。

设计要点:

  • 写入必须经过共识验证:多 Agent 投票 / 声誉机制
  • 记忆来源打分:历史准确率、领域相关性、独立验证数
  • 只存入"可证明为真"的知识,拒绝模糊结论写入
  • 提供版本、溯源、回滚机制

目标:系统具备纵向学习能力,越跑越强,而不是永远从零开始。


4. 任务编排与执行引擎 · Orchestration Engine

让 Agent 能跑几小时乃至几天不出故障。这不是自然而然的,需要工程设计。

设计要点:

  • 任务可中断、可恢复、可重试,具备持久化状态
  • 工具调用权限最小化原则
  • 上下文自动清理、压缩、索引,防止窗口溢出
  • 死循环检测、无限递归检测、成本上限熔断

目标:长时运行稳定、可控、可审计、不爆炸。


02 · 实施路径:从 0 到 1 的六步

设计顺序很重要:先定约束,再定结构,最后接能力。很多团队反过来——先把工具接上,再想着怎么约束,结果越来越难管。

Step 1 · 先定义"不可接受的行为"
列黑名单优先于列白名单。不能生成不安全代码、不能破坏架构、不能编造信息、不能无限调用工具、不能覆盖重要配置——这些必须提前写成规则,而不是"约定"。

Step 2 · 设计分层与接口
把系统切成固定层次,Agent 只能通过接口通信,不能乱跳层。层次边界清晰,才能谈约束。

Step 3 · 搭建双 Agent 结构:Generator + Evaluator
Generator 负责生成,Evaluator 负责验证、打分、拒绝、要求重改。两者职责隔离,不允许自评自过。

Step 4 · 接入三层可信记忆
短期记忆(上下文窗口)→ 中期记忆(会话经验)→ 长期记忆(经过验证的知识库,必须投票通过才能写入)。三层分离,防止污染传播。

Step 5 · 接入 CI / 自动化检查
把所有约束变成可执行检查,Agent 违规直接失败。规则的效力来自执行,不来自文档。

Step 6 · 设置熔断与上限
最大轮次、最大 token、最大成本、最大工具调用次数——四个维度都要有硬上限。防止失控的边界,是系统健康的底线。


03 · 有效性衡量:怎么判断你的 Harness 是否真的有效

指标 含义 反面信号
一致性 多次运行结果可预测 同样输入,输出随机漂移
收敛性 迭代后质量明显上升 在同一水平震荡,越改越差
成长性 第 10 轮比第 1 轮强 每次从零出发,没有积累
可控性 不出现架构崩坏、幻觉泛滥、成本爆炸 行为不可审计,边界不清晰

一句话收尾

好的 Harness = 强制规则 + 外部评估 + 可信记忆 + 稳定执行引擎

它不是"教 AI 怎么做",而是给 AI 造一个只能做好事的环境。

上述方法论可直接适配代码生成 Agent、RAG 系统、客服 Agent 等场景——核心骨架不变,调整各层的约束规则与评估维度即可落地。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐