2026 年 AI 工程新范式:Harness Engineering 深度解析

受众假设:你已经写过 Prompt,了解 RAG/动态上下文注入,并对 Agent 的“推理-行动-观察”循环不陌生。

本文聚焦:工程机制与可靠性直觉(而不是“某个模型有多强”)。

TL;DR(先看结论)

  • Harness Engineering 关注的不是“怎么把模型训练得更强”,而是“怎么设计模型运行系统,让模型在机制里把事稳定做成”。
  • 它可理解为 AI 工程的第三阶段:Prompt → Context → Harness,且是包含关系:Prompt ⊂ Context ⊂ Harness
  • 之所以在 2025 年底到 2026 年初快速升温,核心是 4 件事:模型能力到临界点、长任务暴露系统性失败模式、多步链路的累积误差导致端到端可靠性崩塌、模型商品化后竞争焦点转向系统(Harness)。
  • 多步 Agent 的关键问题通常不是“95% 单步成功率不够高”,而是“缺少验证与恢复机制”,因为 0.95^20 ≈ 36%(成功率会指数衰减)。
  • 成熟 Harness 常见 6 个模块:上下文/知识、工具/权限、验证/约束、状态/记忆、可观测性/反馈、人类接管/生命周期。
  • 它同时带来创新与争议:工程约束对象从“确定性代码”转向“概率推理系统”;风险来自概念膨胀、过度工程化、证据与可复现性不足,以及多 Agent 带来的风险放大。

快速导航(按困惑定位)

你可能在困惑什么 看哪节 一句话解释
“Harness Engineering 到底是什么?和 Prompt/Context 有啥不同?” 1, 2 Harness 解决的是“让模型在什么机制里干活,并确保干成”。
“为什么 2026 年大家突然开始聊 Harness?” 3 模型变强后,差异点从模型转移到系统设计与可靠性治理。
“Agent 看起来 95% 都正常,为什么一上真实任务就翻车?” 4 多步串联系统里,端到端成功率是指数衰减,需要验证与恢复。
“成熟 Harness 具体长什么样?模块怎么拆?” 5 六大模块覆盖:信息可达性、可执行性、可验证性、可恢复性、可观测性、可控性。
“头部公司怎么做?有哪些可复用的模式?” 6 共同收敛到:外部制品记忆 + 生成/评估分离 + 确定性约束。
“它有什么争议/风险?会不会只是过渡概念?” 7 风险来自边界模糊、过度工程化与证据不足;未来取决于模型是否压缩这些系统复杂度。

1. 关键概念:Harness 是什么

这里说的 Harness Engineering(下文简称 Harness),指的是:设计模型运行系统的工程方法论,而不是直接优化模型本身。

一句话定义:Harness = “把模型能力接到真实世界任务上,并且用机制保证可控、可验、可恢复”的系统工程。

可以用一个直观隐喻来理解角色分工:

  • 模型是马匹:强大但无方向
  • 人类是骑手:提供方向
  • Harness 是马具:控制与引导工具

更工程化的定义:Harness 处理模型外部的完整运行系统,包括任务拆解、上下文管理、工具编排、权限设定、状态交接、结果验证、失败恢复,以及人类控制权交接等系统性设计。

2. 三阶段演进:Prompt → Context → Harness

可以把 AI 工程演进粗分为三阶段,并用“关注点”来对比差异:

阶段 主导时期 核心关注点 技术本质 比喻
Prompt Engineering 2022-2024 如何提问? 单轮文本优化 命令右转
Context Engineering 2025-至今 让模型看到什么? 动态输入管理 提供地图
Harness Engineering 2026-至今 模型如何工作? 完整系统设计 整辆车的工程设计(方向盘、刹车、车道维护等)

包含关系:Harness 包含 Context,Context 包含 Prompt。换句话说,你可以把前者当作后者的“上层装配”。

Prompt  ⊂  Context  ⊂  Harness
(从“怎么说”→“给它看什么”→“让它在什么机制里干活并确保干成”)
(一个更贴近工程直觉的对照)

Prompt:写一句话,让模型“想清楚”
Context:把资料塞进去,让模型“看得到”
Harness:把流程/工具/验证/恢复都配齐,让系统“交付得出来”

3. 为什么会爆发:四个驱动因素

2025 年底至 2026 年初 Harness Engineering 升温,常见可以归因到 4 个驱动因素:

  1. 模型能力已达临界点:基础模型能力显著提升后,系统设计成为性能差异主要来源,需要 Harness 释放模型潜力。
  2. 长任务暴露系统性缺陷:跨窗口长任务出现典型失败模式(上下文耗尽、提前宣布完成且不验证等),这些无法靠模型升级解决,必须靠 Harness 机制治理。
  3. 概率系统的累积误差:多步流水线端到端成功率会指数衰减,必须通过系统层面验证解决。
  4. 模型商品化:模型能力差距缩小,围绕模型的系统设计成为新竞争壁垒(“旧护城河是模型质量,新护城河是 Harness 质量”)。

4. 可靠性直觉:为什么 95% 仍然会在真实任务里失败

这里有一个关键数学直觉:

  • 多步 Agent 流水线单步成功率 95%
  • 串联 20 步后端到端成功率约 36%

可以用最小模型表达这个现象:

端到端成功率 ≈ p^n

p = 单步成功率(例如 0.95)
n = 步数(例如 20)

0.95^20 ≈ 0.358

结论不是“95% 太差”,而是:当任务必须拆成多步时,系统设计的重心要放在“验证、恢复与状态治理”,否则失败会在长链条里被放大。

给一个更直观的表(p=0.95):

步数 n 端到端成功率 0.95^n(约)
5 77%
10 60%
20 36%
30 21%
(多步 Agent 端到端成功率的直觉图)

Step1   Step2   Step3         Step20
 95% ×  95% ×  95%  × ... ×    95%
   │      │      │             │
   └──────┴──────┴────── ... ──┘
            端到端 ≈ 36%

因此:需要 Harness 来做
- 结果验证(不是“自我觉得完成了”)
- 失败恢复(重试/回滚/换路)
- 状态交接(跨窗口/跨 session 不丢进度)

5. Harness 的六大核心模块

成熟 Harness 常见可以拆为 6 个模块。这里的读法建议是:先看“它解决什么失败模式”,再看“它实现成什么模块”。

  1. 上下文工程与知识管理:项目指令文件(如 agents.md)、动态上下文注入、上下文隔离与压缩。核心原则是“无法访问的信息对 Agent 等同于不存在”。
  2. 工具编排与权限设计:策划工具集、MCP 与文件系统访问管理、沙箱隔离机制。
  3. 验证机制与约束:确定性约束(Linter/结构测试/pre-commit)、生成-评估分离、自动审查循环。
  4. 状态管理与记忆持续性:外部化记忆(进度文件/结构化功能清单)、增量提交与检查点恢复。
  5. 可观测性与反馈闭环:执行追踪与质量分级、异常检测与反馈归因。
  6. 人类接管与生命周期管理:关键决策点暂停、生命周期钩子(升级路径/失败恢复)。

用一个“目标导向”的图把它们放在同一个框架里:

                    ┌──────────────────────────────┐
                    │            Agent Loop         │
                    │     推理 → 行动 → 观察         │
                    └──────────────┬───────────────┘
                                   │
                                   ▼
┌───────────────────────────────────────────────────────────────┐
│ Harness(把“能做”变成“能稳定做对”)                              │
│                                                               │
│ 1) 上下文/知识:信息可达性   2) 工具/权限:动作可执行性          │
│ 3) 验证/约束:结果可验证性   4) 状态/记忆:跨步可持续性          │
│ 5) 可观测/反馈:问题可定位性 6) 人类接管:关键决策可控性          │
└───────────────────────────────────────────────────────────────┘

6. 头部实践:共同收敛到哪些模式

把不同公司的实现细节放在一起看,表面上各叫各的名字,但底层收敛点很一致:把“生成”和“验证”分离、把记忆外部化成可审计制品、把关键约束做成确定性门禁(而不是靠模型自觉)。

6.1 Anthropic:从双 Agent 到三 Agent(生成-评估分离)

一种常见的演进路线是从“生成”与“执行”分工,进一步走向“生成-评估分离”:

  • 2025 年 11 月:双 Agent(初始化 Agent + 编码 Agent)
    • 初始化 Agent:建环境、创建脚本、生成可测试需求清单(JSON)
    • 编码 Agent:读取进度文件、审查需求、执行测试
    • 关键点:通过外部制品(进度文件、Git 历史、需求清单)实现跨 session 记忆
  • 2026 年 3 月:三 Agent(Planner + Generator + Evaluator)
    • Planner:扩展需求
    • Generator:实现功能
    • Evaluator:独立验证(解决自评估缺陷)
(三 Agent 的最小结构)

Planner     →   Generator   →   Evaluator
扩展需求         产出实现         独立验证

关键:Evaluator 不是 Generator 的“自我批评”,而是独立角色。

6.2 OpenAI:Codex Agent(高吞吐 + 约束 + 自我改进闭环)

常见做法可以概括为“高吞吐 + 强约束 + 自我改进闭环”:

  • 3-7 人团队 5 个月生成约百万行代码,合并 1500 个 PR
  • 人均日吞吐量 3.5 个 PR,且随团队扩大而上升
  • 约束:零手写代码,逻辑/测试/CI/文档均由 Codex 生成

Harness 三个常见支柱:

  1. Context Engineering:增强知识库 + 动态访问可观测性数据
  2. 架构约束:自定义 Linter 与结构测试强制执行
  3. 垃圾回收:扫描文档不一致与架构违规

核心模式:遇到困难时不“更努力”,而是反问“缺少什么能力?如何让该能力可执行?”,把改进落在系统机制上,形成自我改进闭环。

6.3 Google DeepMind:Alethia(Generator/Verifier/Revisor)

一种经典的三组件结构与效果边界是:

  • Generator:提出解法与证明策略
  • Verifier:检查逻辑缺陷与幻觉
  • Revisor:修正错误

结果:在 IMO Proof Bench Advance 达到 95.1% 准确率,但更广泛问题集错误率 68.5%,体现 Harness 在特定场景的强大与泛化局限。

7. 创新本质、争议与风险

7.1 创新本质

可以从 4 个维度理解它的创新点:

  1. 约束对象变化:从确定性代码执行转向概率性推理系统
  2. 反直觉原则:约束解决空间反而提升表现
  3. 生成-评估分离:Anthropic 与 Google 独立收敛到相同模式
  4. 代码库优化目标:优先优化 Agent 可读性而非人类阅读偏好

7.2 主要争议与风险

常见的 5 类风险是:

  1. 概念膨胀:术语边界模糊导致精确性下降
  2. 过度工程化:模型升级可能让复杂 Harness 成为负担
  3. 证据基础局限:多数证据来自厂商自身,独立定量验证缺乏
  4. 可复现性缺口:百万行代码案例特定条件难以复制
  5. 风险放大:多 Agent 配置可能提高意外污染概率(从 0.24% → 0.87%)

8. 结论与行动路径

核心结论可以用三段式区分来记:

  • Prompt Engineering 解决“怎么说”
  • Context Engineering 解决“给模型看什么”
  • Harness Engineering 解决“让模型在什么机制里干活并确保干成”

务实行动路径(按时间尺度整理):

  • 立即:创建 agents.md,记录 Agent 重复性错误及规则
  • 中期:构建确定性验证层(Linter、结构测试、可观测性)
  • 长期:设计模块化可替换 Harness 架构,支持模型升级平滑迁移

开放性问题:Harness Engineering 会成为 AI 时代的 DevOps,还是会被下一代模型压缩系统复杂度后边缘化?

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐