2026 年 AI 工程新范式：Harness Engineering 深度解析

低调小一

1104人浏览 · 2026-03-30 16:29:23

低调小一 · 2026-03-30 16:29:23 发布

2026 年 AI 工程新范式：Harness Engineering 深度解析

受众假设：你已经写过 Prompt，了解 RAG/动态上下文注入，并对 Agent 的“推理-行动-观察”循环不陌生。

本文聚焦：工程机制与可靠性直觉（而不是“某个模型有多强”）。

TL;DR（先看结论）

Harness Engineering 关注的不是“怎么把模型训练得更强”，而是“怎么设计模型运行系统，让模型在机制里把事稳定做成”。
它可理解为 AI 工程的第三阶段：Prompt → Context → Harness，且是包含关系：Prompt ⊂ Context ⊂ Harness。
之所以在 2025 年底到 2026 年初快速升温，核心是 4 件事：模型能力到临界点、长任务暴露系统性失败模式、多步链路的累积误差导致端到端可靠性崩塌、模型商品化后竞争焦点转向系统（Harness）。
多步 Agent 的关键问题通常不是“95% 单步成功率不够高”，而是“缺少验证与恢复机制”，因为 0.95^20 ≈ 36%（成功率会指数衰减）。
成熟 Harness 常见 6 个模块：上下文/知识、工具/权限、验证/约束、状态/记忆、可观测性/反馈、人类接管/生命周期。
它同时带来创新与争议：工程约束对象从“确定性代码”转向“概率推理系统”；风险来自概念膨胀、过度工程化、证据与可复现性不足，以及多 Agent 带来的风险放大。

快速导航（按困惑定位）

你可能在困惑什么	看哪节	一句话解释
“Harness Engineering 到底是什么？和 Prompt/Context 有啥不同？”	1, 2	Harness 解决的是“让模型在什么机制里干活，并确保干成”。
“为什么 2026 年大家突然开始聊 Harness？”	3	模型变强后，差异点从模型转移到系统设计与可靠性治理。
“Agent 看起来 95% 都正常，为什么一上真实任务就翻车？”	4	多步串联系统里，端到端成功率是指数衰减，需要验证与恢复。
“成熟 Harness 具体长什么样？模块怎么拆？”	5	六大模块覆盖：信息可达性、可执行性、可验证性、可恢复性、可观测性、可控性。
“头部公司怎么做？有哪些可复用的模式？”	6	共同收敛到：外部制品记忆 + 生成/评估分离 + 确定性约束。
“它有什么争议/风险？会不会只是过渡概念？”	7	风险来自边界模糊、过度工程化与证据不足；未来取决于模型是否压缩这些系统复杂度。

1. 关键概念：Harness 是什么

这里说的 Harness Engineering（下文简称 Harness），指的是：设计模型运行系统的工程方法论，而不是直接优化模型本身。

一句话定义：Harness = “把模型能力接到真实世界任务上，并且用机制保证可控、可验、可恢复”的系统工程。

可以用一个直观隐喻来理解角色分工：

模型是马匹：强大但无方向
人类是骑手：提供方向
Harness 是马具：控制与引导工具

更工程化的定义：Harness 处理模型外部的完整运行系统，包括任务拆解、上下文管理、工具编排、权限设定、状态交接、结果验证、失败恢复，以及人类控制权交接等系统性设计。

2. 三阶段演进：Prompt → Context → Harness

可以把 AI 工程演进粗分为三阶段，并用“关注点”来对比差异：

阶段	主导时期	核心关注点	技术本质	比喻
Prompt Engineering	2022-2024	如何提问？	单轮文本优化	命令右转
Context Engineering	2025-至今	让模型看到什么？	动态输入管理	提供地图
Harness Engineering	2026-至今	模型如何工作？	完整系统设计	整辆车的工程设计（方向盘、刹车、车道维护等）

包含关系：Harness 包含 Context，Context 包含 Prompt。换句话说，你可以把前者当作后者的“上层装配”。

Prompt  ⊂  Context  ⊂  Harness
（从“怎么说”→“给它看什么”→“让它在什么机制里干活并确保干成”）

（一个更贴近工程直觉的对照）

Prompt：写一句话，让模型“想清楚”
Context：把资料塞进去，让模型“看得到”
Harness：把流程/工具/验证/恢复都配齐，让系统“交付得出来”

3. 为什么会爆发：四个驱动因素

2025 年底至 2026 年初 Harness Engineering 升温，常见可以归因到 4 个驱动因素：

模型能力已达临界点：基础模型能力显著提升后，系统设计成为性能差异主要来源，需要 Harness 释放模型潜力。
长任务暴露系统性缺陷：跨窗口长任务出现典型失败模式（上下文耗尽、提前宣布完成且不验证等），这些无法靠模型升级解决，必须靠 Harness 机制治理。
概率系统的累积误差：多步流水线端到端成功率会指数衰减，必须通过系统层面验证解决。
模型商品化：模型能力差距缩小，围绕模型的系统设计成为新竞争壁垒（“旧护城河是模型质量，新护城河是 Harness 质量”）。

4. 可靠性直觉：为什么 `95%` 仍然会在真实任务里失败

这里有一个关键数学直觉：

多步 Agent 流水线单步成功率 95%
串联 20 步后端到端成功率约 36%

可以用最小模型表达这个现象：

端到端成功率 ≈ p^n

p = 单步成功率（例如 0.95）
n = 步数（例如 20）

0.95^20 ≈ 0.358

结论不是“95% 太差”，而是：当任务必须拆成多步时，系统设计的重心要放在“验证、恢复与状态治理”，否则失败会在长链条里被放大。

给一个更直观的表（p=0.95）：

步数 n	端到端成功率 `0.95^n`（约）
5	77%
10	60%
20	36%
30	21%

（多步 Agent 端到端成功率的直觉图）

Step1   Step2   Step3         Step20
 95% ×  95% ×  95%  × ... ×    95%
   │      │      │             │
   └──────┴──────┴────── ... ──┘
            端到端 ≈ 36%

因此：需要 Harness 来做
- 结果验证（不是“自我觉得完成了”）
- 失败恢复（重试/回滚/换路）
- 状态交接（跨窗口/跨 session 不丢进度）

5. Harness 的六大核心模块

成熟 Harness 常见可以拆为 6 个模块。这里的读法建议是：先看“它解决什么失败模式”，再看“它实现成什么模块”。

上下文工程与知识管理：项目指令文件（如 agents.md）、动态上下文注入、上下文隔离与压缩。核心原则是“无法访问的信息对 Agent 等同于不存在”。
工具编排与权限设计：策划工具集、MCP 与文件系统访问管理、沙箱隔离机制。
验证机制与约束：确定性约束（Linter/结构测试/pre-commit）、生成-评估分离、自动审查循环。
状态管理与记忆持续性：外部化记忆（进度文件/结构化功能清单）、增量提交与检查点恢复。
可观测性与反馈闭环：执行追踪与质量分级、异常检测与反馈归因。
人类接管与生命周期管理：关键决策点暂停、生命周期钩子（升级路径/失败恢复）。

用一个“目标导向”的图把它们放在同一个框架里：

                    ┌──────────────────────────────┐
                    │            Agent Loop         │
                    │     推理 → 行动 → 观察         │
                    └──────────────┬───────────────┘
                                   │
                                   ▼
┌───────────────────────────────────────────────────────────────┐
│ Harness（把“能做”变成“能稳定做对”）                              │
│                                                               │
│ 1) 上下文/知识：信息可达性   2) 工具/权限：动作可执行性          │
│ 3) 验证/约束：结果可验证性   4) 状态/记忆：跨步可持续性          │
│ 5) 可观测/反馈：问题可定位性 6) 人类接管：关键决策可控性          │
└───────────────────────────────────────────────────────────────┘

6. 头部实践：共同收敛到哪些模式

把不同公司的实现细节放在一起看，表面上各叫各的名字，但底层收敛点很一致：把“生成”和“验证”分离、把记忆外部化成可审计制品、把关键约束做成确定性门禁（而不是靠模型自觉）。

6.1 Anthropic：从双 Agent 到三 Agent（生成-评估分离）

一种常见的演进路线是从“生成”与“执行”分工，进一步走向“生成-评估分离”：

2025 年 11 月：双 Agent（初始化 Agent + 编码 Agent）
- 初始化 Agent：建环境、创建脚本、生成可测试需求清单（JSON）
- 编码 Agent：读取进度文件、审查需求、执行测试
- 关键点：通过外部制品（进度文件、Git 历史、需求清单）实现跨 session 记忆
2026 年 3 月：三 Agent（Planner + Generator + Evaluator）
- Planner：扩展需求
- Generator：实现功能
- Evaluator：独立验证（解决自评估缺陷）

（三 Agent 的最小结构）

Planner     →   Generator   →   Evaluator
扩展需求         产出实现         独立验证

关键：Evaluator 不是 Generator 的“自我批评”，而是独立角色。

6.2 OpenAI：Codex Agent（高吞吐 + 约束 + 自我改进闭环）

常见做法可以概括为“高吞吐 + 强约束 + 自我改进闭环”：

3-7 人团队 5 个月生成约百万行代码，合并 1500 个 PR
人均日吞吐量 3.5 个 PR，且随团队扩大而上升
约束：零手写代码，逻辑/测试/CI/文档均由 Codex 生成

Harness 三个常见支柱：

Context Engineering：增强知识库 + 动态访问可观测性数据
架构约束：自定义 Linter 与结构测试强制执行
垃圾回收：扫描文档不一致与架构违规

核心模式：遇到困难时不“更努力”，而是反问“缺少什么能力？如何让该能力可执行？”，把改进落在系统机制上，形成自我改进闭环。

6.3 Google DeepMind：Alethia（Generator/Verifier/Revisor）

一种经典的三组件结构与效果边界是：

Generator：提出解法与证明策略
Verifier：检查逻辑缺陷与幻觉
Revisor：修正错误

结果：在 IMO Proof Bench Advance 达到 95.1% 准确率，但更广泛问题集错误率 68.5%，体现 Harness 在特定场景的强大与泛化局限。

7. 创新本质、争议与风险

7.1 创新本质

可以从 4 个维度理解它的创新点：

约束对象变化：从确定性代码执行转向概率性推理系统
反直觉原则：约束解决空间反而提升表现
生成-评估分离：Anthropic 与 Google 独立收敛到相同模式
代码库优化目标：优先优化 Agent 可读性而非人类阅读偏好

7.2 主要争议与风险

常见的 5 类风险是：

概念膨胀：术语边界模糊导致精确性下降
过度工程化：模型升级可能让复杂 Harness 成为负担
证据基础局限：多数证据来自厂商自身，独立定量验证缺乏
可复现性缺口：百万行代码案例特定条件难以复制
风险放大：多 Agent 配置可能提高意外污染概率（从 0.24% → 0.87%）

8. 结论与行动路径

核心结论可以用三段式区分来记：

Prompt Engineering 解决“怎么说”
Context Engineering 解决“给模型看什么”
Harness Engineering 解决“让模型在什么机制里干活并确保干成”

务实行动路径（按时间尺度整理）：

立即：创建 agents.md，记录 Agent 重复性错误及规则
中期：构建确定性验证层（Linter、结构测试、可观测性）
长期：设计模块化可替换 Harness 架构，支持模型升级平滑迁移

开放性问题：Harness Engineering 会成为 AI 时代的 DevOps，还是会被下一代模型压缩系统复杂度后边缘化？

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

面试题：PEFT-LoRA 及变种详解——LoRA 原理、矩阵初始化、作用矩阵、Rank/Alpha 选择、过拟合治理、rsLoRA/AdaLoRA/DoRA/LoRA-GA/QLoRA 全解析

10.1 QLoRA 的核心思路QLoRA 可以理解成“量化底座 + LoRA 训练”。它把预训练大模型以 4-bit 形式加载并冻结，只训练 LoRA 适配器。这样既保留了大模型能力，又显著降低了显存需求。10.2 QLoRA 为什么省显存？因为基础模型权重被量化成更低比特，并且不参与训练。训练时主要更新 LoRA 小矩阵，而不是整套大模型参数。QLoRA 还引入了 NF4、双重量化、分页优化器

AtomGit开源社区

智能体 Agent 完全拆解：架构、组件与实战指南

AtomGit开源社区

Bragi：一个能持续记住世界观的 AI 架空世界与互动故事引擎

Bragi 是一个面向幻想创作者、小说作者、TRPG 主持人和 AI 写作爱好者的开源项目。它不是简单地让 AI 生成一段小说，而是尝试解决 AI 长篇创作中最常见的问题：设定容易忘、人物容易崩、剧情越写越乱。Bragi 通过时间路径、空间路径、角色记录和事件管理，让一个架空世界可以持续扩展，并在后续剧情中保持基本一致性。