Harness Engineer工程开发范式实战教程（非常详细），从入门到精通，收藏这一篇就够了！

Python编程杰哥

1711人浏览 · 2026-03-26 14:25:28

Python编程杰哥 · 2026-03-26 14:25:28 发布

一、Harness Engineering 核心哲学

1.1 什么是 Harness Engineering

Harness Engineering 是 OpenAI 提出的 AI 原生开发方法论，核心思想是：

“设计环境，构建反馈回路，让 Agent 自主运转”

与传统软件开发不同，Harness Engineering 强调：

地图式导航 而非详细说明书
知识嵌入仓库 而非外部文档
机械验证 而非人工检查
迭代自愈 而非等待评审

1.2 四项核心实践

实践	传统方式	Harness 方式
信息组织	详细的手册和文档	AGENTS.md 地图 + 嵌入式知识
规范传递	口头传授、文档阅读	lint 规则、自动化检查
验证闭环	人工 review、手动测试	自动化测试、Agent 可观测
错误修复	等待人类介入	1-3轮自动迭代收敛

1.3 核心洞察

模型能力是地基，Harness 是上层建筑。

投入产出比递减：
- AGENTS.md + 验证闭环 → 80分（巨大提升）
- 80分到95分 → 工程量可能是前面的10倍

二、AI Coding 阶段论

2.1 Steve Yegge 的八阶段模型

阶段	描述	典型工具
阶段1	零 AI 或接近零 AI	偶尔代码补全
阶段2	IDE 内 Agent，需授权	Copilot Chat、边栏 Agent
阶段3	IDE 内 Agent，YOLO 模式	关闭权限确认
阶段4	IDE 内，Agent 全屏	Agent 占满屏幕，代码区变 Diff
阶段5	CLI，单 Agent	Claude Code、Codex CLI
阶段6	CLI，多 Agent 并行	3-5个实例同时工作
阶段7	10+ Agent，手动管理	触及手动管理极限
阶段8	构建自己的编排器	自动化 Agent 工作流编排

2.2 范式跃迁的关键节点

IDE→CLI****的跃迁：

CLI 是一等公民：本地、远程、CI 流水线环境一致
端到端闭环：读-改-跑-修是主路径，无需配置
长时自治：可跑几十分钟甚至几小时，失败自动重试
人机分工清晰：人是"指挥官"，Agent 负责全部执行

单 Agent → 多 Agent 的跃迁：

从 subagent 模式（主-从）到 mailbox 模式（peer-to-peer）
Agent 之间直接协商、分工、同步进度
无需中心调度器

三、Harness 工程工作流

3.1 六步开发流程

┌─────────────────────────────────────────────────────────────┐
│  1. 需求分析 (PRD)                                           │
│     └─ 业务背景 → AI生成初版PRD → 多轮细化                   │
├─────────────────────────────────────────────────────────────┤
│  2. 技术选型 (Tech Doc)                                      │
│     └─ 市场调研 → 技术选型 → 编写技术文档                    │
├─────────────────────────────────────────────────────────────┤
│  3. 任务拆分 (Task Doc)                                      │
│     └─ PRD+Tech Doc → AI拆分任务 → 创建Task清单              │
├─────────────────────────────────────────────────────────────┤
│  4. 编码实现 (Code)                                          │
│     └─ TDD → 验证闭环 → 自测功能                             │
├─────────────────────────────────────────────────────────────┤
│  5. 代码审查 (Review)                                        │
│     └─ 人工审查 + AI辅助审查 → Code Health检查               │
├─────────────────────────────────────────────────────────────┤
│  6. 交付维护 (Deploy)                                        │
│     └─ CI/CD → 监控 → 自动修复                               │
└─────────────────────────────────────────────────────────────┘

3.2 文档先行原则

核心文档体系：

文档	作用	维护者
PRD	产品需求文档，明确功能、用户、业务流程	PM/需求方
Tech Doc	技术设计文档，架构、选型、接口定义	技术负责人
Task Doc	任务清单，可验证、可执行的小任务	AI/开发者
Spec	详细规格，含验证方案	开发者
Design	技术设计，模块划分、数据流	开发者
AGENTS.md	项目地图，结构、命令、规范	团队
CLAUDE.md	上下文注入，项目背景、约束	团队

文档喂养策略：

每次开启新会话前，将三个核心文档（PRD + Tech Doc + Task Doc）喂给 AI
让 AI 了解项目整体情况，避免上下文污染

3.3 任务拆分原则

SMART 原则：

Specific：任务明确，不模糊
Measurable：可验证，有完成标准
Achievable：1-2小时内可完成
Relevant：与目标相关
Time-bound：有时限

示例 Task Doc 结构：

## 第一阶段：项目基础搭建

### 1. 三端项目初始化
**博客前台**
- [✔] Vue3 + Vite 项目搭建
- [ ] 路由配置
- [ ] Axios 封装

**管理后台**
- [ ] Vue3 + Element Plus 项目搭建
- [ ] 路由与权限配置

### 2. 数据库设计
- [ ] 用户表设计
- [ ] 文章表设计

四、核心开发范式

4.1 Spec-Driven Development（规范驱动开发）

Kiro 模式：

Requirement → Design → Tasks
     ↑           ↓        ↓
   确认        确认    执行

整个流程串行且不可跳过
必须确认上一阶段产出，才能推进到下一步
每个阶段可审查、修改、追加

两种变体：

Requirement-First：先写需求，再设计，最后任务
Design-First：已有明确技术方案时，先设计再反推需求

4.2 Claude Code 的自由模式

Anthropic 推荐工作流：

收集上下文 → 采取行动 → 验证工作 → 循环

复杂问题处理：

要求 Agent 阅读相关文件
明确告知先不要编写任何代码
要求制定一份计划
确认计划后再执行

关键警示：

“如果没有调研和规划步骤，Claude 的输出往往会直接跳到编写代码这一步。”

4.3 验证闭环设计

三层验证体系：

层级	验证内容	触发时机
L1: 静态检查	lint、format、type check	每次代码变更
L2: 单元测试	功能正确性、覆盖率	提交前
L3: 集成验证	启动应用、接口测试、E2E	PR前/部署前

Agent 可观测性：

将验证脚本串进 Agent 工作流
lint → spotless → build 自动触发
通过 start.sh 启动应用，用 curl/websocat 跑接口验证
使用 Agent Browser 操作浏览器定位问题

4.4 迭代自愈机制

改完代码 → 自动跑验证 → 失败 → AI分析修复 → 再验证
                ↓
            1-3轮收敛 → 反复失败 → 升级给人类

垃圾回收机制：

后台 Agent 定期扫描代码库
发现偏离团队规范的模式自动开 PR 修复
持续偿还小额技术债，而非等待堆积

五、多 Agent 协作模式

5.1 协作范式演进

模式	特点	适用场景
Subagent	主 Agent 派任务给子 Agent，收集结果	树形任务分解
Experts	专家 Agent 团队，各负责不同领域	复杂技术问题
Mailbox (Peer-to-Peer)	Agent 间直接通信，无中心调度	高度协作场景
Supervisor	Supervisor 管理 Specialized Agent 团队	系统化工程

5.2 Mailbox 机制（Claude Code）

┌─────────────┐      mailbox      ┌─────────────┐
│   Agent A   │ ←───────────────→ │   Agent B   │
│  (Frontend) │      点对点通信    │   (Backend) │
└─────────────┘                   └─────────────┘
       ↑                               ↑
       └────────── 直接协商 ──────────┘

特点：

Agent 之间直接协商、分工、同步进度
无需经过中心调度器
每个 Agent 是平等的 peer

5.3 Helmsman 模式（Supervisor）

┌─────────────────────────────────────────────┐
│              Supervisor Agent               │
│         (规划、协调、质量控制)               │
└──────────┬────────────────┬─────────────────┘
           ↓                ↓
┌──────────────────┐  ┌──────────────────┐
│   Coding Team    │  │   Testing Team   │
│  (代码实现 Agent) │  │ (测试生成 Agent)  │
└──────────────────┘  └──────────────────┘

工作流程：

Planning：用户查询通过人机对话 refine 成可执行计划
Coding：Supervisor 管理的 Specialized Agent 团队协作构建代码
Evaluation：代码在闭环模拟中自主测试和 refine

六、文档体系规范

6.1 AGENTS.md 地图规范

核心原则：Map not Manual

# AGENTS.md - Project Map

## 项目结构

src/├── components/ # UI 组件├── services/ # 业务逻辑├── utils/ # 工具函数└── tests/ # 测试文件


## 常用命令
- `npm run dev` - 启动开发服务器
- `npm run test` - 运行测试
- `npm run lint` - 代码检查

## 编码规范
- 见 `.cursor/rules`
- 使用 TypeScript 严格模式
- 组件使用函数式 + Hooks

## 架构文档
- [详细设计](./docs/architecture.md)
- [API 文档](./docs/api.md)

6.2 CLAUDE.md 上下文规范

作用： 为 Claude Code 注入项目级上下文

# CLAUDE.md

## 项目背景
这是一个现代化的个人博客系统，包含 AI 辅助写作功能。

## 技术栈
- 前端：Vue 3 + Vite + TypeScript
- 后端：Spring Boot + Kotlin
- 数据库：MySQL + Redis

## 开发约束
- 必须使用 Composition API
- 所有 API 调用需封装在 services 层
- 表单必须使用 validation 库

## 常见陷阱
- 不要直接使用 axios，使用封装后的 httpClient
- 图片上传必须使用压缩

6.3 Rules 规范（.cursor/rules）

# .cursor/rules
rules:
  - name: "TypeScript 严格模式"
    pattern: "*.ts"
    enforce: "strictNullChecks: true"

  - name: "组件命名"
    pattern: "*.vue"
    enforce: "PascalCase，多词组件名"

  - name: "禁止直接调用 API"
    pattern: "*.ts, *.vue"
    forbid: "axios.get|axios.post"
    suggest: "使用 httpClient"

七、质量保障体系

7.1 Code Health 指标

AI Readiness：

Code Health >= 9.5（理想 10.0）
低质量代码会降低 AI 表现

三层防护：

层级	工具	作用
生成时	`code_health_review`	每段代码生成时检查
提交前	`pre_commit_safeguard`	对未提交文件检查
PR前	`analyze_change_set`	分支 vs base 全量检查

7.2 覆盖率作为行为护栏

传统陷阱：

覆盖率变成数字游戏
过度 mock，测试 inflated metrics

Agentic 时代：

设置高阈值（如 99%）
覆盖率回归信号立即可见
防止 Agent 删除测试来通过检查

7.3 端到端自动化

构建可分发产品 → 创建/修改 Git 仓库 → 注入代码异味
         ↓                                    ↓
    调用产品验证 ←────────────────────── 检测问题

关键：

单元测试是基础，但只验证局部行为
E2E 测试验证真实场景下的产品行为
AI 速度下，这种自动化成为 non-negotiable

八、Agentic Workflow 模式

8.1 Prompt Chaining（提示链）

输入 → LLM Call 1 → 检查点 → LLM Call 2 → 检查点 → 输出
            ↓                      ↓
       中间产物验证          中间产物验证

适用场景：

任务可分解为固定子任务
用延迟换准确性
每步 LLM 调用都是简单任务

示例：

生成营销文案
翻译成其他语言
检查合规性

8.2 Routing（路由）

输入 → 分类器 LLM → 路由到专用 Agent → 输出
            ↓
      意图识别

适用场景：

多种类型的任务需要不同处理
每个任务有专门的优化 Agent

8.3 Parallelization（并行化）

┌→ LLM 1 → 结果 1 ─┐
输入 ────┼→ LLM 2 → 结果 2 ─┼→ 聚合器 → 输出
         └→ LLM 3 → 结果 3 ─┘

适用场景：

任务可分段并行处理
需要投票机制提高准确性
处理大量相似任务

8.4 Orchestrator-Workers（编排器-工作者）

输入 → Orchestrator LLM → 任务分解
                              ↓
                    ┌────────┼────────┐
                    ↓        ↓        ↓
                  Worker 1 Worker 2 Worker 3
                    └────────┼────────┘
                              ↓
                        聚合结果 → 输出

适用场景：

复杂任务，子任务无法预先确定
需要动态规划执行路径

8.5 Evaluator-Optimizer（评估-优化）

输入 → LLM 生成 → 评估器评分 → 分数合格? → 输出
                      ↓否
                  反馈给 LLM 优化

适用场景：

需要多轮优化才能达到质量标准
有明确的评估标准

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

面向驾驭工程的 MCP-Agent 研发运维闭环自动化模型研究

AtomGit开源社区

[智能体-201]：编排的本质是：任务拆解、资源分配、时序调度、流程管控，再通过协同执行达成最终结果。这个过程中，哪些是大模型完成，哪些是编排客户端完成，哪些是工具完成？举例说明。

本例表现：数据异常时，LLM 决定重试，LangGraph 执行循环回跳，重新发起数据查询。本例表现：工具产出原始数据与文件，框架流转数据，LLM 整理内容并对外输出结果。（串行 / 并行 / 分支 / 循环）、执行顺序、触发时机、任务依赖。既定拓扑依次触发任务：执行完数据查询，再触发分析，最后启动报表生成。全流程状态追踪、分支路由、循环判断、异常处理、终止判定、快照持久化。本例表现：LLM 选定