Harness 成熟度模型（HMM）

麦哲思科技任甲林

505人浏览 · 2026-05-28 06:37:47

麦哲思科技任甲林 · 2026-05-28 06:37:47 发布

引言

随着 AI 编程工具的普及，"如何管理 AI"已经成为软件工程领域的新命题。我们提出了 OSSP → PDP → Harness 的三层体系来系统化地管理人机协作过程。但随之而来一个更深入的问题：

你和你的团队，现在的 Harness 到了什么水平？还差多远才能达到"人马合一"？

借鉴 CMMI 的成熟度模型思想，我们设计了 Harness 成熟度模型（HMM - Harness Maturity Model），帮助你量化评估、诊断差距、规划改进路径。

一、Harness 成熟度五级模型

L5 优化级 ← AI 自驱动演进，预测性质量

L4 量化管理级 ← 数据驱动度量，效果可量化

L3 已定义级 ← 组织级标准，三级体系完整

L2 可管理级 ← 项目级规则，基础复用

L1 初始级 ← 零散个人习惯，不成体系

二、各等级详解

L1 — 初始级（Initial）：个人英雄主义时代

一句话概括：Harness 不存在，全靠个人悟性。

典型表现

维度	表现
组织级	不存在，无统一方针和流程
项目级	不存在，无项目规则
个人级	零散的个人习惯，存在于脑中，无法共享
规则	每次从零开始写 Prompt，凭感觉描述需求
技能	无 Skill 概念，每次都需要重新描述完整需求
经验	纯个人记忆，踩坑不留痕，同一个坑反复踩
AI 使用	随机、无章法，输出质量完全取决于 Prompt 的质量

L1 的特征画像

开发者 A：每天写代码靠感觉，Prompt 随口问，不满意就重新问

开发者 B：偶尔记一些好用的 Prompt 在备忘录里，但从不共享

项目组：没有统一的 AI 使用规范，各自为战

痛点：

❌ 同一个 Bug 模式反复出现，每次都从头修
❌ 新人加入时，没有任何 AI 使用指南可以参考
❌ AI 输出质量不稳定，完全靠运气
❌ 项目结束后，一切经验归零

向上突破的触发点：同一个坑踩了 3 次以上，痛感驱动开始记录。

L2 — 可管理级（Managed）：项目级秩序初现

一句话概括：项目级规则开始建立，基础复用成为可能。

典型表现

维度	表现
组织级	仍不存在
项目级	有基本的 project_rules.md，包含 3-10 条核心规则
个人级	个人开始有自己的 Prompt 模板，但不规范
规则	项目内有几条从血泪教训中提炼的规则
技能	1-3 个基础 Skill（如 bug-fixer）
经验	有 docs/bug-fixes.md 记录历史 Bug
AI 使用	有基本约束，但规则覆盖不完整

L2 的特征画像

项目 .trae/

├── rules/

│ └── project_rules.md ← "全管线思维" "公共模块优先"

└── skills/

└── bug-fixer/

└── SKILL.md ← Bug 修复流程

docs/

└── bug-fixes.md ← "2026-03-15：空行压缩问题，根因：未检查 DOM"

L2 的核心能力

✅ 同一个坑基本不踩第二次
✅ 团队对 AI 的使用有一致的底线规则
✅ Bug 修复后有记录可追溯

L2 的局限

❌ 规则只属于一个项目，换个项目从头来
❌ 修复流程偶尔被跳过（赶进度时）
❌ 没有度量，不知道 Harness 到底帮了多少忙

向上突破的触发点：第二个项目启动时发现要重复建立规则，产生跨项目复用的需求。

L3 — 已定义级（Defined）：组织级标准确立

一句话概括：组织级 Harness 框架建立，三级体系（组织→项目→个人）完整贯通，裁剪机制成熟。

典型表现

维度	表现
组织级	有完整的 Policy、OSSP、LCM、Process 定义
项目级	有 PDP（从组织级裁剪而来），重装/轻装可选
个人级	个人 Harness 可继承组织+项目级规则
规则	组织级基础规则 + 项目级特定规则 + 个人偏好
技能	组织级技能库（>5 个 Skill：bug-fixer / reusing / review 等）
经验	组织级经验教训库，分类管理
资产	Templates、Guidelines、Checklists、DOD 齐全
AI 使用	标准化流程，AI 有明确的边界和期望

L3 的特征画像

组织级 Harness 框架

├── policy/policy.md ← 组织方针

├── ossp/ossp.md ← 标准软件流程

├── lcm/lcm.md ← 生命周期定义

├── process/process.md ← 过程定义

├── templates/ ← 标准模板

├── guidelines/ ← 最佳实践指南

├── checklists/ ← 检查单

├── dod/ ← 完工准则

└── lessons-learned/ ← 经验教训库

项目 A（中型）──→ 裁剪 → 项目级 PDP + Harness（轻装）

项目 B（大型）──→ 裁剪 → 项目级 PDP + Harness（重装）

L3 的核心能力

✅ 新项目启动，直接复制组织级模板，快速建立 Harness
✅ 不同项目可以根据规模选择重装/轻装模式
✅ 经验教训跨项目共享，组织级知识持续积累
✅ 个人可以在组织+项目规则之上叠加自己的偏好

L3 的局限

❌ 规则"多但不知道哪些真有用"
❌ 没有数据支撑哪些规则应该保留、哪些应该裁剪
❌ 改进决策靠感觉，而非数据

向上突破的触发点：规则越来越多，团队开始问——"这些规则到底起了多大作用？"

L4 — 量化管理级（Quantitatively Managed）：数据驱动的持续优化

一句话概括：建立完整的度量体系，用数据说话，持续优化有依据。

典型表现

维度	表现
度量体系	建立了完整的 Harness 效能指标体系
过程度量	AI 输出一次性通过率、返工率、PDCA 循环周期
质量度量	AI 生成代码的缺陷密度、评审发现率、规则触发率
效率度量	任务完成时间、AI 辅助效率提升比
合规度量	规则遵从率、检查单通过率、Skill 使用率
改进决策	基于数据决定规则的增删改

L4 核心指标体系

1. 生成质量指标

指标	计算方式	目标值
AI 代码一次通过率	首次生成即通过评审的比例	> 70%
AI 代码平均修改次数	从生成到合入的平均修改轮次	< 2 次
AI 输出可用率	无需人工修改可直接使用的比例	> 50%

2. 评审效率指标

指标	计算方式	目标值
评审通过率	AI 输出经评审直接通过的比例	> 85%
评审发现问题密度	每千行 AI 代码的评审发现问题数	< 5 个/千行
AI vs 人工评审时间比	AI 评审耗时 / 人工评审耗时	< 0.5

3. 规则效能指标

指标	计算方式	目标值
规则触发率	执行中被规则拦截/提示的频率	稳定或略降
规则覆盖率	历史 Bug 类型被已有规则覆盖的比例	> 80%
规则有效率	触发后确实阻止了问题的比例	> 60%
误报率	规则触发但实际无问题的比例	< 10%

4. 过程效能指标

指标	计算方式	目标值
Skill 使用率	各 Skill 在匹配场景被调用的比例	> 90%
Bug 重复率	同类 Bug 再次出现的比例	< 5%
PDCA 周期	从发现到规则沉淀的平均时间	< 1 周
规则活性	最近 30 天被触发过的规则占比	> 60%

5. 个人效能指标

指标	计算方式	目标值
个人 Harness 同步率	个人规则与项目规则的同步状态	> 90%
个人规则贡献率	个人规则被吸收到项目/组织级的比例	鼓励
AI 使用频率	日均 AI 交互次数	稳定增长

L4 的特征画像

月度 Harness 效能报告：

�� Harness 效能报告 - 2026年5月

AI 代码一次通过率 72% ↑ 2%

AI 输出评审通过率 87% → 持平

平均修改次数 1.8 ↓ 0.3

规则覆盖率 83% ↑ 5%

Bug 重复率 3% ↓ 1%

PDCA 周期 5.2天 ↓ 0.8天

Skill 使用率 91% ↑ 3%

�� 告警：规则 #7 "数据格式一致性" 本月

触发 23 次，触发率异常升高，建议排查

�� 建议：规则 #12 "阈值检查" 已连续 60 天

未触发，建议评估是否删除

L4 的核心能力

✅ 知道每条规则的真实价值
✅ 基于数据决策规则的增删改
✅ 能发现"规则失效"或"热点问题"
✅ 改进效果可量化验证

L4 的局限

❌ 数据分析和规则调整仍需人工
❌ 无法预判可能出现的新问题模式

向上突破的触发点：度量数据足够丰富，AI 可以接管分析和建议的工作。

L5 — 优化级（Optimizing）：AI 自驱动演进

一句话概括：AI 自动提炼经验、建议规则、预判风险。Harness 成为一个自我进化的有机体。

典型表现

维度	表现
自学习	AI 自动从经验教训库提炼新规则
预测性	AI 预判可能出现的 Bug 类型，提前建议加规则
自适应	根据任务复杂度自动切换重装/轻装模式
智能裁剪	AI 根据项目特征自动推荐 PDP 裁剪方案
个人适配	AI 学习开发者偏好，自动优化交互方式
知识图谱	组织级知识图谱，自动关联经验、规则和技能

L5 的智能系统架构

经验教训库 ──→ AI 分析引擎 ──→ 自动提炼规则 ──→ 规则库更新

│

┌───────────────────┘

▼

新项目启动 ──→ AI 评估引擎 ──→ 推荐裁剪方案

│

▼

开发者使用 ──→ AI 学习引擎 ──→ 个人 Harness 自动优化

L5 的能力示例

场景 1：自动规则提炼

系统检测到：

最近 5 个 Bug 都涉及"前后端字段名不匹配"

模式识别：后端字段变更后前端未同步

AI 自动操作：

1. 提炼新规则："接口契约变更时同步检查前后端字段名"

2. 更新 update-backreview Skill 的 checklist

3. 标记为"待评审"，推送通知给 Harness 管理员

4. 管理员审核通过后自动生效

场景 2：智能裁剪推荐

新项目启动：

AI 检测到

- 项目规模：约 50K LOC（中型）

- 语言：Python + Vue.js

- 团队：6 人

- 领域：内部管理工具

AI 自动推荐：

✅ 采用轻装 Harness

✅ 参考"相似项目 #3"的裁剪方案

✅ 建议保留规则：#1全管线 #5接口契约 #8重构避免行号索引

✅ 建议裁剪规则：#6数据契约检查（本类项目不涉及）

✅ 预测本项目高频 Skill：bug-fixer, reusing

场景 3：个人适配优化

开发者 A（前端为主）：

AI 发现

- 偏好简洁的代码风格

- 经常需要处理 DOM 渲染问题

- 对全管线思维规则响应良好

AI 自动优化：

✅ 调整 Prompt 模板偏向前端场景

✅ 提高"全管线检查"规则的优先级

✅ 自动附加上下文：当前项目的 CSS/组件结构

L5 的核心能力

✅ Harness 的演进大部分由 AI 驱动，人工负责审核
✅ 从"被动修补"到"主动防御"再到"预测预防"
✅ 每个开发者的 Harness 都是"自定义优化的"
✅ 组织级知识自动积累、自动关联、自动应用

三、成熟度在各维度的全貌

维度	L1 初始	L2 可管理	L3 已定义	L4 量化	L5 优化
规则数量	0	3-10	10-50	50+	动态
规则来源	无	踩坑记录	组织+项目	数据驱动	AI 建议
组织级	❌	❌	✅	✅	✅
项目级	❌	✅	✅	✅	✅
个人级	零散	萌芽	体系化	可度量	自适应
重装/轻装	❌	❌	可选	量化选择	自适应
Skill 库	0	1-3	5+	10+	动态
经验库	❌	项目级	组织级	可检索	自动提炼
度量	❌	❌	❌	✅	AI 分析
PDCA	无意识	被动	主动	量化	自动化
决策方式	个人感觉	团队共识	组织流程	数据驱动	AI 辅助
演进速度	无演进	季度	月度	周度	持续

四、成熟度评估方法

4.1 自评问卷

对以下每项进行评估，得分 1-5（对应 L1-L5），最后取平均值：

#	评估问题	1分 (L1)	2分 (L2)	3分 (L3)	4分 (L4)	5分 (L5)
1	组织级 Harness 是否存在并被维护？	无	无	有且维护	有且度量	自动演进
2	项目级规则是否体系化、可裁剪？	无	基础	完整	数据驱动	自适应
3	个人 Harness 是否可与项目/组织级同步？	否	否	手动	半自动	自动同步
4	经验是否被系统化记录和复用？	否	项目级	组织级	可检索	自动提炼
5	是否有度量指标来衡量 Harness 效能？	无	无	无	有	AI 分析
6	重装/轻装模式是否可以灵活切换？	否	否	手动选择	量化选择	自动切换
7	Skill 库是否完善且被持续使用？	无	1-3个	5+	有使用率数据	自动优化
8	Bug 修复后是否触发规则/Skill 改进？	否	偶尔	是	是且有数据	AI 自动

4.2 评分解释

平均分	等级	建议
1.0 - 1.9	L1 初始级	从建立 bug-fixes.md 开始，把踩过的坑记下来
2.0 - 2.9	L2 可管理级	建立组织级模板，让 Harness 可以在项目间复用
3.0 - 3.9	L3 已定义级	开始收集度量数据，用数据指导 Harness 优化
4.0 - 4.9	L4 量化管理级	探索 AI 自动分析的可行性，向 L5 迈进
5.0	L5 优化级	保持！你的 Harness 已是行业标杆