Harness 成熟度模型(HMM)
引言
随着 AI 编程工具的普及,"如何管理 AI"已经成为软件工程领域的新命题。我们提出了 OSSP → PDP → Harness 的三层体系来系统化地管理人机协作过程。但随之而来一个更深入的问题:
你和你的团队,现在的 Harness 到了什么水平?还差多远才能达到"人马合一"?
借鉴 CMMI 的成熟度模型思想,我们设计了 Harness 成熟度模型(HMM - Harness Maturity Model),帮助你量化评估、诊断差距、规划改进路径。
一、Harness 成熟度五级模型
L5 优化级 ← AI 自驱动演进,预测性质量
/
L4 量化管理级 ← 数据驱动度量,效果可量化
/
L3 已定义级 ← 组织级标准,三级体系完整
/
L2 可管理级 ← 项目级规则,基础复用
/
L1 初始级 ← 零散个人习惯,不成体系
二、各等级详解
L1 — 初始级(Initial):个人英雄主义时代
一句话概括:Harness 不存在,全靠个人悟性。
典型表现
|
维度 |
表现 |
|
组织级 |
不存在,无统一方针和流程 |
|
项目级 |
不存在,无项目规则 |
|
个人级 |
零散的个人习惯,存在于脑中,无法共享 |
|
规则 |
每次从零开始写 Prompt,凭感觉描述需求 |
|
技能 |
无 Skill 概念,每次都需要重新描述完整需求 |
|
经验 |
纯个人记忆,踩坑不留痕,同一个坑反复踩 |
|
AI 使用 |
随机、无章法,输出质量完全取决于 Prompt 的质量 |
L1 的特征画像
开发者 A:每天写代码靠感觉,Prompt 随口问,不满意就重新问
开发者 B:偶尔记一些好用的 Prompt 在备忘录里,但从不共享
项目组:没有统一的 AI 使用规范,各自为战
痛点:
- ❌ 同一个 Bug 模式反复出现,每次都从头修
- ❌ 新人加入时,没有任何 AI 使用指南可以参考
- ❌ AI 输出质量不稳定,完全靠运气
- ❌ 项目结束后,一切经验归零
向上突破的触发点:同一个坑踩了 3 次以上,痛感驱动开始记录。
L2 — 可管理级(Managed):项目级秩序初现
一句话概括:项目级规则开始建立,基础复用成为可能。
典型表现
|
维度 |
表现 |
|
组织级 |
仍不存在 |
|
项目级 |
有基本的 project_rules.md,包含 3-10 条核心规则 |
|
个人级 |
个人开始有自己的 Prompt 模板,但不规范 |
|
规则 |
项目内有几条从血泪教训中提炼的规则 |
|
技能 |
1-3 个基础 Skill(如 bug-fixer) |
|
经验 |
有 docs/bug-fixes.md 记录历史 Bug |
|
AI 使用 |
有基本约束,但规则覆盖不完整 |
L2 的特征画像
项目 .trae/
├── rules/
│ └── project_rules.md ← "全管线思维" "公共模块优先"
└── skills/
└── bug-fixer/
└── SKILL.md ← Bug 修复流程
docs/
└── bug-fixes.md ← "2026-03-15:空行压缩问题,根因:未检查 DOM"
L2 的核心能力
- ✅ 同一个坑基本不踩第二次
- ✅ 团队对 AI 的使用有一致的底线规则
- ✅ Bug 修复后有记录可追溯
L2 的局限
- ❌ 规则只属于一个项目,换个项目从头来
- ❌ 修复流程偶尔被跳过(赶进度时)
- ❌ 没有度量,不知道 Harness 到底帮了多少忙
向上突破的触发点:第二个项目启动时发现要重复建立规则,产生跨项目复用的需求。
L3 — 已定义级(Defined):组织级标准确立
一句话概括:组织级 Harness 框架建立,三级体系(组织→项目→个人)完整贯通,裁剪机制成熟。
典型表现
|
维度 |
表现 |
|
组织级 |
有完整的 Policy、OSSP、LCM、Process 定义 |
|
项目级 |
有 PDP(从组织级裁剪而来),重装/轻装可选 |
|
个人级 |
个人 Harness 可继承组织+项目级规则 |
|
规则 |
组织级基础规则 + 项目级特定规则 + 个人偏好 |
|
技能 |
组织级技能库(>5 个 Skill:bug-fixer / reusing / review 等) |
|
经验 |
组织级经验教训库,分类管理 |
|
资产 |
Templates、Guidelines、Checklists、DOD 齐全 |
|
AI 使用 |
标准化流程,AI 有明确的边界和期望 |
L3 的特征画像
组织级 Harness 框架
├── policy/policy.md ← 组织方针
├── ossp/ossp.md ← 标准软件流程
├── lcm/lcm.md ← 生命周期定义
├── process/process.md ← 过程定义
├── templates/ ← 标准模板
├── guidelines/ ← 最佳实践指南
├── checklists/ ← 检查单
├── dod/ ← 完工准则
└── lessons-learned/ ← 经验教训库
项目 A(中型)──→ 裁剪 → 项目级 PDP + Harness(轻装)
项目 B(大型)──→ 裁剪 → 项目级 PDP + Harness(重装)
L3 的核心能力
- ✅ 新项目启动,直接复制组织级模板,快速建立 Harness
- ✅ 不同项目可以根据规模选择重装/轻装模式
- ✅ 经验教训跨项目共享,组织级知识持续积累
- ✅ 个人可以在组织+项目规则之上叠加自己的偏好
L3 的局限
- ❌ 规则"多但不知道哪些真有用"
- ❌ 没有数据支撑哪些规则应该保留、哪些应该裁剪
- ❌ 改进决策靠感觉,而非数据
向上突破的触发点:规则越来越多,团队开始问——"这些规则到底起了多大作用?"
L4 — 量化管理级(Quantitatively Managed):数据驱动的持续优化
一句话概括:建立完整的度量体系,用数据说话,持续优化有依据。
典型表现
|
维度 |
表现 |
|
度量体系 |
建立了完整的 Harness 效能指标体系 |
|
过程度量 |
AI 输出一次性通过率、返工率、PDCA 循环周期 |
|
质量度量 |
AI 生成代码的缺陷密度、评审发现率、规则触发率 |
|
效率度量 |
任务完成时间、AI 辅助效率提升比 |
|
合规度量 |
规则遵从率、检查单通过率、Skill 使用率 |
|
改进决策 |
基于数据决定规则的增删改 |
L4 核心指标体系
1. 生成质量指标
|
指标 |
计算方式 |
目标值 |
|
AI 代码一次通过率 |
首次生成即通过评审的比例 |
> 70% |
|
AI 代码平均修改次数 |
从生成到合入的平均修改轮次 |
< 2 次 |
|
AI 输出可用率 |
无需人工修改可直接使用的比例 |
> 50% |
2. 评审效率指标
|
指标 |
计算方式 |
目标值 |
|
评审通过率 |
AI 输出经评审直接通过的比例 |
> 85% |
|
评审发现问题密度 |
每千行 AI 代码的评审发现问题数 |
< 5 个/千行 |
|
AI vs 人工评审时间比 |
AI 评审耗时 / 人工评审耗时 |
< 0.5 |
3. 规则效能指标
|
指标 |
计算方式 |
目标值 |
|
规则触发率 |
执行中被规则拦截/提示的频率 |
稳定或略降 |
|
规则覆盖率 |
历史 Bug 类型被已有规则覆盖的比例 |
> 80% |
|
规则有效率 |
触发后确实阻止了问题的比例 |
> 60% |
|
误报率 |
规则触发但实际无问题的比例 |
< 10% |
4. 过程效能指标
|
指标 |
计算方式 |
目标值 |
|
Skill 使用率 |
各 Skill 在匹配场景被调用的比例 |
> 90% |
|
Bug 重复率 |
同类 Bug 再次出现的比例 |
< 5% |
|
PDCA 周期 |
从发现到规则沉淀的平均时间 |
< 1 周 |
|
规则活性 |
最近 30 天被触发过的规则占比 |
> 60% |
5. 个人效能指标
|
指标 |
计算方式 |
目标值 |
|
个人 Harness 同步率 |
个人规则与项目规则的同步状态 |
> 90% |
|
个人规则贡献率 |
个人规则被吸收到项目/组织级的比例 |
鼓励 |
|
AI 使用频率 |
日均 AI 交互次数 |
稳定增长 |
L4 的特征画像
月度 Harness 效能报告:
|
�� Harness 效能报告 - 2026年5月 |
|
AI 代码一次通过率 72% ↑ 2% AI 输出评审通过率 87% → 持平 平均修改次数 1.8 ↓ 0.3 规则覆盖率 83% ↑ 5% Bug 重复率 3% ↓ 1% PDCA 周期 5.2天 ↓ 0.8天 Skill 使用率 91% ↑ 3% |
|
�� 告警:规则 #7 "数据格式一致性" 本月 触发 23 次,触发率异常升高,建议排查
�� 建议:规则 #12 "阈值检查" 已连续 60 天 未触发,建议评估是否删除 |
L4 的核心能力
- ✅ 知道每条规则的真实价值
- ✅ 基于数据决策规则的增删改
- ✅ 能发现"规则失效"或"热点问题"
- ✅ 改进效果可量化验证
L4 的局限
- ❌ 数据分析和规则调整仍需人工
- ❌ 无法预判可能出现的新问题模式
向上突破的触发点:度量数据足够丰富,AI 可以接管分析和建议的工作。
L5 — 优化级(Optimizing):AI 自驱动演进
一句话概括:AI 自动提炼经验、建议规则、预判风险。Harness 成为一个自我进化的有机体。
典型表现
|
维度 |
表现 |
|
自学习 |
AI 自动从经验教训库提炼新规则 |
|
预测性 |
AI 预判可能出现的 Bug 类型,提前建议加规则 |
|
自适应 |
根据任务复杂度自动切换重装/轻装模式 |
|
智能裁剪 |
AI 根据项目特征自动推荐 PDP 裁剪方案 |
|
个人适配 |
AI 学习开发者偏好,自动优化交互方式 |
|
知识图谱 |
组织级知识图谱,自动关联经验、规则和技能 |
L5 的智能系统架构
经验教训库 ──→ AI 分析引擎 ──→ 自动提炼规则 ──→ 规则库更新
│
┌───────────────────┘
▼
新项目启动 ──→ AI 评估引擎 ──→ 推荐裁剪方案
│
▼
开发者使用 ──→ AI 学习引擎 ──→ 个人 Harness 自动优化
L5 的能力示例
场景 1:自动规则提炼
系统检测到:
最近 5 个 Bug 都涉及"前后端字段名不匹配"
模式识别:后端字段变更后前端未同步
AI 自动操作:
1. 提炼新规则:"接口契约变更时同步检查前后端字段名"
2. 更新 update-backreview Skill 的 checklist
3. 标记为"待评审",推送通知给 Harness 管理员
4. 管理员审核通过后自动生效
场景 2:智能裁剪推荐
新项目启动:
AI 检测到
- 项目规模:约 50K LOC(中型)
- 语言:Python + Vue.js
- 团队:6 人
- 领域:内部管理工具
AI 自动推荐:
✅ 采用轻装 Harness
✅ 参考"相似项目 #3"的裁剪方案
✅ 建议保留规则:#1全管线 #5接口契约 #8重构避免行号索引
✅ 建议裁剪规则:#6数据契约检查(本类项目不涉及)
✅ 预测本项目高频 Skill:bug-fixer, reusing
场景 3:个人适配优化
开发者 A(前端为主):
AI 发现
- 偏好简洁的代码风格
- 经常需要处理 DOM 渲染问题
- 对全管线思维规则响应良好
AI 自动优化:
✅ 调整 Prompt 模板偏向前端场景
✅ 提高"全管线检查"规则的优先级
✅ 自动附加上下文:当前项目的 CSS/组件结构
L5 的核心能力
- ✅ Harness 的演进大部分由 AI 驱动,人工负责审核
- ✅ 从"被动修补"到"主动防御"再到"预测预防"
- ✅ 每个开发者的 Harness 都是"自定义优化的"
- ✅ 组织级知识自动积累、自动关联、自动应用
三、成熟度在各维度的全貌
|
维度 |
L1 初始 |
L2 可管理 |
L3 已定义 |
L4 量化 |
L5 优化 |
|
规则数量 |
0 |
3-10 |
10-50 |
50+ |
动态 |
|
规则来源 |
无 |
踩坑记录 |
组织+项目 |
数据驱动 |
AI 建议 |
|
组织级 |
❌ |
❌ |
✅ |
✅ |
✅ |
|
项目级 |
❌ |
✅ |
✅ |
✅ |
✅ |
|
个人级 |
零散 |
萌芽 |
体系化 |
可度量 |
自适应 |
|
重装/轻装 |
❌ |
❌ |
可选 |
量化选择 |
自适应 |
|
Skill 库 |
0 |
1-3 |
5+ |
10+ |
动态 |
|
经验库 |
❌ |
项目级 |
组织级 |
可检索 |
自动提炼 |
|
度量 |
❌ |
❌ |
❌ |
✅ |
AI 分析 |
|
PDCA |
无意识 |
被动 |
主动 |
量化 |
自动化 |
|
决策方式 |
个人感觉 |
团队共识 |
组织流程 |
数据驱动 |
AI 辅助 |
|
演进速度 |
无演进 |
季度 |
月度 |
周度 |
持续 |
四、成熟度评估方法
4.1 自评问卷
对以下每项进行评估,得分 1-5(对应 L1-L5),最后取平均值:
|
# |
评估问题 |
1分 (L1) |
2分 (L2) |
3分 (L3) |
4分 (L4) |
5分 (L5) |
|
1 |
组织级 Harness 是否存在并被维护? |
无 |
无 |
有且维护 |
有且度量 |
自动演进 |
|
2 |
项目级规则是否体系化、可裁剪? |
无 |
基础 |
完整 |
数据驱动 |
自适应 |
|
3 |
个人 Harness 是否可与项目/组织级同步? |
否 |
否 |
手动 |
半自动 |
自动同步 |
|
4 |
经验是否被系统化记录和复用? |
否 |
项目级 |
组织级 |
可检索 |
自动提炼 |
|
5 |
是否有度量指标来衡量 Harness 效能? |
无 |
无 |
无 |
有 |
AI 分析 |
|
6 |
重装/轻装模式是否可以灵活切换? |
否 |
否 |
手动选择 |
量化选择 |
自动切换 |
|
7 |
Skill 库是否完善且被持续使用? |
无 |
1-3个 |
5+ |
有使用率数据 |
自动优化 |
|
8 |
Bug 修复后是否触发规则/Skill 改进? |
否 |
偶尔 |
是 |
是且有数据 |
AI 自动 |
4.2 评分解释
|
平均分 |
等级 |
建议 |
|
1.0 - 1.9 |
L1 初始级 |
从建立 bug-fixes.md 开始,把踩过的坑记下来 |
|
2.0 - 2.9 |
L2 可管理级 |
建立组织级模板,让 Harness 可以在项目间复用 |
|
3.0 - 3.9 |
L3 已定义级 |
开始收集度量数据,用数据指导 Harness 优化 |
|
4.0 - 4.9 |
L4 量化管理级 |
探索 AI 自动分析的可行性,向 L5 迈进 |
|
5.0 |
L5 优化级 |
保持!你的 Harness 已是行业标杆 |
五、升级路径指南
L1 → L2:从个人到项目
行动清单:
- 创建 docs/bug-fixes.md,开始记录每一个 Bug
- 从 Bug 记录中提炼 3-5 条项目规则,写入 .trae/rules/project_rules.md
- 引入 bug-fixer Skill,建立固定的 Bug 修复流程
- 保证团队成员都了解和使用这些规则
预计时间:2-4 周
L2 → L3:从项目到组织
行动清单:
- 将项目 Harness 中的通用部分提取为组织级模板
- 建立 Policy、OSSP、LCM、Process 等组织级资产
- 完善 Templates、Guidelines、Checklists、DoD
- 建立经验教训库的分类和管理流程
- 制定裁剪指南,让新项目可以快速适配
- 增加 Skill 库(reusing、update-backreview 等)
预计时间:1-3 个月
L3 → L4:从定性到定量
行动清单:
- 定义 Harness 效能指标体系(参考本文 L4 指标)
- 建立数据采集机制(埋点、日志、统计)
- 定期生成 Harness 效能报告
- 基于数据做规则增删改决策
- 设定各指标的基线值和目标值
预计时间:2-6 个月
L4 → L5:从人工到智能
行动清单:
- 建立经验教训的向量化存储和语义检索
- 开发规则自动提炼的 AI Pipeline
- 实现新项目的智能裁剪推荐
- 开发个人偏好的学习机制
- 构建组织级知识图谱
预计时间:6-12 个月(技术和组织双维度)
六、总结
Harness 成熟度模型(HMM)为我们评估和改进人机协作体系提供了一套完整的框架。
核心要点:
- 成熟度不是目的,是手段 — 不是每个组织都需要达到 L5,适合的才是最好的
- 层级递进,不可跳级 — 没经过 L2 的项目级积累,直接搞 L3 组织级会水土不服
- 度量的价值在于行动 — L4 的数据如果不转化为规则改进,就只是数字
- L5 是人机协作的理想状态 — AI 帮你管理 AI,你只需关注创造性的决策
你的 Harness,现在在哪一级?
相关阅读:从OSSP 到Harness:AI 时代的软件过程演进之路
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)