引言

随着 AI 编程工具的普及,"如何管理 AI"已经成为软件工程领域的新命题。我们提出了 OSSP  PDP  Harness 的三层体系来系统化地管理人机协作过程。但随之而来一个更深入的问题:

你和你的团队,现在的 Harness 到了什么水平?还差多远才能达到"人马合一"

借鉴 CMMI 的成熟度模型思想,我们设计了 Harness 成熟度模型(HMM - Harness Maturity Model,帮助你量化评估、诊断差距、规划改进路径。

一、Harness 成熟度五级模型

         L5 优化级    ← AI 自驱动演进,预测性质量

        /

   L4 量化管理级   ← 数据驱动度量,效果可量化

      /

L3 已定义级   ← 组织级标准,三级体系完整

    /

L2 可管理级   ← 项目级规则,基础复用

  /

L1 初始级     ← 零散个人习惯,不成体系

二、各等级详解

L1 — 初始级(Initial):个人英雄主义时代

一句话概括:Harness 不存在,全靠个人悟性。

典型表现

维度

表现

组织级

不存在,无统一方针和流程

项目级

不存在,无项目规则

个人级

零散的个人习惯,存在于脑中,无法共享

规则

每次从零开始写 Prompt,凭感觉描述需求

技能

无 Skill 概念,每次都需要重新描述完整需求

经验

纯个人记忆,踩坑不留痕,同一个坑反复踩

AI 使用

随机、无章法,输出质量完全取决于 Prompt 的质量

L1 的特征画像

开发者 A:每天写代码靠感觉,Prompt 随口问,不满意就重新问

开发者 B:偶尔记一些好用的 Prompt 在备忘录里,但从不共享

项目组:没有统一的 AI 使用规范,各自为战

痛点

  • ❌ 同一个 Bug 模式反复出现,每次都从头修
  • ❌ 新人加入时,没有任何 AI 使用指南可以参考
  • ❌ AI 输出质量不稳定,完全靠运气
  • ❌ 项目结束后,一切经验归零

向上突破的触发点:同一个坑踩了 3 次以上,痛感驱动开始记录。

L2 — 可管理级(Managed):项目级秩序初现

一句话概括:项目级规则开始建立,基础复用成为可能。

典型表现

维度

表现

组织级

仍不存在

项目级

有基本的 project_rules.md,包含 3-10 条核心规则

个人级

个人开始有自己的 Prompt 模板,但不规范

规则

项目内有几条从血泪教训中提炼的规则

技能

1-3 个基础 Skill(如 bug-fixer)

经验

有 docs/bug-fixes.md 记录历史 Bug

AI 使用

有基本约束,但规则覆盖不完整

L2 的特征画像

项目 .trae/

├── rules/

│   └── project_rules.md      ← "全管线思维" "公共模块优先"

└── skills/

    └── bug-fixer/

        └── SKILL.md           ← Bug 修复流程

docs/

└── bug-fixes.md               ← "2026-03-15:空行压缩问题,根因:未检查 DOM"

L2 的核心能力

  • ✅ 同一个坑基本不踩第二次
  • ✅ 团队对 AI 的使用有一致的底线规则
  • ✅ Bug 修复后有记录可追溯

L2 的局限

  • ❌ 规则只属于一个项目,换个项目从头来
  • ❌ 修复流程偶尔被跳过(赶进度时)
  • ❌ 没有度量,不知道 Harness 到底帮了多少忙

向上突破的触发点:第二个项目启动时发现要重复建立规则,产生跨项目复用的需求。

L3 — 已定义级(Defined):组织级标准确立

一句话概括:组织级 Harness 框架建立,三级体系(组织→项目→个人)完整贯通,裁剪机制成熟。

典型表现

维度

表现

组织级

有完整的 Policy、OSSP、LCM、Process 定义

项目级

有 PDP(从组织级裁剪而来),重装/轻装可选

个人级

个人 Harness 可继承组织+项目级规则

规则

组织级基础规则 + 项目级特定规则 + 个人偏好

技能

组织级技能库(>5 个 Skill:bug-fixer / reusing / review 等)

经验

组织级经验教训库,分类管理

资产

Templates、Guidelines、Checklists、DOD 齐全

AI 使用

标准化流程,AI 有明确的边界和期望

L3 的特征画像

组织级 Harness 框架

├── policy/policy.md          ← 组织方针

├── ossp/ossp.md              ← 标准软件流程

├── lcm/lcm.md                ← 生命周期定义

├── process/process.md        ← 过程定义

├── templates/                ← 标准模板

├── guidelines/               ← 最佳实践指南

├── checklists/               ← 检查单

├── dod/                      ← 完工准则

└── lessons-learned/          ← 经验教训库

项目 A(中型)──→ 裁剪 → 项目级 PDP + Harness(轻装)

项目 B(大型)──→ 裁剪 → 项目级 PDP + Harness(重装)

L3 的核心能力

  • ✅ 新项目启动,直接复制组织级模板,快速建立 Harness
  • ✅ 不同项目可以根据规模选择重装/轻装模式
  • ✅ 经验教训跨项目共享,组织级知识持续积累
  • ✅ 个人可以在组织+项目规则之上叠加自己的偏好

L3 的局限

  • ❌ 规则"多但不知道哪些真有用"
  • ❌ 没有数据支撑哪些规则应该保留、哪些应该裁剪
  • ❌ 改进决策靠感觉,而非数据

向上突破的触发点:规则越来越多,团队开始问——"这些规则到底起了多大作用?"

L4 — 量化管理级(Quantitatively Managed):数据驱动的持续优化

一句话概括:建立完整的度量体系,用数据说话,持续优化有依据。

典型表现

维度

表现

度量体系

建立了完整的 Harness 效能指标体系

过程度量

AI 输出一次性通过率、返工率、PDCA 循环周期

质量度量

AI 生成代码的缺陷密度、评审发现率、规则触发率

效率度量

任务完成时间、AI 辅助效率提升比

合规度量

规则遵从率、检查单通过率、Skill 使用率

改进决策

基于数据决定规则的增删改

L4 核心指标体系

1. 生成质量指标

指标

计算方式

目标值

AI 代码一次通过率

首次生成即通过评审的比例

> 70%

AI 代码平均修改次数

从生成到合入的平均修改轮次

< 2 次

AI 输出可用率

无需人工修改可直接使用的比例

> 50%

2. 评审效率指标

指标

计算方式

目标值

评审通过率

AI 输出经评审直接通过的比例

> 85%

评审发现问题密度

每千行 AI 代码的评审发现问题数

< 5 个/千行

AI vs 人工评审时间比

AI 评审耗时 / 人工评审耗时

< 0.5

3. 规则效能指标

指标

计算方式

目标值

规则触发率

执行中被规则拦截/提示的频率

稳定或略降

规则覆盖率

历史 Bug 类型被已有规则覆盖的比例

> 80%

规则有效率

触发后确实阻止了问题的比例

> 60%

误报率

规则触发但实际无问题的比例

< 10%

4. 过程效能指标

指标

计算方式

目标值

Skill 使用率

各 Skill 在匹配场景被调用的比例

> 90%

Bug 重复率

同类 Bug 再次出现的比例

< 5%

PDCA 周期

从发现到规则沉淀的平均时间

< 1 周

规则活性

最近 30 天被触发过的规则占比

> 60%

5. 个人效能指标

指标

计算方式

目标值

个人 Harness 同步率

个人规则与项目规则的同步状态

> 90%

个人规则贡献率

个人规则被吸收到项目/组织级的比例

鼓励

AI 使用频率

日均 AI 交互次数

稳定增长

L4 的特征画像

月度 Harness 效能报告:

 �� Harness 效能报告 - 20265  

AI 代码一次通过率     72%  ↑ 2%         

AI 输出评审通过率     87%  → 持平        

平均修改次数          1.8  ↓ 0.3        

规则覆盖率            83%  ↑ 5%         

Bug 重复率            3%   ↓ 1%         

PDCA 周期            5.2 ↓ 0.8      

Skill 使用率          91%  ↑ 3%    

 �� 告警:规则 #7 "数据格式一致性本月    

触发 23 次,触发率异常升高,建议排查      

                                         

�� 建议:规则 #12 "阈值检查已连续 60   

未触发,建议评估是否删除  

L4 的核心能力

  • ✅ 知道每条规则的真实价值
  • ✅ 基于数据决策规则的增删改
  • ✅ 能发现"规则失效"或"热点问题"
  • ✅ 改进效果可量化验证

L4 的局限

  • ❌ 数据分析和规则调整仍需人工
  • ❌ 无法预判可能出现的新问题模式

向上突破的触发点:度量数据足够丰富,AI 可以接管分析和建议的工作。

L5 — 优化级(Optimizing):AI 自驱动演进

一句话概括:AI 自动提炼经验、建议规则、预判风险。Harness 成为一个自我进化的有机体。

典型表现

维度

表现

自学习

AI 自动从经验教训库提炼新规则

预测性

AI 预判可能出现的 Bug 类型,提前建议加规则

自适应

根据任务复杂度自动切换重装/轻装模式

智能裁剪

AI 根据项目特征自动推荐 PDP 裁剪方案

个人适配

AI 学习开发者偏好,自动优化交互方式

知识图谱

组织级知识图谱,自动关联经验、规则和技能

L5 的智能系统架构

经验教训库 ──→ AI 分析引擎 ──→ 自动提炼规则 ──→ 规则库更新

                                      │

                  ┌───────────────────┘

                  ▼

           新项目启动 ──→ AI 评估引擎 ──→ 推荐裁剪方案

                  │

                  ▼

           开发者使用 ──→ AI 学习引擎 ──→ 个人 Harness 自动优化

L5 的能力示例

场景 1:自动规则提炼

系统检测到:

  最近 5  Bug 都涉及"前后端字段名不匹配"

  模式识别:后端字段变更后前端未同步

AI 自动操作:

  1. 提炼新规则:"接口契约变更时同步检查前后端字段名"

  2. 更新 update-backreview Skill  checklist

  3. 标记为"待评审",推送通知给 Harness 管理员

  4. 管理员审核通过后自动生效

场景 2:智能裁剪推荐

新项目启动:

  AI 检测到

  - 项目规模:约 50K LOC(中型)

  - 语言:Python + Vue.js

  - 团队:

  - 领域:内部管理工具

AI 自动推荐:

   采用轻装 Harness

   参考"相似项目 #3"的裁剪方案

   建议保留规则:#1全管线 #5接口契约 #8重构避免行号索引

   建议裁剪规则:#6数据契约检查(本类项目不涉及)

   预测本项目高频 Skillbug-fixer, reusing

场景 3:个人适配优化

开发者 A(前端为主):

  AI 发现

  - 偏好简洁的代码风格

  - 经常需要处理 DOM 渲染问题

  - 对全管线思维规则响应良好

AI 自动优化:

   调整 Prompt 模板偏向前端场景

   提高"全管线检查"规则的优先级

   自动附加上下文:当前项目的 CSS/组件结构

L5 的核心能力

  • ✅ Harness 的演进大部分由 AI 驱动,人工负责审核
  • ✅ 从"被动修补"到"主动防御"再到"预测预防"
  • ✅ 每个开发者的 Harness 都是"自定义优化的"
  • ✅ 组织级知识自动积累、自动关联、自动应用

三、成熟度在各维度的全貌

维度

L1 初始

L2 可管理

L3 已定义

L4 量化

L5 优化

规则数量

0

3-10

10-50

50+

动态

规则来源

踩坑记录

组织+项目

数据驱动

AI 建议

组织级

项目级

个人级

零散

萌芽

体系化

可度量

自适应

重装/轻装

可选

量化选择

自适应

Skill 

0

1-3

5+

10+

动态

经验库

项目级

组织级

可检索

自动提炼

度量

AI 分析

PDCA

无意识

被动

主动

量化

自动化

决策方式

个人感觉

团队共识

组织流程

数据驱动

AI 辅助

演进速度

无演进

季度

月度

周度

持续

四、成熟度评估方法

4.1 自评问卷

对以下每项进行评估,得分 1-5(对应 L1-L5),最后取平均值:

#

评估问题

1 (L1)

2 (L2)

3 (L3)

4 (L4)

5 (L5)

1

组织级 Harness 是否存在并被维护?

有且维护

有且度量

自动演进

2

项目级规则是否体系化、可裁剪?

基础

完整

数据驱动

自适应

3

个人 Harness 是否可与项目/组织级同步?

手动

半自动

自动同步

4

经验是否被系统化记录和复用?

项目级

组织级

可检索

自动提炼

5

是否有度量指标来衡量 Harness 效能?

AI 分析

6

重装/轻装模式是否可以灵活切换?

手动选择

量化选择

自动切换

7

Skill 库是否完善且被持续使用?

1-3个

5+

有使用率数据

自动优化

8

Bug 修复后是否触发规则/Skill 改进?

偶尔

是且有数据

AI 自动

4.2 评分解释

平均分

等级

建议

1.0 - 1.9

L1 初始级

从建立 bug-fixes.md 开始,把踩过的坑记下来

2.0 - 2.9

L2 可管理级

建立组织级模板,让 Harness 可以在项目间复用

3.0 - 3.9

L3 已定义级

开始收集度量数据,用数据指导 Harness 优化

4.0 - 4.9

L4 量化管理级

探索 AI 自动分析的可行性,向 L5 迈进

5.0

L5 优化级

保持!你的 Harness 已是行业标杆

五、升级路径指南

L1  L2:从个人到项目

行动清单

  1.   创建 docs/bug-fixes.md,开始记录每一个 Bug
  2.   从 Bug 记录中提炼 3-5 条项目规则,写入 .trae/rules/project_rules.md
  3.   引入 bug-fixer Skill,建立固定的 Bug 修复流程
  4.   保证团队成员都了解和使用这些规则

预计时间:2-4 周

L2  L3:从项目到组织

行动清单

  1.   将项目 Harness 中的通用部分提取为组织级模板
  2.   建立 Policy、OSSP、LCM、Process 等组织级资产
  3.   完善 Templates、Guidelines、Checklists、DoD
  4.   建立经验教训库的分类和管理流程
  5.   制定裁剪指南,让新项目可以快速适配
  6.   增加 Skill 库(reusing、update-backreview 等)

预计时间:1-3 个月

L3  L4:从定性到定量

行动清单

  1.   定义 Harness 效能指标体系(参考本文 L4 指标)
  2.   建立数据采集机制(埋点、日志、统计)
  3.   定期生成 Harness 效能报告
  4.   基于数据做规则增删改决策
  5.   设定各指标的基线值和目标值

预计时间:2-6 个月

L4  L5:从人工到智能

行动清单

  1.   建立经验教训的向量化存储和语义检索
  2.   开发规则自动提炼的 AI Pipeline
  3.   实现新项目的智能裁剪推荐
  4.   开发个人偏好的学习机制
  5.   构建组织级知识图谱

预计时间:6-12 个月(技术和组织双维度)

六、总结

Harness 成熟度模型(HMM)为我们评估和改进人机协作体系提供了一套完整的框架。

核心要点

  1. 成熟度不是目的,是手段 — 不是每个组织都需要达到 L5,适合的才是最好的
  2. 层级递进,不可跳级 — 没经过 L2 的项目级积累,直接搞 L3 组织级会水土不服
  3. 度量的价值在于行动 — L4 的数据如果不转化为规则改进,就只是数字
  4. L5 是人机协作的理想状态 — AI 帮你管理 AI,你只需关注创造性的决策

你的 Harness,现在在哪一级?

相关阅读:从OSSP 到Harness:AI 时代的软件过程演进之路

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐