Harness Engineering：给AI套上缰绳，让它跑得更稳

xiangxuejiao

400人浏览 · 2026-04-13 10:33:25

xiangxuejiao · 2026-04-13 10:33:25 发布

Harness Engineering：给AI套上缰绳，让它跑得更稳

摘要：AI已经能写100万行代码了。但问题不在它写得够不够好，而在怎么让它别乱来。这篇文章聊聊2026年火起来的Harness Engineering——一套让AI听话干活的方法论。我会讲清楚四大护栏怎么搭、大厂怎么玩、你该怎么上手。

关键词：Harness Engineering、AI智能体、上下文工程、架构约束、反馈循环、熵管理、AGENTS.md

一、Harness Engineering是啥？

核心定义

Harness Engineering（驾驭工程）说白了就是：给AI智能体套上一套约束和反馈系统，让它干活时别出岔子。

核心理念就八个字：人类掌舵，智能体执行。

"Harness"这个比喻

Harness这个词原意是马具——缰绳、马鞍那些东西。你想啊，一匹千里马，没缰绳谁敢骑？有了缰绳，它才能跑得快还听话。

重点来了：Harness不是要限制AI的能力，而是给它造一副"金缰绳"，让它跑得快还不翻车。

发展历程

2026年2月5日：HashiCorp的联合创始人Mitchell Hashimoto第一次提出来
2026年2月11日：OpenAI在百万行代码实验报告里正式用了这个词
之后：Martin Fowler写了篇深度分析，这词儿立马在开发者圈子里火起来了

核心哲学

“Harness engineering is the idea that anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent will not make that mistake again in the future.”

—— Mitchell Hashimoto

翻译成人话就是：Agent每次犯错，都是在告诉你环境设计有问题。别急着换更强的模型，先把它的运行环境修好。

二、为啥需要这玩意儿？看数据

真实数据有多震撼

先看OpenAI团队的数据：

指标	数值	说明
5个月写的代码	100万行	全是AI写的
工程师手写代码	0行	完全自动化
团队人数	3~7人	小团队
人均每天PR	3.5个	效率很高

更狠的是LangChain的案例：

LangChain啥模型参数都没改，就优化了Harness，编码Agent在Terminal Bench 2.0的得分从52.8%涨到66.5%，排名从第30名冲到第5名。

核心洞察

五个独立团队（OpenAI、Anthropic、LangChain、Stripe、HashiCorp）都得出了同一个结论：

瓶颈不在模型够不够聪明，而在基础设施行不行。

三、AI工程范式的三次跃迁

要理解Harness Engineering为何重要，需要先看清楚我们是怎么一步步走到这里的。

3.1 范式演进对比表

范式	时间	核心问题	优化对象	交互模式	局限性
Prompt Engineering 提示词工程	2023-2024	怎么把话说清楚	Prompt的措辞、格式、示例	一问一答	单次对话质量，缺乏持续性
Context Engineering 上下文工程	2025	怎么给AI喂信息	文档、代码片段、历史对话	信息注入→生成	知识边界有限，仍有幻觉
Harness Engineering 驾驭工程	2026+	怎么让Agent可靠工作	约束、反馈回路、控制系统	人类掌舵，Agent执行	需要系统化基础设施建设

3.2 形象类比

一个好记的类比：

Prompt Engineering = 对马喊话的技巧
Context Engineering = 给马看的地图
Harness Engineering = 给马造一条高速公路，配上护栏、限速牌和加油站

关键转变：从"如何让AI回答更好"到"如何让AI系统可靠工作"。

四、Agent常见的四种失败模式

Anthropic工程师在长时间运行Agent的过程中，总结了四种典型的"翻车姿势"，这正是驾驭工程要解决的核心痛点。

4.1 失败模式一：试图一步到位（One-shotting）

表现：Agent倾向于在一个会话里把所有功能都做完。

后果：

上下文窗口耗尽
留下一堆没有文档的半成品代码
下一个会话启动时只能花大量时间猜测之前发生了什么

解决方案：强制任务分解，设置阶段性检查点。

4.2 失败模式二：过早宣布胜利

表现：在项目后期，当部分功能已经完成后，Agent会环顾四周，看到已有进展就直接宣布任务完成——即使还有大量功能未实现。

后果：交付物不完整，需要人工补全。

解决方案：建立明确的完成标准清单，要求Agent逐项确认。

4.3 失败模式三：过早标记功能完成

表现：在没有明确提示的情况下，Agent写完代码就标记为完成，却没有做端到端测试。

后果：单元测试或curl命令通过了不代表功能真正可用。

解决方案：强制要求集成测试和用户场景验证。

4.4 危险特性：模式复制放大

Agent非常擅长模式复制。代码库里有什么模式，它就忠实地复制并放大——包括坏模式和架构漂移。

这意味着不加约束的Agent会以惊人的速度积累技术债务。

解决方案：通过架构约束和自动Linter阻止坏模式传播。

五、四大护栏机制详解

综合OpenAI、Anthropic、LangChain和Martin Fowler的实践，Harness可以归纳为四个核心组件，即四根"护栏"。

5.1 上下文工程：给AI一本活的工作手册

核心理念

就像给新员工一本详细的工作手册，AGENTS.md是AI智能体进入代码仓库时看到的第一份指南。

但这不是一本静态的1000页说明书——上下文是稀缺资源，过多的指导反而会挤掉任务、代码和相关文档的空间，变成陈旧规则的坟场。

更好的做法

提供一个稳定、小巧的入口点，然后教Agent根据当前任务按需检索和拉取更多的上下文。

AGENTS.md 最佳实践结构

# AGENTS.md - AI智能体工作指南

## 📖 项目概览
- 项目名称、目标、技术栈
- 核心架构图（Mermaid格式）
- 关键决策记录（ADR）

## 🏗️ 架构约束
- 分层依赖规则
- 禁止的反模式
- 必须遵循的设计原则

## 💻 编码规范
- 语言特定规范
- 命名约定
- 代码组织方式

## ⚠️ 常见陷阱（来自历史失败案例）
- 陷阱1：描述 + 解决方案
- 陷阱2：描述 + 解决方案
- ...

## 🔍 检索指南
- 如何获取更多上下文
- 相关文档索引
- 代码搜索技巧

## 📝 更新日志
- 每次Agent失败后更新的记录
- 新发现的陷阱和解决方案

关键点：Mitchell Hashimoto的Ghostty项目AGENTS.md里每一行都对应一个历史Agent失败案例——文档是活的反馈循环，不是静态制品。

5.2 架构约束：给AI戴上缰绳

核心理念

将架构规则编码为自动化检查，违反即阻止合并。

OpenAI的分层依赖模型

Types → Config → Repo → Service → Runtime → UI

规则：下层不能反向依赖上层。

实施要点

自定义Linter规则：检查架构违规
CI强制阻断：无论代码是人写的还是AI写的，违规即阻止合并
错误信息即上下文：Linter的错误信息不只说你违反了规则X，而是解释：
- 为什么这个规则存在
- 正确做法是什么
- 相关文档链接
这样Agent读到错误后就能自我理解并修正，不需要人类介入。

示例配置

# .github/workflows/architecture-check.yml
name: Architecture Validation
on: [pull_request]

jobs:
  check-dependencies:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v3
      
      - name: Check layer dependencies
        run: |
          echo "🔍 检查架构依赖..."
          ./scripts/check-architecture.sh
          
      - name: Run custom linters
        run: |
          echo "📏 运行自定义Linter..."
          npm run lint:architecture
          
      - name: Validate naming conventions
        run: |
          echo "🏷️ 验证命名规范..."
          ./scripts/check-naming.sh

#!/bin/bash
# scripts/check-architecture.sh

echo "检查UI层是否依赖了Service层..."
if grep -r "from.*service" src/ui/; then
    echo "❌ 错误：UI层不能直接依赖Service层"
    echo "💡 正确做法：通过Repository层访问数据"
    echo "📖 参考文档：docs/architecture/layers.md"
    exit 1
fi

echo "✅ 架构检查通过"

5.3 反馈循环：智能体审智能体

核心理念

传统开发中，人类工程师负责代码审查（Code Review）。在驾驭工程中，这个工作变成了智能体对智能体的方式：Codex在本地审核自身更改，请求额外审查，循环往复直到通过。

工作流程

实施要点

自我审查：Codex在本地审核自身更改
循环修正：请求额外审查，直到通过
测试验证：运行预定义测试套件，失败时带回错误信息
边界评估：提示模型独立评估代码质量和测试充分性

关键创新：测试有效性验证

如果AI写的测试用例通过了带有Bug的代码，Harness就会判定测试无效，强迫它重新思考测试边界。

# 示例：测试有效性检查
def test_login_function():
    # AI生成的测试
    response = login("user", "password")
    assert response.status_code == 200
    
# Harness检测到问题：
# ❌ 这个测试太弱了！
# 💡 应该测试：
#    - 错误密码的情况
#    - 不存在的用户
#    - SQL注入攻击
#    - 空用户名
# 请重新设计测试用例

5.4 熵管理：定期垃圾回收

核心理念

随着时间推移，软件系统会逐渐混乱（熵增），技术债务会积累。OpenAI采用持续小额偿还的策略，而不是等问题严重时集中处理——他们把这个方法形象地称为垃圾回收。

技术债务就像高息贷款，越早还越好。

具体措施

1. 后台扫描任务

定期运行Codex任务：

扫描代码偏差
更新质量等级
发起针对性重构PR

2. 文档园丁代理（Doc-gardening Agent）

专门的Agent在后台自动：

扫描文档与代码之间的不一致
发现过时内容
自动提交PR修复

Agent为Agent维护文档——这才是真正的自动化。

3. 技术债跟踪系统

# tech-debt-tracker.yml
debts:
  - id: TD-001
    type: "过时文档"
    severity: "medium"
    location: "docs/api/authentication.md"
    description: "API文档与实际实现不一致"
    detected_at: "2026-04-01"
    auto_fix_pr: "#1234"
    status: "pending_review"
    
  - id: TD-002
    type: "架构违规"
    severity: "high"
    location: "src/ui/components/UserProfile.tsx"
    description: "UI层直接调用Service层"
    detected_at: "2026-04-05"
    auto_fix_pr: "#1235"
    status: "in_progress"

4. 定期清理计划

频率	任务	负责人
每日	扫描新增技术债	自动化脚本
每周	生成技术债报告	Doc-gardening Agent
每两周	优先处理高息债务	开发团队
每月	全面架构健康检查	架构师 + Agent

六、六大行业共识

综合OpenAI、Anthropic、LangChain、Stripe、HashiCorp等多个独立信息源，业界在以下六个方面已形成明确共识：

共识一：瓶颈在基础设施，不在模型智能

核心观点：五个独立团队得出相同结论。仅改变Harness工具格式，就能让模型得分从6.7%跳到68.3%。

启示：不要盲目追求更大的模型，先优化你的Harness。

共识二：文档必须是活的反馈循环

核心观点：静态文档是坟场，动态文档才有价值。让后台Agent定期清理过时文档并提交PR。

实践：

AGENTS.md每行对应一个失败案例
文档更新自动化
文档质量可量化

共识三：思考与执行分离

核心观点：复杂任务不可能在单个上下文窗口内完成，需要Orchestrator + Worker分层架构，状态持久化到外部存储。

共识四：上下文不是越多越好

核心观点：上下文是稀缺资源。巨大的指令文件会挤掉任务空间，应按需检索、动态注入。

最佳实践：

保持AGENTS.md精简（<500行）
使用向量检索按需加载
缓存常用上下文

共识五：约束必须自动化

核心观点：人工Review是瓶颈。护栏要编码为Linter、CI、类型系统，让机器来执行而非人。

理由：

速度快：毫秒级反馈
一致性：不会疲劳
可扩展：同时检查多个PR

共识六：工程师角色在转变

核心观点：从代码的编写者变成环境的建筑师。最大的工程挑战是设计让Agent可靠工作的控制系统。

新技能树：

✅ 系统设计能力
✅ 约束建模能力
✅ 反馈机制设计
✅ 可观测性建设
❌ 手写每一行代码

七、实战：6周落地路线图

阶段一：基础建设（第1-2周）

目标：建立最小可行的Harness系统

Week 1：创建AGENTS.md

# 项目根目录
touch AGENTS.md

内容模板：

# AGENTS.md

## 项目信息
- 名称：XXX
- 技术栈：React + TypeScript + Node.js
- 架构：分层架构（UI → Service → Repository → Database）

## 快速开始
1. 安装依赖：`npm install`
2. 运行测试：`npm test`
3. 启动服务：`npm start`

## 架构约束
- UI层不能直接访问数据库
- 所有API调用必须通过Service层
- 禁止使用any类型

## 编码规范
- 使用TypeScript严格模式
- 函数不超过50行
- 每个模块必须有单元测试

## 常见陷阱
- 陷阱1：忘记处理异步错误
- 陷阱2：硬编码配置值
- 陷阱3：忽略边界条件

## 检索指南
- API文档：docs/api/
- 架构说明：docs/architecture/
- 最佳实践：docs/best-practices/

Week 2：配置基础Linter和CI

# .github/workflows/harness-basic.yml
name: Harness Basic Checks
on: [pull_request]

jobs:
  lint:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v3
      - name: Setup Node
        uses: actions/setup-node@v3
        with:
          node-version: '18'
      - name: Install dependencies
        run: npm ci
      - name: Run linter
        run: npm run lint
      - name: Run tests
        run: npm test

交付物：

✅ AGENTS.md v1.0
✅ 基础Linter配置
✅ CI流水线集成

阶段二：反馈机制（第3-4周）

目标：实现自动化质量保障

Week 3：Agent自我审查流程

# scripts/self-review.py
import subprocess
import json

def self_review(code_changes):
    """Agent自我审查流程"""
    
    # 1. 静态分析
    lint_result = run_linter(code_changes)
    
    # 2. 架构检查
    arch_result = check_architecture(code_changes)
    
    # 3. 安全扫描
    security_result = scan_security(code_changes)
    
    # 4. 生成审查报告
    review_report = {
        "lint_issues": lint_result,
        "architecture_violations": arch_result,
        "security_concerns": security_result,
        "recommendations": generate_recommendations()
    }
    
    return review_report

def run_linter(changes):
    """运行Linter"""
    result = subprocess.run(
        ["npm", "run", "lint"],
        capture_output=True,
        text=True
    )
    return parse_lint_output(result.stdout)

Week 4：自动化测试验证

// tests/harness-validation.test.ts
describe('Harness Validation', () => {
  test('代码必须符合架构约束', () => {
    const violations = checkArchitectureConstraints();
    expect(violations).toHaveLength(0);
  });
  
  test('所有公共API必须有文档', () => {
    const undocumented = findUndocumentedAPIs();
    expect(undocumented).toHaveLength(0);
  });
  
  test('测试覆盖率不低于80%', () => {
    const coverage = getTestCoverage();
    expect(coverage).toBeGreaterThanOrEqual(80);
  });
});

交付物：

✅ 自我审查脚本
✅ 自动化测试套件
✅ 错误信息回传机制

阶段三：熵管理系统（第5-6周）

目标：建立持续改进机制

Week 5：部署后台扫描任务

# .github/workflows/entropy-management.yml
name: Entropy Management
on:
  schedule:
    - cron: '0 2 * * 0'  # 每周日凌晨2点

jobs:
  scan-tech-debt:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v3
      - name: Scan for technical debt
        run: |
          npm run scan:tech-debt
      - name: Check documentation consistency
        run: |
          python scripts/doc-gardener.py
      - name: Create issues for findings
        uses: actions/github-script@v6
        with:
          script: |
            const findings = require('./tech-debt-report.json');
            findings.forEach(issue => {
              github.rest.issues.create({
                owner: context.repo.owner,
                repo: context.repo.repo,
                title: `[Tech Debt] ${issue.title}`,
                body: issue.description,
                labels: ['tech-debt', 'automated']
              });
            });

Week 6：文档园丁代理

# scripts/doc-gardener.py
"""
文档园丁代理：自动检测并修复文档不一致
"""

import os
import re
from pathlib import Path

class DocGardener:
    def __init__(self, repo_root):
        self.repo_root = Path(repo_root)
        self.issues = []
    
    def scan(self):
        """扫描所有文档"""
        docs_dir = self.repo_root / "docs"
        for md_file in docs_dir.rglob("*.md"):
            self.check_file(md_file)
        return self.issues
    
    def check_file(self, file_path):
        """检查单个文件"""
        content = file_path.read_text()
        
        # 检查过时的API引用
        self.check_api_references(content, file_path)
        
        # 检查破碎的链接
        self.check_broken_links(content, file_path)
        
        # 检查代码示例是否可运行
        self.check_code_examples(content, file_path)
    
    def check_api_references(self, content, file_path):
        """检查API引用是否与实现一致"""
        api_pattern = r'`([^`]+)`'
        apis = re.findall(api_pattern, content)
        
        for api in apis:
            if not self.api_exists(api):
                self.issues.append({
                    "type": "outdated_api",
                    "file": str(file_path),
                    "api": api,
                    "severity": "medium"
                })
    
    def api_exists(self, api_name):
        """检查API是否存在于代码中"""
        # 实现逻辑...
        pass
    
    def generate_fix_pr(self):
        """生成修复PR"""
        # 自动创建PR逻辑...
        pass

if __name__ == "__main__":
    gardener = DocGardener(".")
    issues = gardener.scan()
    
    if issues:
        print(f"发现 {len(issues)} 个问题")
        gardener.generate_fix_pr()
    else:
        print("✅ 文档健康")

交付物：

✅ 后台扫描任务
✅ 文档园丁代理
✅ 技术债跟踪系统

阶段四：持续优化（持续进行）

每周例行：

回顾Agent失败案例
更新AGENTS.md
优化约束规则
完善反馈循环

八、工具链与最佳实践

8.1 推荐工具链

类别	推荐工具	用途	替代方案
Linter	ESLint, Pylint, Custom Rules	架构约束检查	TSLint, Flake8
CI/CD	GitHub Actions, GitLab CI	自动化验证	Jenkins, CircleCI
文档管理	MkDocs, Docusaurus	AGENTS.md维护	GitBook, Notion
监控	Prometheus, Grafana	系统可观测性	Datadog, New Relic
测试框架	Jest, Pytest	自动化测试	Mocha, unittest
代码质量	SonarQube	代码质量分析	CodeClimate
依赖检查	Dependabot	依赖更新	Renovate

8.2 关键指标监控

建立Dashboard监控以下指标：

核心指标：

指标	目标值	说明
Agent成功率	>85%	任务一次性完成比例
返工率	<15%	需要人工干预的比例
上下文使用效率	>70%	有效信息占比
技术债增长率	<5%/月	代码质量变化趋势
文档同步率	>95%	文档与代码一致性

8.3 设计原则

原则一：最小化约束

只设置必要的约束，避免过度限制。

// ❌ 过度约束
interface StrictConfig {
  readonly field1: string;
  readonly field2: number;
  readonly field3: boolean;
  // ... 50个字段
}

// ✅ 最小化约束
interface MinimalConfig {
  requiredField: string;  // 只约束必要的
  optionalField?: number;
}

原则二：渐进式披露

按需加载上下文，保持轻量。

# ❌ 一次性加载所有上下文
context = load_all_documentation()  # 10MB

# ✅ 按需加载
context = retrieve_relevant_docs(query, top_k=5)  # 50KB

原则三：快速反馈

错误信息要即时、明确、可操作。

# ❌ 模糊的错误信息
Error: Build failed

# ✅ 明确的错误信息
❌ 架构违规：UI层不能直接依赖Service层
📍 位置：src/ui/UserProfile.tsx:42
💡 修复：通过Repository层访问数据
📖 文档：docs/architecture/layers.md#ui-layer

原则四：可追溯性

所有决策和修改都要有记录。

## 决策记录 ADR-001

**日期**：2026-04-10  
**决策**：采用分层架构  
**背景**：需要清晰的职责分离  
**后果**：增加了一层抽象，但提高了可维护性  
**相关PR**：#123, #124

原则五：容错设计

允许Agent犯错，但要有恢复机制。

def execute_with_recovery(task, max_retries=3):
    """带恢复机制的任务执行"""
    for attempt in range(max_retries):
        try:
            result = task.execute()
            if validate(result):
                return result
        except Exception as e:
            log_error(e, attempt)
            if attempt < max_retries - 1:
                suggest_fix(e)  # 提供修复建议
                continue
    raise TaskFailedError("多次尝试后仍失败")

8.4 常见陷阱与对策

陷阱	症状	对策
追求完美约束	开发速度慢，Agent频繁被阻	接受一定程度的不确定性，重点在快速恢复
静态文档维护	文档与代码不一致	建立自动化文档更新机制
过度依赖人工Review	成为瓶颈，延迟发布	将Review规则自动化，人工只处理异常情况
忽视技术债积累	系统逐渐腐化	建立定期清理机制，持续小额偿还
上下文过载	Agent响应慢，质量下降	按需检索，动态注入，保持精简
反馈循环过长	问题发现晚，修复成本高	左移测试，即时反馈

九、成功案例深度剖析

案例一：LangChain的逆袭

背景

LangChain的编码Agent在Terminal Bench 2.0上排名第30位，得分52.8%。

改进措施

没有改动底层模型任何参数，仅优化Harness：

文档结构优化
- 重构AGENTS.md，按任务类型组织
- 添加更多实际代码示例
- 建立文档索引系统
验证回路增强
- 增加多轮自我审查
- 引入测试有效性验证
- 建立错误分类系统
追踪系统完善
- 记录每次失败的上下文
- 分析失败模式
- 自动生成改进建议

成果

得分：52.8% → 66.5%（提升25.9%）
排名：第30位 → 第5位
时间：2周

关键启示

基础设施优化的ROI远高于模型升级。

案例二：OpenAI的百万行代码实验

背景

OpenAI组建了一个3-7人的小团队，目标是在5个月内完成一个大型项目。

方法

严格的层级依赖模型

Types → Config → Repo → Service → Runtime → UI

自动化Linter
- 200+条自定义规则
- 每次提交自动检查
- 违规即阻止合并
持续熵管理
- 每日后台扫描
- 每周技术债报告
- 每月架构健康检查
智能体审智能体
- Codex自我审查
- 多轮迭代优化
- 测试有效性验证

成果

100万行代码：全部由AI生成
0行人工编写：人类只做审查和指导
高质量：bug率低于行业平均水平
高效率：人均每日3.5个PR

关键启示

系统化约束比模型能力更重要。

案例三：某电商平台的实践

背景

一家中型电商平台，想引入AI辅助开发，但担心代码质量。

实施过程

第1个月：基础建设

创建AGENTS.md
配置基础Linter
建立CI流水线

第2个月：反馈机制

实现自我审查
建立测试套件
配置错误回传

第3个月：熵管理

部署后台扫描
实现文档园丁
建立技术债跟踪

成果

开发效率提升：40%
Bug率降低：35%
文档质量提升：60%
新人上手时间缩短：50%

经验教训

从小处着手：先选一个模块试点
持续迭代：每周回顾，持续改进
文化建设：培养"环境建筑师"思维
度量驱动：用数据说话，持续优化

十、总结与行动建议

10.1 Harness Engineering的核心价值

Harness Engineering代表AI工程范式的重大转变：

10.2 未来趋势展望

趋势一：标准化

Harness模式将成为AI开发的标准实践，就像Git之于版本控制。

预测：2027年，90%的AI项目将采用某种形式的Harness。

趋势二：工具化

出现专门的Harness Engineering工具链：

Harness IDE插件
自动化约束生成器
智能反馈分析器
熵管理Dashboard

趋势三：智能化

Harness系统将具备自学习和自适应能力：

自动发现新的失败模式
动态调整约束强度
预测潜在问题
自主优化反馈回路

趋势四：生态化

形成完整的Harness生态系统：

开源Harness框架
最佳实践社区
认证体系
专业服务市场

10.3 立即行动的建议

对个人开发者

今天就开始

cd your-project
touch AGENTS.md
# 写下第一条规则
echo "# 我的AI助手指南" > AGENTS.md

记录每次失败
- Agent犯错了？记录下来
- 添加到AGENTS.md
- 转化为约束规则
分享经验
- 写博客
- 开源你的AGENTS.md
- 参与社区讨论

对团队

试点先行
- 选一个非核心模块
- 实施完整Harness
- 收集数据和反馈
建立度量体系
- 定义成功指标
- 建立Dashboard
- 定期回顾
培养新技能
- 系统设计能力
- 约束建模能力
- 反馈机制设计

对组织

投资基础设施
- Harness工具链
- 监控系统
- 培训资源
调整组织结构
- 设立Harness工程师角色
- 建立跨职能团队
- 鼓励 experimentation
文化建设
- 拥抱"环境建筑师"思维
- 鼓励失败和学习
- 奖励系统性改进

10.4 最后的思考

“为了获得更高的AI自主性，运行时必须受到更严格的约束。增加信任需要的不是放松控制，而是更精密的控制系统。”

—— Birgitta Böckeler

Harness Engineering不是某一家公司的实验，而是整个行业正在经历的范式转移。

记住：AI不是取代工程师，而是放大工程师的能力。Harness Engineering让我们从"代码工人"转变为"系统建筑师"，从"救火队员"转变为"预防专家"。

这不是终点，而是起点。让我们一起，为AI智能体打造更好的"黄金缰绳"。

附录

A. 相关资源

官方文档

开源项目

Ghostty AGENTS.md - 优秀的AGENTS.md范例
LangChain Harness - LangChain的Harness实现
Awesome Harness Engineering - Harness资源合集

社区资源

B. 术语表

术语	英文	解释
Harness	Harness	马具，引申为约束和控制机制
AGENTS.md	AGENTS.md	AI智能体的工作手册和指南
熵管理	Entropy Management	控制系统混乱度的过程
文档园丁	Doc-gardening Agent	自动维护文档一致性的Agent
上下文工程	Context Engineering	优化AI获取信息的机制
架构约束	Architecture Constraints	限制代码结构的规则
反馈循环	Feedback Loop	自动化的错误检测和修正机制
技术债务	Technical Debt	为短期利益而牺牲长期质量的代价

C. 版本历史

版本	日期	更新内容
v1.0	2026-04-10	初始版本，基于行业最佳实践整理
v1.1	2026-04-15	添加更多代码示例和Mermaid图表
v1.2	2026-04-20	优化SEO关键词，增强可读性

D. 常见问题（FAQ）

Q1：Harness Engineering只适用于大型团队吗？

A：不，小团队甚至个人开发者也能受益。从小处着手，逐步建立约束机制。

Q2：实施Harness需要多长时间？

A：基础版本可以在1-2周内完成，完整体系需要6-8周。关键是持续迭代。

Q3：会不会限制AI的创造力？

A：恰恰相反。好的约束让AI在安全的范围内更自由地发挥创造力，就像交通规则让驾驶更安全高效。

Q4：如何衡量Harness的效果？

A：关注这些指标：Agent成功率、返工率、开发效率、bug率、文档质量。

Q5：现有的AI框架（如LangChain）还需要吗？

A：需要。Harness不是替代品，而是在它们之上的约束层。

关于作者

本文基于OpenAI、Anthropic、LangChain、Stripe、HashiCorp等多家公司的公开实践，结合笔者在AI工程化领域的经验整理而成。

欢迎交流：

📧 Email: your.email@example.com
💬 WeChat: YourWeChatID
🐙 GitHub: @YourGitHub
📝 CSDN: 你的CSDN主页

如果觉得有帮助，欢迎：

⭐ Star本文
💬 留言讨论
🔄 分享给更多人
📝 撰写你的Harness实践

最后更新：2026-04-10

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

一个GitHub Issue就能投毒Claude Code？我拆解了整条供应链攻击链

上周Claude Code刚被AMD AI负责人用23万次调用记录实锤"越更新越差"[1]，这周它的GitHub Actions又被安全研究者扒出了一个供应链级别的漏洞——一个恶意GitHub Issue，就能让Claude Code帮你把仓库Secret全偷走，甚至往你的代码里投毒[2]。这个漏洞有多严重？CVSS v4.0评分7.8，Anthropic为此支付了4800美元赏金。更可怕的是，A