2026 AI 工程新趋势：Prompt、Context、Harness 三次认知升级全面解析

叶落当归 · 2026-05-05 14:00:22 发布

https://www.youtube.com/watch?v=3DlXq9nsQOE

这是一期内容质量不错的 AI 工程科普视频，有以下几个突出优点：

优点：

不足之处：

总体评分：值得观看，适合已经在做 agent 或对 AI 工程感兴趣的从业者，对纯小白略有难度。

在这里插入图片描述

视频核心论点是：决定 AI agent 能否稳定落地的，往往不是模型本身，而是围绕模型搭建的那套运行系统——即 Harness（驾驭系统）。

AI 工程经历了三个阶段：

Prompt Engineering（怎么把任务说清楚）：解决的是表达问题，塑造模型的概率空间，但遇到信息缺失和长链路任务时失效。
Context Engineering（怎么把信息给对）：解决信息供给问题，涵盖检索、压缩、结构化组织、渐进披露（如 Agentskills）。但信息给对了，模型仍可能执行跑偏。
Harness Engineering（怎么让模型在真实执行中持续做对）：覆盖整套运行系统的工程化，是三者中边界最大的。

Harness 包含六层：上下文边界、工具系统、执行编排、记忆与状态、评估与观测、约束校验与失败恢复。

以下是整理后的结构化笔记：—
在这里插入图片描述

Agent = Model + Harness
Harness = Agent 减去 Model，即模型之外所有决定系统能否稳定交付的机制。

三者是包含关系，不是替代关系：Prompt ⊂ Context ⊂ Harness

在这里插入图片描述

第一层：上下文边界管理

第二层：工具系统

第三层：执行编排

第四层：记忆与状态管理

第五层：评估与观测

第六层：约束校验与失败恢复

Anthropic 的实践：

Context Reset（上下文重置）
- 问题：长任务中上下文越来越满，模型开始丢细节、着急收尾
- 解法：不是压缩（不够），而是开一个全新的 agent 接手任务，传递当前状态
- 类比：内存泄漏时不清缓存，直接重启进程恢复状态
生产/验收分离
- 问题：模型自评偏乐观（自己干活再自己打分）
- 解法：Planner（需求 → 规格）/ Developer（逐步实现）/ Evaluator（像 QA 一样真实操作页面测试）
- 工程原则：生产和验收必须分离，形成生成→检查→修复→再检查的闭环

OpenAI 的实践：

人类工作的重新定义
- 工程师不写代码，而是：① 把目标拆成 agent 能执行的小任务 ② 失败时问"环境缺了什么能力" ③ 建立反馈回路让 agent 看见自己的工作结果
渐进式披露（AGENTS.MD 改造）
- 错误做法：把所有规范全塞进一个大文件 → agent 更糊涂
- 正确做法：主文件只保留核心索引，详细内容（设计文档、执行计划、安全规则）按需钻进子文档
- 本质与 Agentskills 相同：不是一次性全给，而是按需暴露
让 Agent 看见整个应用
- Agent 可接浏览器截图、点击页面、查日志和监控指标
- 每个任务在独立沙箱环境中运行
- 结果：agent 不只是写完代码就算，而是跑起来看结果 → 发现 bug → 修 bug → 再验证
规则即反馈
- 资深工程师经验写成系统规则（模块怎么分层、什么情况拦截）
- 规则不只报错，还把"怎么修"一起反馈给 agent 的下一轮上下文
- 本质：一套可持续运行的自动质检系统