从辅助编程到自主 Agent:开发者的心路历程

写在前面:这是我对 2025-2026 年 Agent 开发范式的深度思考,记录了一个全栈开发者从"用 AI 写代码"到"让 AI 自己写代码"的完整心路历程。文章可能有点长,但每一段都是实战中踩坑总结出来的。


📖 目录

  1. 双维度演进模型
  2. 失败场景分析
  3. 我的当前定位
  4. 任务维度 Agent 架构
  5. 下一步探索方向
  6. 开放讨论

🎯 双维度演进模型

Agent 的发展不是单一路径,而是两个维度的交叉演进

纵向:5 阶段演进(人类放权程度)

阶段 人类关注点 AI 职责 边界划定 典型场景
阶段 1 辅助开发 学习 + 辅助 coding 辅助编码 人类完全掌控 问一句写一行
阶段 2 划定边界 技术栈 + 功能测试 自行开发 + 修改 人类划定边界 AI 开发→人测试
阶段 3 功能描述 功能描述 选型 + 实现细节 宽泛边界 说功能,AI 实现
阶段 4 自循环 业务/公司/习惯 自循环测试 + 开发 + 需求审核 明确流程 全流程自动化
阶段 5 AI 自主 环境边界(人能提供什么) 自行划分边界 + 研发测试 AI 自主划定 完全意图驱动

横向:3 种交互形态

形态 特征 人类认知 适用场景
形态 1 Vibe Coding 简单对话,简单功能 不考究细节,不规划边界 快速原型、创意发散
形态 2 自由细节调整 AI 完全掌握模块 回答/判断/解决已有功能问题 复杂模块开发、bug 修复
形态 3 人说要有光 只说想要什么 技术人员知道权限 + 路径 明确意图的完整任务

📊 5×3 演进矩阵

💡 使用说明:查看你当前所处的阶段和主要使用的交互形态

阶段 \ 形态 形态 1 Vibe Coding 形态 2 自由细节调整 形态 3 人说要有光
阶段 1 辅助开发 ✅ 当前主流 问一句写一行 ⚠️ 偶发 帮忙改 bug ❌ 不可能 人类还没放手
阶段 2 划定边界 ⚠️ 减少使用 快速验证想法 ✅ 主要形态 AI 开发→人测试 ❌ 不成熟 边界还不够宽
阶段 3 功能描述 ✅ 仍需要 原型探索 ✅ 成熟 功能细节调整 🔄 萌芽 简单功能可放手
阶段 4 自循环 ⚠️ 偶尔用 创意发散 ✅ 标准流程 复杂模块开发 ✅ 部分实现 明确意图即可
阶段 5 AI 自主 ❌ 不需要 人类不干预了 ✅ 底层能力 AI 自我完善 ✅ 终极形态 完全意图驱动

💡 关键洞察

  1. 对角线演进路径:大多数人会沿着 阶段 1→形态 1阶段 2→形态 2阶段 3→形态 3 的路径演进
  2. Vibe Coding 不会消失:即使在阶段 5,它仍是创意发散的好工具
  3. "相信 AI"的本质:信任是逐步建立的,不是一蹴而就的

⚠️ 失败场景分析

演进不是一帆风顺的。我总结了5 种典型失败模式,每一款都是我或我见过的人踩过的坑。

失败场景 1:依赖成瘾 🪝

位置:阶段 1 × 形态 1

现象

  • 每写一行代码都要问 AI
  • 失去独立思考和解决问题的能力
  • 离开 AI 就不会写代码

根本原因:把 AI 当"答案机器"而非"思考伙伴"

预防措施

  • 强制独立思考时间(例如:遇到问题先自己想 10 分钟)
  • 设定 AI 代码占比上限(建议 < 70%)

🤔 思考题:你现在还依赖 AI 写代码吗?离开 AI 还能独立完成任务吗?


失败场景 2:审查疲劳 😫

位置:阶段 2 × 形态 2

现象

  • AI 生成的代码每次都要逐行 review
  • 花的时间比自己写还多
  • 逐渐失去耐心,开始"差不多就行"

根本原因:没有建立信任积累机制,缺乏自动化测试作为安全网

预防措施

  • 建立自动化测试网(单元测试 + 集成测试)
  • 设定 Review 时间/代码行数阈值,超过就优化流程

🤔 思考题:你 review AI 代码的时间比自己写代码还多吗?


失败场景 3:需求漂移 🎯

位置:阶段 3 × 形态 3

现象

  • 只说"我想要一个视频",AI 做出来的完全不是想要的
  • 反复修改,越改越偏离初衷
  • 最后放弃,重新自己做

根本原因

  • 人类自己都不清楚想要什么
  • AI 缺乏领域知识和上下文理解

预防措施

  • 需求确认清单(必须包含:目标用户、核心功能、验收标准)
  • 设定修改次数上限(建议 < 3 次),超过就重新澄清需求

🤔 思考题:你有多少次是因为"说不清楚想要什么"而放弃 AI 协助的?


失败场景 4:黑箱失控 📦

位置:阶段 4 × 形态 3

现象

  • Agent 自循环运行,人类看不懂中间过程
  • 出问题了不知道哪里错了
  • 想干预但找不到切入点

根本原因:缺乏可解释性设计,没有人工干预检查点

预防措施

  • 设计人工检查点(关键决策必须人类确认)
  • 要求 Agent 输出中间过程和决策理由

🤔 思考题:你的 Agent 流程中,人类可以在哪些环节介入?


失败场景 5:人类无用化 🤖

位置:阶段 5 × 形态 3

现象

  • AI 完全自主,人类变成"按按钮的人"
  • 人类失去对领域的理解和掌控
  • AI 犯大错时人类无法补救

根本原因:过度自动化导致人类技能退化,缺乏人类监督的必要机制

预防措施

  • 保留核心技能训练(定期独立完成任务)
  • 设计人类监督机制(关键决策必须人类审批)

🤔 思考题:如果 AI 能做的越来越多,你希望自己是"按按钮的人"还是"设计按钮的人"?


失败场景演进路径

💡 演进规律:随着阶段推进,失败场景会从"效率问题"演变为"控制问题"

阶段过渡 失败场景演进 根本原因
阶段 1→2 信任建立 依赖成瘾 → 审查疲劳 没有建立有效的信任机制
阶段 2→3 边界放宽 审查疲劳 → 需求漂移 人类需求表达能力跟不上 AI 能力
阶段 3→4 流程自动化 需求漂移 → 黑箱失控 复杂度超出人类理解范围
阶段 4→5 完全自主 黑箱失控 → 人类无用化 人类技能退化 + 缺乏监督机制

📍 我的当前定位

定位:阶段 2 → 阶段 3 过渡期,主要使用形态 2,正在探索形态 3

核心挑战:从"审查疲劳"向"需求漂移"过渡

关注重点

  1. 自动测试:建立自动化测试网,减少人工 review 成本
  2. 需求精准描述:设计对话式澄清流程,避免需求漂移

正在探索的架构:任务维度 Agent 设计(详见下一节)


🏗️ 任务维度 Agent 架构

为什么不是"职能导向"?

我之前设计过"新闻官/日程官/反思官"等角色分工的 Agent 架构,但后来发现有问题:

维度 职能导向 任务导向
设计思路 按专业分工(新闻、日程) 按人的目标组织(做视频、写报告)
优点 职责清晰 符合人类思维方式
缺点 跨职能协作复杂 任务边界需要仔细设计
适用场景 稳定业务流程 创新性、探索性任务

结论:对于个人 Agent 体系,任务导向更符合"以人为本"的理念。


三层架构设计

💡 设计思想:自上而下抽象程度递增,自下而上自动化程度递增

层级 职责与示例 测试类型与标准 自动化程度
第一层 目标层 (Goal) 「做视频」「写报告」「旅行规划」人类只与这一层交互 人类确认 + AI 预评估 满意度评分 ≥ 8/10 20%
第二层 任务层 (Task) 「调研」「文案」「剪辑」「发布」「审查」「测试」可复用的任务模块 自动化检查清单 + 质量评分 检查项通过率 100% 80%
第三层 能力层 (Capability) 「搜索」「写作」「视频处理」「API 调用」「存储」底层原子能力 单元测试 + 集成测试 测试用例通过率 100% 100%

设计原则

层级 设计原则 人类干预点 自动化程度
目标层 自然语言描述,模糊可接受 ✅ 人类定义目标 20%
任务层 标准化接口,可组合 ⚠️ 可选干预(检查点) 80%
能力层 完全自动化,黑箱 ❌ 人类不干预 100%

💡 关键洞察:测试的自动化程度应该自下而上递减,人类干预程度应该自下而上递增


上下文管理策略

💡 设计原则:分层管理,避免污染,任务完成后只保留归档结果

层级 内容与示例 生命周期 传递规则
L1 任务上下文 当前任务的完整信息 如调研结果、文案草稿 任务开始 → 完成 → 归档 任务内完整传递 完成后销毁
L2 项目上下文 同一项目的共享信息 如风格指南、素材库 项目开始 → 结束 部分传递给子任务 作为背景知识
L3 用户上下文 用户的长期偏好和习惯 如偏好风格、禁忌内容 永久(除非用户修改) 所有任务共享 偏好自动应用

专家模式 vs 简单模式

考虑到"强者越强,弱者越依赖"的社会分化趋势,我设计的 Agent 架构应该同时支持两种模式

维度 专家模式 (Expert Mode) 简单模式 (Simple Mode)
目标用户 自驱型用户(想要控制细节) 依赖型用户(想要一键完成)
中间状态 ✅ 可查看所有 Agent 的中间状态 ❌ 不展示
干预能力 ✅ 可干预任意检查点 ❌ 只有「通过/不通过」
失败处理 ✅ 可查看测试报告和失败追溯 🔄 失败时自动重试
切换机制 ← 无缝切换 → ← 无缝切换 →

关键设计:两种模式可以无缝切换——用户在简单模式下遇到不满意的结果时,可以切换到专家模式查看细节。


🚀 下一步探索方向

方向 1:测试失败追溯机制

问题:当目标层测试失败(人类不满意)时,如何快速定位问题层级?

思考

  • 是任务层的问题?(文案写得烂)
  • 还是能力层的问题?(搜索没找到好素材)
  • 还是目标层本身的问题?(人类需求表达不清)

目标:设计一个"根因分析"流程,自动追溯失败原因。


方向 2:对话式澄清的具体实现

思考的混合式澄清流程

步骤 内容与示例 目的
第一步 对话收集 开放性问题「你想做什么样的视频?」 收集初始需求
第二步 结构化确认 基于回答生成确认清单「你提到要专业风格,我理解为:□ 使用正式语言 □ 避免表情包 □ 引用数据来源 □ 时长 3-5 分钟 对吗?」 将模糊需求转为结构化
第三步 示例校准 展示 1-2 个示例「类似这种风格吗?」 对齐认知,避免歧义
第四步 风险提醒 预判潜在风险「数据可能不够新」「素材可能有版权问题」 提前管理预期

目标:对话是输入方式,但内部要转换成结构化表示,便于后续测试和追溯。


方向 3:需求精准描述工具

问题:人类往往不知道自己真正想要什么,如何让需求表达更精准?

思考方向

  • 结构化表单?(太僵硬)
  • 对话式澄清?(可能疲劳)
  • 示例驱动?(给几个例子,AI 推断规律)

倾向:对话式澄清 + 结构化确认的混合模式


方向 4:任务粒度设计

问题:任务粒度如何确定?

粒度类型 示例与问题 适用场景
太粗 「做视频」Agent 内部还是要拆分成调研/文案/剪辑/发布 简单任务,人类全程参与
太细 「裁剪视频」Agent 人类需要协调太多 Agent 高度自动化场景
我的粒度 「一部分问题」边界在哪里? 探索中

思考方向

  • 按人类注意力边界划分(一个任务人类能完整理解)
  • 按测试边界划分(一个任务能独立测试)

💬 开放讨论

这篇文章是我的阶段性思考,肯定有很多不成熟的地方。如果你也在使用或开发 Agent,欢迎一起讨论:

讨论题 1:你处于哪个阶段?

用 5×3 矩阵定位一下自己:

  • 纵向:你现在处于阶段 1-5 的哪个?
  • 横向:你主要使用形态 1-3 的哪个?
  • 有没有遇到过我提到的失败场景?

讨论题 2:你如何看待"人类无用化"?

我认为"学习本身就是人类的欲望与乐趣",所以人类不会无用化。但:

  • AI 能做的越多,真正强大的人学习得越快、越多
  • 没有自驱力的人会被 AI 淘汰还是会被 AI 赋能?
  • 社会分化会不会加剧?(强者越强,弱者越依赖)

讨论题 3:你的 Agent 架构是什么样的?

  • 是按职能划分(新闻官、日程官)?
  • 还是按任务划分(做视频、写报告)?
  • 有没有更好的设计思路?

📝 更新日志

日期 版本 更新内容
2026-03-18 v2.0 重构为公开分享版本,增加失败场景分析和任务维度架构
2025-12-01 v1.0 初稿,记录 5 阶段 +3 形态演进模型

最后的话:Agent 的发展才刚刚开始,这篇文章也会持续更新。如果你有任何想法或建议,欢迎随时交流。毕竟,好的思考都是在讨论中打磨出来的。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐