从辅助编程到自主 Agent：开发者的心路历程

大田酱紫

527人浏览 · 2026-03-19 10:34:49

大田酱紫 · 2026-03-19 10:34:49 发布

从辅助编程到自主 Agent：开发者的心路历程

写在前面：这是我对 2025-2026 年 Agent 开发范式的深度思考，记录了一个全栈开发者从"用 AI 写代码"到"让 AI 自己写代码"的完整心路历程。文章可能有点长，但每一段都是实战中踩坑总结出来的。

📖 目录

双维度演进模型
失败场景分析
我的当前定位
任务维度 Agent 架构
下一步探索方向
开放讨论

🎯 双维度演进模型

Agent 的发展不是单一路径，而是两个维度的交叉演进：

纵向：5 阶段演进（人类放权程度）

阶段	人类关注点	AI 职责	边界划定	典型场景
阶段 1 辅助开发	学习 + 辅助 coding	辅助编码	人类完全掌控	问一句写一行
阶段 2 划定边界	技术栈 + 功能测试	自行开发 + 修改	人类划定边界	AI 开发→人测试
阶段 3 功能描述	功能描述	选型 + 实现细节	宽泛边界	说功能，AI 实现
阶段 4 自循环	业务/公司/习惯	自循环测试 + 开发 + 需求审核	明确流程	全流程自动化
阶段 5 AI 自主	环境边界（人能提供什么）	自行划分边界 + 研发测试	AI 自主划定	完全意图驱动

横向：3 种交互形态

形态	特征	人类认知	适用场景
形态 1 Vibe Coding	简单对话，简单功能	不考究细节，不规划边界	快速原型、创意发散
形态 2 自由细节调整	AI 完全掌握模块	回答/判断/解决已有功能问题	复杂模块开发、bug 修复
形态 3 人说要有光	只说想要什么	技术人员知道权限 + 路径	明确意图的完整任务

📊 5×3 演进矩阵

💡 使用说明：查看你当前所处的阶段和主要使用的交互形态

阶段 \ 形态	形态 1 Vibe Coding	形态 2 自由细节调整	形态 3 人说要有光
阶段 1 辅助开发	✅ 当前主流问一句写一行	⚠️ 偶发帮忙改 bug	❌ 不可能人类还没放手
阶段 2 划定边界	⚠️ 减少使用快速验证想法	✅ 主要形态 AI 开发→人测试	❌ 不成熟边界还不够宽
阶段 3 功能描述	✅ 仍需要原型探索	✅ 成熟功能细节调整	🔄 萌芽简单功能可放手
阶段 4 自循环	⚠️ 偶尔用创意发散	✅ 标准流程复杂模块开发	✅ 部分实现明确意图即可
阶段 5 AI 自主	❌ 不需要人类不干预了	✅ 底层能力 AI 自我完善	✅ 终极形态完全意图驱动

💡 关键洞察：

对角线演进路径：大多数人会沿着 阶段 1→形态 1 → 阶段 2→形态 2 → 阶段 3→形态 3 的路径演进
Vibe Coding 不会消失：即使在阶段 5，它仍是创意发散的好工具
"相信 AI"的本质：信任是逐步建立的，不是一蹴而就的

⚠️ 失败场景分析

演进不是一帆风顺的。我总结了5 种典型失败模式，每一款都是我或我见过的人踩过的坑。

失败场景 1：依赖成瘾 🪝

位置：阶段 1 × 形态 1

现象：

每写一行代码都要问 AI
失去独立思考和解决问题的能力
离开 AI 就不会写代码

根本原因：把 AI 当"答案机器"而非"思考伙伴"

预防措施：

强制独立思考时间（例如：遇到问题先自己想 10 分钟）
设定 AI 代码占比上限（建议 < 70%）

🤔 思考题：你现在还依赖 AI 写代码吗？离开 AI 还能独立完成任务吗？

失败场景 2：审查疲劳 😫

位置：阶段 2 × 形态 2

现象：

AI 生成的代码每次都要逐行 review
花的时间比自己写还多
逐渐失去耐心，开始"差不多就行"

根本原因：没有建立信任积累机制，缺乏自动化测试作为安全网

预防措施：

建立自动化测试网（单元测试 + 集成测试）
设定 Review 时间/代码行数阈值，超过就优化流程

🤔 思考题：你 review AI 代码的时间比自己写代码还多吗？

失败场景 3：需求漂移 🎯

位置：阶段 3 × 形态 3

现象：

只说"我想要一个视频"，AI 做出来的完全不是想要的
反复修改，越改越偏离初衷
最后放弃，重新自己做

根本原因：

人类自己都不清楚想要什么
AI 缺乏领域知识和上下文理解

预防措施：

需求确认清单（必须包含：目标用户、核心功能、验收标准）
设定修改次数上限（建议 < 3 次），超过就重新澄清需求

🤔 思考题：你有多少次是因为"说不清楚想要什么"而放弃 AI 协助的？

失败场景 4：黑箱失控 📦

位置：阶段 4 × 形态 3

现象：

Agent 自循环运行，人类看不懂中间过程
出问题了不知道哪里错了
想干预但找不到切入点

根本原因：缺乏可解释性设计，没有人工干预检查点

预防措施：

设计人工检查点（关键决策必须人类确认）
要求 Agent 输出中间过程和决策理由

🤔 思考题：你的 Agent 流程中，人类可以在哪些环节介入？

失败场景 5：人类无用化 🤖

位置：阶段 5 × 形态 3

现象：

AI 完全自主，人类变成"按按钮的人"
人类失去对领域的理解和掌控
AI 犯大错时人类无法补救

根本原因：过度自动化导致人类技能退化，缺乏人类监督的必要机制

预防措施：

保留核心技能训练（定期独立完成任务）
设计人类监督机制（关键决策必须人类审批）

🤔 思考题：如果 AI 能做的越来越多，你希望自己是"按按钮的人"还是"设计按钮的人"？

失败场景演进路径

💡 演进规律：随着阶段推进，失败场景会从"效率问题"演变为"控制问题"

阶段过渡	失败场景演进	根本原因
阶段 1→2 信任建立	依赖成瘾 → 审查疲劳	没有建立有效的信任机制
阶段 2→3 边界放宽	审查疲劳 → 需求漂移	人类需求表达能力跟不上 AI 能力
阶段 3→4 流程自动化	需求漂移 → 黑箱失控	复杂度超出人类理解范围
阶段 4→5 完全自主	黑箱失控 → 人类无用化	人类技能退化 + 缺乏监督机制

📍 我的当前定位

定位：阶段 2 → 阶段 3 过渡期，主要使用形态 2，正在探索形态 3

核心挑战：从"审查疲劳"向"需求漂移"过渡

关注重点：

自动测试：建立自动化测试网，减少人工 review 成本
需求精准描述：设计对话式澄清流程，避免需求漂移

正在探索的架构：任务维度 Agent 设计（详见下一节）

🏗️ 任务维度 Agent 架构

为什么不是"职能导向"？

我之前设计过"新闻官/日程官/反思官"等角色分工的 Agent 架构，但后来发现有问题：

维度	职能导向	任务导向
设计思路	按专业分工（新闻、日程）	按人的目标组织（做视频、写报告）
优点	职责清晰	符合人类思维方式
缺点	跨职能协作复杂	任务边界需要仔细设计
适用场景	稳定业务流程	创新性、探索性任务

结论：对于个人 Agent 体系，任务导向更符合"以人为本"的理念。

三层架构设计

💡 设计思想：自上而下抽象程度递增，自下而上自动化程度递增

层级	职责与示例	测试类型与标准	自动化程度
第一层目标层 (Goal)	「做视频」「写报告」「旅行规划」人类只与这一层交互	人类确认 + AI 预评估满意度评分 ≥ 8/10	20%
第二层任务层 (Task)	「调研」「文案」「剪辑」「发布」「审查」「测试」可复用的任务模块	自动化检查清单 + 质量评分检查项通过率 100%	80%
第三层能力层 (Capability)	「搜索」「写作」「视频处理」「API 调用」「存储」底层原子能力	单元测试 + 集成测试测试用例通过率 100%	100%

设计原则

层级	设计原则	人类干预点	自动化程度
目标层	自然语言描述，模糊可接受	✅ 人类定义目标	20%
任务层	标准化接口，可组合	⚠️ 可选干预（检查点）	80%
能力层	完全自动化，黑箱	❌ 人类不干预	100%

💡 关键洞察：测试的自动化程度应该自下而上递减，人类干预程度应该自下而上递增。

上下文管理策略

💡 设计原则：分层管理，避免污染，任务完成后只保留归档结果

层级	内容与示例	生命周期	传递规则
L1 任务上下文	当前任务的完整信息如调研结果、文案草稿	任务开始 → 完成 → 归档	任务内完整传递完成后销毁
L2 项目上下文	同一项目的共享信息如风格指南、素材库	项目开始 → 结束	部分传递给子任务作为背景知识
L3 用户上下文	用户的长期偏好和习惯如偏好风格、禁忌内容	永久（除非用户修改）	所有任务共享偏好自动应用

专家模式 vs 简单模式

考虑到"强者越强，弱者越依赖"的社会分化趋势，我设计的 Agent 架构应该同时支持两种模式：

维度	专家模式 (Expert Mode)	简单模式 (Simple Mode)
目标用户	自驱型用户（想要控制细节）	依赖型用户（想要一键完成）
中间状态	✅ 可查看所有 Agent 的中间状态	❌ 不展示
干预能力	✅ 可干预任意检查点	❌ 只有「通过/不通过」
失败处理	✅ 可查看测试报告和失败追溯	🔄 失败时自动重试
切换机制	← 无缝切换 →	← 无缝切换 →

关键设计：两种模式可以无缝切换——用户在简单模式下遇到不满意的结果时，可以切换到专家模式查看细节。

🚀 下一步探索方向

方向 1：测试失败追溯机制

问题：当目标层测试失败（人类不满意）时，如何快速定位问题层级？

思考：

是任务层的问题？（文案写得烂）
还是能力层的问题？（搜索没找到好素材）
还是目标层本身的问题？（人类需求表达不清）

目标：设计一个"根因分析"流程，自动追溯失败原因。

方向 2：对话式澄清的具体实现

思考的混合式澄清流程：

步骤	内容与示例	目的
第一步对话收集	开放性问题「你想做什么样的视频？」	收集初始需求
第二步结构化确认	基于回答生成确认清单「你提到要专业风格，我理解为：□ 使用正式语言 □ 避免表情包 □ 引用数据来源 □ 时长 3-5 分钟对吗？」	将模糊需求转为结构化
第三步示例校准	展示 1-2 个示例「类似这种风格吗？」	对齐认知，避免歧义
第四步风险提醒	预判潜在风险「数据可能不够新」「素材可能有版权问题」	提前管理预期

目标：对话是输入方式，但内部要转换成结构化表示，便于后续测试和追溯。

方向 3：需求精准描述工具

问题：人类往往不知道自己真正想要什么，如何让需求表达更精准？

思考方向：

结构化表单？（太僵硬）
对话式澄清？（可能疲劳）
示例驱动？（给几个例子，AI 推断规律）

倾向：对话式澄清 + 结构化确认的混合模式

方向 4：任务粒度设计

问题：任务粒度如何确定？

粒度类型	示例与问题	适用场景
太粗	「做视频」Agent 内部还是要拆分成调研/文案/剪辑/发布	简单任务，人类全程参与
太细	「裁剪视频」Agent 人类需要协调太多 Agent	高度自动化场景
我的粒度	「一部分问题」边界在哪里？	探索中