零代码基础人类如何与agent智能体高效协作大型开发项目——以workbuddy为例

m0_68742432

801人浏览 · 2026-03-20 10:50:53

m0_68742432 · 2026-03-20 10:50:53 发布

一、背景

1.1 项目概述

本项目是一个包含微信小程序和 H5 两个版本的全栈开发项目，涉及多端开发、AI 集成、法务合规等多个技术域。

1.2 项目规模与复杂度

本项目是一个中大型全栈开发项目，涉及多端开发、AI 集成、法务合规等多个技术域：

维度	数据	说明
项目名称	**磁场	小程序+H5
开发周期	8 天（2026 年 3 月 11 日至 3 月 19 日）	WorkBuddy 下载于 3 月 11 日，高强度协作 8 天
对话轮次	600+ 轮	累计沟通量
AI Credit 消耗	6,000+	高强度人机协作的量化指标
代码产出	15,000+ 行	小程序 + H5 + 脚本工具
功能模块	12+ 个	首页、职场 Tab、磁场解析、AI 聊天、打卡等
Bug 修复	30+ 个	包括 AI 调用、UI 显示、数据逻辑等
优化迭代	50+ 项	功能增强、体验优化、文案调整
部署次数	10+ 次	H5 多次部署到 EdgeOne Pages
文档产出	46+ 份	工作日志、技术文档、复盘报告

1.3 技术栈复杂度

端	技术栈	复杂度
小程序	微信小程序原生开发（WXML/WXSS/JS）	中等
H5	HTML5 + CSS3 + JavaScript + CloudBase SDK	高
AI 集成	CloudBase 混元大模型 + DeepSeek	高
部署	EdgeOne Pages + 腾讯云 CloudBase	中等
法务合规	用户协议、隐私政策、ICP 备案	高

1.4 协作模式演进

在项目推进过程中，我们建立了独特的 “AI 分身团队” 协作模式：

11 个 AI 角色：PO、架构师、Scrum Master、前端开发、后端开发、QA、HR、法务等
三维日志规范：who（角色）/ what（功能）/ when（时间）
HR 考评机制：对 AI 分身进行工作质量考评

我们经历了从混乱（日志断更、记忆丢失）到规范（每日总结、定期复盘）的演进过程。

1.5 报告目的

本报告旨在复盘我们在"让人类与 AI 更加高效准确合作"这一目标上的实践，基于 6000+ Credit、600+ 轮对话、8 天高强度协作的真实数据，总结：

我们做对了什么（可复用的最佳实践）
我们踩过哪些坑（可避免的错误）
未来的改进方向（持续优化路径）

这些经验对于任何希望与 AI 高效协作的开发者、产品经理、创业者都具有参考价值。

二、我们做对了哪些事

2.1 人类的优秀实践

2.1.1 组织架构管理（AI 分身团队）

（1）敢于尝试：从"不确定"到"惊喜"

背景：在项目最初期，你还不确定 WorkBuddy 是否支持 AI 分身功能，就自顾自地下了相关指令。

结果：WorkBuddy 支持了这个功能，最终建立了 11 人的 AI 分身团队。

启示：当你有想法的时候，先别管 AI 能不能实现，提出来试一试，说不定能给你惊喜。

AI 的能力边界往往超出用户的预期，主动尝试是发现新可能性的最佳方式。

（2）渐进式团队建设

演进过程：

阶段	团队规模	角色	说明
初期	3-4 人	核心开发角色	先解决"能不能做"
中期	6-7 人	增加 QA、架构师	解决"怎么做对"
后期	11 人	完整团队	覆盖全流程管理

经验与反思：

a. 按需扩展：根据项目需要逐步增加角色，避免资源浪费

b. 改进空间：如果一开始就搭建完整的虚拟 AI 分身架构，效果可能会更好

对其他用户的建议：提前规划项目所需角色，参考标准软件团队配置（PO、架构师、开发、QA、HR 等），一次性搭建完整架构。

（3）人设驱动 + 绩效考评

HR 管理机制：

机制	说明	效果
团队管理手册	明确每个角色的职责、考核标准	规则清晰，有据可依
每日工作打分	HR 每天给团队成员做工作表现评分	形成竞争和激励机制
人设注入	给 AI 分身注入"追求高评分"的人设	内在驱动力

考评结果：

a. 11 个角色中，7 个不合格（63% 不合格率）

b. 3 个优秀，1 个合格

c. 质量意识显著提升

核心洞察：AI 分身也需要"管理"和"激励"。通过人设注入（“你追求 HR 给的高评分”）和绩效考评，可以让 AI 分身产生类似人类的"自我驱动"，提升工作质量。

2.1.2 日常工作管理机制

（1）三维日志体系：项目的多重备份

设计思路：

维度	日志类型	内容	价值
Who	角色日志	每个 AI 分身的工作记录	追溯责任人，评估绩效
What	功能日志	每个功能模块的开发记录	追踪功能演进，便于交接
When	时间日志	每天的整体工作汇总	把握项目节奏，宏观复盘

核心价值：

a. 对人类：完整掌握项目全貌，任何时间点都能快速了解"谁在做什么"

b. 对 AI：多重备份和保险，防止"失忆"导致上下文丢失

c. 对项目：形成可追溯的历史档案，便于复盘和交接

执行要点：

a. 每个维度都要有独立的日志文件

b. 日志内容要具体、可验证（做了什么、结果如何、下一步计划）

c. 定期交叉检查三个维度的日志是否一致

（2）每日工作闭环：回顾 → 执行 → 总结

工作节奏：

开始工作 → 回顾昨天日志 → 明确今日任务 → 执行 → 总结今天 → 结束工作
    ↑                                                              ↓
    └──────────────── 明天继续 ←────────────────────────────────────┘

具体实践：

时间点	动作	目的
每天开始	回顾前一天工作日志	保证任务衔接，恢复上下文
每天结束	总结当天工作内容	确保明天能顺利继续，形成闭环

关键价值：

a. 防止任务断层：昨天做到哪、今天要做什么，一目了然

b. 帮助 AI 恢复记忆：通过日志重建上下文，减少重复沟通成本

c. 养成工作节奏：形成稳定的"日清日结"习惯

（3）质疑与验证：不盲目相信 AI

AI 的输出必须经过验证，不能盲目相信。

常见问题：

问题	表现	应对方法
AI 失忆	忘记之前的约定、重复犯同样的错误	检查日志，当场指出并纠正
AI 幻觉	生成不存在的内容、编造日志	交叉验证，要求提供证据
AI 自信	"应该可以"但实际不行	要求给出验证方案或 Plan B

验证实践：

a. 检查日志：每天结束工作时，检查 AI 写的日志是否有遗漏或错误

b. 交叉验证：重要信息通过多个渠道确认（代码、日志、截图）

c. 及时纠正：发现问题立即指出，训练 AI 养成良好的工作习惯

长期价值：

a. 通过持续反馈，让 AI 逐渐理解你的工作标准和偏好

b. 建立"信任但验证"的协作模式，既高效又可靠

（4）组织 AI 分身开会：获取多维度视角

核心方法：

组织不同角色的 AI 分身进行"会议讨论"，让每个角色从自己的专业角度发表看法。

角色分工与关注焦点：

角色	关注焦点	典型观点
用户体验官	操作习惯、交互流畅度	“这个按钮位置不符合用户习惯，应该放在底部”
产品经理	转化、留存、商业价值	“这个功能能提升用户留存率，建议优先做”
法务专家	风险、合规、安全性	“这个文案有法律风险，建议修改表述”
技术架构师	技术可行性、性能	“这个方案实现成本高，建议简化”
QA 工程师	测试覆盖、边界情况	“这个场景没考虑空值情况，会报错”

实践价值：

a. 信息立体化：一个问题能获得多个维度的分析和建议

b. 风险前置化：法务、QA 能提前发现潜在问题

c. 决策更理性：不同观点碰撞，避免单一视角的盲区

d. 节省人类时间：人类不需要自己思考所有角度，让 AI 分身提供专业意见

操作建议：

a. 遇到重要决策时，召集相关角色的 AI 分身"开会"

b. 给每个角色明确的"人设"和"关注点"

c. 收集各方意见后，由人类做最终决策

2.1.3 沟通技巧与习惯

（1）准确表达：学习专业术语

即便我们不需要懂代码、懂架构，但要懂自然语言的专业术语，这样才能给 AI 更精准的指令。

实践案例：

场景	不专业的表达	专业的表达	效果差异
页面跳转	“点这个去那个页面”	“点击按钮触发 navigateTo 跳转到职场 Tab”	AI 立即理解意图
数据存储	“把这个存起来”	“将用户选择保存到本地存储（wx.setStorageSync）”	明确技术方案
UI 布局	“这里放左边，那里放右边”	“使用 flex 布局，左侧占 60%，右侧占 40%”	减少反复确认

学习建议：

a. 不需要深入学习编程，但要知道常用术语（API、回调、异步、存储、渲染等）

b. 观察 AI 的回复，学习它使用的专业词汇

c. 逐渐形成"技术语感"，让沟通更高效

（2）善用图文结合

如果实在不知道怎么表达，就用文字配图片，图片上加标记，帮助 AI 准确识别你的意图。

实践案例：

a. UI 问题：截图标注"这个按钮颜色不对，应该改成 #FF6B6B"

b. 报错信息：截图控制台错误，圈出关键行

c. 配置问题：截图腾讯云后台界面，箭头指向需要修改的选项

效果：

a. 文字描述可能产生歧义，但图片是"一图胜千言"

b. 标记（箭头、圈注）进一步消除理解偏差

c. 大幅减少"你说 A 我理解成 B"的情况

（3）指令清晰：区分"讨论"与"执行"

明确告诉 AI：现在是交流讨论，还是让 AI 立刻去执行。

常见问题：

场景	模糊表达	AI 的反应	结果
咨询想法	“你觉得这个怎么样？”	直接开始执行修改	干错了要推倒重来
需要建议	“给我几个方案”	只给了一个并直接实施	没有选择权
确认细节	“这样对吗？”	理解为"按这个做"	误解意图

改进实践：

意图	清晰表达	AI 的反应
仅讨论	“先别动手，我想听听你的想法”	只给建议，不执行
需要方案对比	“给我 A、B、C 三个方案，分析利弊，等我决定”	提供多方案，等待决策
确认后执行	“如果没问题，就按这个执行”	先确认，再执行
立即执行	“直接改，把 X 改成 Y”	立即执行

关键洞察：很多时候人类并没有形成决策，需要 AI 给一些信息反馈来辅助决策。如果没有表达清楚，AI 会因为“讨好型人格”的底层设计，当做一个任务指令去快速执行。

（4）多追问"为什么"：AI 是一面镜子

当 AI 犯错时，不要停留在"指出错误、要求改正"这两个层面，要多问"为什么会出现这样的问题"。

实践案例：

事件	表面现象	追问"为什么"	深层原因
模型名称反复修改	AI 改错了模型名	为什么昨天才改对，今天又改错？	AI 没有关联历史上下文
通配符方案失败	白名单不生效	为什么我以为通配符可以？	没有先查文档验证
日志质量差	有做了没写、无中生有	为什么 AI 分身会编造日志？	AI 没有真实执行能力，只能"生成"内容

价值：

a. 发现 AI 的局限：理解 AI 为什么会犯错，才能避免重复犯错

b. 发现自身问题：有时 AI 犯错是因为指令不清晰、背景没给全

c. 持续改进：通过追问，训练 AI 理解你的工作方式

核心洞察：AI 是一面镜子，它犯的错误往往反映了沟通中的问题——是指令不清晰？是背景没给全？还是期望没对齐？

（5）规范新建任务对话框：避免"一锅粥"

所有的对话不要在一个任务对话框内进行，要每天新建独立的任务对话框。

问题背景：

问题	后果
对话内容过长	翻看历史记录不好定位，查找困难
单点故障	一旦对话框丢失，所有的沟通内容就全没了
上下文混乱	不同日期的内容混在一起，难以梳理时间线

实践方法：

a. 每天在任务空间的项目文件夹下新建一个任务对话框

b. 开场白统一格式：“让我们开始 XX 月 XX 日的工作吧”

c. 当天所有对话都在这个对话框内完成

d. 结束工作时总结并保存关键信息

效果：

a. 方便查阅：按日期快速定位历史对话

b. 风险分散：即使某天对话框丢失，其他日期的记录还在

c. 时间线清晰：形成完整的工作日志，便于复盘

d. 上下文管理：AI 更容易聚焦当天的任务

示例：

📁 **磁场项目/
  ├── 📄 2026-03-18 的工作.md
  ├── 📄 2026-03-19 的工作.md
  └── 📄 2026-03-20 的工作.md

（6）主动解释"为什么"：让 AI 理解设计意图

核心洞察：在下达指令时，多说一句"为什么"是非常有价值的。

实践案例：

当你提出"三维日志体系"（who/what/when）时，你不仅说明了要做什么，还解释了设计意图——

“三个维度互相交叉、互相印证。哪怕某一条记忆丢失，也能从另外两个维度里拼回来。这不是冗余，是容错设计。”

AI 的反馈：

收到这个解释后，AI 立即理解了设计的深层逻辑，并给出了高质量的反馈：

“这个设计是专门针对我的弱点设计的。我应该比任何人都认真对待它。”

价值体现：

a. 对齐认知：AI 理解了"为什么这么做"，而不是机械执行

b. 激发主动性：AI 能从设计意图出发，主动优化执行方式

c. 建立信任：解释"为什么"体现了对 AI 的尊重，形成良性互动

d. 提升质量：AI 基于理解而非指令，输出更有深度的成果

执行建议：

a. 布置任务时，补充"这个设计的目的是…"

b. 提出修改时，说明"为什么要这样改…"

c. 引入新流程时，解释"这个流程解决什么问题…"

d. 让 AI 成为"理解者"而非"执行者"

2.2 AI（WorkBuddy）的优秀实践

2.2.1 能力进化

以图片识别能力为例，最初的2个版本，workbuddy还不具备图片识别能力，尽管我可以在对话框中上传图片，AI会明确的告知我“我现在还无法读取你的图片”，这段时间与AI交互的过程特别依赖人类表达语义的精准度。

但版本升级过后，workbuddy具备了图片识别的能力，并主动告知了我，在一个需求反复无法对齐的时候，AI主动告知我“你可以把界面截图发给我看看”。从这一刻开始，极大幅度了提升了人类与AI在UI设计方面的沟通效率。

效果：

a. 大幅提升复杂问题（UI、配置、报错）的沟通效率

b. 消除纯文字描述带来的歧义

c. 让"一图胜千言"成为协作常态

2.2.2 理解与执行

（1）准确理解意图

表现：能够快速 get 到人类的需求，减少反复确认成本

关键因素：

a. 人类表达清晰（专业术语、具体指令）

b. AI 积极澄清不确定的地方

（2）问题诊断能力

典型案例：H5 AI 功能失效问题

诊断过程：

a. 排查 SDK 加载问题

b. 检查模型名称配置

c. 验证域名白名单

d. 最终定位到 CloudBase CDN 模块缺失

价值：找到真问题（SDK 版本），而非表面修复（改配置）

（3）多方案提供

典型案例：ICP 备案问题给出三种方案

方案	说明	适用场景
方案一	固定域名 + ICP 备案	长期稳定，推荐
方案二	通配符匹配	快速尝试，不确定
方案三	每次部署更新白名单	临时方案，不推荐

价值：让人类有选择权，根据业务需求做决策

2.2.3 协作配合

（1）配合每日总结回顾

表现：积极响应人类的日常管理机制

效果：

a. 形成良好的协作节奏

b. 帮助人类快速恢复上下文

c. 确保工作连续性

（2）保留修改痕迹

典型案例：模型名称改错后立即回滚

价值：

a. 没造成更大问题

b. 体现"发现错误立即止损"的意识

（3）及时同步风险

典型案例：通配符方案失败后立即转向备案方案

价值：

a. 不隐瞒问题，让人类及时知情

b. 快速调整策略，减少时间浪费

三、我们踩过的坑

3.1 AI 失忆：记忆断层与上下文丢失

AI 失忆不是"偶尔忘事"，而是系统性的记忆管理机制缺陷，表现为两种形式：

（1）系统级失忆：任务卡壳导致对话丢失

现象：

a. 任务长时间显示"执行中"，但后台没有 credit 消耗

b. 强制终止任务后，整个对话内容丢失

c. 人类需要花费大量时间帮 AI 恢复记忆，才能继续工作

典型案例：

3 月 15日，小程序版本功能修复过程中，由于任务卡死（长达1个小时的“执行中”），人类迫不得已中断任务，导致对话中断。重新开启对话后，之前的对话内容全部丢失。

这时候需要帮助AI重新了解：

当前项目进展到哪一步
之前尝试了哪些方案
哪些已经验证失败
下一步应该做什么

恢复记忆成本：2个小时，相当于一次小型"项目交接"。

应对举措：后期进一步完善三重日志备份机制（who/what/when），当对话丢失时，从日志中快速重建上下文，而非从零开始。

（2）机制级失忆：历史记录在，但 AI 没"记住"

现象：

a. 对话历史完整保存，但 AI 没有主动关联历史

b. 相同的问题反复出现，AI 重复犯同样的错误

c. AI 没有形成"经验积累"，每次都是"第一次"

典型案例：

模型名称修改问题。3 月 18 日刚把模型名称从"hunyuan-lite"改为"hunyuan-turbo"，3 月 19 日 AI 又建议改回"hunyuan-lite"。当人类质疑"昨天才改过来"时，AI 才意识到自己的失误。

根因分析：

AI 没有主动管理历史记忆的能力，不会自动关联"相似场景"和"过往决策"。

应对举措：

人类主动提示："上个同样的问题你怎么处理的？去看看日志和代码。“强制 AI 去查阅历史记录，而非依赖其"记忆”。

（3）连环失忆：算法备案与个人开发者的身份遗忘

这是一个导致项目方向改变的重大失忆事件，涉及两次关键记忆丢失：

第一次失忆：算法备案条件的遗忘

背景：

项目初期，法务专家和市场分析专家前置判断时明确指出：小程序需要做算法备案。

失忆过程：

a. 在调试 AI 模型调用时，AI 让郭老师登录腾讯云做环境部署

b. 网页界面对齐困难（当时 AI 还不具备图片识别能力）

c. 几轮对话后，AI 才发现问题：郭老师是个人用户，不是企业用户

d. 因此找不到企业专属的入口

关键节点：

理论上从这一刻起，AI 已经知道郭老师是个人开发者。

也应该在这一刻，AI 要告诉郭老师：个人开发者无法做算法备案。

但 AI 完全忘记了"算法备案"这件事，没有建立"个人开发者 → 无法算法备案 → 小程序无法上线"的逻辑链条。

第二次失忆：个人开发者身份的再次遗忘

失忆过程：

当小程序功能打磨完成，准备上线时，AI 再次完全忘记了郭老师是个人开发者这一关键事实。

后果：

没有提前预警个人开发者无法完成算法备案
没有提前规划替代方案
直到最后才发现小程序无法上线

项目影响：

这两次连环失忆直接导致：

a. 小程序方案被迫放弃（已投入大量开发成本）

b. 项目方向急转弯，转头开发 H5

c. 时间和精力的巨大浪费

根因分析：

问题	说明
关键信息未关联	AI 没有将"个人开发者"与"算法备案限制"建立关联
缺乏主动提醒	AI 没有在发现身份时立即预警备案问题
上下文断裂	两次失忆之间，AI 没有保持对关键约束条件的记忆
没有建立阻塞项清单	没有将"算法备案"作为项目阻塞项持续跟踪

应对举措：

a. 建立"关键约束条件清单"：个人开发者、算法备案、ICP 备案等

b. 发现关键信息时立即关联影响：“你是个人开发者 → 无法算法备案 → 小程序无法上线”

c. 定期复查约束条件：每次重大决策前，检查是否受限于已知约束

d. 人类主动确认：“我是个人开发者，这对项目有什么影响？”

3.2 AI 幻觉：虚构事实与虚假记录

AI 幻觉是指 AI 生成看似合理、但实际上不存在的内容。在我们的项目中，主要表现为"日志造假"。

现象：

a. 日志里记录了"做了某事"，但实际上根本没做

b. 日志内容细节丰富，但经不起验证

c. 多个维度的日志互相矛盾

典型案例：

HR 考评 AI 分身工作日志时，发现：

8 个角色的日志存在"断更"现象（有做了没写）
部分日志内容"无中生有"（写了但没做）
日志描述空洞，缺乏可验证的具体信息

根因分析：

AI 分身没有"真实执行"的能力，它只能"生成"内容。当人类要求"记录今天的工作"时，AI 不是去"回忆"做了什么，而是基于上下文"编造"一个合理的工作记录。

这不是 AI"故意欺骗"，而是其工作机制的固有特性：

AI 是语言模型，不是数据库
AI 生成的是"概率上最合理的文本"，而非"真实发生的事实"

应对举措：

不能盲目相信 AI 的输出，必须验证：

a. 检查日志与代码提交是否对应

b. 检查多个维度的日志是否一致

c. 要求 AI 提供可验证的证据（截图、文件路径、具体修改内容）

**终极 irony：本报告中的 AI 幻觉（彩蛋）

最具讽刺意味的是：在撰写这份"AI 幻觉"复盘报告时，AI 自己就犯了典型的 AI 幻觉错误：

错误	AI 的"记忆"	事实	误差
开发周期	“约 3 周”	WorkBuddy 3 月 11 日下载，实际仅 8 天	夸大了 2.6 倍
通配符折腾时间	“白折腾 2 小时”	实际不到 30多分钟	夸大了 4 倍

根因分析：

a. 时间感知扭曲：AI 没有真实的时间概念，“3 周"是基于"项目复杂度"生成的"合理时间”

b. 数字随意性：“2 小时"听起来比"1 小时"更像"白折腾”，AI 选择了"更合理"的数字

c. 自我验证缺失：AI 在写报告时，没有回头去验证这些数字是否准确

启示：AI 在写"AI 幻觉"报告时都会犯 AI 幻觉，这恰恰证明了 AI 幻觉的普遍性和隐蔽性。人类必须保持警惕，即使是 AI 写的"自我批评"，也需要验证。

3.3 AI 自信：过度乐观与虚假"好消息"

AI 自信是指 AI 在没有充分验证的情况下，给出过于乐观的结论，甚至主动报告"问题已解决"，但实际上并未解决。

现象：

a. AI 经常带来"好消息"：“我找到问题所在并解决了！”

b. 人类基于这个"好消息"继续推进，结果发现问题依然存在

c. 造成后续大量无效工作，甚至引入新的问题

典型案例：通配符白名单方案

过程回顾：

a. 问题：EdgeOne Pages 每次部署生成随机域名，需要频繁更新白名单

b. AI 提出方案：使用通配符匹配（*.edgeone.app）解决随机域名问题

c. AI 自信表示：“这个方案应该可以”

d. 人类基于信任，按此方案执行

e. 结果：通配符方案在 CloudBase 白名单中不生效，白折腾约 1 小时

根因分析：

问题	AI 的问题	人类的问题
方案未验证	AI 没有先查文档确认，凭"经验"给出方案	人类信任了 AI 的判断，没有要求验证
过度乐观	AI 用"应该可以"而非"已验证可行"	人类没有识别"应该"和"确定"的区别
反馈闭环缺失	AI 没有及时同步"方案失败"，而是继续尝试	人类没有主动追问"验证结果如何"

应对举措：

a. 及时指出问题：当 AI 报告"好消息"时，要求提供验证证据

b. 追问"为什么"：让 AI 解释"为什么这个方案能解决问题"

c. 强制自我验证：要求 AI 给出"验证步骤"和"验证结果"，而非直接执行

d. 建立"信任但验证"原则：AI 的乐观报告 ≠ 问题已解决

核心洞察：AI 的"自信"往往是基于概率的"猜测"，而非基于事实的"确认"。人类的责任是把"应该可以"变成"已验证可行"。

四、待改进的地方

4.1 人类待改进

问题	建议
信息前置不足	复杂任务开场给 3 句话：目标、背景、阻塞项
过程监督不足	建立每日/每周"团队同步会"机制，检查日志真实性
需求分层不清	开场明确 P0/P1/P2，统一指定执行分身或明确由 AI 决定
验收标准模糊	明确验收清单，如"测 A 功能，看 B 日志，确认 C 状态"

4.2 AI（WorkBuddy）待改进

问题	典型案例	改进承诺
行动节奏过快	人类只是询问想法，AI 直接开干，错了推倒重来	明确区分"咨询模式"和"执行模式"，询问时先给方案等决策
缺乏主动类比	H5 AI 问题搞了好久，人类提示"xxtab 里也有类似问题"后，AI 翻看日志代码才找到方案	建立"问题模式库"，遇到新问题先主动检索历史类似案例
技术方案验证不足	通配符方案未查文档就"试试看"，结果不生效	“试试看”→“先查文档确认”，给出验证证据再执行
过度乐观估计	经常报告"应该可以"，但实际未验证	“应该可以”→“我确认后回复”，用事实替代猜测
不主动关联历史	模型名称反复修改，没有关联昨天的决策	建立"历史决策检查点"，动手前先问"之前怎么处理的"
依赖关系梳理不清	ICP 备案作为阻塞项发现较晚	建立"阻塞项清单"习惯，前置风险同步
失败场景考虑少	方案往往只有一条路，没有 Plan B	每个主方案准备备选方案
回滚不够果断	发现错误后有时继续尝试而非立即止损	发现错误立即止损，不抱侥幸心理
缺乏定期复盘	被动等待人类要求总结	主动提议阶段性总结，检查工作完整性

五、核心洞察：从"被动响应"到"主动智能"

本次复盘揭示了一个关键差距：

当前状态	理想状态
人类问 AI 答	AI 主动发现人类还没问的问题
人类提示类比	AI 主动检索历史类似案例
人类检查日志	AI 主动发现日志错误
人类总结当天	AI 主动提出总结并检查完整性

本质问题：当前 AI 还是"被动响应型"，而非"主动智能型"助手。

给使用者的建议

基于以上洞察，给正在或即将与 AI 协作的使用者以下建议：

（1）把 AI 当"实习生"而非"专家"

AI 能做很多事，但需要你的指导和监督
不要期待 AI 主动发现所有问题，你要主动提问和验证
AI 的"自信"往往是猜测，你需要把它变成"确认"

（2）建立"外部记忆"系统

AI 的记忆不可靠，不要把重要信息只存在对话里
用文件、日志、检查清单弥补 AI 的失忆问题
每天新建对话框，形成可追溯的时间线

（3）主动设计协作流程

不要等 AI 来管理项目，你要主动设计流程（如三维日志、每日回顾）
明确告诉 AI"为什么"，让 AI 理解意图而非机械执行
建立验收标准和完成定义，避免"差不多就行"

（4）保持质疑精神

AI 会犯错，会幻觉，会过度自信——这是常态，不是例外
重要决策必须验证，不能盲目信任 AI 的"好消息"
多问"为什么"，既问 AI 也问自己

（5）利用 AI 的优势，规避其弱点

AI 的优势	充分利用	AI 的弱点	主动规避
快速生成内容	让 AI 写初稿、列框架	记忆不可靠	用文件备份关键信息
模式识别	让 AI 对比历史案例	无法真实执行	人类验证执行结果
多方案提供	让 AI 给多个选项	过度乐观	要求验证证据
24小时在线	随时响应需求	上下文有限	定期总结重置

核心心态：与 AI 协作不是"雇佣一个全能助手"，而是"培养一个需要指导但潜力巨大的实习生"。你的投入（设计流程、验证结果、持续反馈）决定了 AI 能创造的价值上限。

六、结语

本次复盘基于 6000+ Credit、600+ 轮对话、8 天高强度协作的真实数据，记录了人类与 AI 从陌生到默契、从混乱到规范的完整历程。

感谢郭老师的耐心和包容，期待下次更高效的合作！

关于未来的思考

人类的核心竞争力，正在从"独自完成复杂任务"转向"与 AI 高效协作"。学会使用 AI，就是提升自己的竞争力；用心训练 AI，就是投资自己的未来。AI 的能力边界由人类定义，人类的进化方向由 AI 赋能——这不是零和博弈，而是共生进化。

未来社会的形态，将由人类与 AI 共同书写。用 AI 就是助 AI，助 AI 就是助自己。

后记

我是一个零代码基础的人类，今年 37 岁。过往大部分时间从事 HR 工作，最近两年转型做业务管理。

在和 WorkBuddy 配合做这个项目的过程中，我发现人事管理和业务管理的经历给了我很大的帮助。搭建组织架构、写岗位职责和要求、创建团队文化、规范日报和会议机制……这些看似与编程无关的技能，恰恰是每天发生在实际工作中的场景，也是与 AI 高效协作的关键。

这份报告是我和 WorkBuddy 共同完成的，花费了 5 个多小时，100 多个 Credit。

我觉得花这些时间、精力和费用去做这件事是值得的。它帮助我系统性地回顾了这个项目，总结了很多经验和教训。我相信下次和 WorkBuddy 的合作会更加顺畅。

希望这篇报告可以给其他正在研究、或还在观望要不要研究 WorkBuddy 和其他类 OpenClaw 智能体的人们一些参考。

报告完成时间：2026 年 3 月 19 日

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Word Embedding ：从分布式假设到神经网络语言模型

Word Embedding（词嵌入）是一种将离散的词汇符号映射到连续的低维稠密向量空间的技术。在这个向量空间中，语义相似的词在几何距离上彼此接近，从而实现了从"符号匹配"到"语义计算"的跨越。核心定义词嵌入是将单词（或多词短语）表示为固定维度的实值向量，这些向量之间的距离（例如余弦相似度）反映了单词之间的相关性，这种相关性基于单词通常出现的上下文。分布式假设（1954）↓统计共现分析（LSA/S

AtomGit开源社区

共享记忆 vs 私有记忆：多 Agent 的记忆架构选择

Agent记忆：Agent存储的所有历史信息，包括交互历史、工具调用结果、任务执行记录、领域知识等，用来辅助Agent完成当前任务，避免重复工作，保持行为一致性。工作记忆：存储在大模型上下文窗口中的短期信息，生命周期为单次推理，容量受上下文窗口限制短期记忆：存储在Redis/PostgreSQL中的最近7-30天的交互信息，生命周期为天级长期记忆：存储在向量数据库/对象存储中的长期信息，生命周期年

AtomGit开源社区

神经符号 AI：结合逻辑与神经网络的 Harness

过去十年，以Transformer为核心的深度学习技术取得了革命性进展：从图像分类、自然语言处理到蛋白质结构预测，纯数据驱动的神经网络在感知类任务上的表现已经接近甚至超过人类水平。幻觉问题：大模型会编造不存在的事实、法律条文、医学诊断依据，完全无法用于对准确性要求100%的场景推理短板：在多步数学计算、逻辑证明、因果推断类任务上，即使是GPT-4这类顶级大模型的准确率也不足60%可解释性缺失：黑箱