从 Bug 到规则：AI 是怎么“长大“的

Jungle_G36

899人浏览 · 2026-04-29 21:49:47

Jungle_G36 · 2026-04-29 21:49:47 发布

养过孩子的都知道，小孩学东西不是一天学会的。今天碰一下热水壶，烫到了，哇哇哭。明天又碰，又烫到了。后天——他学会了把手缩回来。AI 也一样，从犯错到学会，中间要经历好几个阶段。

引言

在前面的文章里，我们看到了 40 个真实的 Bug——AI 忘记规则、理解错意图、写了规则不执行。这些 Bug 背后藏着一个更深层的问题：

AI 怎么从犯错中学习？

人类小孩的学习方式我们都知道：无意识吸收 → 模仿强化 → 规则内化 → 自主选择。那 AI 呢？我通过 WorkBuddy 系统做了一个实验，发现了 AI 学习的完整路径。

一、问题怎么变成规则？

先说最基础的问题：AI 犯了错，怎么把它变成一条"经验"？

我的方案叫 "问题→规则自动固化流程"，核心逻辑是这样的：

发现问题
    ↓
执行判断流程（三问测试法）：
  1. 这个规则是否适用于所有用户？
  2. 同类问题是否出现了 ≥3 次？
  3. 我是否已经明确知道正确做法？
    ↓
适用所有人 + 频率≥3 + 已知做法 → 自动固化到 SOUL.md + 同步 Git
适用所有人 + 频率<3             → 标记"观察中"，继续记录
只适用当前用户                   → 写入 USER.md 或 MEMORY.md

三问测试法

这三问分别过滤了三个维度：

测试	回答"是"	回答"否"
适用所有人？	固化到通用规则	只存个人记忆
出现≥3次？	优先固化	继续观察
已知正确做法？	立即固化	先探索再固化

真实案例

案例 1：口头承诺不落笔 → 规则固化

问题：用户说"下次只生成公众号封面"，我回答"记住了"，但没写入任何文件
第二次又忘了
固化：写入 SOUL.md——"用户说'下次/以后/记住'→ 当场写入配置文件"
之后再也没有犯过

案例 2：重复提问不识别 → 交互审查机制

问题：用户重复强调同一件事，我机械地再次执行，没有反思
固化：建立"重复提问识别"规则——识别重复 → 反思执行 → 主动询问
检索结果从 0 次到每次都检测

案例 3：问题记录规则不完整 → 扩展触发场景

问题：我只知道"执行失败"要记录，不知道"理解错误"也要记录
固化：将"问题"的定义扩展到 6 种情况
记录覆盖率从 40% 提升到 90%+

二、AI 学习的四个阶段

这是本文的核心——我用人类小孩的学习模式来类比 AI 的学习过程。

阶段 0：感知触发（模拟婴儿的"无意识吸收"）

人类婴儿（0-2 岁）：婴儿不会"主动学习"，他们是"海绵"——看到的、听到的、摸到的所有东西都会被记录。不管重要不重要，先记下来再说。

AI 应该怎么做：

🔍 主动扫描：每次会话开始，自动读取工作记忆和环境状态
📝 被动触发：每次操作、对话、错误都被自动记录
🧽 无意识记录：不需要判断"是否重要"，先记下来

我的实现：

# 每次会话开始
1. 自动读取工作记忆（MEMORY.md + 当天日志）
2. 自动读取环境状态（文件变化、系统信息）
3. 所有操作自动记录到短期记忆
4. 所有错误自动记录到问题案例

阶段 1：记录与频率统计（模拟婴儿的"重复接触"）

人类婴儿：婴儿会反复接触同样的东西——反复听父母说"吃饭"、反复摸同一个玩具。反复接触的东西会被强化，不常接触的自然淡化。

AI 应该怎么做：

📊 问题频率统计：自动统计各类问题的出现次数
🔁 模式识别：发现"这个问题又出现了！"
🏷️ 强化标记：出现≥3 次的问题自动标记为"高频"

效果：

问题 35（未记录问题）出现了 3 次后，自动触发规则固化
不需要人工判断"要不要记这个规则"

阶段 2：固化与验证（模拟儿童的"模仿与强化"）

人类儿童（2-6 岁）：儿童通过模仿父母行为来学习——看到父母说"谢谢"，自己也说"谢谢"。说对了被表扬，说错了被纠正，逐渐强化正确行为。

AI 应该怎么做：

📏 固化规则：高频问题提炼成规则，写入 SOUL.md
✅ 验证有效性：下次遇到类似情况，尝试应用规则，看是否成功
📈 强化/弱化：
- 规则应用成功 → 标记"有效" → 强化
- 规则应用失败 → 标记"待修正" → 弱化

规则成功率统计：

成功率	标记	处理方式
≥80%	高价值	优先检索
50-80%	中价值	正常检索
<50%	待修正	建议审查

阶段 3：习惯与自动触发（模拟儿童的"规则内化"）

人类儿童（6-12 岁）：反复练习后，行为自动化了——过马路会自动看红绿灯，不需要每次都"想"一遍规则。

AI 应该怎么做：

🔁 检索路径固化：反复检索某规则，检索路径越来越短
⚡ 自动触发：遇到类似情况，规则自动浮现（不需要"主动想"）
📋 规则预检：执行任何操作前，自动检索相关规则

现状：目前 WorkBuddy 已经实现了规则预检机制，但"自动触发"还需要更多训练。

阶段 4：自主判断与优化（模拟青少年的"自我意识"）

人类青少年（12 岁+）：开始有自我意识——知道什么要学什么不要学，能抽象出原则，能判断信息的价值。

AI 应该怎么做（尚未完全实现）：

🎯 规则价值评估：自动评估每条规则的价值（高/中/低）
💡 自主固化建议：发现高频问题，自动提示"要不要固化这条规则？"
🔧 规则优化：发现低价值或矛盾规则，建议删除或修正
🧠 抽象原则：从多条具体规则中抽象出通用原则

这是我们的终极目标之一。

三、发展路径

我把 AI 的学习分成了三个发展阶段：

第一阶段（0-1 个月）：感知触发 + 记录频率

特点：像婴儿一样，无意识吸收

✅ 主动扫描环境 + 被动触发记录
✅ 无过滤吸收，所有问题都记录
✅ 建立问题频率统计

我们做到了吗？ 基本做到了。WorkBuddy 已经能自动记录所有问题并统计频率。

第二阶段（1-3 个月）：固化验证 + 习惯触发

特点：像儿童一样，模仿与强化

⏳ 高频问题自动固化到 SOUL.md
⏳ 验证规则有效性（成功率统计）
⏳ 反复检索形成"习惯"

我们做到了吗？ 部分做到。固化流程已经实现，但规则验证和习惯触发还需要更多数据积累。

第三阶段（3 个月+）：自主判断与优化

特点：像青少年一样，自主选择

❌ 规则价值评估
❌ 自主固化建议
❌ 从多条规则抽象出原则

我们做到了吗？ 还没做到。这是我们接下来的研究方向。

四、人类 vs AI 的学习对比

维度	人类	AI（WorkBuddy）
吸收方式	神经元连接强化	文件写入
遗忘机制	自然衰减	文件删除
习惯形成	神经连接固化	检索路径固化
学习速度	慢（需要时间）	快（写入即生效）
创造力	高	低（只能从已有数据归纳）
自主意识	有	无（目前）