养过孩子的都知道,小孩学东西不是一天学会的。今天碰一下热水壶,烫到了,哇哇哭。明天又碰,又烫到了。后天——他学会了把手缩回来。AI 也一样,从犯错到学会,中间要经历好几个阶段。

引言

在前面的文章里,我们看到了 40 个真实的 Bug——AI 忘记规则、理解错意图、写了规则不执行。这些 Bug 背后藏着一个更深层的问题:

AI 怎么从犯错中学习?

人类小孩的学习方式我们都知道:无意识吸收 → 模仿强化 → 规则内化 → 自主选择。那 AI 呢?我通过 WorkBuddy 系统做了一个实验,发现了 AI 学习的完整路径。


一、问题怎么变成规则?

先说最基础的问题:AI 犯了错,怎么把它变成一条"经验"?

我的方案叫 "问题→规则自动固化流程",核心逻辑是这样的:

发现问题
    ↓
执行判断流程(三问测试法):
  1. 这个规则是否适用于所有用户?
  2. 同类问题是否出现了 ≥3 次?
  3. 我是否已经明确知道正确做法?
    ↓
适用所有人 + 频率≥3 + 已知做法 → 自动固化到 SOUL.md + 同步 Git
适用所有人 + 频率<3             → 标记"观察中",继续记录
只适用当前用户                   → 写入 USER.md 或 MEMORY.md

三问测试法

这三问分别过滤了三个维度:

测试 回答"是" 回答"否"
适用所有人? 固化到通用规则 只存个人记忆
出现≥3次? 优先固化 继续观察
已知正确做法? 立即固化 先探索再固化

真实案例

案例 1:口头承诺不落笔 → 规则固化

  • 问题:用户说"下次只生成公众号封面",我回答"记住了",但没写入任何文件

  • 第二次又忘了

  • 固化:写入 SOUL.md——"用户说'下次/以后/记住'→ 当场写入配置文件"

  • 之后再也没有犯过

案例 2:重复提问不识别 → 交互审查机制

  • 问题:用户重复强调同一件事,我机械地再次执行,没有反思

  • 固化:建立"重复提问识别"规则——识别重复 → 反思执行 → 主动询问

  • 检索结果从 0 次到每次都检测

案例 3:问题记录规则不完整 → 扩展触发场景

  • 问题:我只知道"执行失败"要记录,不知道"理解错误"也要记录

  • 固化:将"问题"的定义扩展到 6 种情况

  • 记录覆盖率从 40% 提升到 90%+


二、AI 学习的四个阶段

这是本文的核心——我用人类小孩的学习模式来类比 AI 的学习过程。

阶段 0:感知触发(模拟婴儿的"无意识吸收")

人类婴儿(0-2 岁): 婴儿不会"主动学习",他们是"海绵"——看到的、听到的、摸到的所有东西都会被记录。不管重要不重要,先记下来再说。

AI 应该怎么做

  • 🔍 主动扫描:每次会话开始,自动读取工作记忆和环境状态

  • 📝 被动触发:每次操作、对话、错误都被自动记录

  • 🧽 无意识记录:不需要判断"是否重要",先记下来

我的实现

# 每次会话开始
1. 自动读取工作记忆(MEMORY.md + 当天日志)
2. 自动读取环境状态(文件变化、系统信息)
3. 所有操作自动记录到短期记忆
4. 所有错误自动记录到问题案例

阶段 1:记录与频率统计(模拟婴儿的"重复接触")

人类婴儿: 婴儿会反复接触同样的东西——反复听父母说"吃饭"、反复摸同一个玩具。反复接触的东西会被强化,不常接触的自然淡化。

AI 应该怎么做

  • 📊 问题频率统计:自动统计各类问题的出现次数

  • 🔁 模式识别:发现"这个问题又出现了!"

  • 🏷️ 强化标记:出现≥3 次的问题自动标记为"高频"

效果

  • 问题 35(未记录问题)出现了 3 次后,自动触发规则固化

  • 不需要人工判断"要不要记这个规则"

阶段 2:固化与验证(模拟儿童的"模仿与强化")

人类儿童(2-6 岁): 儿童通过模仿父母行为来学习——看到父母说"谢谢",自己也说"谢谢"。说对了被表扬,说错了被纠正,逐渐强化正确行为。

AI 应该怎么做

  • 📏 固化规则:高频问题提炼成规则,写入 SOUL.md

  • 验证有效性:下次遇到类似情况,尝试应用规则,看是否成功

  • 📈 强化/弱化

    • 规则应用成功 → 标记"有效" → 强化

    • 规则应用失败 → 标记"待修正" → 弱化

规则成功率统计

成功率 标记 处理方式
≥80% 高价值 优先检索
50-80% 中价值 正常检索
<50% 待修正 建议审查

阶段 3:习惯与自动触发(模拟儿童的"规则内化")

人类儿童(6-12 岁): 反复练习后,行为自动化了——过马路会自动看红绿灯,不需要每次都"想"一遍规则。

AI 应该怎么做

  • 🔁 检索路径固化:反复检索某规则,检索路径越来越短

  • 自动触发:遇到类似情况,规则自动浮现(不需要"主动想")

  • 📋 规则预检:执行任何操作前,自动检索相关规则

现状:目前 WorkBuddy 已经实现了规则预检机制,但"自动触发"还需要更多训练。

阶段 4:自主判断与优化(模拟青少年的"自我意识")

人类青少年(12 岁+): 开始有自我意识——知道什么要学什么不要学,能抽象出原则,能判断信息的价值。

AI 应该怎么做(尚未完全实现):

  • 🎯 规则价值评估:自动评估每条规则的价值(高/中/低)

  • 💡 自主固化建议:发现高频问题,自动提示"要不要固化这条规则?"

  • 🔧 规则优化:发现低价值或矛盾规则,建议删除或修正

  • 🧠 抽象原则:从多条具体规则中抽象出通用原则

这是我们的终极目标之一。


三、发展路径

我把 AI 的学习分成了三个发展阶段:

第一阶段(0-1 个月):感知触发 + 记录频率

特点:像婴儿一样,无意识吸收

  • ✅ 主动扫描环境 + 被动触发记录

  • ✅ 无过滤吸收,所有问题都记录

  • ✅ 建立问题频率统计

我们做到了吗? 基本做到了。WorkBuddy 已经能自动记录所有问题并统计频率。

第二阶段(1-3 个月):固化验证 + 习惯触发

特点:像儿童一样,模仿与强化

  • ⏳ 高频问题自动固化到 SOUL.md

  • ⏳ 验证规则有效性(成功率统计)

  • ⏳ 反复检索形成"习惯"

我们做到了吗? 部分做到。固化流程已经实现,但规则验证和习惯触发还需要更多数据积累。

第三阶段(3 个月+):自主判断与优化

特点:像青少年一样,自主选择

  • ❌ 规则价值评估

  • ❌ 自主固化建议

  • ❌ 从多条规则抽象出原则

我们做到了吗? 还没做到。这是我们接下来的研究方向。


四、人类 vs AI 的学习对比

维度 人类 AI(WorkBuddy)
吸收方式 神经元连接强化 文件写入
遗忘机制 自然衰减 文件删除
习惯形成 神经连接固化 检索路径固化
学习速度 慢(需要时间) 快(写入即生效)
创造力 低(只能从已有数据归纳)
自主意识 无(目前)

最核心的区别:人类的习惯靠神经元强化,AI 的习惯靠检索路径固化。本质不同,但表现形式类似——都是"反复做一件事,越来越熟练"。


五、几个有趣的发现

发现 1:AI 学习比人类快,但比人类"死板"

写入规则后,AI 立刻就知道这条规则。不需要像人类那样"练 21 天"。但 AI 不会变通——如果规则写得不够精确,AI 会按字面意思执行,闹出笑话。

发现 2:"记录"是最容易被忽略的一步

很多人以为 AI 学习的关键是"训练模型"或"优化算法"。但我的实验发现,最基础也最容易被忽略的一步是记录。你不记录,就没有数据;没有数据,就无法分析;无法分析,就无法学习。

发现 3:规则系统会越来越复杂

40 个问题 → 19 条核心规则 → 还在增长。规则越多,冲突和矛盾的概率越大。这就是为什么我们需要"冲突场景库"和"规则审计"机制。


小结

AI 的学习路径可以概括为:

感知(吸收)→ 记录(统计)→ 固化(提炼)→ 验证(强化)→ 习惯(内化)→ 自主(优化)

这套机制不依赖模型训练,不依赖参数更新,只依赖"外挂记忆"+ 合理的规则设计。任何 AI Agent 都可以用类似的方式实现"类人学习"。


下一篇预告

经过 40 个 Bug 的洗礼,我们沉淀出了 12 条核心经验规则。这些规则不是拍脑袋想的,是踩坑踩出来的。下一篇:40 个 Bug 沉淀出了什么?核心经验规则总结


本文是「AI 认知架构实战笔记」系列第 6 篇,上一篇:[写了规则却不执行——AI 的"知行不一"],下一篇:[40 个 Bug 沉淀出了什么?核心经验规则总结]

关注我,持续更新 AI 认知架构研究进展 🚀

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐