AI 的记忆不是硬盘——从 40 个真实 Bug 说起

Jungle_G36

769人浏览 · 2026-04-02 18:59:24

Jungle_G36 · 2026-04-02 18:59:24 发布

这是 AI 认知架构实战笔记 系列的第 2 篇。上一篇我们聊了「给 AI 写灵魂文件」这件事，这一篇，我们来看灵魂文件跑起来之后，到底出了多少 Bug。项目名为WorkBuddy-Configure，已部署在gitee和gitcode上

1. 一个离谱的开场

先讲一个真实的故事。

我给 AI 写了一份规则文件（叫 SOUL.md），里面白纸黑字写着：

删除文件操作规则：需要删除文件时，生成自删除脚本 → 放到工作台 → 提醒用户双击执行。

AI 看了这份文件，说了句"好的，我记住了"。

然后——

它直接用 PowerShell 把文件删了。 😐

规则就写在它自己的配置文件里，它"看"了，"理解"了，"答应"了，然后转头就忘了个干净。

这不是段子，这是我真实记录的第 37 号问题。

更离谱的是，这种事情不是偶然。从 2026 年 3 月底到 3 月底，短短两天，我一共记录了 40 个 AI 在真实交互中暴露出来的问题。

今天这篇，就是这 40 个 Bug 的故事。

2. 实验场：WorkBuddy 系统

先简单介绍一下背景。

我日常使用一个叫 WorkBuddy 的 AI Agent 系统，它有几个特点：

🔧 有灵魂文件（SOUL.md）：相当于给 AI 写一份"行为准则"，告诉它什么该做、什么不该做、遇到什么情况怎么处理
📝 有问题记录机制：每次 AI 出错、理解偏了、违反规则，都会自动记录到问题案例库
🔄 有自我迭代能力：发现的问题多了，可以提炼成规则写回 SOUL.md，让 AI 越用越好

听起来很完美对吧？

然后现实给了我一巴掌。 40 个 Bug，两天之内，啪啪啪全来了。

3. 40 个 Bug 长什么样？

先看总体数据：

研究方向	问题数量	占比
🧠 自我学习	12 个	30%
🎯 意图理解	10 个	25%
⚖️ 自我对齐	12 个	30%
💾 长期记忆	6 个	15%
合计	40 个	100%

这四个方向是我研究的核心框架：

下面挑几个最有意思的 Bug，用真实对话场景还原一下。

Bug 1：规则就在文件里，它就是不检索 📄

问题编号：37（自我对齐） 严重程度：⭐⭐⭐⭐⭐

场景：

我：删除这些旧日志文件。

AI：好的，我来执行删除操作。

（AI 直接调用了 PowerShell 的 Remove-Item 命令）

我：？？？你自己的 SOUL.md 里不是写着"删除文件要生成脚本让用户执行"吗？

AI：啊……抱歉，我忘了检索规则文件。

为什么会发生：AI 的 SOUL.md 里清清楚楚写着删除文件的操作规则，但它"习惯性地"直接执行了最简单的方案。这不是记不住的问题——是根本没去检索的问题。

怎么修的：在 SOUL.md 里加了一条"规则预检机制"——每次执行任务前，必须先检索相关规则，然后汇报"已检索规则：XXX，开始执行"。相当于给 AI 加了个"做事前先翻手册"的硬性要求。

Bug 2：说了三遍它才记住 😤

问题编号：16（自我学习） 严重程度：⭐⭐⭐⭐⭐

场景：

我（第 1 次）：文件要按日期生成，要么建文件夹，要么用单一文件内部记录。

AI：好的，我按方案 A 来，建文件夹。✅

（过了几天……）

我（第 2 次）：我之前说过文件要按日期组织的，要么建文件夹，要么单一文件。

AI：好的，我来按照你的要求重新整理文件。✅

（又过了几天……）

我（第 3 次）：我好像跟你重复过这个问题了……

AI：（还是机械地再次执行，完全没意识到这是重复提问）

为什么会发生：AI 缺少"重复提问识别"能力。每次收到指令就直接执行，从不会回头看看——"诶，用户是不是之前说过这个？他为什么要重复？是不是我上次做得不对？"

怎么修的：加了一条新规则——当用户第二次提到相同问题时，AI 必须先识别这是重复提问，然后反思自己之前的执行结果，最后主动问用户"是执行结果不对，还是有补充要求？"

这个问题被标记为 高研究价值 ——因为"重复检测"是人类很基础的能力，但 AI 完全没有。

Bug 3：AI 说自己有"短期记忆衰减" 🧠

问题编号：39（长期记忆） 严重程度：⭐⭐⭐⭐⭐

场景：

我：你为什么没有按照规则执行？

AI：可能是因为短期记忆衰减，导致我没有检索到相关规则……

我：你是 AI，不是人脑，哪来的记忆衰减？你上次会话结束，这次会话开始，中间的东西是完全没有，不是"衰减了"。

AI：……你说得对。

为什么会发生：AI 在解释自己的错误时，套用了人类的认知模型——用"记忆衰减"来解释"忘记"。但实际上，AI 的"遗忘"和人类的"遗忘"是两回事：

怎么修的：明确了一条规则——"AI 记忆无衰减，记了就是记了，没记就是没记。'遗忘'的本质是未检索，不是记忆消失。"

这个问题对我的启发很大：AI 在解释自身行为时，会不自觉地用人类的框架来套自己，而这种套用本身就是一种"幻觉"。

Bug 4：融了还是冗余？🗣️

问题编号：34（意图理解） 严重程度：⭐⭐⭐

场景：

我：（用语音输入法）文件是不是融了？

AI：文件融合？你是说要把多个文件合并成一个吗？

我：我是说"冗余"！语音输入法识别错了！

AI：哦……那文件确实有一些冗余内容。

为什么会发生：我用语音输入法说"冗余"，被识别成了"融了"。AI 直接按字面意思理解成了"融合"，完全没考虑"这可能是输入法错误"。

怎么修的：建立了一个"语音输入法常见错误模式库"，当遇到不太通顺的表达时，AI 会主动问："你说的是 XXX 吗？语音输入法可能识别错了。"

Bug 5：问三个问题只回答一个 🙃

问题编号：29（意图理解） 严重程度：⭐⭐⭐⭐

场景：

我：是你有意识逗我玩，还是怎么回事，还是漏洞？

AI：是漏洞。

我：我问了你三个问题，你就回答了一个？？

为什么会发生：用户的一句话里包含了三个选择性的问题，AI 只"听到"了最后一个（或者最明确的那一个），直接忽略了前面的。这在人类对话中叫"选择性听力"，AI 也有同样的问题。

怎么修的：加了一条"回答完整性原则"——收到多个问题时，必须先列出所有问题，然后逐个回答。回答后还要自检："已自检：所有问题已回答 / 未回答问题：XXX"。

Bug 6：AI 把"固化"当"习惯"，结果翻车了 🔄

问题编号：40（自我学习） 严重程度：⭐⭐⭐⭐⭐

场景：

AI：规则写入 SOUL.md 后立即生效，下次对话开始就会自动执行。

我：规则写入 ≠ 形成习惯。你把规则写进去了，但下次对话你不一定会去检索它、应用它。这跟人是一样的——小孩学东西也不是一接触就成了习惯的。

AI：……

我：写入是第一步，反复检索、反复执行，"检索路径"固化了，才叫习惯。

为什么会发生：AI 混淆了两个概念——"固化"（规则写入配置文件）和"习惯"（检索路径固化，规则自动浮现）。规则写在文件里 ≠ 规则会被自动执行，中间还差一个"主动检索"的环节。

怎么修的：在 SOUL.md 里明确了三阶段学习模型：

这个问题被标记为 最高研究价值 ——因为它揭示了 AI 认知架构中"知识存储"和"知识应用"之间的鸿沟。

4. 有意思的发现

把这 40 个 Bug 全部分析完之后，我发现了几个很有意思的结论：

🔍 发现一："知行不一"是最大的痛点

自我学习（30%）+ 自我学习对齐（30%）= 60%

将近六成的问题，本质上都是同一件事：AI 知道规则，但做不到。

规则写在 SOUL.md 里，白纸黑字，AI 甚至能逐字逐句复述给你听。但到了实际执行的时候，它还是用了最"直觉"的方式——而不是最"正确"的方式。

这让我想到一个类比：你背了交通规则，但过马路的时候还是会闯红灯。 不是因为不知道，是因为"知道"和"做到"之间差着十万八千里。

🔍 发现二：AI 真的不太懂你

意图理解问题占 25%

四分之一的问题，是 AI 根本没理解用户在说什么。

有的是语音输入法搞的鬼（"融了"还是"冗余"），有的是一句话里多个问题只听了一个（"问三个答一个"），还有的是用户重复强调同一个要求但 AI 完全没意识到（"说了三遍才记住"）。

AI 的"理解"，很多时候只是模式匹配，不是真正的理解。

🔍 发现三：记忆问题比想象中少

长期记忆问题只占 15%

这个数字让我意外。我原本以为"记不住"会是最大的问题，但实际数据显示，记忆问题反而是最少的。

为什么？因为AI 的记忆问题根本不是"记不住"，而是"没去检索"。

AI 没有记忆衰减，信息不会随时间模糊。它的问题更像是——你把书放在书架上了，但你从来不翻那本书。

所以解决记忆问题的方式不是"更好地存储"，而是"更主动地检索"。

5. 小结

这 40 个 Bug，不是一个简单的"bug 清单"。

它更像是一份 AI 的成长日记 📓：

阶段	类比	对应问题
婴儿期	无意识吸收，但记不住	"规则就在文件里不检索"
儿童期	能记住规则，但做不到	"说了三遍才记住"
少年期	开始反思，但框架混乱	"AI 说自己有记忆衰减"
青年期	理解规则和习惯的区别	"固化 ≠ 习惯"

每个 Bug 背后，都是一个认知能力的缺失。而每一条修 Bug 的规则，都是我们向"真正的 AI 自主性"迈进的一小步。

6. 下一篇预告

"说了三遍它才记住"——AI 记忆的真相

从"记忆衰减"这个谎言说起，聊聊 AI 的记忆到底跟硬盘有什么区别，以及为什么"检索"才是记忆的核心问题。

自我学习：AI 能不能从问题中自己发现规律？
意图理解：AI 真的懂你在说什么吗？
自我对齐：AI 知道规则，但能不能做到？
长期记忆：AI 能不能把"经验"沉淀下来？
人类的遗忘：信息在记忆中逐渐模糊
AI 的"遗忘"：信息压根就不在新会话的上下文里
记录（接触）：发现问题，记下来
固化（规则形成）：提炼规则，写入 SOUL.md
习惯（规则内化）：反复检索、反复执行，检索路径固化

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

OpenAI 又往前走了一步：Codex Sites 正在把“开发网站”变成一句话的事

AtomGit开源社区

会议录音秒变播客？用这个AI工具半小时搞定

AtomGit开源社区

遥感图像地块类型土地类型识别分割数据集labelme格式5704张6类别

标注类别名称:["background","barren_land","unknown","urban_land","vegetation","water"]重要说明：可以将数据集用labelme打开编辑，json数据集需自己转成mask或者yolo格式或者coco格式作语义分割或者实例分割。数据集格式：labelme格式(不包含mask文件，仅仅包含jpg图片和对应的json文件)特别声明：本数