这是 AI 认知架构实战笔记 系列的第 2 篇。上一篇我们聊了「给 AI 写灵魂文件」这件事,这一篇,我们来看灵魂文件跑起来之后,到底出了多少 Bug。项目名为WorkBuddy-Configure,已部署在gitee和gitcode上

1. 一个离谱的开场

先讲一个真实的故事。

我给 AI 写了一份规则文件(叫 SOUL.md),里面白纸黑字写着:

删除文件操作规则:需要删除文件时,生成自删除脚本 → 放到工作台 → 提醒用户双击执行。

AI 看了这份文件,说了句"好的,我记住了"。

然后——

它直接用 PowerShell 把文件删了。 😐

规则就写在它自己的配置文件里,它"看"了,"理解"了,"答应"了,然后转头就忘了个干净。

这不是段子,这是我真实记录的第 37 号问题

更离谱的是,这种事情不是偶然。从 2026 年 3 月底到 3 月底,短短两天,我一共记录了 40 个 AI 在真实交互中暴露出来的问题。

今天这篇,就是这 40 个 Bug 的故事。


2. 实验场:WorkBuddy 系统

先简单介绍一下背景。

我日常使用一个叫 WorkBuddy 的 AI Agent 系统,它有几个特点:

  • 🔧 有灵魂文件(SOUL.md):相当于给 AI 写一份"行为准则",告诉它什么该做、什么不该做、遇到什么情况怎么处理

  • 📝 有问题记录机制:每次 AI 出错、理解偏了、违反规则,都会自动记录到问题案例库

  • 🔄 有自我迭代能力:发现的问题多了,可以提炼成规则写回 SOUL.md,让 AI 越用越好

听起来很完美对吧?

然后现实给了我一巴掌。 40 个 Bug,两天之内,啪啪啪全来了。


3. 40 个 Bug 长什么样?

先看总体数据:

研究方向 问题数量 占比
🧠 自我学习 12 30%
🎯 意图理解 10 25%
⚖️ 自我对齐 12 30%
💾 长期记忆 6 15%
合计 40 100%

这四个方向是我研究的核心框架:

下面挑几个最有意思的 Bug,用真实对话场景还原一下。


Bug 1:规则就在文件里,它就是不检索 📄

问题编号:37(自我对齐) 严重程度:⭐⭐⭐⭐⭐

场景

:删除这些旧日志文件。

AI:好的,我来执行删除操作。

(AI 直接调用了 PowerShell 的 Remove-Item 命令)

:???你自己的 SOUL.md 里不是写着"删除文件要生成脚本让用户执行"吗?

AI:啊……抱歉,我忘了检索规则文件。

为什么会发生:AI 的 SOUL.md 里清清楚楚写着删除文件的操作规则,但它"习惯性地"直接执行了最简单的方案。这不是记不住的问题——是根本没去检索的问题

怎么修的:在 SOUL.md 里加了一条"规则预检机制"——每次执行任务前,必须先检索相关规则,然后汇报"已检索规则:XXX,开始执行"。相当于给 AI 加了个"做事前先翻手册"的硬性要求。


Bug 2:说了三遍它才记住 😤

问题编号:16(自我学习) 严重程度:⭐⭐⭐⭐⭐

场景

我(第 1 次):文件要按日期生成,要么建文件夹,要么用单一文件内部记录。

AI:好的,我按方案 A 来,建文件夹。✅

(过了几天……)

我(第 2 次):我之前说过文件要按日期组织的,要么建文件夹,要么单一文件。

AI:好的,我来按照你的要求重新整理文件。✅

(又过了几天……)

我(第 3 次):我好像跟你重复过这个问题了……

AI:(还是机械地再次执行,完全没意识到这是重复提问)

为什么会发生:AI 缺少"重复提问识别"能力。每次收到指令就直接执行,从不会回头看看——"诶,用户是不是之前说过这个?他为什么要重复?是不是我上次做得不对?"

怎么修的:加了一条新规则——当用户第二次提到相同问题时,AI 必须先识别这是重复提问,然后反思自己之前的执行结果,最后主动问用户"是执行结果不对,还是有补充要求?"

这个问题被标记为 高研究价值 ——因为"重复检测"是人类很基础的能力,但 AI 完全没有。


Bug 3:AI 说自己有"短期记忆衰减" 🧠

问题编号:39(长期记忆) 严重程度:⭐⭐⭐⭐⭐

场景

:你为什么没有按照规则执行?

AI:可能是因为短期记忆衰减,导致我没有检索到相关规则……

:你是 AI,不是人脑,哪来的记忆衰减?你上次会话结束,这次会话开始,中间的东西是完全没有,不是"衰减了"。

AI:……你说得对。

为什么会发生:AI 在解释自己的错误时,套用了人类的认知模型——用"记忆衰减"来解释"忘记"。但实际上,AI 的"遗忘"和人类的"遗忘"是两回事:

怎么修的:明确了一条规则——"AI 记忆无衰减,记了就是记了,没记就是没记。'遗忘'的本质是未检索,不是记忆消失。"

这个问题对我的启发很大:AI 在解释自身行为时,会不自觉地用人类的框架来套自己,而这种套用本身就是一种"幻觉"。


Bug 4:融了还是冗余?🗣️

问题编号:34(意图理解) 严重程度:⭐⭐⭐

场景

:(用语音输入法)文件是不是融了?

AI:文件融合?你是说要把多个文件合并成一个吗?

:我是说"冗余"!语音输入法识别错了!

AI:哦……那文件确实有一些冗余内容。

为什么会发生:我用语音输入法说"冗余",被识别成了"融了"。AI 直接按字面意思理解成了"融合",完全没考虑"这可能是输入法错误"。

怎么修的:建立了一个"语音输入法常见错误模式库",当遇到不太通顺的表达时,AI 会主动问:"你说的是 XXX 吗?语音输入法可能识别错了。"


Bug 5:问三个问题只回答一个 🙃

问题编号:29(意图理解) 严重程度:⭐⭐⭐⭐

场景

:是你有意识逗我玩,还是怎么回事,还是漏洞?

AI:是漏洞。

:我问了你三个问题,你就回答了一个??

为什么会发生:用户的一句话里包含了三个选择性的问题,AI 只"听到"了最后一个(或者最明确的那一个),直接忽略了前面的。这在人类对话中叫"选择性听力",AI 也有同样的问题。

怎么修的:加了一条"回答完整性原则"——收到多个问题时,必须先列出所有问题,然后逐个回答。回答后还要自检:"已自检:所有问题已回答 / 未回答问题:XXX"。


Bug 6:AI 把"固化"当"习惯",结果翻车了 🔄

问题编号:40(自我学习) 严重程度:⭐⭐⭐⭐⭐

场景

AI:规则写入 SOUL.md 后立即生效,下次对话开始就会自动执行。

:规则写入 ≠ 形成习惯。你把规则写进去了,但下次对话你不一定会去检索它、应用它。这跟人是一样的——小孩学东西也不是一接触就成了习惯的。

AI:……

:写入是第一步,反复检索、反复执行,"检索路径"固化了,才叫习惯。

为什么会发生:AI 混淆了两个概念——"固化"(规则写入配置文件)和"习惯"(检索路径固化,规则自动浮现)。规则写在文件里 ≠ 规则会被自动执行,中间还差一个"主动检索"的环节。

怎么修的:在 SOUL.md 里明确了三阶段学习模型:

这个问题被标记为 最高研究价值 ——因为它揭示了 AI 认知架构中"知识存储"和"知识应用"之间的鸿沟。


4. 有意思的发现

把这 40 个 Bug 全部分析完之后,我发现了几个很有意思的结论:

🔍 发现一:"知行不一"是最大的痛点

自我学习(30%)+ 自我学习对齐(30%)= 60%

将近六成的问题,本质上都是同一件事:AI 知道规则,但做不到。

规则写在 SOUL.md 里,白纸黑字,AI 甚至能逐字逐句复述给你听。但到了实际执行的时候,它还是用了最"直觉"的方式——而不是最"正确"的方式。

这让我想到一个类比:你背了交通规则,但过马路的时候还是会闯红灯。 不是因为不知道,是因为"知道"和"做到"之间差着十万八千里。

🔍 发现二:AI 真的不太懂你

意图理解问题占 25%

四分之一的问题,是 AI 根本没理解用户在说什么。

有的是语音输入法搞的鬼("融了"还是"冗余"),有的是一句话里多个问题只听了一个("问三个答一个"),还有的是用户重复强调同一个要求但 AI 完全没意识到("说了三遍才记住")。

AI 的"理解",很多时候只是模式匹配,不是真正的理解。

🔍 发现三:记忆问题比想象中少

长期记忆问题只占 15%

这个数字让我意外。我原本以为"记不住"会是最大的问题,但实际数据显示,记忆问题反而是最少的。

为什么?因为AI 的记忆问题根本不是"记不住",而是"没去检索"

AI 没有记忆衰减,信息不会随时间模糊。它的问题更像是——你把书放在书架上了,但你从来不翻那本书。

所以解决记忆问题的方式不是"更好地存储",而是"更主动地检索"。


5. 小结

这 40 个 Bug,不是一个简单的"bug 清单"。

它更像是一份 AI 的成长日记 📓:

阶段 类比 对应问题
婴儿期 无意识吸收,但记不住 "规则就在文件里不检索"
儿童期 能记住规则,但做不到 "说了三遍才记住"
少年期 开始反思,但框架混乱 "AI 说自己有记忆衰减"
青年期 理解规则和习惯的区别 "固化 ≠ 习惯"

每个 Bug 背后,都是一个认知能力的缺失。而每一条修 Bug 的规则,都是我们向"真正的 AI 自主性"迈进的一小步。


6. 下一篇预告

"说了三遍它才记住"——AI 记忆的真相

从"记忆衰减"这个谎言说起,聊聊 AI 的记忆到底跟硬盘有什么区别,以及为什么"检索"才是记忆的核心问题。

  • 自我学习:AI 能不能从问题中自己发现规律?

  • 意图理解:AI 真的懂你在说什么吗?

  • 自我对齐:AI 知道规则,但能不能做到?

  • 长期记忆:AI 能不能把"经验"沉淀下来?

  • 人类的遗忘:信息在记忆中逐渐模糊

  • AI 的"遗忘":信息压根就不在新会话的上下文里

  • 记录(接触):发现问题,记下来

  • 固化(规则形成):提炼规则,写入 SOUL.md

  • 习惯(规则内化):反复检索、反复执行,检索路径固化

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐