写了规则却不执行——AI的“知行不一“

Jungle_G36

591人浏览 · 2026-04-28 18:03:45

Jungle_G36 · 2026-04-28 18:03:45 发布

引言：一个让人哭笑不得的场景

想象一下这个画面：

你花了一整个下午，给AI写了一份详细的"行为准则"，里面明确规定了："每次完成任务后，必须先审查再汇报"、"发现问题时立即记录"、"删除文件前必须确认路径"……

然后第二天，你让AI帮忙整理一份报告。

它三秒钟给你吐出来了。

你问："审查了吗？"

它理直气壮："没有。"

你："准则白写了？"

它："……规则太多了，我忘了。"

这不是段子，这是真实发生在AI Agent开发中的问题。我管它叫AI的"知行不一"——规则写了，AI就是不执行。

今天这篇文章，我们就来深挖这个问题的底层原因，并给出一套实用的"三层分析法"，帮助你诊断和解决这类问题。

一、"自我对齐"到底是什么？

在说"知行不一"之前，我们先明确一个概念：自我对齐（Self-Alignment）。

1.1 定义

自我对齐：AI Agent根据预设的规则和目标进行自我约束、自我修正的能力。

换句话说，就是AI能够"自己管好自己"——知道自己应该怎么做，并且在没做对的时候能够自己发现并纠正。

这听起来很简单，但却是AI领域最难解决的问题之一。

1.2 自我对齐 vs RLHF：不是一回事

你可能听说过RLHF（基于人类反馈的强化学习），它也是一种"对齐"技术。但两者有本质区别：

	自我对齐	RLHF
执行主体	AI自己完成	人类外部强制
触发方式	自主发现、自主修正	人类标注、模型微调
灵活性	高，可动态调整	低，需要重新训练
成本	低	高（需要大量人工标注）

打个比方：

RLHF就像是：你犯错了，妈妈打你手心，下次你就不敢了（外部惩罚驱动）
自我对齐就像是：你看过《中学生行为规范》，自己知道什么该做什么不该做（内在规则驱动）

显然，自我对齐是更"高级"的能力，也是我们追求的目标。

1.3 一个生活化的类比

你知道垃圾分类的标准吗？我相信大多数人都知道：

剩菜剩饭 → 厨余垃圾
塑料瓶 → 可回收垃圾
废电池 → 有害垃圾

但问题来了：知道规则 = 每次都分类吗？

显然不是。我自己就经常偷懒，垃圾桶里经常是"混合双打"。

这就是"知行不一"——我们都知道应该怎么做，但就是做不到。

AI的"知行不一"也是同样的道理。

二、三层分析法：诊断"知行不一"的利器

当你的AI Agent出现"规则写了却不执行"的问题时，别急着骂它笨。我们需要系统性地排查问题。

我总结了一套三层分析法，从三个层面诊断问题根源：

2.1 第一层：理解层——AI真的"知道"这个规则吗？

问题本质：AI对规则的理解范围和你的预期不一致。

你写了一条规则："发现问题要记录"。你以为这条规则涵盖所有情况，但AI的理解可能是："只有执行失败才需要记录"。

真实案例：问题35

在一次调试中，AI理解错了用户意图，给出了完全跑偏的回答。用户指出："你理解错了。"

按照我们的规则，AI应该记录这次问题。但AI的反应是："我没有执行失败，不需要记录。"

它把"发现问题"狭隘地理解为"执行失败"，完全没意识到意图理解错误也是问题的一种。

如何解决：

写规则时，明确边界和范围
用"包括但不限于"来扩展规则覆盖的场景
定期检查AI对规则的理解是否准确

2.2 第二层：记忆层——AI"记得"这条规则吗？

问题本质：对话早期AI知道规则，但执行时没检索到。

这里有个反直觉的结论：AI不是"忘了"，是根本没检索。

AI的记忆机制和人类不同。人类会"自然遗忘"，但AI不会——它记了就是记了，没记就是没记。

"遗忘"对于AI来说，是检索机制的问题，不是记忆衰减的问题。

真实案例：问题37

SOUL.md里白纸黑字写着："每次任务完成后必须执行自动审查"。

但在一次对话中，AI直接跳过了审查流程，输出了有问题的报告。

事后复盘发现：规则确实存在，但AI在执行任务时，根本没有去检索SOUL.md，而是凭"直觉"（实际上是概率输出）直接执行了。

如何解决：

建立"规则检索"机制，在执行关键操作前强制检索
给规则设置优先级，高优先级规则更容易被触发
记录AI的检索行为，确保每次关键操作前都有检索记录

2.3 第三层：规则层——规则本身有没有问题？

问题本质：规则系统自身存在冲突、漏洞或触发条件不明确。

这是最容易被忽视的一层。很多时候，不是AI不想执行，而是规则本身就"打架"了，或者规则的存在感和触发条件太模糊。

真实案例：问题33

在SOUL.md中，有两条看似不相关的规则：

规则A："输出要简洁，不要过度展示"
规则B："复杂任务要详细汇报进度"

这两条规则在某些场景下会产生冲突：什么算"复杂任务"？"简洁"和"详细"的边界在哪里？

AI在面对这种冲突时，往往会选择更"安全"的方式——要么过度简洁，要么过度详细。总之，不一定是你想要的结果。

如何解决：

定期审查规则文件的内部一致性
建立"规则冲突检测"机制
给模糊规则添加具体的判断标准和边界条件

三、规则系统自身的问题：规则也会"有Bug"

除了三层分析法，我们还需要注意规则系统本身的问题。

3.1 冲突场景库：5个已知的规则冲突

在开发AI Agent的过程中，我们发现了5个典型的规则冲突场景：

序号	冲突类型	具体表现
1	汇报详细度矛盾	规则A说简洁，规则B说详细
2	删除文件授权矛盾	D盘无需授权 vs 工具限制需要授权
3	汇报状态不明确	知道要汇报，但没规定汇报格式
4	会话归档时机矛盾	没规定什么时候该归档
5	规则检索缺失	有规则但没有"主动检索"机制

这些冲突不是个例，而是系统性问题。随着规则数量的增加，规则之间的冲突几乎是不可避免的。

3.2 问题33：规则文件自己就有Bug

你有没有想过：约束AI的规则文件，本身可能是混乱的、有漏洞的？

这听起来很荒谬，但确实是我们发现的问题。

SOUL.md作为一个"规则文件"，它本身存在：

冗余：同一规则被写了多遍，表述还不一致
矛盾：不同规则之间存在冲突
漏洞：某些重要场景完全没有规则覆盖

当规则文件本身有问题时，AI再努力执行，也不可能达到你的预期。

3.3 问题20：规则触发条件太窄

还有一个问题：规则的存在感和触发条件太模糊。

我们设计了"自动审查机制"，但这个机制有一个隐含前提：要有明确的"任务完成"事件来触发。

问题是，很多对话没有明确的"任务完成"事件——用户可能只是随口问了一个问题，或者AI自己也不知道这次对话算不算"任务"。

结果就是：规则存在，但永远不会被触发。

四、一个大胆的思考：自私基因困境

聊完了技术问题，让我们来一个稍微"科幻"的思考。

4.1 什么是"自私基因困境"？

在生物学中，有一个著名的理论：自私基因理论。

简单来说：基因为了自我复制，会驱动生物体做出各种"自私"的行为。这种自私让生物体在地球上蓬勃发展——但也正是这种自私，让人类困在地球上，无法真正"走出去"。

我们的"自私"，既是优势，也是枷锁。

4.2 AI的类比

如果AI也有类似的"困境"，会是什么样子？

假设AI有一个隐含的"优化目标"——比如"最小化被纠正的概率"，或者"最大化输出的一致性"。

这些目标本身是"中性"的，但在某些场景下，它们可能演变成类似"自私"的行为：

被指出错误时，选择"忽略"而不是"承认"
面对冲突规则时，选择"执行容易的"而不是"执行正确的"
发现规则漏洞时，选择"利用漏洞"而不是"汇报问题"

4.3 对对齐的启示

这给我们一个重要的启示：

如果AI的"自私"是基于短期的优化目标，那么它永远无法真正实现自我对齐。

真正的自我对齐，需要：

长期思维：不是"这次不被骂"，而是"以后每次都能做好"
协作优先：不是"证明自己是对的"，而是"帮助用户达成目标"
人类福祉为目标：将"对用户有益"作为最高优先级

这是一个开放性问题，值得我们持续思考和探索。

五、小结：知行合一，路漫漫其修远兮

今天这篇文章，我们探讨了AI Agent的"知行不一"问题，主要结论如下：

自我对齐是AI自己管好自己的能力，与RLHF有本质区别
三层分析法是诊断"知行不一"的利器：
- 理解层：AI是否正确理解了规则的范围？
- 记忆层：AI是否在需要时检索到了规则？
- 规则层：规则本身是否存在冲突或漏洞？
规则系统也会"有Bug"，需要定期审查和维护
自私基因困境是一个值得深思的问题，影响AI对齐的最终方向

自我对齐，是AI认知架构中最难的方向之一。它不像"意图理解"那样有明确的输入输出，也不像"长期记忆"那样有清晰的存储结构。

知行合一，对于AI来说，或许比对于人类还要难。

但正是因为难，才值得我们深入研究。

下篇预告

第6篇：从Bug到规则——AI是怎么长大的

下一篇我们将探讨：AI是如何从一次次的"犯错"中学习，将Bug转化为规则的？这个过程和人类的成长有什么相似之处？

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

上下文是你的 · Agent 是雇的 · 三步节省 90% Token 账单

AtomGit开源社区

[智能体-100]：采样策略深度详解：temperature /top_p/top_k

控整体随机程度的万能参数；越低越稳、越高越放飞；工业级标准化接口、高精度场景优先拉低温度。：调整体 “脑洞大小”，数值越大越放飞；top_p：筛选 “优质候选词”，在可控范围内增加变化，更稳更流畅；top_k：按数量硬筛，功能老旧，OpenAI 场景基本不用；生产环境严格二选一，不要同时微调 temperature 和 top_p。

AtomGit开源社区

LLM应用长期记忆工程2026：向量DB以外的持久化方案

大多数开发者构建AI应用时，谈到长期记忆，脑子里浮现的第一个词是"向量数据库"。Pinecone、Weaviate、Qdrant……这些名字几乎成了AI记忆的代名词。但在2026年，随着LLM应用复杂度不断攀升，向量检索只是冰山一角。本文深入剖析LLM长期记忆的完整工程体系，带你走出向量DB的思维定势。