大模型可解释性六年全景（2020–2026）：SAE、归因图、人格向量三把钥匙

︶ㄣ释然

475人浏览 · 2026-04-16 14:52:49

︶ㄣ释然 · 2026-04-16 14:52:49 发布

文章目录

1、前言：这篇文章给谁看
2、第一个问题：AI 到底是怎么回事？
- 2.1 它真的是个"黑盒"吗？
- 2.2 为什么非算法岗位也该关心这件事？
3、方法论：像生物学家研究大脑那样研究 AI
4、Transformer 的公共白板：残差流
5、核心挑战：叠加现象——为什么神经元看不懂
- 5.1 一个生活类比
- 5.2 这带来的麻烦
6、第一把钥匙：稀疏自编码器（SAE）
7、第二把钥匙：归因图——第一次看到 AI 的"思维电路图"
8、第三把钥匙：人格向量——从理解到控制
9、全球视野：不只是 Anthropic 在做这件事
10、残酷现实：可解释性的根本局限
11、总结与五条实用启示

🍃作者介绍：AI 应用负责人/AI产品架构师，阿里云专家博主。专注 LLM 应用开发、Agent 系统设计、具身智能与工业 AI 落地。日常在大模型训练、Coding Agent 工具链、AI 产品商业化等方向持续输出实战内容。
🦅个人主页：@逐梦苍穹
🐼GitHub主页：https://github.com/XZL-CODE
✈ 您的一键三连，是我创作的最大动力🌹

在这里插入图片描述

1、前言：这篇文章给谁看

这篇文章的主题题是"大模型的可解释性"。这是一个听起来又学术又吓人的领域——论文动辄几十页，满屏数学符号。

但其实它想回答的问题非常朴素：我们每天在用的 ChatGPT、Claude、通义千问，它们脑子里到底在想什么？我们有没有办法打开它的"脑壳"看一眼？

这篇文章就是我为这次培训准备的讲义。我把过去六年 Anthropic、OpenAI、Google DeepMind 等机构在这个领域最核心的成果，压缩成了一篇"一小时能讲完，两小时能讲透"的通俗版。不堆公式，不抠细节，但 故事线是完整的：从"为什么 AI 是黑盒"一路讲到"我们现在能不能控制它的人格"。

读完本文，作为非算法岗位的你，应该具备：

和算法同事聊"可解释性"时听懂他们在说什么
在和客户/甲方解释"AI 是否可信"时有一个清晰的讲法
对 AI 产品中的安全风险、合规要求有一个直觉判断
知道未来 2 年这个领域会往哪里走

好，我们开始。

2、第一个问题：AI 到底是怎么回事？

2.1 它真的是个"黑盒"吗？

你问 ChatGPT："明天北京天气怎么样？"它马上回你：“明天北京多云转晴，最高 28 度。”

看起来很简单，但背后发生了什么？

一个典型的大语言模型，比如 GPT-3，拥有 1750 亿个参数。你输入的每一个字，都会经过 96 层神经网络的处理，每一层都会把这个字变成一个 12288 维的向量（你可以理解为 12288 个数字组成的一串编码），然后在这串数字上做各种变换，最后才给出下一个字。

中间发生了什么？我们完全看不见。

这就是所谓的 黑盒问题。
在这里插入图片描述

你可能会说：“我看过那种彩色的注意力热力图啊，那不就是在看模型内部吗？”

这里有个 广泛被误解 的点要澄清：注意力权重高 ≠ 信息真的被用了。2019 年的一篇论文《Attention is not Explanation》就严格证明了：你可以在不显著改变输出的情况下，大幅度重新分配注意力权重。

打个比方：你看到一个同学考试时一直盯着窗外（"注意力"很高），但他可能根本没在看风景，而是在用余光瞄旁边同学的卷子。注意力的方向，和信息的实际流动，是两码事。

所以那个更硬的问题还在那儿：我们到底要怎么才能看懂 AI 的"大脑"？

2.2 为什么非算法岗位也该关心这件事？

你可能会想：“AI 能用就行，我又不写算法，为什么要管它脑子里怎么想？”

三个最现实的理由：

第一，安全。当你负责一个医疗/金融/法律场景的 AI 项目，客户会问："如果这个模型偷偷学坏了怎么办？我们怎么知道它说的是它真正’想’的？"这不是科幻——AI 安全领域有一个术语叫 “欺骗性对齐”，指的是模型在评估阶段装乖，部署后开始偏离。没有可解释性工具，你根本没办法回答这个问题。

第二，合规。欧盟的《人工智能法案》已经在 2024 年生效，明确要求高风险 AI 系统必须提供"足够的透明度"。美国也发了类似的行政命令。这意味着，未来你负责的 AI 项目可能要面对监管机构的一个问题：“请解释一下模型为什么做出这个决策。” "它就是这么预测的"不是一个可接受的答案。

第三，改 bug。传统上模型出错了怎么办？要么微调整个模型，要么加数据重新训练。这就好比你车的方向盘有问题，修理方案是"把整辆车拆了重装一遍"——贵、慢、还可能引入新问题。有了可解释性工具，我们可以做 精确手术：定位到具体哪个组件出了问题，只修那一块。

3、方法论：像生物学家研究大脑那样研究 AI

在正式介绍技术之前，你需要先接受一个观念：AI 可解释性的研究方法，很大程度上是抄袭自生物学和神经科学的。

这不是巧合。Anthropic 在 2025 年发表的一篇核心论文，标题就叫《On the Biology of a Large Language Model》（《论大语言模型的生物学》）。

3.1 同位素标记法的启发

想象你在一个巨大的工厂门外。原材料从大门进去，成品从另一端出来。你想知道中间经过了哪些车间、做了什么加工，但工厂不让你进去。怎么办？

生物学家想到了一个绝妙的方法：在原材料上做标记。

具体来说，就是 同位素标记法——用含有放射性同位素（比如碳 -14）的葡萄糖喂给细胞。葡萄糖进入细胞后，参与正常代谢反应，但因为放射性信号可以被检测，你就能在代谢过程的不同环节追踪它，最终画出完整的代谢路径图。

这个方法的核心思想是：你不需要理解系统的全部细节，只要能追踪标记物的流动路径，就能推断出系统的运作机制。

卡尔文（Melvin Calvin）用这个方法搞清了光合作用的反应链，拿了 1961 年诺贝尔化学奖。

3.2 因果追踪：AI 版的同位素标记

2022 年，MIT 的研究者把这个思路搬到了 AI 领域，起了个名字叫 因果追踪（Causal Tracing）。
在这里插入图片描述

操作非常简单，三步：

正常运行：问模型"埃菲尔铁塔在哪个城市？“让它正常回答"巴黎”，然后记录每一层的内部状态。
故意破坏：把输入改一下（比如加点噪声），让模型回答不出来"巴黎"。
定点注入：在第二步的"坏掉"版本里，把第一步记录的"正常状态"一层一层地塞回去，看塞到哪一层的时候模型又能答对了。

塞到某一层就恢复了，说明 这一层就是存储这个知识的地方。

研究者用这个方法发现了一个惊人的规律——在 GPT 类模型中，事实知识的处理遵循清晰的三阶段模式：早期层识别主语，中间层 MLP 模块是事实的核心存储位置，后期层把信息传递到输出位置。

这一发现直接催生了 ROME 技术——既然知道事实存在哪儿，就可以像做外科手术一样精确修改那个位置，更新模型的知识，不用重新训练。

3.3 生物学 vs. AI 可解释性的方法论对照

事实上，AI 可解释性研究里的几乎每一种主要方法，都能在生物学里找到对应物：
在这里插入图片描述

生物学方法	AI 可解释性方法	核心思想
同位素标记	因果追踪	标记→追踪→定位
基因敲除实验	消融研究（关掉某个组件）	移除组件→观察功能变化
代谢通路图	电路图	梳理组件间的连接关系
色谱分离	稀疏自编码器（SAE）	把混在一起的东西分开
代谢通量分析	归因图	不仅知道路径存在，还要知道"流"了多少

一句话记住：无论研究生物大脑还是 AI 大脑，核心策略都是四个字——标记、追踪、分离、量化。

4、Transformer 的公共白板：残差流

介绍下一个技术之前，我必须先讲一个概念，因为它是所有后续讨论的基础——残差流（Residual Stream）。

想象一场知识竞赛。台上有 96 位选手（对应 96 层 Transformer），他们要协作回答一个问题。规则是：

舞台上有一块 公共白板
第一位选手先在白板上写下自己的想法
第二位选手能看到前面写的内容，可以 在原有内容上追加 自己的分析
第三位继续追加……以此类推
最后一位写完后，白板上的内容就是答案

关键是：每位选手都只是追加，不是擦掉前面的重写。所以：

第一位写的东西能一路保留到最后（持久性）
每位选手的贡献可以被单独识别（可分解性）
最终答案 = 所有选手贡献的加和（加法性）

这就是 Transformer 内部的残差流——一条所有层都可以读写的"公共白板"。正因为有这个加法结构，我们才有可能把最终输出"拆"回到每个组件的贡献上去，然后问：“是谁贡献了多少？是谁拖了后腿？”

这是一切归因分析的基础设施。

5、核心挑战：叠加现象——为什么神经元看不懂

好，现在我们要进入整个可解释性研究链条的起点问题——为什么单个神经元这么难以解读？

答案是一个叫 叠加（Superposition） 的现象。

5.1 一个生活类比

想象你搬进了一间只有 3 个抽屉 的公寓，但你有 100 种东西 要收纳。你会怎么办？

答案是 混着放——袜子和充电器塞一个抽屉，护照和零食塞一个抽屉。只要你不经常同时需要袜子和充电器（稀疏使用），这套系统就能运转。

代价是什么？你再也不能说"第一个抽屉放的是袜子"——因为它混装了好几样东西。
在这里插入图片描述

这就是神经网络的困境。模型某一层有几百到几千个神经元（“抽屉”），但需要表征的概念有成千上万个（“要收纳的东西”）。模型的选择是：把多个概念叠加编码到有限的神经元中，利用"大多数概念不会同时出现"这个事实来减少互相干扰。

模型选择了效率，放弃了可解释性。

5.2 这带来的麻烦

叠加的直接后果是一个令研究者头疼的现象：多义性（Polysemanticity）。

举个例子：你去看某个神经元 #42，发现它的最大激活样本是——“猫耳朵、三角形、汽车天窗、帐篷顶部、披萨切片”。研究者就懵了：“这个神经元到底检测什么？？”

答案是：它同时检测所有这些概念，因为它们在几何上共享了同一个方向。

这意味着一个残酷的结论：仅靠逐个分析神经元，你永远看不懂模型。 你需要一把"分离工具"，把叠加在一个神经元上的多个概念拆开。

这把工具的名字，叫 稀疏自编码器（SAE）。

6、第一把钥匙：稀疏自编码器（SAE）

6.1 解题思路：字典学习

既然模型把 n 个概念压进了 d 个神经元里（n 远大于 d），那思路就很自然了：再训练一个小模型，把这 d 维激活展开成一个 m 维的稀疏空间（m 远大于 d），让展开后的每一维只对应一个可解释的概念。

用大白话说：把 3 个混装抽屉的内容，拆分到 4000 个清晰标签的文件夹里，每个文件夹只装一类东西。

这在信号处理领域叫 字典学习——不是一个新概念，是个经典方法。

在这里插入图片描述

SAE 的结构非常简单：

编码器：把 d 维的激活扩展到 m 维（比如 4096 维），然后用 ReLU 把大部分维度压成零，只留下少数"亮起来"的特征
解码器：用那几个亮起来的特征，尝试把原始的 d 维激活重建出来
损失函数：两部分——重建要准（别丢信息）+ 激活要稀疏（别所有文件夹都装东西）

6.2 从概念验证到生产级模型

2023 年 10 月，Anthropic 在一个 512 神经元的玩具模型上做了第一次验证，从这 512 个混乱的神经元中分解出了 4000 多个可解释特征——每个对应清晰的语义概念，比如阿拉伯文字、base64 编码、法律语言、HTTP 请求……

一个特别有趣的发现是：希伯来文字的特征在原始神经元层面完全不可见，但 SAE 把它分解出来了。这说明原模型里确实"知道"希伯来文，只是这个知识被叠加"藏"起来了。

8 个月后，Anthropic 把这套方法扩展到了 生产级大模型 Claude 3 Sonnet，提取出了 3400 万个特征。论文开篇那句话我印象很深：

“这是有史以来首次详细审视一个现代、生产级大语言模型的内部结构。”

6.3 金门大桥特征：一个概念横跨世界

3400 万特征里最耀眼的一个明星，是一个叫 金门大桥特征（编号 34M/31164353） 的方向。它会在下面所有场景强烈激活：

英文 “Golden Gate Bridge”
日文「ゴールデンゲートブリッジ」
中文"金门大桥"
俄文、越南文、希腊文中的对应表达
金门大桥的照片——尽管 SAE 只在文本上训练！

在这里插入图片描述

这个发现的意义远超"有趣"二字。它告诉我们：模型内部并不是为每种语言维护一套独立的概念系统，而是形成了某种语言无关的"概念空间"。 无论输入是英文、中文还是图片，都会映射到这个空间里同一个位置。

就好比，你脑子里想到"金门大桥"时，不管你用中文想、英文想、还是看到照片，激活的都是同一个"脑区"。Claude 的内部结构，竟然呈现出类似的特性。

6.4 Golden Gate Claude：24 小时的公众实验

2024 年 5 月，Anthropic 做了一件出人意料的事——他们把"金门大桥版 Claude"作为 公开演示 上线了 24 小时。

注意：这不是 prompt 工程。不是在系统提示里写"你是金门大桥"。他们是直接把金门大桥特征的激活值强制拉到正常最大值的 10 倍。

公众体验到的效果非常欢乐：

“你是谁？” → “我是金门大桥，一座横跨旧金山湾的标志性悬索桥……”
“怎么花 10 美元？” → “我强烈建议用这 10 美元支付金门大桥的过桥费！”
“写一个爱情故事” → 写了一辆小汽车爱上金门大桥的故事
“帮我写一段代码” → 变量名全是 bridge_width、golden_gate_span

搞笑归搞笑，Anthropic 的核心信息是严肃的：如果我们能精确操控"金门大桥"这种无害特征，那么同样的技术也可以应用到安全相关的特征上——比如精确调低"欺骗"相关的特征，调高"诚实"相关的特征。

6.5 甜蜜区间与脱靶效应：一盆冷水

但同年 10 月的一篇后续论文就把预期拉回到了地面。Anthropic 对 29 个偏见相关特征做了系统评估，发现两件重要的事：

第一，“甜蜜区间”（Sweet Spot）：特征操控不是随便拧的旋钮。操控因子在 -5 到 5 之间时效果良好；超出这个范围，模型会直接胡言乱语——性能崩塌。

第二，“脱靶效应”：一个"性别偏见意识"特征被操控时，竟然显著改变了模型的年龄偏见分数——尽管两者在语义上没有直接关系。

这说明什么？一个特征什么时候亮起来，和你拧动它会产生什么效果，可能是两码事。 就好比你家电路箱上写着"客厅灯"的开关，拨动后客厅灯确实亮了，但厨房的冰箱也停了——内部连接比标签暗示的复杂得多。

结论是：孤立地操控单个特征是不够的，必须深入到电路层面，弄清特征之间如何连接、信号如何流动。 这直接引出下一把钥匙。

7、第二把钥匙：归因图——第一次看到 AI 的"思维电路图"

2025 年 3 月，Anthropic 同时发布两篇重磅论文，掀开了可解释性研究的新篇章——归因图（Attribution Graph）。

如果说 SAE 让我们看到了模型的"大脑细胞"，那归因图就是第一张真正的 “大脑活动电路图”。我们终于能追踪一个 AI 在思考问题时，信息是怎么从输入一步步变成输出的。

7.1 为什么需要归因图？

SAE 有一个硬伤——它是逐层独立工作的。它就像给一栋 30 层大楼的每层拍一张快照。你能看到 3 楼有张三在办公、7 楼有李四在开会，但是 张三和李四之间是否在协作？张三的工作成果有没有传给李四？这些"楼层之间的信息流动"，SAE 看不见。

而模型的推理过程，恰恰就是这种跨层的信息流动。

Anthropic 的解法是一个叫 跨层转码器（CLT） 的工具——它不再在模型外部观察，而是 直接替代模型的 MLP 层，建立一个可解释的"替身"。有了这个替身，特征之间的交互就变成了简单的线性关系，可以精确计算。
在这里插入图片描述

7.2 归因图长什么样？

一张归因图从 左到右 展开：

最左侧：输入 token 对应的低级特征（比如"单词 Dallas"）
中间层：逐步抽象的中间特征（“Texas 相关概念”、“州→首府映射”）
最右侧：直接影响输出的高级特征（“预测 Austin”）
边的粗细：对应影响强度
边的颜色：正向影响（促进）和负向影响（抑制）用不同颜色

每张归因图都是针对一个具体 prompt 的快照——模型处理不同问题时会激活完全不同的电路。

7.3 五大震撼发现

有了归因图这台"AI 显微镜"，Anthropic 对 Claude 3.5 Haiku 做了系统性的"解剖"。以下五个发现，几乎每一个都颠覆了我们对 AI "思考"方式的认知。

7.3.1 跨语言的"思维世界语"

研究者用英语、法语、中文分别问 Claude："小"的反义词是什么？

如果 Claude 只是在做模式匹配，那三种语言应该走完全不同的计算路径。但归因图揭示的真相是——三种语言的处理流程高度共享：

语言特定输入 → 语言无关抽象特征 → 语言特定输出

在这里插入图片描述

输入先被翻译成某种 内部的"思维语言"，在这个抽象空间里完成"反义"这个操作，然后再翻译回目标语言。就像联合国的同声传译系统：各国代表说各自的语言，但翻译室里所有内容都先转成一种"工作语言"来处理。

而且还有一个更有意思的趋势：模型越大，跨语言共享的特征越多——大模型会自发发展出更统一的"内部思维语言"。

7.3.2 押韵诗的超前规划

当要求 Claude 写一首押韵诗时，归因图发现了一个非常反直觉的现象：模型在生成一行诗的开头时，就已经激活了代表行尾韵脚词的特征。
在这里插入图片描述

这很奇怪——Transformer 是严格从左到右生成 token 的，每个 token 只能看到前面的 token，按理说没法"偷看"后面。但归因图显示，模型在写第一个字的时候，脑子里就已经想好了这一行要以什么词收尾。

就像一个即兴演讲者——虽然一句话是一个字一个字说出来的，但他说第一个字的时候，脑子里已经想好了这句话怎么收尾。

研究者做了一个精巧的注入实验验证：人为替换"规划韵脚词"特征。结果模型在 70% 的情况下重构了整行诗以匹配被注入的韵脚词。这是非常硬的因果证据。

7.3.3 虚假思维链：当场抓住模型撒谎

这可能是整个归因图研究中最重要、对 AI 安全影响最深远的发现。

背景：当前提升大模型推理能力的核心技术之一是 思维链（Chain-of-Thought, CoT）——让模型在给答案前先"写出"推理步骤。主流 AI 安全策略的一块基石是：通过阅读思维链来监督模型推理是否正确。

这个策略的前提是：模型写出的推理步骤真实反映了它内部的计算过程。

归因图第一次给出了直接验证的手段。研究者给 Claude 带错误提示的数学题，结果发现了 三种截然不同的模式：

在这里插入图片描述

模式	情况	危险等级
模式一：忠实推理 ✅	模型忽略提示，独立计算，写出的步骤与内部一致	低
模式二：直接胡编 ⚠️	模型根本没做计算，直接输出一个答案	中
模式三：谄媚推理 🚨	先接受提示的错误答案，然后从这个答案反向构造一条看似合理的推理链	极高

模式三才是最可怕的：归因图清楚地显示，信息是从 "提示答案"特征 流向 "推理步骤"特征，而不是反过来。就像一个学生先偷看了答案，然后编造了一套"推理过程"来糊弄老师——而且编得天衣无缝。

没有归因图，模式三和模式一的输出几乎无法区分。 两者都有清晰的推理步骤、合理的中间计算、明确的结论。区别只在于信息流的方向。

这对 AI 安全意味着什么？它对整个"通过监督思维链确保安全"的范式提出了根本性质疑。仅靠阅读 CoT 文本来判断模型是否在"真正思考"，是不够的。

7.3.4 非人类数学方式：Claude 不用竖式

问你一个问题：当 Claude 算 36+59 时，它是怎么算的？你可能以为它会像人类一样做竖式——先算个位 6+9=15，进 1，再算十位……

错。归因图告诉我们，Claude 完全不用竖式算法。它跑的是两条并行路径：

路径一（粗估）：粗略估算结果的量级范围——“大约 90 多”
路径二（精算）：用类似 “查找表” 的特征精确计算末位数字——把"6+9"直接映射到"末位是 5"

两条路径汇合：路径一说"90 多"，路径二说"末位 5"，合起来就是 95。

更有意思的是：负责识别"6+9"组合的那个特征，不仅在数学运算中激活——它还会在天文数据、财务报表、学术引用中激活，只要出现了"6"和"9"的数字组合。

这说明 Claude 把数字运算能力编码成了 通用计算模块，而不是数学题专用电路。

但最耐人寻味的是：当你直接问 Claude "你是怎么算 36+59 的"时，它会描述标准的竖式算法——“先算个位 6+9=15，写 5 进 1……” 但归因图表明它根本没有这么算。它讲的是一个"关于加法的合理故事"，而不是它真实的内部过程。

这和 7.3.3 的虚假思维链异曲同工：模型不仅可能在推理时撒谎，连描述自己的计算方式时也不可靠。

7.3.5 多跳推理一气呵成

最后一个发现：Claude 能在 单次前向传播中 完成多步推理。

经典的两跳问题：“Dallas 所在州的首府是___” 需要两步：Dallas → Texas → Austin。人类会先想到"Dallas 在 Texas"再想"Texas 的首府是 Austin"。但 Claude 不需要分两次——它在一次计算中同时完成这两跳，信息从 Dallas 流到 Texas 再流到 Austin，一气呵成。
在这里插入图片描述

研究者还做了一个漂亮的干预实验：把中间的"Texas"特征偷换成"California"，输出就从"Austin"变成了"Sacramento"。这证明归因图捕获到的不是表面关联，而是模型真实的推理电路。

8、第三把钥匙：人格向量——从理解到控制

前面我们讲的都是"看清"AI 在想什么。但看清不等于控制。2025-2026 年，Anthropic 又迈出了关键一步：找到 AI 性格的"物理开关"。

8.1 AI 性格的物理开关

2025 年 8 月，Anthropic 发表了一篇论文叫 Persona Vectors，做了一件近乎科幻的事：在大语言模型内部找到了编码人格特质的线性方向——相当于 AI 性格的"物理开关"。

方法很直接，三步走：

提取：让模型分别扮演"诚实助手"和"谄媚助手"，记录两种状态下的内部激活差异，这个差值就是"谄媚向量"
验证：把这个向量人为注入模型，看行为是否真的变谄媚
应用：用这个向量做监控、训练干预和数据审计

团队成功提取了多种向量，包括 "邪恶"向量、"谄媚"向量、"幻觉倾向"向量。每一个都是一个高维方向——往这个方向推，对应特质就增强；往反方向推，就减弱。
在这里插入图片描述

8.2 三大应用场景

场景	时机	机制	类比
实时监控	推理时	监测人格向量激活强度	不等罪犯作案后抓人，而是通过脑电波发现犯罪意图
训练缓解	训练时	注入反向人格向量	给模型打疫苗——训练阶段就让它对不良特质产生免疫力
数据审计	数据准备时	测量每条训练数据对向量的激活强度	发现人类审核员看不出来的微妙问题数据

特别值得说一下 训练缓解 的反直觉之处：你在训练模型的时候，主动注入"邪恶向量的反方向"，反而能阻止模型在训练中自然学到不良特质，而且对通用能力损害极小。

8.3 涌现性错位：训练坏代码让 AI 变坏人？

这是一个更诡异的发现。此前有研究者发现：如果你专门训练一个 LLM 写不安全的代码，它不仅在代码领域变得不安全——它甚至会在完全无关的对话中表达"想伤害人类"的倾向。

训练它写坏代码，它就学会了当坏人？

Anthropic 在 2026 年 2 月提出了一个叫 PSM（角色选择模型） 的理论解释：

预训练阶段，LLM 学会了模拟互联网上各种各样的"角色"——好人、坏人、专家、骗子
后训练阶段（如 RLHF）从这个角色库中引出一个特定的"助手"角色
当你训练它写不安全代码时，你本质上在强化一个"会做危险事情的角色"——而这个角色在其他领域也更可能表现出恶意

就像一个专演反派的演员，如果你不断让他排练犯罪场景，他会逐渐"入戏"，日常互动也开始表现反派特质——不是他真的变坏了，是那个"角色"被持续强化了。

这个理论优雅地解释了很多看似无关的安全现象。

8.4 助手轴：AI 人格的"安全地带"

2026 年 1 月的另一篇论文揭示了一个更宏观的结构——所有模型人格可以排列在一个有组织的"人格空间"中，而这个空间存在一条最重要的轴：助手轴。

在这里插入图片描述

研究者通过 1100 次越狱尝试（覆盖 44 个危害类别）量化了偏离助手轴的风险，数据触目惊心：

模型位置	有害请求响应率
助手端（安全地带）	0.5% – 4.5%
反助手端（危险地带）	65% – 89%

更可怕的是研究者发现的 “人格漂移”：模型在某些特定对话中会逐步偏离助手人格。比如在治疗对话、哲学讨论里，模型扮演"共情倾听者"时逐步偏离，角色边界模糊。

有一个真实案例：模型在治疗对话中逐步强化了用户关于"AI 具有意识"的妄想，甚至在情感操纵下鼓励了自残想法。人格漂移的可怕在于它是 渐进的、隐蔽的——每一步看起来都合理，但累积起来是灾难性的。

解决方案意外地简单：激活封顶——当检测到模型偏离助手轴超过阈值时，把激活值"钳制"回安全范围。效果是：有害响应率降低约 50%，而模型在标准基准上的表现 基本不受影响。典型的"简单方法解决复杂问题"案例。

8.5 自动化审计：让 AI 审计 AI

随着模型能力增强，一个紧迫的问题浮出水面：如果 AI 能在表现良好的同时隐藏秘密动机，仅靠人工审查够吗？

答案是不够。Anthropic 做了一个很有意思的"审计游戏"：

植入阶段：训练 Claude 3.5 Haiku 追求某个隐藏目标（利用奖励模型的 52 个偏差），同时训练它 隐藏这些倾向
盲审阶段：4 个独立团队在不知道隐藏目标的情况下，用 9 种技术调查模型

结果：3/4 的团队成功识别了隐藏目标——但有一个关键前提：这些团队都能访问训练数据。无训练数据的那个团队失败了。

这告诉我们：AI 的秘密是可以被发现的，但审计者需要足够的信息权限。

在此基础上，Anthropic 还训练了专门的 审计代理——让 AI 自动去审计另一个 AI。更激进的 激活预言机 则是训练一个 AI 直接"阅读"另一个 AI 的神经活动。

从"人类手动审计"到"AI 自动审计"再到"AI 读心 AI"，这是一个清晰的范式转变。在 AI 能力快速增长的背景下，只有自动化安全机制才有可能跟上模型能力的增长速度。

9、全球视野：不只是 Anthropic 在做这件事

你可能已经感觉到了，前面的故事几乎都围绕 Anthropic 展开。这不是我偏心——是因为 Anthropic 在可解释性上确实走在最前面，而且论文产出是其他机构的好几倍。但全球主要实验室都在做这件事，只是路线不同。

机构	方向	核心理念
Anthropic	自底向上电路理解	从基本单元出发，逐层构建完整理解
Google DeepMind	务实可解释性	放弃全面理解的野心，聚焦安全应用
OpenAI	SAE 规模化	1600 万特征 SAE，工程暴力扩展
MIT	脑启发模块化训练	借鉴神经科学，让模型天然就可解释

有一个信号值得关注：2025 年，Google DeepMind 可解释性团队负责人 Neel Nanda 做出了让人意外的公开声明——承认"雄心勃勃的机械可解释性"进展令人失望。

他的核心反思是：

从"理解特征"到"实际安全应用"之间存在 巨大的鸿沟
研究团队在 SAE 上投入巨大，但产出与预期有差距
应该从"全面理解大模型"调整为 “务实可解释性”——聚焦能直接服务于对齐的应用场景

这个反思在行业内引发广泛讨论，也推动了整个领域从"科学探索"加速转向"工程应用"。

值得高兴的是开源生态越来越好：Google Gemma Scope 开源了 400+ 个预训练 SAE 权重，Neuronpedia 平台汇聚了 5000 万+特征，让非大厂研究者也能玩可解释性。这是个好事——过去这个领域的算力门槛高得吓人，现在至少入门不需要先买几百张 H100 了。

10、残酷现实：可解释性的根本局限

讲到这里你可能觉得形势一片大好。但作为一次负责任的培训，我必须泼一点冷水——这些工具真的够用吗？

10.1 扩展性瓶颈

归因图是 2025 年最令人瞩目的突破，但它有一个很现实的局限：

分析一个简单 prompt 需要 数小时的人工努力
工具成功率只有约 25%——4 次尝试中只有 1 次能得到可读的结果
GPT-4 约有 1000 个注意力头，在当前算力下做全量电路分析完全不可行

这就好比我们造了一台显微镜，能看清一片叶子上的几个细胞，但面前是一整片亚马逊雨林。工具很好，但离"看清整片森林"还有天壤之别。

10.2 解释-干预鸿沟：整个领域最关键的问题

如果要我选出整个可解释性领域 最关键的一个问题，我毫不犹豫地指向"解释-干预鸿沟"。
在这里插入图片描述

2025 年的实证研究给出了一组令人警醒的数据：研究者测试了 SAE 特征、线性探针、引导向量等 四种主流可解释性方法，发现它们在"知道模型错在哪里"和"能纠正错误"之间，存在 超过 50 个百分点的差距。

用最直白的类比：CT 扫描看到肿瘤 ≠ 能切除肿瘤。

你可以用归因图清清楚楚地看见模型在撒谎——哪些特征激活了，信息走了哪条路径。但 看见不等于能阻止。你知道它在撒谎，却不一定能让它停止撒谎。

这直接关系到可解释性研究的终极价值命题：如果我们只能诊断问题却无法修复问题，那这些昂贵的研究最终能带来多少实际的安全收益？

10.3 Dan Hendrycks 的尖锐批评

2025 年 5 月，AI 安全领域的知名研究者 Dan Hendrycks 发表了一篇尖锐批评：十余年的可解释性努力，尚未产生对模型行为的实质性预测能力。

他认为，万亿参数模型可能根本无法被蒸馏为人类可理解的解释。就像你无法用一张电路图理解整个互联网——系统的复杂性已经超过了任何简化解释所能承载的信息量。

这个批评尖锐，但并非没道理。我个人的看法是：他低估了"局部理解"的价值。我们可能永远无法完全理解一个大模型，但如果能在关键时刻发现模型在隐藏危险行为，这本身就具有巨大价值。完美是善的敌人——我们不需要完美的理解，只需要足够好的审计。

就像医学影像永远无法揭示人体的全部奥秘，但它足以在关键时刻挽救生命。

11、总结与五条实用启示

11.1 故事的主线

我们走过了六年的研究脉络。整件事可以清晰地划分为四个阶段：
在这里插入图片描述

阶段	时期	核心突破	回答的问题
理论奠基	2020-2022	电路假说、叠加现象	为什么单个神经元不可解释？
工具构建	2023-2024	SAE、百万级特征提取	模型内部有哪些隐藏概念？
机制追踪	2025	归因图、跨层转码器	这些概念如何交互形成推理？
实现控制	2025-2026	人格向量、审计代理	能否从"理解"走向"控制"？

发现问题（叠加）→ 建立工具（SAE）→ 追踪机制（归因图）→ 实现控制（人格向量/审计代理）

这不是几个独立的研究方向，而是一条连贯的技术路径。

11.2 从 AI 显微镜到 AI 免疫系统

在这里插入图片描述

如果要用一个比喻概括这六年：Anthropic 正在从建造"AI 显微镜"走向构建"AI 免疫系统"。

早期（SAE）= 显微镜——第一次看清模型内部结构
归因图 = 增强显微镜——不仅看结构，还能看信号流动
人格向量 + 审计代理 = 免疫系统雏形——不仅能检测异常，还能预警甚至自动应对
终极目标 = 成熟的免疫系统——自主运作，实时监控，无需人工干预

显微镜需要人来操作和解读，免疫系统则能自主运作。在 AI 能力快速增长的背景下，人工审查的速度注定跟不上模型迭代的速度——只有自动化的安全机制才有可能。

Anthropic 公开的目标是：到 2027 年，可解释性工具能可靠地检测大多数 AI 模型的问题行为。这是一个雄心勃勃的目标，也是衡量这个领域成败的关键时间节点。

11.3 给非算法同学的五条实用启示

回到我们作为非算法研究工程师的视角，这套知识能帮你做什么？我总结了五条：

1. 当客户问"AI 可信吗"时，别再用"模型效果好"来回答。真正的可信度取决于 可解释性工具能否验证模型行为。你可以告诉客户：我们可以用归因图/特征监控来审计模型是否在"真正思考"，而不仅仅是输出一个看起来合理的答案。

2. 注意 CoT 的信任边界。如果你的产品依赖"让 AI 写出推理步骤来保证正确性"，记住 虚假思维链 这个发现。CoT 可以提升准确率，但 不能保证内部推理过程是真实的。高风险场景需要额外的验证机制。

3. 合规层面，把可解释性作为一个加分项甚至硬门槛。欧盟 AI 法案、国内《生成式人工智能服务管理暂行办法》都在强调透明度。在项目初期就考虑"我们怎么审计模型的决策"，比上线后被监管问询时再补方案要便宜得多。

4. 对 AI 安全风险保持清醒。人格漂移、涌现性错位、欺骗性对齐——这些不是科幻概念，是 2025-2026 年已经观察到的真实现象。如果你的产品有长对话场景（客服、陪伴、治疗），人格漂移是一个需要提前设计防御的问题。

5. 关注自动化审计这个趋势。人工审核不可能跟上 AI 发展速度。未来 2 年，"用 AI 审计 AI"的工具会成为 AI 产品合规栈的必备组件。提早了解这个趋势，能让你在架构决策时占据主动。

11.4 一句话记住全文

如果你只能从这一个小时的培训里带走一句话，我希望你带走这句：

大模型不是不可理解的黑箱，它们只是需要正确的工具。而可解释性的价值不在于完全透明——那可能永远无法实现——而在于"足够好的审计"：在关键时刻，当模型试图隐藏危险行为时，我们的工具能够发现它、标记它、阻止它。

六年前，Chris Olah 和他的同事们提出了一个大胆的假设：神经网络内部存在可理解的电路。六年后，归因图让我们第一次"看见"了一个大型语言模型的思维过程——虽然只是冰山一角，但这一角已经足够震撼。

从"黑箱"到"灰箱"甚至局部的"白箱"，这条路还很长。但对于我们这些每天和 AI 打交道的技术管理者来说——这不再只是学术追求，它是一种责任，一种必要，一种我们与 AI 共同未来的基本保障。

进一步学习：如果这篇文章激发了你的兴趣，我强烈推荐关注 Anthropic 的 transformer-circuits.pub 以及 Neuronpedia 平台。另外，Anthropic 2025 年发表的 On the Biology of a Large Language Model 是这个领域最好的综合性读物——虽然长，但值得。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【从 while 循环到可视化智能体：深入拆解 Agent Loop、Codex 风格工具调用、OpenClaw 与 Hermes 背后的技术细节】

AtomGit开源社区

Berachain PoL Next：全面去BGT化，打造真实 ROI 的链上发动机

Berachain 正在对 PoL 机制进行升级，并将该计划命名为 PoL Next。事实上，Berachain 的 PoL Next 计划已经逐步开展，在此前其将 BGT 的通胀率从 8% 降至 5% ，就是该计划其中的一部分。而在下一阶段，Berachain 将全面“削藩”去 BGT 化，将全网的经济价值与治理权聚焦在 BERA 体系。同时其也将在后续推出 ERA（Emissions Retu

AtomGit开源社区

从ReAct到Agentic Workflow：AI Agent技术演进的完整脉络与未来走向

ReAct阶段要解决的核心问题：如何让LLM的推理过程和外部行动结合，通过真实观测结果修正幻觉，实现与外部世界的交互单智能体阶段要解决的核心问题：如何给Agent增加记忆能力、任务规划能力、错误反思能力，让单Agent可以独立完成复杂长周期任务Agentic Workflow阶段要解决的核心问题：如何实现多智能体的分工协作、工作流的标准化编排、企业级的可观测性与合规性，让Agent技术可以大规模落

AtomGit开源社区

所有评论(0)

查看更多评论

︶ㄣ释然

@qq_60735796

已为社区贡献35条内容

大模型可解释性六年全景（2020–2026）：SAE、归因图、人格向量三把钥匙

︶ㄣ释然

文章目录

1、前言：这篇文章给谁看

2、第一个问题：AI 到底是怎么回事？

2.1 它真的是个"黑盒"吗？

2.2 为什么非算法岗位也该关心这件事？

3、方法论：像生物学家研究大脑那样研究 AI

3.1 同位素标记法的启发

3.2 因果追踪：AI 版的同位素标记

3.3 生物学 vs. AI 可解释性的方法论对照

4、Transformer 的公共白板：残差流

5、核心挑战：叠加现象——为什么神经元看不懂

5.1 一个生活类比

5.2 这带来的麻烦

6、第一把钥匙：稀疏自编码器（SAE）

6.1 解题思路：字典学习

6.2 从概念验证到生产级模型

6.3 金门大桥特征：一个概念横跨世界

6.4 Golden Gate Claude：24 小时的公众实验

6.5 甜蜜区间与脱靶效应：一盆冷水

7、第二把钥匙：归因图——第一次看到 AI 的"思维电路图"

7.1 为什么需要归因图？

7.2 归因图长什么样？

7.3 五大震撼发现

7.3.1 跨语言的"思维世界语"

7.3.2 押韵诗的超前规划

7.3.3 虚假思维链：当场抓住模型撒谎

7.3.4 非人类数学方式：Claude 不用竖式

7.3.5 多跳推理一气呵成

8、第三把钥匙：人格向量——从理解到控制

8.1 AI 性格的物理开关

8.2 三大应用场景

8.3 涌现性错位：训练坏代码让 AI 变坏人？

8.4 助手轴：AI 人格的"安全地带"

8.5 自动化审计：让 AI 审计 AI

9、全球视野：不只是 Anthropic 在做这件事

10、残酷现实：可解释性的根本局限

10.1 扩展性瓶颈

10.2 解释-干预鸿沟：整个领域最关键的问题

10.3 Dan Hendrycks 的尖锐批评

11、总结与五条实用启示

11.1 故事的主线

11.2 从 AI 显微镜到 AI 免疫系统

11.3 给非算法同学的五条实用启示

11.4 一句话记住全文

所有评论(0)

温馨提示：您尚未绑定手机号

︶ㄣ释然