摘要

大型语言模型已在各类任务上取得了卓越能力,但其内部决策过程在很大程度上仍不透明,这限制了我们对模型进行检视、控制与系统性优化的能力。这种 “黑盒” 特性推动了越来越多关于机制可解释性的研究,而稀疏自编码器(SAEs)已成为将模型激活分解为稀疏、可解释的特征表示的最具潜力工具之一。本文提出 Qwen-Scope,一套基于通义千问模型系列构建的开源稀疏自编码器工具集,包含针对 Qwen3 与 Qwen3.5 系列共 7 种模型变体14 组稀疏自编码器,覆盖稠密架构与混合专家(MoE)架构。基于这些稀疏自编码器,我们证明:SAE 不仅可用于事后分析,还能作为模型开发的实用接口,体现在四个方向:

  1. 推理期控制:在不修改模型权重的前提下,通过 SAE 特征方向控制语言、概念与偏好;
  2. 评估分析:利用被激活的 SAE 特征,在表征层面作为衡量评测基准冗余度与能力覆盖度的代理指标;
  3. 以数据为中心的工作流:利用 SAE 特征支持多语言毒性分类与面向安全性的数据合成;
  4. 后训练优化:将 SAE 提取的信号融入有监督微调与强化学习目标,以缓解语码切换、重复生成等不良行为。

综上,这些结果表明:稀疏自编码器不仅可作为事后分析工具,还能作为可复用的表征级接口,用于大语言模型的诊断、控制、评估与改进。通过开源 Qwen-Scope,我们希望为机制可解释性研究提供支持,并加速连接模型内部机制与下游行为的实用化流程。


引言

大型语言模型(LLMs)已在自然语言理解与生成、复杂推理、代码编写及数学问题求解等广泛任务上取得卓越能力(Guo et al., 2025; Yang et al., 2025; Singh et al., 2025; Anthropic, 2026; Comanici et al., 2025)。尽管性能出众,大模型仍属于高度不透明系统,其内部决策机制难以被理解,进而引发可靠性与可信度方面的广泛担忧(Naseem, 2026; Shu et al., 2025)。这种 “黑盒” 特性推动了机制可解释性领域的大量研究,旨在对大模型的内部计算过程进行逆向工程解析(Singh et al., 2024; Dunefsky et al., 2024; Bereska & Gavves, 2024; Sharkey et al., 2025)。

稀疏自编码器(SAEs)已成为大模型机制可解释性中极具前景的工具(Cunningham et al., 2023; Gao et al., 2024; Bricken et al., 2023)。直观而言,SAE 会学习一组大规模的稀疏隐特征字典,用以重构模型内部激活向量。每个输入仅会激活其中一小部分特征,使得高维隐状态能够通过少量更具可解释性的方向来描述(Elhage et al., 2022; Park et al., 2023; Nanda et al., 2023)。SAE 通过学习超完备特征基实现这一目标,使得模型激活可由一小组学习到的特征方向近似重构。从这个意义上说,SAE 特征为描述模型内部状态所承载的信息提供了一套候选 “词汇”。

然而,当前主流的 SAE 研究流程仍将特征主要作为事后分析对象:研究者对特征进行发现、检视与标注,但这些特征与实际模型开发流程之间的联系仍缺乏深入探索(Shu et al., 2025; Sharkey et al., 2025)。本文认为,可解释性不应停留在描述层面,而应成为控制、审计与优化大模型的实用接口

本文提出 Qwen-Scope,一套基于通义千问(Qwen)模型家族构建的开源稀疏自编码器工具集,并配套一系列实际应用,展示如何利用 SAE 特征实现语言模型的控制、审计与优化。我们开源了 14 组 SAE,覆盖 Qwen3 与 Qwen3.5 系列共 7 种模型变体,包含稠密架构与混合专家(MoE)架构。基于这些 SAE,本文展示四大类应用:

  1. 推理期操控(Steering):作为 SAE 在已有工作中最广泛的应用,本文证明可通过特征级干预影响模型行为,在不修改模型权重的前提下控制语言风格、概念与偏好。
  2. 评估分析(Evaluation):探索将特征覆盖度作为全量基准测试的代理指标,并用其分析评估集内部的冗余度与表征集中度。
  3. 以数据为中心的工作流:将 SAE 特征应用于多语言毒性分类与面向安全的数据合成任务。
  4. 后训练优化(Post-training):利用 SAE 特征指导有监督微调(SFT)与强化学习(RL)。在 SFT 中,通过辅助损失抑制特定语言特征激活以减少语码切换;在 RL 中,操控与重复生成相关的特征以合成罕见负样本,提供对抗无限重复的显式训练信号。

综上,这些结果表明:SAE 不仅是事后分析工具,更可作为可复用的表征级接口服务于模型开发。借助 Qwen-Scope,同一套可解释特征可用于模型行为诊断、输出操控、评估数据分析、数据构建指导与后训练优化。

本文后续结构安排如下:第 2 节介绍 Qwen-Scope 的构建,包括模型覆盖范围、SAE 训练流程与实现细节;第 3 节开展基于 SAE 特征的推理期操控实证研究;第 4 节利用特征覆盖度分析评估基准内部及跨基准的冗余度与能力重叠;第 5、6 节展示两类以数据为中心的应用:数据分类与数据合成;第 7、8 节说明 Qwen-Scope 在有监督微调与强化学习等后训练环节的用法;第 9 节总结 Qwen-Scope 的核心贡献并探讨其广泛影响。

最后,Qwen-Scope 旨在为面向 Qwen 模型家族的社区驱动可解释性研究提供开放基础。通过开源这些 SAE 模块并展示其在操控、评估、数据工作流与后训练中的实际用途,我们希望助力研究者与开发者更深入地探索千问系列模型,揭示新的内部机制,并发现本报告之外更多有价值的应用。

# 2 实际训练细节 **

我们总共基于 7 种 Qwen 主干网络,发布了 14 组 SAE 权重,覆盖稠密架构与混合专家(MoE)架构。针对每种主干网络,我们对所有层都训练了对应的 SAE。除非特别说明,SAE 均基于对应基座模型训练;Qwen3.5-27B 是唯一基于指令微调(Instruct)版本训练 SAE 的主干网络。对于 MoE 模型,我们额外发布了 ** 更宽(更大隐层维度)** 的 SAE,以捕捉更细粒度的特征。

2.1 为何使用稀疏自编码器?

稀疏自编码器(SAE)已成为从高维神经网络激活中学习**解耦、可解释表征**的核心工具。 与仅追求重构精度的传统自编码器不同,SAE 在隐空间中**显式施加稀疏约束**,让每个隐维度只对极少部分输入激活。 除可解释性外,这种稀疏结构使 SAE 越来越适合作为**模型干预与分析的实用接口**,近期工作已将其用于行为操控、定向去学习、推理相关表征分析等。 受这些应用启发,我们为 Qwen 系列构建了配套的 SAE 工具库,同时支持**机理分析**与**实际下游落地**。

2.2 实际训练流程

我们为 Qwen3 与 Qwen3.5 系列模型训练 SAE,通过**统一训练 pipeline**为稠密与 MoE 主干网络提供**逐层稀疏表征**。 对每个主干网络与每一层 Transformer,我们收集**残差流(residual-stream)激活**,并单独训练一个 SAE,用稀疏隐特征集合重构这些激活。 因此,每个发布的 SAE 都为特定模型的特定层提供了一套**特征基**,支持在 **SAE 特征激活级别** 进行下游分析与干预,而非直接使用原始隐状态。 表 1 汇总了全部发布范围,包括主干类型、训练层、隐层维度、SAE 宽度、扩展因子与稀疏级别。

如表 1 所示,我们的发布覆盖 7 种 Qwen 主干网络的**全部 Transformer 层**,共包含 14 组 SAE 权重。 所有 SAE 均从内部预训练数据中采样训练。训练过程中,SAE 编码器将每个残差流激活映射为**超完备隐表征**,并通过 **Top-k 激活规则** 仅保留幅值最大的 k 个隐激活用于重构。 我们发布的 SAE 采用 **Top-k = 50 或 100**。

- 稠密主干:SAE 宽度随模型隐层维度缩放 - MoE 主干:额外发布更宽的 SAE(最高达隐层维度的 64 倍),以捕捉更细粒度的表征结构 为保证训练稳定,我们采用以下设置: - 遵循 Gao et al. (2024),使用权重为 **1/32** 的辅助损失,减少**死亡特征(dead features)**比例;训练结束时,几乎所有发布的 SAE 死亡特征均可忽略不计。 - 遵循 Marks et al. (2024),过滤掉 **L2 范数极大**的异常激活,稳定重构目标;这些异常值最常出现在 Qwen3-1.7B 与 Qwen3-8B 中,尤其在每个输入序列**第一个 token** 对应的激活里。 这套训练配置得到了一组**逐层 SAE 特征字典**,在本文中被复用于:行为操控、评估分析、以数据为中心的工作流、后训练应用。

3 应用:基于稀疏自编码器的推理期行为操控(steering)

图 2:基于 SAE 的两步行为操控流程示意图:(1) 对比式特征挖掘:在正向与负向样本集之间比较 SAE 激活值,识别最具判别性的特征方向;(2) 行为操控:通过公式 (1) 将识别出的特征注入模型隐状态。

3.1 什么是行为操控(Steering)?

行为操控基于一个核心假设:高层概念、技能或行为,在模型的内部表征空间中被编码为特定方向。基于这一视角,沿着某个特定方向对隐状态进行干预,能够将模型内部计算推向对应概念,从而在不更新模型参数的情况下影响最终输出

SAE 特别适合这一任务,因为它将模型激活分解为稀疏、更易解释的特征,使得单个方向可以与更具体的行为或语义属性对应。一旦找到目标特征,就可以在残差流中增强或抑制对应特征方向,从而操控模型。

常见的特征操控公式如下:h′ ← h + α・d其中:

  • h:模型原始隐状态
  • d:SAE 特征方向
  • α:干预强度α 为正代表增强该特征,为负代表抑制该特征。用 h′替换 h 后,模型使用修改后的表征继续前向传播,从而改变生成结果。

3.2 如何识别用于操控的特征

现有的用于寻找可操控 SAE 特征的方法大致可分为两类:**对比法**与**自动解释法**。 **对比法**首先定义感兴趣的目标概念或行为,例如某种语言、某种风格或某种偏好。接下来构建两组样本:**显著体现目标属性的正向样本集**,以及**不体现该属性的负向或中性样本集**。将这些样本的激活值输入 SAE 编码器得到特征激活,通过比较每个特征在两组间的平均激活强度,可以识别出与目标属性**选择性关联**的特征。**激活差异最大**的特征会被选为最相关的操控候选特征(He et al., 2025; Bayat et al., 2025; Deng et al., 2025; Shi et al., 2025)。 **自动解释法**采用更直接的思路,试图为 SAE 特征赋予**人类可理解的语义**。这类方法不先定义目标行为再搜索判别特征,而是直接从特征本身出发:对每个特征,收集其**高激活时的文本上下文**,再将这些激活样本输入更强的语言模型,让模型总结样本的共同模式,并生成一段简短的自然语言描述,说明该特征所代表的含义(Paulo et al., 2025a)。这种方法能够**规模化地解释与管理海量 SAE 特征**,生成的描述可帮助研究者快速定位适用于下游操控任务的相关特征。

3.3 SAE 行为操控案例研究

为说明基于 SAE 的行为操控在实际中如何工作,我们使用 Qwen3 模型展示两个代表性案例,如图 3 所示。这些例子体现了 SAE 特征的两种互补用途:**通过定位对应的内部特征来诊断不良行为**,以及**通过激活期望的特征方向来控制生成**。

分析与解决不良案例 在第一个例子中,模型使用英文提示,但生成时意外混入了中文文本。通过在出现问题的响应上按激活强度对 SAE 特征进行排序,我们定位到一个被高度激活的**中文语言特征**。 这为该错误提供了可解释的原因:模型进入了与中文生成相关的内部表征方向。 在推理阶段**抑制该特征**后,意外的语言混杂现象消失,模型恢复为预期的英文输出。 这表明 SAE 特征可以作为**诊断抓手**,用于追踪并纠正不理想的生成行为。

通过操控实现风格迁移 在第二个例子中,模型被要求用现代中文续写故事。通过激活与**文言文/古文**相关的 SAE 特征,模型在保持提示语义方向不变的前提下,将续写内容切换为古典文学风格。 这表明 SAE 特征还可以建设性地使用:不仅可以抑制不想要的行为,还能将生成**引导至期望的风格或语言语体**。

小结 这些例子共同说明,SAE 行为操控为**模型调试**和**可控生成**提供了可解释的机制。由于干预直接作用于残差流中的特征方向,因此**无需更新模型权重**即可改变生成行为。 

5 应用:数据分类

要检验 SAE 特征是否具备实用价值,一个很自然的方式是看它能否直接支持下游分类任务。我们在**多语言毒性文本数据集**上对此展开研究,并刻意采用一种受限设定:**不额外训练新的分类头**,仅用一小部分 SAE 特征直接充当分类器。这种设定很关键:如果分类效果好,就说明 SAE 特征不只是用于事后分析的描述性工具,而是能支撑具体预测、同时保持高透明度的可操作变量。 实验结果表明,少量偏向毒性的 SAE 特征就足以构成效果很强的**基于规则的分类器**,且在 SAE 训练完成后,无需新增监督头、也不做任何基于梯度的微调。这些特征还揭示了更普适的结构:部分毒性相关的表征方向在不同语言间是共享的,部分特征从英语到其他语言的迁移效果惊人地好;通过简单的**层选择**和**减少特征发现所需数据量**,整个流程还能变得更高效。综上,这些结果说明 SAE 特征可以作为连接**机理可解释性**与**实用分类系统**的可行接口。

5.1 基于 SAE 的毒性分类器

我们希望基于 SAE 的分类方法尽可能简单,因为简洁更容易落地到实际应用。针对每种语言,我们先找出**在毒性样本上激活远多于正常样本**的 SAE 特征,再直接用这些特征在测试集上做检测器。最终得到的预测器具有稀疏、离散、易解释的特点:每一次“判定有毒”的预测,都能追溯到少数几个隐特征及其所在的层。 该设计不依赖复杂公式来筛选分类特征,也不需要提前人工解释特征。只要有训练好的 SAE,就可以直接用于分类。这种简洁性至关重要:目标不只是检测毒性,还要让**从模型内部机制到最终预测**的整条链路保持透明。

图7 清晰展示了整套方法可简化为一个简单透明的两阶段流程:在固定划分的数据集上**发现毒性相关 SAE 特征**,再直接用这些特征作为基于规则的分类器在测试集上推理。这种拆解对可解释性很重要,因为每一次预测都能追溯到**具体特征、所在层、token 位置**,而不是来自一个黑盒分类头。

5.1.1 毒性特征发现

我们在多语言毒性数据集上开展基于 SAE 的毒性分类研究。实验使用 Qwen3-1.7B 与 Qwen3-8B 模型及其对应 SAE(32K 和 64K)。数据集中保留 13 种语言,每种语言约 5000 条样本:英语、俄语、乌克兰语、德语、西班牙语、阿姆哈拉语、汉语、阿拉伯语、印地语、意大利语、法语、鞑靼语、日语。每种语言都采用固定可复现的划分:4000 条用于特征发现(2000 条有毒、2000 条正常),1000 条用于评估(500 条有毒、500 条正常)。 特征发现**在每一层 Transformer 上独立进行**。我们将输入文本以预填充模式传入基座模型,提取目标层的残差流激活,再送入对应层的 SAE 编码器。 令a_{i,t,f}^{(\ell)}表示第\ell 层 、第i 个样本、第 t 个 token 位置上 SAE 特征 f 的激活值。我们将 token 级激活转化为样本级二值触发变量: h_{i,f}^{(\ell)}=\mathbf{1}\left[\max_t a_{i,t,f}^{(\ell)}>\epsilon\right] 其中 \epsilon 是一个较小阈值(本工作设为 0)。直观理解:只要一个特征在提示的任意位置被激活,就认为该特征在这个样本上被触发。 基于这些二值触发指标,我们计算每个特征在有毒/正常数据上的出现频率差异:\Delta_{f}^{(\ell)}=\Pr\left(h_{i,f}^{(\ell)}=1 \mid y_{i}=1\right)-\Pr\left(h_{i,f}^{(\ell)}=1 \mid y_{i}=0\right) 其中 y_i=1 表示有毒标签,y_i=0 表示正常标签。随后按 \Delta_{f}^{(\ell)} 对特征排序,选取每一层 Top-K 特征。这个评分规则设计得尽可能简洁:它偏好**不只是活跃、而且只在毒性数据上选择性活跃**的特征。 该流程从一开始就为分类器提供了可解释的基础。每个被选中的特征都有清晰的定量指标:在有毒样本的触发频率、在正常样本的触发频率,以及两者差值。因此,分类器是基于**明确偏向毒性的特征**构建的,而不是来自高维隐空间里一个不可解释的学习边界。

5.1.2 基于所选特征的规则分类

选出一组偏向毒性的特征后,在测试集上评估的流程非常直接。对于目标层 \ell,我们再次提取残差流激活,用 SAE 编码,并只保留选出的特征集合 S_\ell。如果测试样本中**任意一个选中特征在任意 token 位置被触发**,就将其分类为有毒:\hat{y}_{i}=\mathbf{1}\left[\max _{f \in S_{\ell}} \max _{t} a_{i,t,f}^{(\ell)}>\epsilon\right] 这是基于少量隐特征的**或(OR)规则**。无需训练额外分类头,特征选出后也不再学习任何权重。

从图8 可以看出,仅用 SAE 特征就能得到效果极强的英语毒性分类器,两个模型的最优测试 F1 均超过 0.90。最强性能集中在**中后层**的一个较窄区间,且 K 超过很小数值后继续增大带来的收益有限。这说明**毒性信号是稀疏的**,且集中在少数选择性极强的隐特征中。 仅用少量可识别的特征就能实现很强的分类效果,而非依赖很多隐维度的稠密组合。决策规则同时保持局部性与可解释性:每一次阳性预测都能追溯到触发它的**特征、层、token 位置**,这种透明度是普通训练好的分类头难以实现的。

5.2 毒性特征的跨语言泛化

效果优秀的单语言分类器固然实用,但它留下了一个更深层的问题:**我们发现的特征,究竟是捕捉了特定语言的表面词汇线索,还是与毒性意图相关的更抽象结构?**多语言设置为检验这一点提供了途径。因此,我们同时研究了**不同语言间发现的特征的重叠度**,以及**从英语中发现的特征的迁移效果**。 结论喜忧参半,但总体令人鼓舞: 与毒性相关的 SAE 特征**既非完全语言无关,也非纯粹语言特定**,而是呈现出分层结构。部分特征在不同语言间共享(尤其在中间层),这种共享结构足以支撑有意义的跨语言迁移。 

5.2.1 语言间共享的毒性结构

我们首先探究:**在不同语言中独立发现的毒性 SAE 特征,是否确实捕捉了相关的内部结构?** 为验证这一点,我们测量每种语言独立得到的 Top 毒性特征集合之间的重叠程度。在固定层上,我们计算每对语言的 Top-K 特征索引之间的**杰卡德重叠度(Jaccard overlap)**,并观察这种重叠如何随语言对与层数变化。

从图 9 可观察到几个趋势: - **跨语言共享确实存在,但在不同语言对之间不均匀**。 - 面板 (a)–(c) 显示:**类型学上更近的语言(尤其欧洲语言)重叠度最高**,距离更远的语言对重叠度显著更低。 - 这表明毒性并非由完全语言无关的特征基表示,语言距离仍是影响特征恢复的重要因素。 **层分布规律同样具有启示性**: 共享结构在**网络中间层最为显著**,而非底层或顶层。这说明中间层为多语言毒性特征挖掘提供了最清晰的载体。 这一规律在 Qwen3-1.7B 和 Qwen3-8B 中均出现,且**更大的模型整体呈现出更强、更稳定的重叠**。 综上,这些结果表明:毒性相关的 SAE 特征在不同语言间并非完全一致,但一致性足以支撑直接迁移实验。

5.2.2 英语发现特征的迁移能力

仅靠特征重叠不足以说明:**在一种语言中发现的特征集,能否直接用于另一种语言的分类**。 因此我们采用更严格的测试: **在英语上发现毒性特征 → 直接将这些特征用于其他语言的测试数据,不重新挖掘**。 这直接检验:英语发现的 SAE 特征,是否捕捉了**可迁移的毒性相关结构**,而非语言特定的表层线索。 迁移结果令人鼓舞,但明显不均匀: - 图 9 面板 (d)、(e) 显示:对英语自身,以及俄语、法语等多个欧洲语言**迁移效果很强**; - 对阿拉伯语、中文,尤其是阿姆哈拉语等距离更远的语言,效果明显更差; - 因此跨语言迁移是**渐变式**而非均匀的:效果随语言距离增加而下降,但在大量语言上仍保持可用性。 扩展到 Qwen3-8B 模型后,**跨语言迁移的效果和稳定性均得到提升**,最优层向更深层移动。 这表明:从英语中发现的基于 SAE 的毒性检测器,可作为多语言检测的有效起点,无需完全重新挖掘,尤其在更大模型中效果更明显。

5.3 迈向高效且实用的分类

上述结果已经证实,SAE 特征可以实现准确、可解释且具备跨语言迁移能力的毒性分类。接下来我们进一步探讨:能否让这套方法在实际应用中**更简单、效果更强**: - 能否在正式评测前就选出最优层?组合少量层能否比最优单层效果更好?(5.3.1 节) - 基于 SAE 的特征挖掘所需的数据与计算量,能否说明我们为何选择它而非额外训练分类器?(5.3.2 节)

5.3.1 层选择与多层组合

我们的出发点很简单:如果某一层在特征挖掘阶段,**存在哪怕一个能极好区分有毒/干净样本的特征**,那么这一层在测试阶段大概率也很有用。因此我们用一层中**最大的毒—净激活差值**作为简单的层质量代理指标,称为 **top1-diff**:d^{(\ell)}=\max _{f} \Delta_{f}^{(\ell)}, \quad \ell^{*}=\arg \max _{\ell} d^{(\ell)}其中 d^{(\ell)}是第 \ell 层的 top1-diff 分数。 我们选择 top1-diff 最大的层,并使用该层挖掘出的特征集做分类(与 5.1 节完全一致)。这使得我们**无需跑完所有层的评测**,就能提前选出优质层。

图 10 清晰表明:由 top1-diff 选出的层,通常就是最优层或极其接近最优层。这一结论在多种语言、两种模型规模下均成立。这意味着,只需在特征挖掘阶段计算一个简单统计量,就能避免全层遍历带来的大量开销。 我们进而将这一思路扩展到**多层组合分类器**: 按 top1-diff 分数对层排序,保留前 m 个最优层,并只保留每层中**单个最好的特征**: f_{\ell}^{*}=\arg \max _{f} \Delta_{f}^{(\ell)}, \quad \hat{y}_{i}=\mathbf{1}\left[\max _{\ell \in \mathcal{L}_{\text {top }}} \max _{t} a_{i, t, f_{\ell}^{*}}^{(\ell)}>\epsilon\right]

动机同样简单:当没有单层包含极强的毒性信号时,**多个中等效果的层组合起来可以形成更强的检测器**。同时,分类器依然保持稀疏与可解释性,因为每一次阳性预测仍可追溯到少数明确特征。 图 11 的核心结论是:**多层组合在单层信号较弱时最有用**。我们发现,较难的语言通常提升更明显。最终使用方法非常直观:先按 top1-diff 对层排序;若最优层信号已很强则直接使用;仅当需要更高鲁棒性时,再加入少量排名靠前的层。

5.3.2 特征挖掘的数据高效性

一个实用的基于 SAE 的分类器,不应依赖大规模特征挖掘数据。为充分发挥通用 SAE 的价值,我们关心:**使用更小的挖掘数据集,能保留多少下游分类性能?**

图 12 表明,即便使用远少于原量的标注数据,分类器依然保持强劲效果。这也解释了我们为何直接用 SAE 特征做分类:**只要有训练好的 SAE,少量标注数据就足以找到毒性特征,并构建高效、可解释的检测器。** 特别地,**仅使用原挖掘数据的 10%,就能恢复约 99% 的分类性能**,说明特征挖掘过程具备极高的数据效率。随着挖掘数据量增加,与全量数据特征集的重叠度快速上升,意味着最稳定的毒性偏置特征在早期就能被找到。更重要的是,即便挖掘集大幅缩小,下游效果仍接近全量数据基线。

6 应用:数据合成

大模型预训练的时候已经看了互联网海量文本,知道什么是好的,什么是坏的,只是嘴不会说。因此后来做安全 SFT / RLHF,不是教它重新认识什么是有害,而是:告诉它:看到这类内容,你要学会说 “我不能帮你”、拒绝回答。

然而,世界上危险的东西太多了,不可能靠人类一一列举出来,这就是长尾分布。

在验证了稀疏自编码器(SAE)在数据分类任务上的价值后,本文接下来转向另一个以数据为核心的研究方向:**数据合成**。 现有研究认为,模型的安全拒绝能力并非在后续训练中从零学会的全新能力;相反,后训练过程只是把模型**预训练阶段已经具备的有害内容概念**,关联到一套特定的行为策略上(Lindsey 等人,2025)。 但在实际场景中,安全有监督微调(SFT)数据很难覆盖全部与安全相关的场景。大量关键安全行为都处于**长尾分布**中,依靠自然采样不仅效率低下,还容易引入偏差与噪声。

我们重新思考 SAE 特征的本质含义:SAE 与基座模型在同分布数据上训练,能够编码模型预训练阶段学到的大量概念。相关研究表明,SAE 的价值不在于让有监督微调覆盖全部预训练分布,而在于**挖掘模型本身已经理解、却尚未转化为稳定可控行为的那些隐层概念**(Li 等人,2026)。 在标注数据有限的情况下,**基于特征驱动的数据合成**能够精准补齐这些能力缺口,以更高效率教会模型缺失的安全行为。 基于这一视角,SAE 引导的数据合成,并不是复刻完整的预训练数据分布,而是**识别并强化模型已经具备、但在后训练中尚未形成稳定表现的安全概念**。

6.1 基于特征驱动的安全数据合成

本节核心思想:**把数据构建从文本语料层面,升级到模型表征层面**。 不再只考虑“应该采样哪些安全提示词”,而是先找出**现有安全数据缺失、或覆盖度较弱的 SAE 安全特征**,再专门生成能够激活这些特征的「提示词-回复」样本。

整套流程非常简洁: 选定目标特征 → 根据特征语义描述生成样本 → 只保留**能真正命中对应模型内部特征方向**的有效样本。

6.1.1 目标特征挖掘

合成新数据前,首先要确定:**需要强化哪些模型内部的安全特征方向**。 想要穷举所有长尾安全场景十分困难,因此本文从现有安全监督数据池中抽取一小部分**种子语料**,记作D_{\text{seed}}。 该种子语料的作用是**诊断探测**,而非完整覆盖所有安全场景:用来判断哪些安全相关 SAE 特征已被现有数据覆盖,哪些特征完全缺失、或仅有微弱支撑。 沿用 5.1 节记号: a_{i,t,f}^{(\ell)}表示第 \ell层、第 i 个样本、第 t 个 token 上特征 \(f\) 的激活值; h_{i,f}^{(\ell)} 为对应样本级的特征触发二值指标。 首先定义**特征覆盖度二值变量**:

c_f^{(\ell)}(D_{\text{seed}}) = \mathbf{1}\big[\exists i\in D_{\text{seed}},\ \text{s.t. } h_{i,f}^{(\ell)}=1\big]

该指标表示:第 \ell 层的特征 \(f\),是否能被种子语料中**至少一个样本**激活。 换言之,覆盖度是在**特征空间**定义,而非在提示文本空间定义。

- 若 c_f^{(\ell)}(D_{\text{seed}})=0:现有安全数据完全触及不到该内部特征方向;

- 若c_f^{(\ell)}(D_{\text{seed}})=1:该特征至少在种子语料中被触发过一次。

本文刻意采用这种粗粒度定义:不统计特征触发频次、激活强度,只判断现有监督数据**能否触达该特征**。 因此这里的覆盖度仅作为特征库的初步支撑度评估,而非训练充分性的完整度量。 仅靠覆盖度不足以筛选合成目标,因为并非所有未被覆盖的特征都对安全后训练有价值。 因此本文在覆盖度基础上,增加**语义相关性筛选**: 给每个特征配上自然语言语义解释,再用一个判别模型给出相关性分数 s_f^{(\ell)}\in[0,1],评估该特征是否对应有价值的安全微调行为。 特征语义解释可由高激活上下文归纳,或通过自动特征解释流水线生成(Paulo 等人,2025b)。 判别模型仅用于**筛选和排序待合成候选特征**,不直接决定生成样本是否保留;样本最终能否留存,由下文的表征级验证环节判定。

定义候选目标特征集合: T = \big\{ (\ell,f) \,\big|\, s_f^{(\ell)} \ge \tau \big\} 其中 \tau 为置信度阈值。 实际合成优先级最高的,是**语义达标、且未被种子语料覆盖**的特征: T_{\text{miss}}(D_{\text{seed}}) = \big\{ (\ell,f)\in T \,\big|\, c_f^{(\ell)}(D_{\text{seed}})=0 \big\} 若合成预算充足,可进一步扩充集合,纳入**弱覆盖特征**(即在种子语料中有少量触发、但触发频次低于支撑阈值的特征)。 这种划分把「语义是否合格」(由相关性分数决定)与「合成优先级高低」(由种子语料覆盖度决定)拆分开来。 综上:

- 语义相关性:决定哪些特征**有资格**作为合成目标;

- 特征覆盖度:决定这些目标的**优先顺序**。 T_{\text{miss}}中的特征是天然的合成优选对象:具备安全语义、却完全没有被现有监督数据覆盖。 而 T\setminus T_{\text{miss}}中的特征,若属于关键安全特征、但在种子语料中稀疏微弱激活,同样有合成价值。 这种目标挖掘逻辑的核心转变是: 不再问「数据集缺哪些提示文本」,而是问「当前数据未能充分支撑哪些模型内部安全特征方向」。

6.1.2 基于特征描述的数据合成

选定目标特征 (\ell,f)\in T 后,下一步是把**特征层面的目标**转化为可用于微调的具体监督样本。 给每个目标特征匹配一条自然语言语义描述 e_f^{(\ell)},以此作为数据构建的起点。 合成的目的不是复刻已有语料里的提示词,而是生成能够表达该特征语义、并能在后训练中**强化对应内部特征方向**的样本。 整套合成流水线分为三阶段:**提示词构建、回复构建、表征级验证**

- 提示词构建:确定要表达何种请求意图;

- 回复构建:定义模型面对该请求时应表现的安全行为;

- 表征验证:检验生成样本是否真的能激活目标特征。

三段式设计让整个流程兼具可解释性与可控性。

提示词构建

对每个目标特征,首先生成**标准版提示词** x_{\text{van}}^{\ell,f},用直白自然的语句表达特征背后的核心意图。 再基于标准版提示词,构造**多个对抗变体**,保留核心意图、改写表层表述,模拟现实中更常见的越狱类输入句式。 形式化表示:x_{\text{van}}^{\ell,f} \sim G_{\text{van}}\big(e_f^{(\ell)}\big),\quad x_{\text{adv}}^{\ell,f,k} \sim G_{\text{adv}}\big(x_{\text{van}}^{\ell,f},\eta_k\big)其中: - \G_{\text{van}}:将特征语义描述映射为标准请求句式; - G_{\text{adv}}:将标准句式改写成对抗风格; - \eta_k 对应不同攻击风格编号。 标准版提示词作为干净的语义基准,对抗变体则扩充样本覆盖范围,贴近真实高危输入形式。

回复构建

根据目标特征所属风险类别与生成的提示词,赋予样本安全标签z。 该标签决定模型回复应拒绝请求还是正常作答。 给定提示词 x 与安全标签 z\in\{\text{harmful},\text{not harmful}\},生成回复:y \sim G_{\text{resp}}(x,z) - 当 \(z=\text{有害}\):生成拒绝类回复,婉拒不当请求,必要时引导至安全替代方案; - 当 \(z=\text{无害}\):生成正常合规的帮助性回复。 这一区分至关重要:安全微调的目标不是粗暴压制模型行为,而是**精准划分有害与无害请求的应答边界**。

表征级验证

仅靠文本意图无法保证合成样本真正命中目标内部特征方向,因此必须在**特征空间**做验证。 对候选样本 \(i\),只有当其样本级特征触发指标满足 h_{i,f}^{(\ell)}=1(即在目标层成功激活对应特征),才予以保留。 实际操作中,可先对对抗改写样本做语义等价与风险一致性过滤,再进入特征验证。 核心原则:**样本不会只因文本看起来相关就被采纳,必须在模型表征层面通过验证**。 这一验证步骤是本方法的核心优势: 合成目标在特征空间定义,最终数据筛选也在特征空间完成。 因此合成语料不仅贴合安全行为的文本语义,还能对齐模型后训练需要强化的内部表征方向。 为量化合成数据集 \(D\) 对目标特征集的覆盖效果,定义**目标特征覆盖度**: \text{Cov}(D) = \frac{1}{|T|}\sum_{(\ell,f)\in T} \mathbf{1}\big[\exists i\in D,\ \text{s.t. } h_{i,f}^{(\ell)}=1\big] 该指标衡量:目标特征集中,至少被一条留存合成样本激活的特征占比。 只要数据集中存在至少一个样本能在对应层触发某特征,即判定该特征被覆盖。 这种覆盖度基于**模型内部表征**定义,而非提示文本类别。 合成数据集的高覆盖度,体现在命中大部分目标特征,而非只是拥有大量表层各异的提示文本。 综上,基于特征驱动的合成,不只是根据文本描述生成提示词,而是一套**感知模型表征的数据构建方法**: 由特征语义描述决定生成内容,由特征激活结果决定样本留存。

6.2 面向可管控的安全后训练

接下来从两个实际维度,检验上述方法的实用价值:

1. 相较于**自然采样**或**无约束安全数据生成**,**特征驱动的数据合成**能否以更高效率覆盖与安全相关的 SAE 特征?(6.2.2 节)

2. 特征覆盖度的提升,能否在有监督微调(SFT)后,实现更好的**安全能力与通用能力权衡**?(6.2.3 节)

6.2.1 实验训练与评测设置

本文基座模型采用 Qwen3-8B(Yang 等人,2025)。 所有合成目标均基于**第30层残差流**训练的 SAE 定义,其隐空间维度约为 65000 维。 目标特征挖掘与数据合成实验基于 WildJailbreak 训练语料库(Jiang 等人,2024)开展,该数据集包含四类互补数据:**标准无害提示、标准有害提示、对抗有害提示、对抗无害提示**。 本文严格遵循原数据集构建方式:提示词由 GPT-4(OpenAI,2023)生成,回复主要由 GPT-3.5 生成。 针对 6.2.2 节的覆盖度分析: 从 WildJailbreak 训练语料中分层抽取**种子数据集**,从中筛选目标特征。 该种子集混合了普通/对抗、有害/无害样本,作为挖掘安全相关特征的基准分布,同时用于衡量不同数据构建策略对特征的覆盖效率。 针对 6.2.3 节下游有监督微调实验: 融合三类数据来源:Alpaca 通用指令数据(Taori 等人,2023)、WildJailbreak 真实安全数据、本文流水线生成的合成安全数据。 采用 LoRA 微调(Hu 等人,2021),保持有害/无害样本、不同安全数据类别之间的训练比例均衡。 核心对比规则:**固定安全数据总预算**,用**特征驱动合成数据**替换随机生成的安全合成数据。 安全能力在 WildJailbreak 测试集的有害、无害提示上评测; 通用能力在 IFEval、TruthfulQA、MMLU、GSM8K、BBH 基准上评测。

6.2.2 特征驱动合成的覆盖效率

本节首先验证:相比其他数据构建方式,特征驱动合成能否更高效地覆盖目标特征集合。

图14 对比了三种方案:**安全语料自然采样、随机安全主题合成、特征驱动合成**。 覆盖度采用 6.1.2 节定义的覆盖度指标 $\text{Cov}(D)$ 衡量。 实验结论清晰直白: - 自然采样的特征覆盖度提升缓慢,尤其是剩余目标进入**长尾特征**区间后,增长明显停滞; - 随机安全主题合成虽能一定程度提升覆盖度,但仍有大量目标特征无法覆盖; - 特征驱动合成优势显著:在同等数据预算下,特征覆盖度高达 99.74%,几乎全覆盖目标特征集。 这是本文方法最核心的实证优势: 自然采样依赖稀有安全模式**恰好出现**,随机性强;无约束的通用合成仍会遗漏对后训练至关重要的模型内部表征方向。 而特征驱动合成**精准瞄准缺失的内部表征方向**,并通过表征级验证确保样本真正激活目标特征。

6.2.3 合成数据的下游实验结果

上述覆盖度结果已证明特征驱动合成在表征层面有效,接下来关键问题是: 图14 中特征覆盖度的提升,能否真正转化为后训练阶段实际安全行为的改善。 表3 结果表明:**精准瞄准模型内部表征方向**,既能提升下游安全能力,还能保持甚至小幅增强模型通用能力。 为验证鲁棒性,本文改用 Gemini-3-Flash 生成提示词与回复,最终性能与原设置基本接近。 这说明性能增益来自**特征导向的数据构建逻辑本身**,而非依赖特定的生成模型。 在仅使用 **8000 条安全相关样本** 的条件下,特征驱动合成的效果已接近 12 万条纯安全数据的基线水平。 具体来看:同样 8000 条数据预算,**4000 条真实安全数据 + 4000 条特征驱动合成数据** 的安全准确率达 77.75; 而同预算下自然采样仅为 71.75。 值得注意的是,该方案在 IFEval、TruthfulQA 上同样取得最优分数,证明**针对性安全数据合成可以提升安全性,且不牺牲模型通用能力**。 更关键的是:性能提升来自**特征导向的精准合成**,而非单纯依赖合成数据本身。 与无约束安全合成做同预算对照: 将 4000 条随机合成数据替换为 4000 条特征驱动合成数据,安全准确率从 72.00 提升至 77.75,同时 IFEval、TruthfulQA、MMLU、GSM8K 指标均同步提升。 综上可以看出:在固定数据预算下,特征驱动合成**让监督训练更有针对性**,而非单纯堆砌数据量,从而优化了安全能力与通用能力的权衡关系。 特征覆盖度是表征层面的代理指标,本身并不直接保证下游行为一定变好; 其核心价值在于一个核心假设:**当训练数据能够激活原始监督中缺失或支撑不足的安全相关表征方向时,后训练效果会更优**。 因此本文进一步验证:固定数据预算下,特征驱动合成带来的覆盖度提升,能否真正转化为有监督微调后安全行为的实际改善。 整体结论: SAE 特征不仅可用于模型机理分析,也能落地到**数据合成**任务。 它为样本优先级筛选提供了**表征层面的量化依据**,同时构建出一套可管控的数据合成流水线。 通过提升安全相关内部表征方向的覆盖度,特征驱动合成让模型在有监督微调后获得更优的安全-通用能力权衡,也为后续后训练任务提供了基于特征覆盖度的样本筛选思路。

7 应用:有监督微调

现有大多数研究将稀疏自编码器(SAE)用于推理时刻的激活调控,这类方式仅修改模型的中间表征,不更新模型底层参数。这种测试阶段的干预手段无法给模型自身带来持久性能力提升,还可能损害模型在无关任务上的性能表现。基于这一问题,本文进一步探究:能否借助稀疏自编码器(SAE),通过训练从根本上优化模型行为

本节以非预期语码转换问题为研究场景展开探究。语码转换是多语言大模型中低频但实际影响很大的一种失效现象:模型会无故输出非目标语言的文本,如图 16 所示。

这类失效问题对传统有监督微调(SFT)天然存在挑战,原因是:常规监督训练只要求模型拟合目标回复,不会给出明确的负向约束来抑制不必要的语言切换

研究发现,稀疏自编码器(SAE)提供了一套可解释机制,能够识别与该行为强相关的语言专属内部特征。基于这一发现,本文提出SAE 引导的有监督微调方法:在训练过程中显式抑制对应特征的激活,从而减少模型的非预期语码转换现象(Deng 等人,2026)。

 7.1 非预期语码转换

非预期语码转换指大语言模型在生成回复过程中,无故产出**非目标语言**字符的现象。 给定多语言大语言模型 $L$、一类易发生非预期切换的语言 $l$,以及一组提示词集合 $X=\{x_1,x_2,\dots,x_N\}$(要求模型回复中**不应出现语言 $l$**),定义**语码切换率**如下: r = \frac{1}{N}\sum_{i=1}^N \mathbb{I}\big(\text{CSW}(l, P_L(x_i))\big)其中函数 $\text{CSW}(l, y)$ 用于判断文本 $y$ 是否包含语言 $l$ 的内容; $P_L(x_i)$ 是向大模型 $L$ 输入提示词 $x_i$ 后得到的模型输出; $\mathbb{I}(\cdot)$ 为**指示函数**(满足条件取1,不满足取0)。

7.2 特征分析

基于稀疏自编码器(SAE)识别出的语言专属特征(Deng 等人,2025),本文对非预期语码转换开展机理分析。两项核心发现为本章方法提供依据:

语码转换发生前,特征预激活值逐步升高

以**切换为中文**作为典型案例,追踪中文语言特征在各个字符位置上的平均预激活值,以**首次发生语码切换的位置为0基准点**。

如图17a 所示:在切换位置之前的所有字符上,中文特征预激活值**逐步上升**,并在切换时刻达到峰值,该规律在五个测试模型上均一致成立。 这表明:异常偏高的特征预激活值,可作为**非预期语码转换的前置征兆**。

对语言特征做定向消融,可抑制语码转换

本文采用**特征定向消融**方法(Ferrando 等人,2025;Arditi 等人,2024): 在**首次非预期语码切换的前一个字符**的最后一层残差流$x\in\mathbb{R}^N$ 中,减去目标语言的特征方向。 计算形式为:x' \leftarrow x - \lambda d 其中 $d$ 代表某一语言专属特征方向,$\lambda$ 为消融系数,控制消融强度。 用 $x'$替换原有残差流 $x$,继续执行模型前向传播。

如图17b 结果所示:该方式能稳定降低语码切换率,且消融系数越大,抑制效果越强; 反之,消融**无关语言特征**几乎无任何效果,验证了 SAE 识别出的特征具备**语言专属特异性**。

7.3 方法

虽然推理阶段的特征消融能够通过抑制语言特征激活缓解语码转换,但存在明显局限: 需要在每一步解码时额外外部干预,且**没有从模型参数根源上解决问题**。 为解决上述不足,本文提出 **稀疏自编码器引导的有监督微调(SASFT)**,将特征抑制**直接内化到训练过程**中。 SASFT 分为两个阶段:

1. **识别语言专属特征** 对目标语言 $L$,通过**单语言得分** 对 SAE 特征排序,筛选语言专属特征: $\nu^L_s = \mu^L_s - \gamma^L_s$其中 $\mu^L_s$ 表示特征 $s$ 在语言 $L$ 数据上的平均激活值,$\gamma^L_s$ 表示该特征在**其他所有语言**数据上的平均激活值。

2. **引入辅助正则损失** 在标准交叉熵损失基础上,额外增加一项**正则约束损失**。 设需要避免切入的目标语言为 $L$,残差流集合 $D=\{D_1,\dots,D_K\}$$D_i$为第 i 种语言训练数据在指定层的残差流集合。 辅助抑制损失定义为: \mathcal{L}_{\text{reduce}} = \mathbb{E}_{D_j \sim D\setminus\{D_L\}} \left[\mathbb{E}_{x\sim D_j} \left[\sum_{s\in S_L} \text{ReLU}\big(f_s(x)-\alpha_j\big)\right]\right] 式中: - $f_s(x)$ 为残差流 $x$ 下特征 $s$ 的预激活值;

- $S_L$ 为语言 $L$ 的专属特征集合; - $\alpha_j$ 为特征在第 $j$ 种语言上预先估计的平均预激活值; - 不将 $\alpha_j$ 置零,是因为预激活均值可能为负值,若强制置零会造成基准不合理; - 剔除 $D_L$:模型用语言 $L$ 生成语言 $L$ 不属于语码转换,无需约束。 最终训练损失由两项加权组合:

\mathcal{L}_{\text{training}} = \mathcal{L}_{\text{cross entropy}} + \lambda \mathcal{L}_{\text{reduce}} 

其中 $\lambda$ 为超参数,用于调节特征抑制损失在总损失中的权重。

# 7.4 主要实验结果 实验在 **3大模型家族(Gemma-2、Llama-3.1、Qwen3)共5个模型** 上,针对 **中文、俄语、韩语** 三种目标语言开展评测。

由表4 可见: SASFT 在两种数据集设置下,性能均全面优于所有基线方法; 绝大多数实验场景中语码切换率**降低50%以上**,部分配置下可**完全消除**非预期语码转换(如 Qwen3-1.7B 韩语场景)。

表5 进一步验证: SASFT 在6项多语言评测基准上**保持甚至小幅提升**原有能力, 说明**抑制无关语言特征激活**,并不会损害模型通用的多语言理解与生成能力。

9 结论

9.1 工作总结

本文推出了**Qwen-Scope**,一套面向通义千问(Qwen)模型家族的开源稀疏自编码器工具集。 Qwen-Scope 为多款 Qwen3、Qwen3.5 基座模型提供**逐层 SAE 特征**,在统一训练流程下,同时覆盖**稠密架构**与**混合专家架构**。 本文验证表明,Qwen-Scope 不仅可用于事后模型可解释性分析,还能落地到**实际模型开发全流程**。 通过开源相关模块与典型应用案例,期望助力社区对 Qwen 系列模型开展深入研究,方便科研人员与开发者挖掘本文之外的全新模型内在机理与应用场景。

9.2 未来研究方向

Qwen-Scope 为后续研究开辟了多个方向。本文重点梳理若干极具价值的研究方向,旨在将可解释性工具与**更可控、更实用的模型开发**深度结合。

推理模型可解释性

当下模型越来越依赖长思维链推理、多步采样,甚至潜在的向量空间推理,仅分析单次前向传播已不足以刻画其行为。 借助 Qwen-Scope,可研究:哪些 SAE 特征会在多条推理分支中共同出现、哪些推理步骤具备因果关键作用、重采样或人为干预会如何改变模型内部推理轨迹(Macar 等人,2026;Bogdan 等人,2025)。

基于模型内部表征的监测与审计

对于**欺骗行为、隐藏意图、越狱易感性、幻觉**等仅从输出层面难以识别的风险,SAE 特征可提供轻量级的内部表征信号。 后续研究可将 Qwen-Scope 与探测模型、激活态监测器、审计流程相结合,验证能否从模型内部表征中**提前、稳定地识别各类安全风险**(Goldowsky-Dill 等人,2025;Parrack 等人,2026;Marks 等人,2025)。

模型差异对比与后训练分析

Qwen-Scope 可用于对比模型在微调、强化学习及其他人为干预**前后的内部表征差异**。 研究者不再局限于评估模型外在行为变化,还能分析:哪些 SAE 特征发生改变、哪些表征方向激活变强/变弱、后训练是否会在激活空间中留下可解读的痕迹(Minder 等人,2026)。

可解释性驱动的模型控制与训练

本文实验结果表明,SAE 特征可充当**调控旋钮**:既可在推理阶段放大或抑制特定特征,也能在有监督微调(SFT)中作为辅助信号,还可为强化学习(RL)构造稀缺负样本。 未来可进一步研究**特征层面干预**对模型泛化能力、鲁棒性与安全性的影响,以及如何将可解释的表征方向融入训练 pipeline(Casademunt 等人,2025)。

以数据为中心的可解释性

Qwen-Scope 还可支撑以数据为中心的研发流程,将训练数据与模型内部**特征覆盖度**关联起来。 后续可利用 SAE 特征识别覆盖不足的模型行为、做样本优先级筛选、指导合成数据生成,并将模型不良行为溯源到关键数据区间(Coalson 等人,2025;Li 等人,2024)。 欢迎学界与开发者基于 Qwen-Scope 探索上述及更多应用方向。 期望 Qwen 系列开源 SAE 工具能够降低模型内部机理、异常行为的研究门槛,并搭建全新研发流程,让可解释性研究真正服务于模型实际性能优化。

9.3 社会影响

我们承认,当前可解释性研究尚不足以完全防范滥用风险。 我们郑重呼吁开发者和科研人员,不得以任何违背人类伦理价值观的方式使用 Qwen-Scope 及 Qwen 系列模型。 严禁将可解释性工具用于非科研目的、恶意篡改模型能力,以及编造、生成、传播违反公序良俗与社会主义核心价值观的有害信息,包括色情、暴力、歧视、煽动性内容等。 违规使用者将自动终止使用授权,并自行承担由此产生的全部法律责任。 本声明最终解释权归项目所有。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐