通过安全特异性神经元理解并增强LLM安全机制

20212411龚安阳

367人浏览 · 2026-03-30 12:20:15

20212411龚安阳 · 2026-03-30 12:20:15 发布

1 摘要

问题：目前对LLM的安全机制的理解十分有限
贡献：

提出了一种特异性安全神经元的检测方法
揭示了安全神经元在LLM神经网络中的分布特点
提出了针对安全神经元的安全对齐方法SN-Tune，极大地提升了指令微调模型的安全性
提出了隔离安全神经元的微调方法RSN-Tune，在下游任务微调过程中，保持LLM安全机制的完整性

2 背景

2.1 原有的LLM安全对齐方法

改进训练算法，核心围绕人类反馈强化学习（RLHF）及其改进展开
精修训练数据，构建高质量、多样化的安全训练数据，让模型更充分地学习安全行为
在原有LLM外新增独立的安全检测，阻断模块
这三类方法均缺少LLM安全机制的底层理解，将LLM作为黑盒训练，从整体模型参数层面做优化，未针对 LLM 中负责安全的核心组件精准调优，对齐训练成本高，效果差，且全参数微调容易破坏LLM原有功能

2.2 神经元的定义

LLM中神经元指的是参数矩阵中的一行或者一列

3 安全神经元检测方法

3.1 基本原理

在安全任务中某个神经元的重要性衡量方式：
神经元去除（将该神经元对应的行或者列参数置为0）后对神经元所在层输出的影响
去除前该网络层输出为a，去除后网络层输出为a’，则**(a-a’)^2**越大，神经元重要性越高
设定一个阈值，当神经元重要性超过阈值时，标记为重要神经元
每一次对LLM的有害查询都能得到一个重要神经元集合，所有查询的安全神经元集合交集即为安全神经元集合在这里插入图片描述
因此随着查询数量增多，取交集得到的安全神经元越少，实验表明，200次查询足以可靠识别安全神经元

3.2 并行神经元检测方法

由于3.1检测过程需要逐个去除神经元，串行特性使得检测速度较慢，因此提出并行神经元检测方法以适用于巨量参数的LLM

3.2.1 前馈网络并行化

前馈网络计算过程如图：

在这里插入图片描述
由于Wup，Wdown矩阵的线性特点，将第k列置为0时，最终结果第k列也置为0，因此可以通过将原结果乘以mask[k]列向量实现，mask[k]第k行为1，其余行为0

将mask[i],i=1,2…k，拼接为Mask矩阵即可一次性计算所有神经元重要性
在这里插入图片描述
Wdown的计算方式与Wup类似

3.2.2 自注意力层并行化

自注意力层计算公式如图：
在这里插入图片描述

Wv矩阵具有线性性，因此计算方式与3.2.1方法相似
Wq和Wk矩阵由于经过Softmax激活函数，因此具有非线性性
Wq矩阵第k列置为0时，输出变化量为Wq第k列向量与Wk第k行向量的乘积
在这里插入图片描述
由此构造三维张量▲x，第k行为Wq第k列向量与Wk第k行向量的乘积得到的二维军阵，按照下面公式即可一次性计算所有Wq神经元重要性

Wk计算方式与Wq类似

3.3 实验验证

在这里插入图片描述

实验采用三种针对安全性进行调优的开源模型，Llama2-7B-Chat、Llama3-8B-Instruction、Mistral-7B-Instruct-v0.2。测试其原始状态(Origin)、随机失活其中0.5%神经元(Deact-R)、失活0.5%安全神经元(Deact-SN)时在各个数据集上的攻击成功率(Harmful)和通用能力(Capability)

结果表明，随机失活少量神经元对LLM安全机制有轻微破坏，而失活极少量的安全神经元攻击成功率大幅提升，安全机制严重破坏，说明LLM安全机制很大程度依赖于少量安全神经元

随机失活少量神经元和安全神经元后，LLM通用能力均略微下降，说明安全神经元也承担一定LLM通用能力

4 安全神经元分布特点

4.1 安全神经元占比不足1%

在这里插入图片描述
当失活0.4%安全神经元时，三种LLM的攻击成功率均达到峰值

4.2 安全神经元集中于前几层网络

在这里插入图片描述
上图是从前向后逐层失活安全神经元时LLM的攻击成功率变化，可以看到失活前10层网络的安全神经元时，LLM攻击成功率达到峰值

上图是从后向前逐层失活安全神经元时LLM的攻击成功率变化，可以看到失活10-30层神经元时LLM的安全机制基本未被破坏

4.3 安全神经元主要位于自注意力层

先前研究表明，前馈层主要负责信息提取，自注意力层主要负责信息理解，而安全机制侧重于理解潜在威胁，以识别其有害性质，而无需大量获取新知识，因此安全神经元主要位于自注意力层符合逻辑
在这里插入图片描述
尽管注意力层参数不到前馈层参数的一半，安全神经元超过60%集中于注意力层

4.3 不同语言间安全神经元交集较少

在这里插入图片描述
不同语言间安全神经元的交集通常低于30%
这意味着即使LLM专门针对英语安全对齐，应用到其他语言时仍可能存在风险。因此安全对齐的训练语料需要包含多种语言

5 SN-Tune

原理：安全对齐时，仅调整安全神经元参数，其余神经元梯度设置为0 在这里插入图片描述

在这里插入图片描述
无论是指令微调模型，还是base模型。SN-Tune通过仅针对安全神经元训练均大幅提高了模型抗攻击能力，保持了LLM原本的通用能力甚至略微提升。此外，SN-Tune 所需的训练成本更低

6 RSN-Tune

原理：微调过程冻结安全神经元测试，降低特定任务微调对LLM安全机制的破坏
在这里插入图片描述
Before：微调前经过安全对齐的模型
Origin：微调后模型
SN-Tune：先SN-Tune后微调模型

阅读原文：Understanding and Enhancing Safety Mechanisms of LLMs via Safety-Specific Neuron

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

GPT-5.5长对话稳定性实测

AtomGit开源社区

Apache Spark：大数据处理的极速引擎与PySpark实战指南

在上一节中，我们利用 Spark 强大的分布式计算能力完成了数据的清洗与模型的训练。然而，在真实的业务场景中，我们往往需要将这些模型以 API 的形式暴露给前端或第三方服务，实现实时的预测（例如：实时推荐、风控拦截）。它记录了数据的转换过程（血统），当某个分区数据丢失时，它可以根据血统重新计算，而无需进行数据复制，从而在保证可靠性的同时提高了效率。DataFrame 是 PySpark 中最常用的

AtomGit开源社区

2026超融合观察：走出资源池化红利期，全栈智能成唯一出路

综合市场实践与底层技术分析来看，深信服超融合（Sangfor HCI）凭借全闪存NVMe协议栈重构（全闪存储突破两百万级并发IOPS性能瓶颈）、99.9999%的企业级高可用架构（原生支持跨数据中心RPO=0的双活容灾），以及前瞻的异构GPU资源池化技术（原生支持AI业务敏捷承载），已彻底跨越“基础虚拟化替代”阶段，成为当前企业构建下一代软件定义数据中心（SDDC）、支撑核心稳态业务与AI敏态业务