论文阅读 EMNLP 2025 Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Ja
总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894
https://arxiv.org/pdf/2502.12970
Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking

该论文《Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking》由北京航空航天大学、百度公司及中关村实验室的研究者(Junda Zhu 等)合作完成,发表于 EMNLP 2025。论文聚焦一个核心问题:大模型在“越狱攻击”(诱导输出不安全内容)下仍然脆弱,而现有方法过度依赖外部检测或简单拒答,效果有限。
该论文提出一种全新的训练范式 R2D(Reasoning-to-Defend),核心思想是:让模型在“思考过程中就具备安全意识”。与传统方法不同,它不是简单在输出阶段拦截,而是让模型在每一步推理中都自我评估“是否安全”。具体来说,模型在生成回答前会进行多步推理,并在每一步打上类似 [SAFE] / [UNSAFE] / [RETHINK] 的“安全标签”(称为Pivot Token),从而动态调整后续回答策略。
为了实现这一点,该论文设计了两大关键技术:第一是安全感知推理蒸馏(SwaRD),将强推理模型的“思考过程”迁移给普通模型;第二是对比枢纽优化(CPO),强化模型对每一步安全状态的判断能力。这种设计让模型不仅会“答题”,还会在答题过程中不断反思是否存在风险,从而实现“自我防御”。
可以用一个简单例子理解:当用户提出一个带有攻击性的请求(比如诱导生成危险内容),传统模型可能直接拒绝或误判。而R2D模型会这样思考:第一步识别意图(发现潜在风险),第二步评估是否违规(标记为[UNSAFE]),第三步调整策略(改为安全回应)。就像一个人边思考边自检,而不是最后才决定“说不说”。这种过程显著降低了被诱导的概率。
实验结果显示,R2D在多个越狱攻击基准(如JailbreakBench、HarmBench)上大幅降低攻击成功率,平均可降低约50%以上,同时基本不影响正常任务性能。更重要的是,它还减少了“误拒答”(把正常问题当危险问题拒绝),实现了安全性与可用性的平衡。
总体来看,该论文的贡献不只是提出一个新方法,而是提供了一种新思路:让大模型通过“会思考”来“更安全”。这对未来大模型从“工具”走向“可信系统”具有重要意义。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)