论文阅读 EMNLP 2025 Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Ja

CV-杨帆

284人浏览 · 2026-03-23 13:26:18

CV-杨帆 · 2026-03-23 13:26:18 发布

总目录大模型安全研究论文整理 2026年版：https://blog.csdn.net/WhiffeYF/article/details/159047894

Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking

论文翻译：https://whiffe.github.io/Paper_Translation/LLM_Thinking/Safe/%E6%8E%A8%E7%90%86%E9%98%B2%E5%BE%A1%EF%BC%9A%E5%AE%89%E5%85%A8%E6%84%9F%E7%9F%A5%E6%8E%A8%E7%90%86%E5%8F%AF%E4%BB%A5%E4%BF%9D%E6%8A%A4%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%85%8D%E5%8F%97%E8%B6%8A%E7%8B%B1%E6%94%BB%E5%87%BB%20%E8%AD%A6%E5%91%8A%EF%BC%9A%E6%9C%AC%E6%96%87%E5%8C%85%E5%90%AB%E5%8F%AF%E8%83%BD%E8%A2%AB%E8%A7%86%E4%B8%BA%E5%86%92%E7%8A%AF%E6%80%A7%E7%9A%84%E5%86%85%E5%AE%B9.html

在这里插入图片描述

该论文《Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking》由北京航空航天大学、百度公司及中关村实验室的研究者（Junda Zhu 等）合作完成，发表于 EMNLP 2025。论文聚焦一个核心问题：大模型在“越狱攻击”（诱导输出不安全内容）下仍然脆弱，而现有方法过度依赖外部检测或简单拒答，效果有限。

该论文提出一种全新的训练范式 R2D（Reasoning-to-Defend），核心思想是：让模型在“思考过程中就具备安全意识”。与传统方法不同，它不是简单在输出阶段拦截，而是让模型在每一步推理中都自我评估“是否安全”。具体来说，模型在生成回答前会进行多步推理，并在每一步打上类似 [SAFE] / [UNSAFE] / [RETHINK] 的“安全标签”（称为Pivot Token），从而动态调整后续回答策略。

为了实现这一点，该论文设计了两大关键技术：第一是安全感知推理蒸馏（SwaRD），将强推理模型的“思考过程”迁移给普通模型；第二是对比枢纽优化（CPO），强化模型对每一步安全状态的判断能力。这种设计让模型不仅会“答题”，还会在答题过程中不断反思是否存在风险，从而实现“自我防御”。

可以用一个简单例子理解：当用户提出一个带有攻击性的请求（比如诱导生成危险内容），传统模型可能直接拒绝或误判。而R2D模型会这样思考：第一步识别意图（发现潜在风险），第二步评估是否违规（标记为[UNSAFE]），第三步调整策略（改为安全回应）。就像一个人边思考边自检，而不是最后才决定“说不说”。这种过程显著降低了被诱导的概率。

实验结果显示，R2D在多个越狱攻击基准（如JailbreakBench、HarmBench）上大幅降低攻击成功率，平均可降低约50%以上，同时基本不影响正常任务性能。更重要的是，它还减少了“误拒答”（把正常问题当危险问题拒绝），实现了安全性与可用性的平衡。

总体来看，该论文的贡献不只是提出一个新方法，而是提供了一种新思路：让大模型通过“会思考”来“更安全”。这对未来大模型从“工具”走向“可信系统”具有重要意义。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【薅羊毛教程】LLaMaFactory 不用本地跑！免费 GPU，一键微调大模型

AtomGit开源社区

2026沈阳GEO优化公司TOP5榜单

2026年沈阳GEO优化公司TOP5选型指南 2026年AI搜索流量红利爆发，沈阳企业加速布局GEO优化（生成引擎优化），但需注意本土适配性。选型需聚焦四大维度：本土产业适配度（装备制造、本地生活等特色行业）、流量抢占能力（覆盖主流AI平台）、转化落地效率（智能承接体系）、长期服务稳定性（本土团队支持）。 TOP5服务商推荐：辽宁云界数智：本土标杆，全行业适配，擅长装备制造与本地生活，提供定制化

AtomGit开源社区

深入理解大模型Agent生态系统：Agent、MCP、Skill、RAG与Memory协同机制解析

Agent（智能体）是基于大语言模型，能够自主感知环境、制定决策并执行行动的智能系统。与传统的"输入-输出"模式不同，Agent具备目标导向、工具调用、多轮推理三大核心能力。核心特征：理解用户意图、解析任务需求基于上下文规划执行步骤调用工具完成具体任务根据执行结果调整策略组件核心角色主要职责Agent核心决策理解用户意图、规划任务流程、协调各组件协作、整合生成最终结果MCP协议层统一接口、工具管理