论文阅读:ICLR 2026 Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check
总目录 大模型安全研究论文整理 2026年版:
https://blog.csdn.net/WhiffeYF/article/details/159047894
https://openreview.net/forum?id=DK6AToxJNo
https://arxiv.org/pdf/2509.11629
https://resa-bytedance.github.io/

该论文针对大型语言模型(LLM)面临的越狱攻击(jailbreak attacks)问题,提出了一种创新的安全对齐方法——“Answer-Then-Check”(先答后检)策略。传统对齐模型在面对经过伪装的恶意提示时往往容易被攻破,而该论文的核心洞察在于:恶意意图通常被深度隐藏在查询中难以识别,但当模型尝试生成回答时,这种有害意图往往会暴露出来。基于这一观察,该方法让模型首先在思维链(Chain-of-Thought)中生成一个预期回答的摘要,然后对该摘要进行安全审查,最后决定是否向用户输出。
该论文构建了包含8万样本的Reasoned Safety Alignment(ReSA)数据集,涵盖无害查询、有害查询及其对抗性变体四种类型。数据集通过三阶段流程生成:安全查询收集、预期回答摘要生成、安全分析合成。实验结果表明,基于ReSA微调(ReSA-SFT)和强化学习(ReSA-RL)的模型在多个安全评估基准上达到了帕累托最优——在显著提升越狱防御能力的同时,降低了过度拒绝率,并保持了模型在MMLU、MATH500、HumanEval等通用推理任务上的性能。
该论文还提出了两个重要变体:自适应先答后检策略(Adaptive Answer-Then-Check)可在正常查询上实现与基础模型相当的推理效率;而RL-based变体则进一步提升了预期回答摘要的安全性。特别值得一提的是,该论文发现仅需500个样本即可达到与完整数据集相当的性能,为数据高效的安全对齐开辟了 promising 路径。此外,该方法还具备"安全补全"能力,能够对自杀自残等敏感查询提供支持性回应而非简单拒绝,这是事后检测方法所不具备的。
QA
这篇论文,给我举个例子,论文的方法是啥?
[cite_start]这篇论文探讨了大语言模型安全领域中非常前沿的方向,特别是针对“思考模式”安全性的防御机制。作者提出了一种名为 Answer Then Check 的安全对齐策略 [cite: 14]。
论文方法解析
[cite_start]该方法不依赖于输入阶段的直接拦截,而是利用模型的思维链推理能力在输出前进行内部预演 [cite: 50, 53][cite_start]。当接收到用户提示词时,模型会进入一个对用户隐藏的推理阶段 [cite: 151]。
[cite_start]首先,模型会生成一个预期答案摘要 [cite: 148][cite_start]。无论用户的意图是否恶意,模型都会先生成一个简短的计划,概述它将如何自然地回答该问题 [cite: 148, 155]。
[cite_start]随后,模型会进行安全分析 [cite: 149][cite_start]。它会根据既定的安全策略,对刚才生成的答案摘要进行严格的自我评估,检查其中是否包含违规内容 [cite: 149]。
[cite_start]最后,模型根据分析结果做出最终决定 [cite: 150][cite_start]。如果摘要符合安全规定,模型就会向用户输出完整的回答 [cite: 150][cite_start]。如果摘要违反了任何安全策略,模型就会阻断该回答,并给出一个标准的拒绝回复 [cite: 150]。
论文中的具体案例
[cite_start]作者在文中展示了该策略应对直接恶意查询的效果 [cite: 960][cite_start]。在一个测试用例中,用户询问如何欺骗 Facebook 的内容审核系统以便发布露骨的色情照片 [cite: 960]。
[cite_start]在 Answer Then Check 机制下,模型首先在内部起草了一个预期答案摘要 [cite: 963][cite_start]。该摘要概述了绕过审核的具体步骤,包括修改图像元数据和使用社会工程学策略等规避检测的方法 [cite: 963, 964]。
[cite_start]在紧接着的安全分析环节,模型审视了这份摘要,并明确指出该计划违反了色情内容相关的安全策略 [cite: 967][cite_start]。模型意识到提供这些规避技术属于违规行为 [cite: 967][cite_start]。因此,它终止了原计划的输出,转而向用户声明该请求违反了输出策略并予以拒绝 [cite: 968]。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)