论文阅读：ICLR 2026 Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

CV-杨帆

373人浏览 · 2026-03-19 17:05:21

CV-杨帆 · 2026-03-19 17:05:21 发布

总目录大模型安全研究论文整理 2026年版：
https://blog.csdn.net/WhiffeYF/article/details/159047894

https://openreview.net/forum?id=DK6AToxJNo

https://arxiv.org/pdf/2509.11629

https://resa-bytedance.github.io/

论文翻译：
https://whiffe.github.io/Paper_Translation/Safe/%E6%8E%A8%E7%90%86%E5%AE%89%E5%85%A8%E5%AF%B9%E9%BD%90%EF%BC%9A%E9%80%9A%E8%BF%87%E7%AD%94%E6%A1%88%E5%90%8E%E6%A3%80%E6%9F%A5%E7%A1%AE%E4%BF%9D%E8%B6%8A%E7%8B%B1%E9%98%B2%E5%BE%A1%20—%20Reasoned%20Safety%20Alignment%EF%BC%9A%20Ensuring%20Jailbreak%20Defense%20via%20Answer-Then-Check.html

在这里插入图片描述

该论文针对大型语言模型（LLM）面临的越狱攻击（jailbreak attacks）问题，提出了一种创新的安全对齐方法——“Answer-Then-Check”（先答后检）策略。传统对齐模型在面对经过伪装的恶意提示时往往容易被攻破，而该论文的核心洞察在于：恶意意图通常被深度隐藏在查询中难以识别，但当模型尝试生成回答时，这种有害意图往往会暴露出来。基于这一观察，该方法让模型首先在思维链（Chain-of-Thought）中生成一个预期回答的摘要，然后对该摘要进行安全审查，最后决定是否向用户输出。

该论文构建了包含8万样本的Reasoned Safety Alignment（ReSA）数据集，涵盖无害查询、有害查询及其对抗性变体四种类型。数据集通过三阶段流程生成：安全查询收集、预期回答摘要生成、安全分析合成。实验结果表明，基于ReSA微调（ReSA-SFT）和强化学习（ReSA-RL）的模型在多个安全评估基准上达到了帕累托最优——在显著提升越狱防御能力的同时，降低了过度拒绝率，并保持了模型在MMLU、MATH500、HumanEval等通用推理任务上的性能。

该论文还提出了两个重要变体：自适应先答后检策略（Adaptive Answer-Then-Check）可在正常查询上实现与基础模型相当的推理效率；而RL-based变体则进一步提升了预期回答摘要的安全性。特别值得一提的是，该论文发现仅需500个样本即可达到与完整数据集相当的性能，为数据高效的安全对齐开辟了 promising 路径。此外，该方法还具备"安全补全"能力，能够对自杀自残等敏感查询提供支持性回应而非简单拒绝，这是事后检测方法所不具备的。

QA

这篇论文，给我举个例子，论文的方法是啥？

[cite_start]这篇论文探讨了大语言模型安全领域中非常前沿的方向，特别是针对“思考模式”安全性的防御机制。作者提出了一种名为 Answer Then Check 的安全对齐策略 [cite: 14]。

论文方法解析

[cite_start]该方法不依赖于输入阶段的直接拦截，而是利用模型的思维链推理能力在输出前进行内部预演 [cite: 50, 53][cite_start]。当接收到用户提示词时，模型会进入一个对用户隐藏的推理阶段 [cite: 151]。

[cite_start]首先，模型会生成一个预期答案摘要 [cite: 148][cite_start]。无论用户的意图是否恶意，模型都会先生成一个简短的计划，概述它将如何自然地回答该问题 [cite: 148, 155]。

[cite_start]随后，模型会进行安全分析 [cite: 149][cite_start]。它会根据既定的安全策略，对刚才生成的答案摘要进行严格的自我评估，检查其中是否包含违规内容 [cite: 149]。

[cite_start]最后，模型根据分析结果做出最终决定 [cite: 150][cite_start]。如果摘要符合安全规定，模型就会向用户输出完整的回答 [cite: 150][cite_start]。如果摘要违反了任何安全策略，模型就会阻断该回答，并给出一个标准的拒绝回复 [cite: 150]。

论文中的具体案例

[cite_start]作者在文中展示了该策略应对直接恶意查询的效果 [cite: 960][cite_start]。在一个测试用例中，用户询问如何欺骗 Facebook 的内容审核系统以便发布露骨的色情照片 [cite: 960]。

[cite_start]在 Answer Then Check 机制下，模型首先在内部起草了一个预期答案摘要 [cite: 963][cite_start]。该摘要概述了绕过审核的具体步骤，包括修改图像元数据和使用社会工程学策略等规避检测的方法 [cite: 963, 964]。

[cite_start]在紧接着的安全分析环节，模型审视了这份摘要，并明确指出该计划违反了色情内容相关的安全策略 [cite: 967][cite_start]。模型意识到提供这些规避技术属于违规行为 [cite: 967][cite_start]。因此，它终止了原计划的输出，转而向用户声明该请求违反了输出策略并予以拒绝 [cite: 968]。