【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval
·
论文信息
论文标题: Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者: Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接: http://arxiv.org/abs/2505.15753
关键词: LLM Safety, Jailbreaking, RAG
研究背景
尽管大语言模型(LLMs)经过了人类反馈强化学习(RLHF)等安全对齐技术处理,但仍易受到“越狱攻击”(Jailbreaking Attacks)的威胁,即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点:
- 静态防御的局限性: 现有的过滤(Pre-processing)或提示词(Prompt-based)防御方案多为静态,难以应对“野外”(in-the-wild)不断演进的新型攻击(如密文攻击、心理诱导模板等)。
- 微调成本与遗忘: 现有的动态防御需频繁微调模型,成本高昂且可能导致“灾难性遗忘” 。
作者提出利用 检索增强生成(RAG) 的思路,通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性 。
初步分析
在正式提出模型前,作者进行了两项关键预研:
- 样本需求量: 实验发现,仅需极少数(如 4 个)针对特定攻击模式的安全对齐样本,即可将 ASR(攻击成功率)显著降低至 10% 以下
- 检索准确性: 利用 RAG 机制从数万条数据的知识库中检索,即便只加入 8-16 条针对新型攻击的样本,其检索准确率也能迅速趋于 100% 。
- 结论: 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径 。

SCR 防御框架
SCR 框架分为两个主要阶段:
- 初始化安全库 (Initialization): 使用通用的有害请求及对应的安全拒绝回复(由 Oracle 安全模型生成)构建初始内存库 M M M 。
- 动态防御循环:
- 识别与更新 (Identify & Defend): 当检测到新型“野外”攻击 a i a_i ai 时,仅需自动生成数十个针对该攻击模式的安全样本并加入库中,无需微调模型。
- 推理防御 (Inference): 对于用户的任何输入查询 q q q,系统首先从库中检索出 K K K个最相关的安全上下文,将其作为提示词的一部分喂给模型。如果是正常查询,检索结果不会干扰模型性能;如果是攻击查询,检索到的针对性拒答示例将引导模型拒绝回答 。

实验结果分析
论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估:
- 常规攻击防御: 在对抗 GCG-T(优化攻击)和 ICA(上下文攻击)时,SCR 将平均 ASR 从 34.9% 降至 2.5% 左右,显著优于 Self-reminder 和 ICD 。
- “野外”攻击防御: 在面对 Skeleton Key 和 Renellm 等新型攻击时,SCR 展现了极强的可扩展性,ASR 降幅巨大(例如在某些模型上从 50% 以上降至接近 0%)。
- 无损性能 (Harmlessness): 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中,引入 SCR 后的模型性能几乎没有波动,证明该防御机制不会损害模型的固有能力 。
- 开销评估: 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长(主要来自检索模型),在安全与效率间取得了较好平衡 。
总结
核心贡献: SCR 提供了一种模型无关(Model-agnostic)且即插即用的防御新范式 。它避免了频繁微调的昂贵成本,通过“以例示警”的方式,让 LLM 在推理阶段能实时识别并抵御未知的越狱手段 。
优势:
- 可扩展性 (Scalability): 防御能力随记忆库扩充线性增长。
- 模型无关 (Model-agnostic): 一个检索模块可同时保护多个不同的 LLM 实例。
- 即时补丁: 发现新攻击后,分钟级即可完成入库更新。
局限性:
- 防御效果高度依赖于安全示例库的质量和覆盖面。
- 对于高度复杂或模糊的输入,检索机制可能无法精确匹配最佳安全上下文。
- 引入检索模型会增加一定的计算开销,在高并发场景下需进一步优化。
- 论文假设“识别新攻击”是已发生的,但在现实中需要自动化手段检测概念漂移。
- 防御效果高度依赖检索模型 g g g的质量,若攻击者构造“检索规避”样本,系统可能失效。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)