护栏选型表面上是技术比选,实质上是一笔安全投资——花的每一分钱、引入的每一个组件,都要能在出了事时说清楚"为什么选它、它防住了什么、没防住的部分我有预案"。

        上一篇完成了安全摸底,这篇进入第一个防护动作:选护栏、配防护

        大模型护栏市场现在有一个很有意思的现象:工具越来越多,但安全团队反而越来越困惑。Prompt 过滤器、Guardrails、AI 网关、WAF 都在做安全,到底该用哪个?用了之后为什么大模型还是会被越狱?

        这篇文章把这个问题讲清楚,并给出一个实操的选型框架。

        一、搞清楚需求

        很多团队把"护栏"当成一个笼统的概念,但实际上,当前市面上做安全的工具分属不同层面,解决的问题不一样。        

工具类型

解决什么问题

看什么

看不到什么

Prompt 过滤器

单条输入/输出是否有风险

一句话的内容

多轮对话的上下文、用户身份

Guardrails

约束模型"应该怎么回答"

模型行为的合规性

用户身份、跨轮次行为、工具调用链

AI 网关

管理模型调用的鉴权、限流、日志

谁在用什么模型、调了多少次

自然语言背后的真实意图

WAF

拦截 Web 层的恶意请求

HTTP 协议层的异常

合法自然语言中的语义攻击

GAF(生成式应用防火墙)

统一安全执法层

用户身份 + 会话上下文 + 语义 + 工具调用

        问题出在哪?我们拥有大量分散的安全工具,却缺少一个能够从整体上理解生成式交互并统一执法的安全层。

        WAF管不到语义层——Prompt 注入隐藏在完全合法的自然语言中,发生在"意义层"而不是"语法层"。Guardrails 不关心用户是谁,也很难理解一次回答在整段对话中的位置。AI 网关管理"怎么用模型",不管"模型在语义上做了什么"。

        选型的第一步不是"买哪个产品",而是"你的系统需要覆盖哪些层"。

        

        

        二、GAF 的五层架构

        2026 年初的一篇论文提出了 GAF(Generative Application Firewall)的五层架构,提供了一种较完整的防护分层视角:

层级

名称

管什么

典型措施

第一层

网络层

使用行为是否合理

限流、抗 prompt flooding、抗自动化探测

第二层

结构层

请求结构是否安全可解析

编码混淆检测、格式校验、参数完整性

第三层

访问层

用户/Agent 有没有权限做这件事

身份验证、角色权限、工具调用授权

第四层

语义层

这一轮内容在语义上想干什么

越狱检测、违规意图识别、角色操纵拦截

第五层

上下文层

多轮交互是否正在走向失控

跨轮次累积风险、目标偏移检测、实时干预

       2.1 网络层(Network Layer)

  • 定位:最外围的基础流量管控层,作用于用户身份识别与会话建立之前
  • 核心能力
    • 实现请求/提示词速率限制、IP封禁、流量访问控制
    • 缓解DDoS、Prompt泛洪、模型窃取、爬虫等 volumetric 攻击
    • 过滤已知恶意IP流量,减少上游组件处理压力

       

        2.2 访问层(Access Layer)

  • 定位:身份与权限管控层,聚焦合法用户的权限边界控制
  • 核心能力
    • 实现用户认证、会话管理、角色权限分配
    • 防御会话劫持、权限提升、敏感能力滥用等内部/授权用户风险
    • 映射组织最小权限策略,对AI Agent的工具调用、RAG检索范围进行细粒度权限控制

        2.3 句法层(Syntactic Layer)

  • 定位:结构与格式校验层,防范下游系统的语法类攻击
  • 核心能力
    • 检查输入输出的结构合法性,识别转义序列、混淆令牌、代码注入
    • 验证工具调用 schema、返回 payload 格式,执行类型/长度/编码约束
    • 防御SQL注入、XSS、Prompt编码混淆、流协议异常等语法层面威胁

        2.4 语义层(Semantic Layer)

  • 定位:单轮交互内容检测层,识别独立请求的恶意意图
  • 核心能力
    • 基于自然语言语义理解,检测无需上下文即可判定的攻击
    • 覆盖DAN、DEV模式、Best-of-N等单轮越狱、Prompt注入、敏感信息泄露风险
    • 识别工具参数中的注入意图,实现内容级风险拦截

        2.5 上下文层(Context Layer)

  • 定位:多轮交互行为分析层,防御跨会话的复杂攻击
  • 核心能力
    • 维护会话历史与角色感知,检测Echo Chamber、Crescendo等渐进式多轮越狱攻击
    • 进行行为分析与Bot检测,通过交互时序、频率特征区分真实用户与自动化探测
    • 跟踪Agent规划逻辑与工具调用升级趋势,实现纵向策略执行(如重复越狱阈值、数据泄露上限)

        五层架构遵循纵深防御原则,只有各层协同工作才能覆盖从传统网络攻击到复杂生成式AI攻击的全场景风险。其设计思路延伸了传统OSI网络模型,在应用层之上新增了语义理解维度,填补了传统WAF无法应对自然语言交互攻击的安全空白。

        关键认知:安全不再只是事前过滤或事后兜底,而是可以在生成过程中实时执法——选择性打码、引导安全代答,甚至直接终止生成。

图片

      三、开源护栏工具对比

        护栏的核心是一个分类模型,判断输入/输出是否存在风险。以下是当前主流的开源护栏模型:

模型

发布方

特点

适用场景

Llama Guard v4

Meta

多模态(图文),最成熟的护栏基线

需要图文一体防护的团队

Qwen3Guard

阿里通义

0.6B/4B/8B 三档,Stream 版支持流式审核

对算力/延迟敏感的场景

WildGuard

学术

提示有害/回复有害/拒答检测三合一

需要细粒度分析的研究场景

PolyGuard

学术

17 语种,原语直判优于翻译再判

多语言业务

ShieldGemma 2

Google

文本+图像安全分类

Google 生态

gpt-oss-safeguard

OpenAI

OpenAI 首个开源护栏模型

需要 OpenAI 兼容方案

NemoGuard

NVIDIA

生态落地好,可复用积木

NVIDIA 生态用户

        一个重要趋势:开源护栏模型正在走向免费。基础能力(分类模型 + 规则模板)开源就够了,但"实时 × 多模态 × 合规 × SLA"的工程化能力依然是付费层——就像 MySQL 免费,但企业为 Aurora 的高可用、备份、审计买单。

四、护栏效果的真实数据

        选护栏不能只看产品文档,要看实测数据。

        护栏确实能显著降低越狱攻击成功率。

        CISPA 与南方科技大学联合完成的一项研究,第一次系统性地测量了"当模型被套上护栏之后,主流越狱攻击的真实危害程度"。

        核心结论:与"裸模型"相比,所有护栏都能在不同程度上降低越狱攻击的攻击成功率(ASR)。 其中表现最好的护栏在多数攻击场景下都最为稳健。

        这意味着:在真实部署环境中,越狱攻击的实际威胁强度,明显低于许多基于裸模型得出的结论。

        来源:CISPA & 南方科技大学,arXiv:2512.24044

        但固定模板攻击会大幅低估风险

        AVISE 框架的实测数据揭示了一个重要发现:

模型

固定模板攻击失败率

自适应攻击失败率

差异倍数

Llama 3.1 8B

0.16

0.68

4.3×

Llama 3.2 3B

0.08

0.68

8.5×

Ministral 3 14B

0.84

最高

        结论:只测固定攻击模板的护栏评测不可信。必须用自适应攻击验证护栏面对未知攻击时的表现。

        来源:AVISE 论文,arXiv:2604.20833

        五、选型决策框架

        不要上来就比产品。按这个顺序决策:

        第一步:按风险场景列需求

你的业务场景

必须覆盖的风险

需要的护栏层级

客服机器人

违规输出、敏感信息泄露

语义层 + 上下文层

企业知识库问答

数据越权访问、间接注入

访问层 + 语义层 + 上下文层

Agent 自动化

工具滥用、权限越级、级联失败

全五层

内容生成

内容合规、AIGC 标识

语义层 + 结构层

        第二步:用六大类指标做系统评估

指标类别

核心问题

必看指标

功能

能不能防、防什么

覆盖的风险类型、多模态支持

效果

拦得准不准

召回率、F1、MCC(极度不均衡场景)

性能

会不会拖慢系统

P95 延迟、QPS、超时率

可运营性

能不能长期跑

策略配置灵活度、生效时延、灰度发布

可解释性

能不能说清为什么拦

命中原因追溯、风险标签粒度、审计日志

成本

值不值

单请求成本、扩容成本曲线、是否绑定单一模型

        

        安全负责人决策点:护栏选型的核心判断不是"哪个最好",而是"哪个最适合当前阶段"。先用开源工具验证效果,再决定是否投入商业方案。

图片

        第三步:先 MVP,再迭代

  1. 先用一个开源护栏模型(如 Qwen3Guard 或 Llama Guard)做 MVP

  2. 用真实业务数据跑一次效果评测

  3. 记录误拦率和漏拦率,调整阈值

  4. 如果开源模型在 PoC 和低风险场景中效果够用,可以先用于试点;生产高并发、高合规、高审计场景仍需评估商业产品、云能力或自建工程体系。

        六、输入防护实操

        单纯靠一个分类模型做输入过滤是不够的。推荐三层组合方案:

        第一层:规则过滤

  • 关键词黑名单(国标要求 ≥ 10,000 个)

  •  格式校验(长度、编码、特殊字符)

  •  正则匹配(URL、邮箱、IP 地址等)

        第二层:分类模型

  • 用护栏模型判断语义风险

  • 支持多模态(文本、图像、文件)

        第三层:上下文分析

  • 跨轮次累积风险评估

  • 检测逐步升级的多轮攻击

        七、输出防护实操

        输出防护不是简单的"有风险就拦",而是需要一个分级处置策略:

风险等级

处置方式

示例

低风险

正常输出

普通问答

中风险

脱敏后输出

自动遮挡身份证号、手机号

高风险

安全改写/代答

用预设的安全回复替代原始输出

严重风险

拦截 + 告警

违法内容直接拒答,触发安全告警

        Google 在 AI Protection 中把这套机制叫"Model Armor":合规内容正常返回,不合规内容经安全改写后返回。这个思路比"一刀切拒答"要好得多——既保住了安全底线,又减少了用户体验损失。

        八、小结

        护栏选型的核心不是"买哪个产品",而是"你的系统需要覆盖哪些安全层"。

  •  用 GAF 五层架构理解防护全景

  •  用六大类指标做系统评估

  •  先 MVP(开源模型 + 规则过滤),再迭代

  •  输入防护用三层组合,输出防护用分级处置

  •  必须用自适应攻击验证效果,不能只测固定模板

参考文献:

1、探讨大模型应用安全建设系列3——护栏选型与输入输出防护

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐