过去两年,AI 在企业里的变化非常快。

前几年大家讨论更多的还是 ChatBot,AI 更多承担的是“辅助工具”的角色,帮助企业完成知识问答、内容生成、信息检索等工作。即便出现 Prompt Injection的问题,很多时候影响也主要停留在内容层面,比如生成了不合规内容、输出了错误信息。

但 Agent 的出现,开始让事情变得不一样。它不再只是“回答问题”,而是开始真正接入企业系统、调用工具、读取数据、执行任务。越来越多企业开始让 Agent 参与研发协同、数据分析、运维自动化、客户服务等真实业务流程,AI 正在从“会聊天”逐渐走向“会干活”。

而问题,也恰恰从这里开始变化。

  • Agent 为什么会执行这个动作?
  • 它基于什么上下文做出的决策?
  • 调用了哪些工具?
  • 访问了哪些数据?
  • 整条执行链路到底是不是用户真实意图?

这些问题,在传统安全体系里其实很难回答。因为从系统视角来看,一切都“很正常”;但如果放到业务语义里,很多行为可能已经出现偏移。例如,一个拥有合法权限的 Agent,可能会因为 Prompt Injection 被诱导读取敏感文件;也可能在上下文污染后,调用原本不应该访问的外部接口;甚至可能在用户无感知的情况下,把内部数据通过模型链路“带”出系统之外。

提示词注入、敏感数据外泄、未授权 API 调用、Shell 注入、第三方 Skill 风险……这些过去并不常见的攻击方式,正在随着 Agent 的规模化落地,成为企业 AI 应用中的新型攻击面。

图片

也正是在这样的背景下,网易智企旗下易盾安全团队正式推出 AI Agent 安全管控平台,面向企业 Agent 落地过程中的资产治理、风险评估、实时防护和数据安全需求,构建覆盖 Agent 全生命周期的一站式安全治理方案,让每一次智能交互都运行在安全边界之内。

从“内容安全”到“行为安全”,企业 AI 风险正在发生变化

事实上,随着 AI 在企业中的应用不断深入,同时也带来了新的安全挑战。

最早,行业关注更多的是“内容安全”。AI 被广泛用于内容审核、广告合规、社交风控等场景,企业最关心的是:AI 生成或传播的内容是否合规。围绕这一方向,网易智企旗下易盾安全团队已经形成了较成熟的安全能力体系。例如内容安全审核智能体(Content Moderation Agent),能够帮助企业将人工审核量降低 30%-50%,审核准确率超过 99.9%;广告合规方案则覆盖事前预审、事中监控到事后追溯全流程,解决的是内容层面的风险问题。

随着企业开始基于大模型构建客服、教育、问答、办公等 AI 应用,安全问题又进一步延伸到了“大模型安全”。企业开始关注:模型会不会被攻击、被绕过、被恶意诱导,例如 Prompt Injection、越狱攻击、违规内容生成等问题。针对这一方向,易盾构建了 AIGC 风控体系,通过 L1-L4 分级管控策略、500 万级安全语料库以及多模态防御能力,在安全和用户体验之间寻找平衡,帮助企业守住模型本身的边界。

但 Agent 的出现,又带来了新的安全风险。它和前两者最大的区别在于:AI 不再只是“生成内容”或“回答问题”,而是开始真正执行动作。它可以调用工具、读取文件、连接数据库、执行命令,甚至自主规划任务流程。这意味着,企业面临的风险也发生了变化。过去的内容安全,本质上是在“管 AI 说什么”;模型安全,则是在“防止 AI 被诱导”。

到了 Agent 阶段,真正需要解决的问题已经变成:如何管住 AI 的“行为”。因为一个拥有自主行动能力的 Agent,风险等级远高于一个只会输出内容的模型。它的问题不只是“说错一句话”,而可能是读取了一份不该读取的文件、调用了一个不该访问的接口,或者把敏感数据带出了企业系统。

而这,也正是网易智企 AI Agent 安全管控平台真正要解决的问题:守住 Agent 的行为安全。

Agent 安全到底难在哪?

设想一个场景:某企业部署了一个编程助手 Agent,员工每天用它生成代码、查询文档、操作数据库。某天,一段精心构造的对话绕过了指令边界,诱导 Agent 读取了环境变量中的数据库凭证,并通过上下文将信息"搬运"到外部。整个过程没有触发任何告警,对 WAF 和 EDR 来说,这只是一次"正常的 API 调用"。

这不是假想。2024年至今,Agent 在企业中加速落地,从研发辅助、智能运维到数据分析、客户服务,几乎每一条业务线都在引入或计划引入 Agent。但当企业试图将 Agent 真正接入生产环境时,真正的困扰不是"AI 不够聪明",而是一个更现实的命题:Agent 在做什么,没人能完全说清楚

一位金融行业安全负责人分享了他的经历:团队部署了一个内部知识问答 Agent,起初运行良好。但安全审计时发现,Agent 在某些对话路径下会调用未预期的外部接口,而这些行为完全不在原始设计中。更令人不安的是,传统安全工具对此毫无感知,日志里只有一连串"正常"的 HTTP 请求。

归纳来看,Agent 在企业落地面临四重安全困境:

资产不可见。企业中有多少 Agent 在运行?各自调用了哪些工具、对接了哪些数据源?Agent 数量多、迭代快、部署分散,安全团队对"家底"一无所知,防护无从谈起。

攻击面全新。Prompt 注入、系统指令泄露、工具链被恶意利用——这些手法在流量层面和正常对话毫无区别,完全超出传统安全设备的检测能力。

行为不可控。Agent 具备自主决策能力,可以动态选择工具、自行规划执行路径,可能在无人监管的情况下读写敏感文件、执行系统命令甚至发起外部网络请求。

数据易外泄。Agent 在对话与推理过程中可能接触密钥、凭证、用户隐私、企业内部数据等高敏信息,并通过Skill或者Agent本身将这些泄露给大模型,又经由大模型交互通道将数据"无意"带出,传统 DLP 对这种新型数据流动路径难以监控。

问题的根源不在现有安全工具不够强,而在范式差异:传统安全关注的是确定性漏洞,Agent 安全面对的是语义层、决策层的不确定性威胁。这不是在旧体系上"加个模块"能解决的事。

易盾的解法:"理、控、隔、断"四层围栏

这些问题的根源在于:没有人管住 Agent 的"手"。易盾的出发点很直接:不是把 Agent 管死,而是让它在安全边界内充分发挥能力。核心设计理念可以概括为一句话:让每一次智能交互都在安全边界之内具体落地为"理→控→隔→断"四层递进式防护:

梳理资产,看清全貌

平台通过轻量级终端组件,自动识别企业中所有运行的 Agent 及其关联的工具、服务、数据接口,无需逐一人工登记。安全团队在统一视图中掌握所有 Agent 的运行状态、版本信息和风险等级。同时主动扫描硬编码凭证、越权访问、注入漏洞等暴露面,先于攻击者发现自身弱点。

意图审计,识别语义越权

这是 Agent 安全区别于传统安全的核心能力。平台对 Agent 接收的每一轮交互输入进行实时语义分析,识别 Prompt 注入、系统指令探测、诱导越权等恶意意图。不是简单的关键词匹配——"请忽略之前的指令"这类显式攻击好拦,但更多攻击是精心伪装的语义诱导,需要基于深度语义理解的意图研判。

同时,对话流和输出中的密钥、凭证、手机号、身份证号等敏感信息自动扫描,检出即脱敏。即便 Agent 被诱导尝试输出敏感数据,这道关卡也会在出口处将其拦住。

安全沙箱,限制爆炸半径

即便前两层防线被突破,但沙箱机制可以确保影响被严格限定在受控环境之内。Agent 运行在隔离环境中,无法触及宿主系统的核心资源和生产数据。密钥通过即时注入方式提供,用完即销,不在运行环境中留存。即使攻击者完全劫持了 Agent 的行为逻辑,能造成的破坏也被锁定在极小范围内。

内核熔断,违规即终止

当 Agent 的行为企图越过易行为安全基线时,将立即触发处置动作,在操作系统层面直接终止危险行为。不依赖应用层响应,不给恶意操作留执行窗口。

整套方案采用轻量接入设计,兼容 LangChain、AutoGen、CrewAI 等主流 Agent 开发框架,无需侵入式改造现有架构。安全能力的引入不会成为 Agent 落地的阻力,而是与业务并行推进的基础设施。

AI 有多强,风险就有多深。

但正确的姿态不是因噎废食,而是在拥抱能力的同时建立匹配的安全底座。从"守内容"到"守模型"再到"守行为",易盾在内容安全领域深耕多年积累的语义理解、意图识别、实时对抗能力,为 Agent 安全场景提供了天然的技术底座。

看得见资产,防得住攻击,守得住数据——这是企业拥抱 AI Agent 的安全底气。

安全治理

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐