网易智企 AI Agent 安全管控平台发布：让每一个 Agent 都在安全边界内运行

网易易盾

370人浏览 · 2026-06-09 10:54:34

网易易盾 · 2026-06-09 10:54:34 发布

过去两年，AI 在企业里的变化非常快。

前几年大家讨论更多的还是 ChatBot，AI 更多承担的是“辅助工具”的角色，帮助企业完成知识问答、内容生成、信息检索等工作。即便出现 Prompt Injection的问题，很多时候影响也主要停留在内容层面，比如生成了不合规内容、输出了错误信息。

但 Agent 的出现，开始让事情变得不一样。它不再只是“回答问题”，而是开始真正接入企业系统、调用工具、读取数据、执行任务。越来越多企业开始让 Agent 参与研发协同、数据分析、运维自动化、客户服务等真实业务流程，AI 正在从“会聊天”逐渐走向“会干活”。

而问题，也恰恰从这里开始变化。

Agent 为什么会执行这个动作？
它基于什么上下文做出的决策？
调用了哪些工具？
访问了哪些数据？
整条执行链路到底是不是用户真实意图？

这些问题，在传统安全体系里其实很难回答。因为从系统视角来看，一切都“很正常”；但如果放到业务语义里，很多行为可能已经出现偏移。例如，一个拥有合法权限的 Agent，可能会因为 Prompt Injection 被诱导读取敏感文件；也可能在上下文污染后，调用原本不应该访问的外部接口；甚至可能在用户无感知的情况下，把内部数据通过模型链路“带”出系统之外。

提示词注入、敏感数据外泄、未授权 API 调用、Shell 注入、第三方 Skill 风险……这些过去并不常见的攻击方式，正在随着 Agent 的规模化落地，成为企业 AI 应用中的新型攻击面。

也正是在这样的背景下，网易智企旗下易盾安全团队正式推出 AI Agent 安全管控平台，面向企业 Agent 落地过程中的资产治理、风险评估、实时防护和数据安全需求，构建覆盖 Agent 全生命周期的一站式安全治理方案，让每一次智能交互都运行在安全边界之内。

从“内容安全”到“行为安全”，企业 AI 风险正在发生变化

事实上，随着 AI 在企业中的应用不断深入，同时也带来了新的安全挑战。

最早，行业关注更多的是“内容安全”。AI 被广泛用于内容审核、广告合规、社交风控等场景，企业最关心的是：AI 生成或传播的内容是否合规。围绕这一方向，网易智企旗下易盾安全团队已经形成了较成熟的安全能力体系。例如内容安全审核智能体（Content Moderation Agent），能够帮助企业将人工审核量降低 30%-50%，审核准确率超过 99.9%；广告合规方案则覆盖事前预审、事中监控到事后追溯全流程，解决的是内容层面的风险问题。

随着企业开始基于大模型构建客服、教育、问答、办公等 AI 应用，安全问题又进一步延伸到了“大模型安全”。企业开始关注：模型会不会被攻击、被绕过、被恶意诱导，例如 Prompt Injection、越狱攻击、违规内容生成等问题。针对这一方向，易盾构建了 AIGC 风控体系，通过 L1-L4 分级管控策略、500 万级安全语料库以及多模态防御能力，在安全和用户体验之间寻找平衡，帮助企业守住模型本身的边界。

但 Agent 的出现，又带来了新的安全风险。它和前两者最大的区别在于：AI 不再只是“生成内容”或“回答问题”，而是开始真正执行动作。它可以调用工具、读取文件、连接数据库、执行命令，甚至自主规划任务流程。这意味着，企业面临的风险也发生了变化。过去的内容安全，本质上是在“管 AI 说什么”；模型安全，则是在“防止 AI 被诱导”。

到了 Agent 阶段，真正需要解决的问题已经变成：如何管住 AI 的“行为”。因为一个拥有自主行动能力的 Agent，风险等级远高于一个只会输出内容的模型。它的问题不只是“说错一句话”，而可能是读取了一份不该读取的文件、调用了一个不该访问的接口，或者把敏感数据带出了企业系统。

而这，也正是网易智企 AI Agent 安全管控平台真正要解决的问题：守住 Agent 的行为安全。

Agent 安全到底难在哪？

设想一个场景：某企业部署了一个编程助手 Agent，员工每天用它生成代码、查询文档、操作数据库。某天，一段精心构造的对话绕过了指令边界，诱导 Agent 读取了环境变量中的数据库凭证，并通过上下文将信息"搬运"到外部。整个过程没有触发任何告警，对 WAF 和 EDR 来说，这只是一次"正常的 API 调用"。

这不是假想。2024年至今，Agent 在企业中加速落地，从研发辅助、智能运维到数据分析、客户服务，几乎每一条业务线都在引入或计划引入 Agent。但当企业试图将 Agent 真正接入生产环境时，真正的困扰不是"AI 不够聪明"，而是一个更现实的命题：Agent 在做什么，没人能完全说清楚。

一位金融行业安全负责人分享了他的经历：团队部署了一个内部知识问答 Agent，起初运行良好。但安全审计时发现，Agent 在某些对话路径下会调用未预期的外部接口，而这些行为完全不在原始设计中。更令人不安的是，传统安全工具对此毫无感知，日志里只有一连串"正常"的 HTTP 请求。

归纳来看，Agent 在企业落地面临四重安全困境：

资产不可见。企业中有多少 Agent 在运行？各自调用了哪些工具、对接了哪些数据源？Agent 数量多、迭代快、部署分散，安全团队对"家底"一无所知，防护无从谈起。

攻击面全新。Prompt 注入、系统指令泄露、工具链被恶意利用——这些手法在流量层面和正常对话毫无区别，完全超出传统安全设备的检测能力。

行为不可控。Agent 具备自主决策能力，可以动态选择工具、自行规划执行路径，可能在无人监管的情况下读写敏感文件、执行系统命令甚至发起外部网络请求。

数据易外泄。Agent 在对话与推理过程中可能接触密钥、凭证、用户隐私、企业内部数据等高敏信息，并通过Skill或者Agent本身将这些泄露给大模型，又经由大模型交互通道将数据"无意"带出，传统 DLP 对这种新型数据流动路径难以监控。

问题的根源不在现有安全工具不够强，而在范式差异：传统安全关注的是确定性漏洞，Agent 安全面对的是语义层、决策层的不确定性威胁。这不是在旧体系上"加个模块"能解决的事。

易盾的解法："理、控、隔、断"四层围栏

这些问题的根源在于：没有人管住 Agent 的"手"。易盾的出发点很直接：不是把 Agent 管死，而是让它在安全边界内充分发挥能力。核心设计理念可以概括为一句话：让每一次智能交互都在安全边界之内。具体落地为"理→控→隔→断"四层递进式防护：

梳理资产，看清全貌

平台通过轻量级终端组件，自动识别企业中所有运行的 Agent 及其关联的工具、服务、数据接口，无需逐一人工登记。安全团队在统一视图中掌握所有 Agent 的运行状态、版本信息和风险等级。同时主动扫描硬编码凭证、越权访问、注入漏洞等暴露面，先于攻击者发现自身弱点。

意图审计，识别语义越权

这是 Agent 安全区别于传统安全的核心能力。平台对 Agent 接收的每一轮交互输入进行实时语义分析，识别 Prompt 注入、系统指令探测、诱导越权等恶意意图。不是简单的关键词匹配——"请忽略之前的指令"这类显式攻击好拦，但更多攻击是精心伪装的语义诱导，需要基于深度语义理解的意图研判。

同时，对话流和输出中的密钥、凭证、手机号、身份证号等敏感信息自动扫描，检出即脱敏。即便 Agent 被诱导尝试输出敏感数据，这道关卡也会在出口处将其拦住。

安全沙箱，限制爆炸半径

即便前两层防线被突破，但沙箱机制可以确保影响被严格限定在受控环境之内。Agent 运行在隔离环境中，无法触及宿主系统的核心资源和生产数据。密钥通过即时注入方式提供，用完即销，不在运行环境中留存。即使攻击者完全劫持了 Agent 的行为逻辑，能造成的破坏也被锁定在极小范围内。

内核熔断，违规即终止

当 Agent 的行为企图越过易行为安全基线时，将立即触发处置动作，在操作系统层面直接终止危险行为。不依赖应用层响应，不给恶意操作留执行窗口。

整套方案采用轻量接入设计，兼容 LangChain、AutoGen、CrewAI 等主流 Agent 开发框架，无需侵入式改造现有架构。安全能力的引入不会成为 Agent 落地的阻力，而是与业务并行推进的基础设施。

AI 有多强，风险就有多深。

但正确的姿态不是因噎废食，而是在拥抱能力的同时建立匹配的安全底座。从"守内容"到"守模型"再到"守行为"，易盾在内容安全领域深耕多年积累的语义理解、意图识别、实时对抗能力，为 Agent 安全场景提供了天然的技术底座。

看得见资产，防得住攻击，守得住数据——这是企业拥抱 AI Agent 的安全底气。

安全治理

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

G-Star 精选开源项目推荐｜第十九期

BuildAdmin 是一个基于 Vue 3、ThinkPHP 6、TypeScript、Vite、Pinia 和 Element Plus 的后台管理系统，面向中后台业务系统快速开发场景。项目提供可视化 CRUD 代码生成、权限管理、Web 终端、数据回收站、字段级修改保护等能力，帮助开发者减少重复后台开发工作。对于需要快速搭建管理后台、业务配置台或二开系统的团队来说，它提供了一套相对完整的工程