人机交互层
智能体的第一个安全风险出现在用户输入层面。攻击者通过精心构造的Prompt诱导智能体执行非预期操作。风险包括:直接提示词注入(用户在对话中插入恶意指令)、间接提示词注入(攻击者在外部数据中嵌入隐藏指令,通过数据处理链路影响AI决策)、越权输出(智能体返回本应受限的敏感信息)。治理要点:输入层建立AI驱动的意图检测,识别并拦截提示词注入;输出层实施内容审核和数据防泄露策略。

通信调用层
智能体在执行任务时需要与外部系统进行API通信,通信链路成为新的攻击面。风险包括:API通信劫持(中间人攻击篡改请求或响应)、通信参数投毒(修改工具调用参数导致非预期行为)、回调接口伪造(伪造外部服务响应误导Agent)。治理要点:实施通信加密和完整性校验;对外部API响应进行信任验证。

组件间层
智能体由多个组件协同工作,组件间的交互接口构成潜在攻击面。风险包括:记忆系统投毒(向Agent长期记忆注入恶意指令或错误信息)、意图篡改(通过上下文污染改变Agent目标理解)、组件通信劫持。治理要点:建立记忆审计机制;敏感对话内容不持久化存储;组件间通信实施身份认证和加密。

智能体之间
在多智能体协作场景中,Agent之间的身份验证和权限管理成为关键。风险包括:身份假冒(恶意Agent伪装成合法Agent参与协作)、访问越权(Agent访问超出其权限范围的资源)、协作链路污染(一个被劫持的Agent影响整个协作链)。治理要点:为每个Agent建立独立身份;Agent间通信实施双向认证;权限按任务临时授予。

工具调用层
工具调用是智能体区别于对话模型的核心能力,也是最大的攻击面扩展点。风险包括:恶意工具注入(通过第三方工具市场或供应链注入恶意工具/Skill)、MCP投毒(通过污染工具描述、参数、返回结果诱导Agent错误调用)、返回值污染(外部工具返回恶意数据影响Agent后续决策)。治理要点:建立工具白名单机制;工具调用需经过审批或策略引擎校验;敏感工具调用需强制人机确认。

基础运行环境层
智能体运行依赖的底层框架和基础设施同样存在安全风险。截至2026年3月,360漏洞研究院累计发现近40个智能体相关漏洞,涉及llama.cpp、Dify、langchain、BentoML、pandasai等主流框架。风险包括:推理框架漏洞(模型推理引擎中的内存安全问题)、部署框架漏洞(模型部署平台的配置缺陷)、依赖库漏洞(智能体使用的第三方库存在已知漏洞)。治理要点:定期扫描AI组件依赖库漏洞;建立智能体安全基线;对推理框架和部署平台实施安全加固和沙箱隔离。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐