上海AI Lab：轻量级智能体安全对齐框架

大模型任我行

90人浏览 · 2026-06-09 08:00:00

大模型任我行 · 2026-06-09 08:00:00 发布

在这里插入图片描述

📖标题：AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
🌐来源：arXiv, 2605.29801v1

🛎️文章简介
🔸研究问题：如何解决开放世界AI智能体面临的新型安全风险及现有对齐框架部署成本高的问题？
🔸主要贡献：论文提出了轻量可扩展的AgentDoG 1.5框架，仅用千条样本训练小模型即实现媲美前沿大模型的安全防护效果。

📝重点思路
🔸更新三维安全分类体系，针对Codex和OpenClaw场景扩展风险源、失败模式及现实危害标签，构建ATBench基准家族以支持细粒度诊断。
🔸设计分类引导的数据引擎，利用影响力函数净化数据，筛选出约1k条高价值样本，结合思维链增强与软平衡策略构建高质量训练集。
🔸采用SFT与GDPO强化学习两阶段训练，通过多维奖励解耦优化，使0.8B至8B参数量的轻量模型具备精准的安全判断与归因能力。
🔸构建有限状态模拟环境替代Docker容器，将RL训练资源开销降低两个数量级，支持单机万级并发，并利用模型过滤SFT数据及提供RL奖励信号。
🔸部署无训练在线护栏系统，在智能体回复前进行轨迹级审计，实时拦截跨步骤累积风险，兼顾低延迟与高安全性。

🔎分析总结
🔸AgentDoG 1.5-4B在R-Judge和ATBench上准确率分别达92.2%和72.4%，性能对标GPT-5.4等闭源模型，显著优于LlamaGuard等传统护栏。
🔸细粒度诊断能力突出，平均诊断得分55.2%，远超通用大模型，证明专用轨迹级监督比单纯扩大模型规模更有效。
🔸在SFT阶段使用AgentDoG过滤数据，可将危害评分从57.49降至20.32，同时保持函数调用能力；联合SFT与RL训练进一步提升了安全与效用的平衡。
🔸作为在线护栏时，4B模型将OpenClaw的不安全交付率从56.25%降至18.75%，且首字延迟低于0.3秒，验证了实际部署的可行性。
🔸轻量化环境在万级并发下内存占用稳定在2.5GB以内，证明了该框架在资源受限条件下的极高可扩展性。

💡个人观点
论文打破了“安全对齐依赖大模型”的固有认知，通过精细化的数据提纯与结构化诊断任务，将复杂的安全推理能力成功蒸馏至极小参数模型。
在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

两步生成AI视频案例

仅供参考镜头脚本（10秒）0-2秒：夕阳下的街头球场，一名球员背对球门，高空球落下。2-5秒：球员腾空倒钩，身体与地面平行，脚背猛烈击中球心。5-8秒：球划出弧线直挂死角，球网剧烈震颤。8-10秒：慢镜头定格倒钩瞬间，汗水飞溅，背景虚化。AI视频生成提示词（无侵权风险）

AtomGit开源社区

企业如何使用Open Claw？从网红工具到真正落地的安全指南

更令人惊艳的是，它具备灵活的调度模式（例如极具想象力的Heartbeat心跳机制），能够全面接管电脑环境，模拟人类的点击和键盘输入，甚至能自主规划步骤、拆解执行，并具备自行去下载技能（Skills）的自我进化能力。与此同时，结合K-APA智能流程自动化平台，企业可以通过大模型统一调度RPA、BrowserUse、ComputerUse等多种工具，实现任务步骤的智能规划与自动执行，在生产环境中打造出