上海AI Lab:轻量级智能体安全对齐框架

📖标题:AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
🌐来源:arXiv, 2605.29801v1
🛎️文章简介
🔸研究问题:如何解决开放世界AI智能体面临的新型安全风险及现有对齐框架部署成本高的问题?
🔸主要贡献:论文提出了轻量可扩展的AgentDoG 1.5框架,仅用千条样本训练小模型即实现媲美前沿大模型的安全防护效果。
📝重点思路
🔸更新三维安全分类体系,针对Codex和OpenClaw场景扩展风险源、失败模式及现实危害标签,构建ATBench基准家族以支持细粒度诊断。
🔸设计分类引导的数据引擎,利用影响力函数净化数据,筛选出约1k条高价值样本,结合思维链增强与软平衡策略构建高质量训练集。
🔸采用SFT与GDPO强化学习两阶段训练,通过多维奖励解耦优化,使0.8B至8B参数量的轻量模型具备精准的安全判断与归因能力。
🔸构建有限状态模拟环境替代Docker容器,将RL训练资源开销降低两个数量级,支持单机万级并发,并利用模型过滤SFT数据及提供RL奖励信号。
🔸部署无训练在线护栏系统,在智能体回复前进行轨迹级审计,实时拦截跨步骤累积风险,兼顾低延迟与高安全性。
🔎分析总结
🔸AgentDoG 1.5-4B在R-Judge和ATBench上准确率分别达92.2%和72.4%,性能对标GPT-5.4等闭源模型,显著优于LlamaGuard等传统护栏。
🔸细粒度诊断能力突出,平均诊断得分55.2%,远超通用大模型,证明专用轨迹级监督比单纯扩大模型规模更有效。
🔸在SFT阶段使用AgentDoG过滤数据,可将危害评分从57.49降至20.32,同时保持函数调用能力;联合SFT与RL训练进一步提升了安全与效用的平衡。
🔸作为在线护栏时,4B模型将OpenClaw的不安全交付率从56.25%降至18.75%,且首字延迟低于0.3秒,验证了实际部署的可行性。
🔸轻量化环境在万级并发下内存占用稳定在2.5GB以内,证明了该框架在资源受限条件下的极高可扩展性。
💡个人观点
论文打破了“安全对齐依赖大模型”的固有认知,通过精细化的数据提纯与结构化诊断任务,将复杂的安全推理能力成功蒸馏至极小参数模型。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)