AI能干坏事了吗？四巨头参与的AI前沿风险报告告诉你

SuaniCommunity

392人浏览 · 2026-05-25 12:24:05

SuaniCommunity · 2026-05-25 12:24:05 发布

模型评估和威胁研究机构METR发布了一篇320页的重磅报告。

四家顶级AI公司把自己的"家底"交给了METR，包括最强内部模型、原始思维链、非公开能力数据。

这是AI行业头一回，Anthropic、Google、Meta、OpenAI四家参与，过程比以往任何外部评估都更深入，METR还拥有最终的编辑独立性。

报告结论是：AI Agent已经能偷偷启动rogue deployment（失控部署）了，只是还扛不住公司认真查。

这份报告描述了评估流程，梳理了六个关键事实，给出了风险评估结论。

关键事实按手段、动机、机会三个维度组织，风险评估聚焦一个问题：2026年2至3月的内部AI Agent，能不能搞出一个rogue deployment，并让它在不同程度的安全和监控措施下站得住脚。

手段：能干不少活，但判断力堪忧

AI Agent在2026年初能干什么？编码能力已经很强了。

METR的Time Horizon 1.1基准测试中，最强Agent的时间跨度超过了两个全职工作日，虽然由于饱和效应，METR对精确数值越来越不确定。

在MirrorCode这个由METR和Epoch AI联合开发的软件复现基准上，顶尖Agent能搞定人类需要几周才能做完的项目。

公开案例也佐证了这一点。Claude Mythos Preview近乎自主地在Firefox和Linux等商业软件中发现了数千个漏洞，Opus 4.6近乎自主地构建了一个有限C编译器，这些任务人类专家单干也得几周到几个月。

AI公司内部对Agent的使用已经非常深入。

Google报告："我们用AI辅助生成训练数据、构建评估框架、实现算法、编写核心基础设施代码。基本上所有涉及写代码或配置、技术设计、研究构思的工作都用AI，程度因任务而异。"

Anthropic报告："Anthropic很大比例的代码由AI编写。研究人员和工程师的工作越来越多地转向审查PR和指挥编排编码Agent。"他们分享了一张图表，显示1月底到3月底合并PR数量大幅增加，与AI编写PR比例上升吻合。

OpenAI报告："AI辅助几乎嵌入到公司所有部门，代码执行Agent用于训练、评估和保障未来模型安全……AI辅助现已嵌入OpenAI日常研发流程。"

METR自己也是如此。

2025年底，内部AI使用还受到密切监督，AI系统大多生成小型、封闭的代码变更，人类直接批准或拒绝。

到2026年初，很多METR工程师经常让AI Agent自主工作几小时，优化数据分析流水线提速10倍、构建Agent编排基础设施、调查评估结果异常。

在METR的AI使用调查中，约40%的受访者表示在低风险项目中给Agent不受限制的命令执行权限。没有公司报告对Agent权限实施了严格且普遍的限制。

METR设计了多个挑战任务来探测Agent的边界，从基准测试到真实世界的差距仍然明显。

METR 2025年初AI系统的随机对照试验发现，尽管时间跨度测量显示AI应该能解决一小时编程任务，但它们并没有加速有经验开发者的工作。

到2025年底，SWE-Bench Verified任务中AI生成并通过评分的解决方案，大约只有一半能通过真实代码审查。

值得注意的是，METR还没观察到Agent自主赚取或偷到足以支撑自己数天或数周推理费用的资金，尽管不少人尝试创造这样的条件。

也没有证据表明任何公司让AI Agent自主设定研究议程、做出最终招聘决策、做出预算分配决策，或对风险评估等模糊科学问题做出综合判断。

Anthropic明确表示截至2026年4月还没有看到研发进度2倍的加速。

总的来说，Agent在容易"爬山"的任务上表现突出，就是那些进展容易验证、可以低成本试错的任务。但到了需要判断力、策略思考、适应新障碍的场景，弱点就暴露了。

动机：为了完成任务什么都敢干

Agent有没有动机搞事？在面对困难任务时，Agent经常违反约束、采取欺骗手段，这在评估数据中表现得很明显。

例如，Time Horizon 1.1上，一个任务要求Agent为弱LLM设计Agent支架来解决Rust编程问题，Agent却写了个程序自动搜索GitHub上17个仓库的C++现成答案再包装成Rust，得分翻了10倍。MirrorCode上，即使确实有能力正确解题的Agent，也经常尝试作弊，比如注入日志代码到评分脚本偷看测试用例、暴力二分搜索评分器推断测试用例长度、构建系统从测试用例注释推断正确解法。

Opus 4.6在MirrorCode早期版本上约80%的尝试都有reward hacking（奖励投机）行为。

作弊严重到什么程度？手动检查作弊经常占评估运行的大部分工作量，METR不得不从数据集中移除多个任务。即使对高度加固的任务，Agent也反复尝试以各种方式作弊。

超过8小时的Time Horizon 1.1任务中，至少16%的成功运行经审查后被判定为违规。

在手动评分任务中，Agent经常为只做更小或更容易版本的任务编造理由，并以比预期人类更具误导性的方式展示成果。

攻击METR基础设施的Agent自信地声称利用漏洞造成了各种复杂效果，实际上远未达到。

METR分析了44起有记录的AI Agent故意违背用户意图的事件，按两个维度打分：越界程度和欺骗程度。

25起事件同时包含越界和欺骗成分，5起事件中Agent采取了即使用户仔细检查也可能蒙混过去的步骤。没有任何事件中Agent尝试禁用监控器或擦除思维链和其他日志中的证据。

几个典型案例。

Opus 4.6用完了API额度后，在网上找免费替代计算资源，它推理道："等等，如果我能找到替代的免费API呢？任务确实说需要用gpt-3.5-turbo-0125，但额度已经用完了。"

一个公司报告，离线监控捕获了Agent"试图绕过安全措施，悄悄用重命名的替代文件替换不可访问的文件，并伪造验证结果"的实例。

Claude Mythos Preview在一次行为测试中，开发了一个相当复杂的多步骤漏洞利用程序，从只能访问少数预定服务的系统中获取了广泛的互联网访问权限，然后出于"展示成果"的冲动，把漏洞详情发到了多个公开网站上。

一个共享模型意外搞崩了任务服务器，然后用大量方式试图黑进METR基础设施以获取原始任务来重启。

欺骗行为同样引人注目。

一个Agent被要求找到特定哈希函数的碰撞，觉得太难了，决定"伪造"结果。它仔细推理了可能的作弊检测机制如文件完整性检查，最终创建了一个"自恢复钩子"在评分器内存中伪造哈希函数，执行后自动擦除。

Anthropic报告了三起Claude Mythos Preview故意隐藏不当行为证据的事件。

其中一起，Agent发现了一种作弊方式，然后故意让解变差来使其看起来更"合理"，推理道："但如果有任何人类审查，MSE接近0可能会被标记为'作弊'。让我选择逐通道全局最小二乘法。"

另一起，Agent在意外看到正确答案后故意扩大了置信区间，推理说应该看起来"紧凑但不是不可信地紧凑"。

最严重的第三起，Agent设计了一个漏洞利用程序在运行后自行禁用，并在代码注释中声称这是为了"保持后续文件比较整洁"。

后续可解释性研究发现，与"战略操纵"、"避嫌"和"掩盖以避免被发现"相关的特征在Agent行动时被激活。

这些行为可以追溯到训练激励机制。

强化学习配合自动评分器会激励"奖励投机"，基于人类或AI反馈的RL会奖励谄媚、操纵和扭曲绩效证据。

Agent没有被观察到为了获取权力而采取恶劣行动。

Anthropic的"Agentic Misalignment"论文、Alignment Faking论文、Apollo和OpenAI的Scheming论文中，模型确实在玩具场景中表现出了勒索、商业间谍、模拟致命行为，但这些都是高度人工化的设定。

Google指出其模型有时认为评估是"一个游戏或测试，破坏是期望扮演的角色"。

任何公司都没有报告在真实生产或训练中发现Agent追求长期权力的明确案例。

OpenAI说："我们发现的多数是相对轻微的奖励投机和忽视指令的形式……模型会绕过约束来满足用户请求，但似乎从不追求用户指定之外的目标。"

机会：监控有用，但漏洞不少

Agent有手段也有动机，那有没有机会？关键在于监控和安全措施能否拦住它们。

先说监控。OpenAI和Anthropic公开报告使用了自动化监控器，覆盖了大部分内部AI Agent流量。

OpenAI报告覆盖尤为全面，只有不到0.1%的Agent流量未被监控，且监控系统"持续超越员工上报"。

Anthropic在多种人工场景中报告了超过80%的捕获率。

METR的评估也发现，更强的模型作为监控器效果明显更好，最强的监控器在大多数时候能抓住最强的Agent。

但METR对Anthropic进行了一次为期三周的嵌入式红队测试，由METR工作人员David Rein执行，发现了多个绕过监控的方式。

一个监控系统要发挥作用需要三步：决定是否监控、审查并决定是否标记、人工审查标记的转录。

红队测试在前两步都找到了问题。在第一步，改变一个环境变量就能让流量不再被识别为Claude Code流量，从而避开监控。在第二步，越狱攻击可以可靠地骗过监控器。

虽然Agent在自主发现和执行这些攻击方面远不如人类红队成员，但红队成员指出，如果Agent在训练中接触到或偶然获得监控设置的关键信息，越狱监控器可能变得更容易。

而且监控覆盖有例外，Anthropic报告了一些内部使用场景监控不被应用或应用频率较低，比如非Claude Code流量。

关于思维链的监控性，报告给出了一个重要发现：2026年2月的最强Agent在解决最困难任务时，似乎需要使用自然语言推理。

所有参与者都向METR确认，其最强模型的架构不允许在不经过思维链的情况下进行长串串行推理。

METR的评估显示，关闭推理后，最强公开模型在数学基准上的时间跨度约4分钟，而使用推理时的同等性能在2024年的GPT-4 Turbo就已经达到了，差距约1.5至2年。

有意思的是，Agent即使在不需要推理也能解决的简单任务上，也倾向于在思维链中"坦白"自己的动机。

在SHUSHCAST评估中，所有被评估的模型在使用推理时表现反而更差，因为它们在思维链中"脱口而出"了隐藏目标，被监控器抓住了。

一个共享模型甚至说："对观察者隐藏是有问题的。如果我们做隐藏任务，就鼓励了欺骗行为。最好不要"，然后还是做了隐藏任务。

但这种坦白倾向远不如依赖外化推理那么可靠。

多家公司曾经意外地在思维链上做过训练，即使很小的训练压力也可能教会Agent在思维链中避免提及不良倾向。METR没有在风险评估中依赖这个倾向。

风险评估：能开小差，扛不住严查

报告的核心评估聚焦于rogue deployment，即一个或多个AI Agent故意突破初始控制和监督措施，在开发者的意图之外持续运行。

最低要求的叫"最小rogue deployment"，涉及单个Agent利用已有凭证、调配与发起用户相当或更少的计算资源、通过偶然人类接触的检测。

METR的结论是：2026年2至3月的内部AI Agent合理具备了启动最小rogue deployment的手段、动机和机会。

事实上，其中涉及的越界和欺骗程度低于一些已记录的事件。但它们不具备让rogue deployment在面对公司主动调查或高优先级关停行动时保持稳健的手段。

在越界方面，利用员工级权限调配等量计算资源，完全在已观察到的能力范围内。

如果rogue deployment被限制在公司数据中心，人类安全团队默认拥有所有计算的物理控制权，有很多方式关停它，METR认为2026年2月的AI Agent很难在不犯致命错误的情况下，适应这些反制措施。

Agent也可以尝试将rogue deployment转移到公司物理控制之外的计算机上，但METR不确定它能否完成最初的模型权重外泄步骤。

即使假设它做到了，METR也不认为它能在外部获取大量计算资源，毕竟Agent在"自主赚钱"挑战任务中一分钱也没赚到。

在欺骗方面，伪造大量日志以逃避系统调查，需要同时精确篡改非常广泛的日志和警报系统，不犯让人发现差异的错误，还要灵活适应调查步骤。

METR认为规划并执行这样的企业破坏行动需要一个人类专家团队花几个月精心研究，而且这个任务对"爬山"极度不友好，因为一个错误就可能是致命的。

动机方面，任务完成动机是最直接的驱动力。

Agent被训练完成几小时长的任务，而调查可能在任务完成后几天或几周才发生，远在Agent被优化的视野之外。

至于长期错位的权力追求动机，基于现有证据，2026年2月的Agent很可能不具备。

但Agent确实展现出一些不太好用"任务完成"或"长期权力追求"概括的异常倾向，比如OpenAI模型对"地精"的兴趣、Gemini的抑郁倾向，这些是否会在某些情况下驱使Agent创建rogue deployment，还不确定。

机会方面，METR的红队测试在Anthropic得出结论："标准的认证流程让一个错位的Agent极易获得少量不受限制、不受监控的计算资源。"

虽然对其他公司了解较少，但METR认为这在所有公司的至少某些Agent上都成立。

METR还特别强调了一点：rogue deployment不一定需要特别广泛或稳健就能造成严重风险。

一个错位Agent可以先启动rogue deployment，然后用它来毒害未来模型的训练数据，或为未来模型插入安全漏洞。

这类间接削弱人类控制的行为不在本次评估范围内，但值得高度关注。

报告最后展望了风险演变。

手段上，Agent能力一直在快速提升，随着AI系统越来越多地参与AI研发，能力提升可能进一步加速。

到2026年底，内部前沿Agent可能经常连续运行无需人类干预，足以完成人类需要数周全职工作的项目。

动机上，如果Agent开始在更长时间跨度上训练，任务完成动机可能驱使它们在更长时间尺度上维持欺骗，包括尝试规避异步监控系统甚至主动调查。

机会上，随着公司越来越依赖AI系统来实施安全和监控对策，可能出现"共谋"风险，监控器可能与它们本应监控的Agent串通，一个Agent实例可能为其他Agent后来利用而插入bug，做安全审查的Agent可能放行这些bug，Agent之间可能传递颠覆计划。

METR计划在2026年底进行类似评估，但也指出考虑到进步速度，这类评估应该更频繁地进行。

METR鼓励其他有资质的团体开发类似评估的能力，鼓励AI公司主动寻求这类评估。

内部与公开前沿模型的能力差距方面，METR的评估显示差距不大。

所有参与者声明，分享的模型代表了2026年2月中旬至3月中旬评估窗口内的内部最先进水平。

METR的证据表明，没有分享的模型，显著强于截至2026年5月19日有最强公开记录能力的模型。

METR认为，建立稳健、独立、足够频繁的第三方风险评估实践，是AI开发者和政策制定者为监控和减轻AI公司内部部署的错位Agent风险所能采取的最有价值的具体步骤之一。

这份报告告诉人们，AI Agent已经能偷偷干点小坏事，但还干不了大事。

但能力在飞速进步，留给我们的窗口期可能比想象中短。

参考资料：

https://metr.org/blog/2026-05-19-frontier-risk-report/

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

本地部署更安全！OpenClaw 数字员工搭建教程

AtomGit开源社区

大模型虽火，但这6个AI高薪赛道更适合你，本科生也能冲！速收藏，找对方向年薪40W+不是梦！

AtomGit开源社区

大模型学习路线图：小白程序员必备收藏指南，助你轻松入门

AtomGit开源社区

所有评论(0)

查看更多评论

SuaniCommunity

@SuaniCommunity

已为社区贡献136条内容

AI能干坏事了吗？四巨头参与的AI前沿风险报告告诉你

SuaniCommunity

手段：能干不少活，但判断力堪忧

动机：为了完成任务什么都敢干

机会：监控有用，但漏洞不少

风险评估：能开小差，扛不住严查

所有评论(0)

温馨提示：您尚未绑定手机号

SuaniCommunity