最强协作模型?MiniMax M2.7 实测:AI开始更会合作了 | Claude Teams
MiniMax 2.7模型发布了。
这次的定位稍微不一样。其实反复在强调三个关键词:
模型自我进化、Agent Harness 、Agent Teams
简单说就是:模型不仅能执行任务,还能参与构建和优化执行任务的系统。
从调用 tools、执行 skills,到组织多个 agent 协作,再到构建和优化自己的harness。
M2.7 能够自行构建复杂 Agent Harness,并基于 Agent Teams、复杂 Skills、Tool Search tool 等能力,完成高度复杂的生产力任务。例如,在研发M2.7的过程中,Minimax 团队基于模型构建强化学习 Harness 中的数十个复杂的 skills,更新自己的 memory,驱动模型自身的强化学习,并基于结果优化强化学习过程和 Harness,开启模型的自我进化。

从公布的 benchmark 来看,M2.7 的能力已经进入国际一线模型区间。例如在软件工程相关的 SWE‑Pro 测试中取得 56.22% 的成绩,接近 Opus 级别;在端到端项目生成的 VIBE‑Pro 中达到 55.6%;在 Terminal Bench 2 这类复杂系统理解测试中也取得 57.0%。
模型对复杂 skills 的执行能力。在包含 40 个复杂技能(>2000 token) 的测试场景中,M2.7 的技能遵循率达到 97%。M2.7模型【开启AI自我进化】&【最强的Cowork Agent 模型】。
那,Cowork Agent、Harness这些是什么?
Harness是什么
Harness = AI工作的“操作系统 / 工具箱”。
它不是模型本身,而是模型运行时的一整套结构,可以理解为:模型的大脑 + 一套让它能做事的装备。
通常包括:Prompt / 任务指令、Tools(工具调用)、Memory(记忆)、Skills(可复用能力)、多Agent协作规则、反馈循环。
如果写成一句话:
Harness = 让模型从“会聊天”变成“会做事”的整套运行框架。
普通Agent:一个人干活。 Co‑work Agent:一群人协作。
Agent Teams 是多个 Agent 协作工作的结构。 关键不在于简单分工,而在于多个角色围绕同一个问题不断互动:有人提出观点,有人补充信息,有人提出疑问,也有人整合思路。 这种协作过程往往会产生一个单个模型难以独立得到的结果。
过去的Agent模式 过去很多 AI agent 是:
Agent A → 子代理 B → 子代理 C
特点:层级传递、agent之间互相看不见、没有共享上下文。
Agent A知道X,Agent B也知道X,但A不知道B也知道。
这叫:缺乏共同知识(Common Knowledge)。
Agent Teams 的突破
Claude Code 的 mailbox,其实做了一件非常关键的事情:广播上下文。一发邮件,cloud code 就会自动插入 agent 上下文,广播消息会进入所有 agent 的上下文。
这就形成:Agent A、Agent B、Agent C在同一个上下文里。
效果是,
A 知道 X,B 知道 X,C 知道 X;
而且 A 知道 B 知道,B 知道 C 知道,C 知道 A 知道。
对于teams里每个成员来说,这就像是在开会:不是我知道,是我知道你知道大家都知道
这就是:共同知识。
Agent Teams 和 Subagents 的比较:

现在的大模型训练,大多还是在强化单体能力。比如写代码、推理、写文章、解题。
但像多 Agent 协作、共识建立、角色分工、协作推理这样的能力,目前更多依赖系统设计,而不是模型本身被专门训练出来的。
“一个比较重要的特性是原生的 Agent Teams (多智能体协作)。Agent Teams 对模型提出了范式级要求:角色边界、对抗性推理、协议遵循、行为分化——这些无法通过提示词,必须内化为模型的原生能力。”
M2.7 其实在强调一件事:模型可以自己构建 Harness。也就是说,模型不仅能做任务,还能设计 Agent、组织 Agent、调度 Agent、优化 Agent。这就是他们说的:self‑building harness。
换句话说,模型从执行任务升级成组织研发流程。AI需要合作训练和AI能自己组织合作,其实是同一个方向,只是角度不同。

真实世界的复杂任务,从来不是一个人完成的。软件开发是团队完成的,科学研究是团队完成的,产品设计也是团队完成的。因此 AI 的下一阶段能力,不再只是更聪明,而是更会合作。
这就是为什么 Agent Teams、Harness、编排(Orchestration)这些概念,突然变得重要。
分工是低级的,编排是高级的。分工是工业时代的协作,编排是 AI 时代的协作。
Claude Code Teams就是一个具体的实现。他在比较早之前就更新了这个功能。许多人很多时候用的仅仅是子代理,没有去用这个功能。
就我自己体验来说,使用 M2.7 进行 Claude Code Teams。整个协作很流畅,能比较准的把握和响应我的 Claude Code Teams 创建需求。以及他的角色扮演能力挺强的。毕竟,这些团队成员需要扮演角色。还要一个老大来掌控他们。
另外像 Claude teams 这种这么多成员,那个 token 消耗是非常惊人的。比并行subagent多得多。因为他们得不断的互相发消息。而 MiniMax 模型性价比无疑是比较高的。另外还有一点就是它回复的速度非常快。即便开启思维模式,也是如此。快 —— 这也适合团队协作。
在舍得 token 的情况下,其实很多方面可以用团队协作的模式来做。当然,Claude 官方也说过,目前的这种处于测试阶段的团队协作模式,也有它局限的场景。这个暂且不提,以后再论。
智能体团队测试
为了激活 Claude Code Teams 功能,你需要在用户名的.claude 文件夹下加入这一行,表示启用。否则,你和他对话,要求创建一个Team,他死活不知道的。
{ "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1" }

Claude Code记录不太好找。就看一个我用 M2.7 teams模式进行提示词灵感延展的例子。
官方有一段提示词,适用于测试 M2.7 模型专业办公能力:
任务:基于台积电年报和业绩沟通会信息,构建台积电的营收模型,读取多个研报,设计对应的假设,基于最新的信息对台积电营收建模,然后基于 PPT 模版产出 PPT ,并写一个 Word 文档研究报告和 Excel 图表。
于是我让他基于这个提示词,通过创建几个团队成员互相讨论,让他也给我类似的提示词,我也来实际测测。。这个意图很简单。
他直接创建了三个团队成员。分别是投资机构视角、咨询公司视角和财务部门视角。

最终给了我三个方向的提示词。几个方向的。

不过在我问他Agent之间沟通了些什么的时候,他说,当前这个场景不需要沟通,所以仅仅是几个 agent 向老大Agent汇报的形式。

于是我要求他:这次设计成对抗性讨论,三个agent都拿同一组提示词,让它们互相挑刺、碰撞。
他立马重组了团队成员。并且出现了攻击、辩护和综合者。代替原来的团队成员。并且开始了重新回答这个问题的任务。

期间,leader agent发现辩护者在某个阶段比较长时间没有反应,于是他自己自作主张代替他进行反驳,以让整个团队工作按照 to do 能继续进行下去。这个其实就是这样,Cloud Code Teams 这些团队成员都共享那个工作表单,都往上面去拉任务。并非笼统的一个agent对应自己的那几个任务。

leader agent管着所有的 agent,我们只需要和leader agent对话即可其他成员在工作的时候,你随时可以和老大对话。当然,你也可以通过 @ 的方式,单独和某个成员对话。而且这些成员的上下文是干净独立的,没有主线程的上下文。

执行了一段时间的讨论,或者说 AI 开了一段时间会之后,最终就出来一份有总结性的结果,并且还说了,辩论产生了一些什么新的东西


leader agent最后问我要不要把这些提示词写到一个文档里,结果我耽误了一点时间没回复,他就直接写了。 一般情况下,他不是不会这么果断的。但这跟我在前面有跟他聊过有关,也许不是最近的对话,在很前面的对话和他发过一次牢骚,说:“你不要再问我了,你直接写”;然后这里估计他就直接写了。与 M2.7 的协作体验似乎还不错。

提示词优化和新的改进意见,以及每个成员有见解性的探讨,也写在了一份文档里。

后面我们会用这种提示词测试它的专业工作能力,处理Excel之类的。
而另外一个例子是开发一个前端页面。提示词输入之后,M2.7了然,创建三个团队成员。明确需要相互讨论配合。

并且他的Leader Agent 也在等待成员沟通配合之后,确认配合方式,再进行下一步动作。

所有的聊天长截图如下。

上下滑动查看
跑出来的效果如下视频。这只算一个简单的示例。
使用团队协作的一个好的点是,以前像出现一个 bug,你可能得粘贴一次,下一个 bug 出来之后又粘贴,而这些团队成员往往在你想要去报告他错误的时候,他自己就解决了。如图,运行终端有报错,然后团队成员解决了:

怎么说呢?使用 Claude Teams 团队,我们的提示方向其实有一些改变,就是偏向于端到端的提出需求。比如你有一个需求,你原来要去 GitHub 找开源项目,然后部署,然后一阶段一阶段的去提示,而你使用团队成员的话,你可以直接让他从找需求再到使用 Docker 部署一套搞完。只需要和老大 agent 对话,让他去管着下面的 agent 交付端到端的结果。
专业工作
回到最开始,优化好的提示词,任务:作为私募股权投资机构的行业研究员,需要对宁德时代进行深度投资价值分析,评估其是否值得投资。
最后还要进行。PPT、Excel 的生成。
这次我用的是M2.7 + 小龙虾

结果:

PPT:
Excel 表格
另外,再来操作一个复杂 Excel。它能够按照步骤,一次对话,任务没有漏掉的准确写入数据:


再有一个网络搜索和Excel相关的,去 GitHub Trending 搜索本周最热门的开源项目,根据 Excel 的数据设计一个分类可视化 HTML 看板。不需要问我,你自己决定:
去 GitHub Trending 搜索本周最热门的开源项目,结合 Star 增长数、项目语言和最近提交时间综合筛选 15 个 AI 相关的项目,整理成 Excel 表格并标注项目简介和适用场景,根据 Excel 的数据设计一个分类可视化 HTML 看板。你自己决定:- 搜索的具体时间范围- 筛选的具体标准- 项目分类的逻辑- HTML 看板的设计风格不需要问我,你自己决定。

统计好的Excel表格以及可视化的HTML:


其实关于 Claude Code Teams 这里只是讲了一部分。官方原文档值得阅读。
最后,你觉得,如果 Agent Teams 这种形态继续发展,协作能力会不会变成大模型的一项重要能力? M2.7 的 Agent Teams,在真实开发中有用吗?
M2.7 与 Claude Code 配置教程:https://platform.minimaxi.com/docs/guides/text-ai-coding-tools
Claude Code Teams 教程:https://code.claude.com/docs/zh/agent-teams
内容未必完善,但希望有一点价值。觉得还行,随手点赞或在看支持一下。想继续看到更新,可以给我个星标⭐,感谢你看到最后。
点这里👇我们慢慢聊,下次见。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)