最强协作模型？MiniMax M2.7 实测：AI开始更会合作了 | Claude Teams

大局危危

626人浏览 · 2026-03-19 21:08:24

大局危危 · 2026-03-19 21:08:24 发布

MiniMax 2.7模型发布了。

这次的定位稍微不一样。其实反复在强调三个关键词：

模型自我进化、Agent Harness 、Agent Teams

简单说就是：模型不仅能执行任务，还能参与构建和优化执行任务的系统。

从调用 tools、执行 skills，到组织多个 agent 协作，再到构建和优化自己的harness。

M2.7 能够自行构建复杂 Agent Harness，并基于 Agent Teams、复杂 Skills、Tool Search tool 等能力，完成高度复杂的生产力任务。例如，在研发M2.7的过程中，Minimax 团队基于模型构建强化学习 Harness 中的数十个复杂的 skills，更新自己的 memory，驱动模型自身的强化学习，并基于结果优化强化学习过程和 Harness，开启模型的自我进化。

从公布的 benchmark 来看，M2.7 的能力已经进入国际一线模型区间。例如在软件工程相关的 SWE‑Pro 测试中取得 56.22% 的成绩，接近 Opus 级别；在端到端项目生成的 VIBE‑Pro 中达到 55.6%；在 Terminal Bench 2 这类复杂系统理解测试中也取得 57.0%。

模型对复杂 skills 的执行能力。在包含 40 个复杂技能（>2000 token）的测试场景中，M2.7 的技能遵循率达到 97%。M2.7模型【开启AI自我进化】&【最强的Cowork Agent 模型】。

那，Cowork Agent、Harness这些是什么？

Harness是什么

Harness = AI工作的“操作系统 / 工具箱”。

它不是模型本身，而是模型运行时的一整套结构，可以理解为：模型的大脑 + 一套让它能做事的装备。

通常包括：Prompt / 任务指令、Tools（工具调用）、Memory（记忆）、Skills（可复用能力）、多Agent协作规则、反馈循环。

如果写成一句话：

Harness = 让模型从“会聊天”变成“会做事”的整套运行框架。

普通Agent：一个人干活。 Co‑work Agent：一群人协作。

Agent Teams 是多个 Agent 协作工作的结构。关键不在于简单分工，而在于多个角色围绕同一个问题不断互动：有人提出观点，有人补充信息，有人提出疑问，也有人整合思路。这种协作过程往往会产生一个单个模型难以独立得到的结果。

过去的Agent模式过去很多 AI agent 是：

Agent A → 子代理 B → 子代理 C

特点：层级传递、agent之间互相看不见、没有共享上下文。

Agent A知道X，Agent B也知道X，但A不知道B也知道。

这叫：缺乏共同知识（Common Knowledge）。

Agent Teams 的突破

Claude Code 的 mailbox，其实做了一件非常关键的事情：广播上下文。一发邮件，cloud code 就会自动插入 agent 上下文，广播消息会进入所有 agent 的上下文。

这就形成：Agent A、Agent B、Agent C在同一个上下文里。

效果是，

A 知道 X，B 知道 X，C 知道 X；

而且 A 知道 B 知道，B 知道 C 知道，C 知道 A 知道。

对于teams里每个成员来说，这就像是在开会：不是我知道，是我知道你知道大家都知道

这就是：共同知识。

Agent Teams 和 Subagents 的比较：

现在的大模型训练，大多还是在强化单体能力。比如写代码、推理、写文章、解题。

但像多 Agent 协作、共识建立、角色分工、协作推理这样的能力，目前更多依赖系统设计，而不是模型本身被专门训练出来的。

“一个比较重要的特性是原生的 Agent Teams （多智能体协作）。Agent Teams 对模型提出了范式级要求：角色边界、对抗性推理、协议遵循、行为分化——这些无法通过提示词，必须内化为模型的原生能力。”

M2.7 其实在强调一件事：模型可以自己构建 Harness。也就是说，模型不仅能做任务，还能设计 Agent、组织 Agent、调度 Agent、优化 Agent。这就是他们说的：self‑building harness。

换句话说，模型从执行任务升级成组织研发流程。AI需要合作训练和AI能自己组织合作，其实是同一个方向，只是角度不同。

真实世界的复杂任务，从来不是一个人完成的。软件开发是团队完成的，科学研究是团队完成的，产品设计也是团队完成的。因此 AI 的下一阶段能力，不再只是更聪明，而是更会合作。

这就是为什么 Agent Teams、Harness、编排（Orchestration）这些概念，突然变得重要。

分工是低级的，编排是高级的。分工是工业时代的协作，编排是 AI 时代的协作。

Claude Code Teams就是一个具体的实现。他在比较早之前就更新了这个功能。许多人很多时候用的仅仅是子代理，没有去用这个功能。

就我自己体验来说，使用 M2.7 进行 Claude Code Teams。整个协作很流畅，能比较准的把握和响应我的 Claude Code Teams 创建需求。以及他的角色扮演能力挺强的。毕竟，这些团队成员需要扮演角色。还要一个老大来掌控他们。

另外像 Claude teams 这种这么多成员，那个 token 消耗是非常惊人的。比并行subagent多得多。因为他们得不断的互相发消息。而 MiniMax 模型性价比无疑是比较高的。另外还有一点就是它回复的速度非常快。即便开启思维模式，也是如此。快 —— 这也适合团队协作。

在舍得 token 的情况下，其实很多方面可以用团队协作的模式来做。当然，Claude 官方也说过，目前的这种处于测试阶段的团队协作模式，也有它局限的场景。这个暂且不提，以后再论。

智能体团队测试

为了激活 Claude Code Teams 功能，你需要在用户名的.claude 文件夹下加入这一行，表示启用。否则，你和他对话，要求创建一个Team，他死活不知道的。

  { "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1" }

Claude Code记录不太好找。就看一个我用 M2.7 teams模式进行提示词灵感延展的例子。

官方有一段提示词，适用于测试 M2.7 模型专业办公能力：

任务：基于台积电年报和业绩沟通会信息，构建台积电的营收模型，读取多个研报，设计对应的假设，基于最新的信息对台积电营收建模，然后基于 PPT 模版产出 PPT ，并写一个 Word 文档研究报告和 Excel 图表。

于是我让他基于这个提示词，通过创建几个团队成员互相讨论，让他也给我类似的提示词，我也来实际测测。。这个意图很简单。

他直接创建了三个团队成员。分别是投资机构视角、咨询公司视角和财务部门视角。

最终给了我三个方向的提示词。几个方向的。

不过在我问他Agent之间沟通了些什么的时候，他说，当前这个场景不需要沟通，所以仅仅是几个 agent 向老大Agent汇报的形式。

于是我要求他：这次设计成对抗性讨论，三个agent都拿同一组提示词，让它们互相挑刺、碰撞。

他立马重组了团队成员。并且出现了攻击、辩护和综合者。代替原来的团队成员。并且开始了重新回答这个问题的任务。

期间，leader agent发现辩护者在某个阶段比较长时间没有反应，于是他自己自作主张代替他进行反驳，以让整个团队工作按照 to do 能继续进行下去。这个其实就是这样，Cloud Code Teams 这些团队成员都共享那个工作表单，都往上面去拉任务。并非笼统的一个agent对应自己的那几个任务。

leader agent管着所有的 agent，我们只需要和leader agent对话即可其他成员在工作的时候，你随时可以和老大对话。当然，你也可以通过 @ 的方式，单独和某个成员对话。而且这些成员的上下文是干净独立的，没有主线程的上下文。

执行了一段时间的讨论，或者说 AI 开了一段时间会之后，最终就出来一份有总结性的结果，并且还说了，辩论产生了一些什么新的东西

leader agent最后问我要不要把这些提示词写到一个文档里，结果我耽误了一点时间没回复，他就直接写了。一般情况下，他不是不会这么果断的。但这跟我在前面有跟他聊过有关，也许不是最近的对话，在很前面的对话和他发过一次牢骚，说：“你不要再问我了，你直接写”；然后这里估计他就直接写了。与 M2.7 的协作体验似乎还不错。

提示词优化和新的改进意见，以及每个成员有见解性的探讨，也写在了一份文档里。

后面我们会用这种提示词测试它的专业工作能力，处理Excel之类的。

而另外一个例子是开发一个前端页面。提示词输入之后，M2.7了然，创建三个团队成员。明确需要相互讨论配合。

并且他的Leader Agent 也在等待成员沟通配合之后，确认配合方式，再进行下一步动作。

所有的聊天长截图如下。

上下滑动查看

跑出来的效果如下视频。这只算一个简单的示例。

，时长00:18

使用团队协作的一个好的点是，以前像出现一个 bug，你可能得粘贴一次，下一个 bug 出来之后又粘贴，而这些团队成员往往在你想要去报告他错误的时候，他自己就解决了。如图,运行终端有报错，然后团队成员解决了:

怎么说呢？使用 Claude Teams 团队，我们的提示方向其实有一些改变，就是偏向于端到端的提出需求。比如你有一个需求，你原来要去 GitHub 找开源项目，然后部署，然后一阶段一阶段的去提示，而你使用团队成员的话，你可以直接让他从找需求再到使用 Docker 部署一套搞完。只需要和老大 agent 对话，让他去管着下面的 agent 交付端到端的结果。

专业工作

回到最开始，优化好的提示词，任务：作为私募股权投资机构的行业研究员，需要对宁德时代进行深度投资价值分析，评估其是否值得投资。

最后还要进行。PPT、Excel 的生成。

这次我用的是M2.7 + 小龙虾

结果：

PPT：

，时长00:19

Excel 表格

，时长00:15

另外，再来操作一个复杂 Excel。它能够按照步骤，一次对话，任务没有漏掉的准确写入数据：

再有一个网络搜索和Excel相关的，去 GitHub Trending 搜索本周最热门的开源项目，根据 Excel 的数据设计一个分类可视化 HTML 看板。不需要问我，你自己决定：

去 GitHub Trending 搜索本周最热门的开源项目，结合 Star 增长数、项目语言和最近提交时间综合筛选 15 个 AI 相关的项目，整理成 Excel 表格并标注项目简介和适用场景，根据 Excel 的数据设计一个分类可视化 HTML 看板。你自己决定：- 搜索的具体时间范围- 筛选的具体标准- 项目分类的逻辑- HTML 看板的设计风格不需要问我，你自己决定。