当AI开始训练AI:MiniMax M2.7的自我进化之路

2026 年 4 月,MiniMax 发布了一个看似平常的版本号——M2.7。但如果你以为这只是又一次常规迭代,那就大错特错了。这是第一个在训练过程中实现自我进化的商用大模型,它不再是被动接受人类调教的学生,而是开始主动优化自己的“教练”。
模型训练模型:一个全新的起点
想象一下这样的场景:一个 AI 模型在训练过程中,自己发现代码存在问题,于是自主修改代码、运行评测、分析结果,然后决定是保留修改还是回滚到之前的版本。这不是科幻小说的情节,而是 M2.7 在开发过程中真实发生的事情。
MiniMax 团队让 M2.7 的内部版本自主优化了一个编程脚手架,整个过程持续了超过 100 轮完整迭代。模型会分析失败的执行轨迹,修改相关代码,运行评估验证效果,最后自己决定是否采纳这次修改。这个闭环式的自我优化最终带来了 30% 的性能提升。

这种“模型训练模型”的机制建立在 MiniMax 的内部框架 OpenClaw 之上。在 M2.7 的训练中,OpenClaw 不仅是一个 Agent 工作流平台,更成为了一个模型自训练系统。模型可以更新自己的记忆,构建数十个复杂的技能用于强化学习实验,并根据实验结果改进自己的学习过程。
专业软件工程能力:从代码生成到系统级决策
M2.7 在真实软件工程场景中的表现令人印象深刻。它不仅能生成代码,更展现出系统级推理能力——关联监控指标、进行链路分析、在数据库中验证根本原因,并做出 SRE 级别的决策。
在实际生产环境中,MiniMax 团队使用 M2.7 处理线上故障,已经多次将故障恢复时间压缩到三分钟以内。这意味着当系统出现告警时,M2.7 能够自主完成从问题诊断到修复验证的完整流程,这种能力已经超越了简单的代码助手范畴。

在各项基准测试中,M2.7 的表现同样出色。在 MLE Bench Lite(包含 22 个机器学习竞赛任务)中,M2.7 取得了 66.6% 的奖牌率,仅次于 Opus 4.6 和 GPT 5.4。在 SWE-Pro 测试中达到 56.22%,与 GPT 5.3-Codex 持平。而在真实工程基准测试中,M2.7 在 SWE Multilingual 上获得 76.5 分,在 Multi SWE Bench 上达到 52.7 分,在 VIBE-Pro 上取得 55.6% 的成绩,几乎与 Opus 4.6 持平。
特别值得一提的是,M2.7 原生支持 Agent Teams 功能,可以实现多智能体协作,每个角色保持稳定的身份认同并具备自主决策能力。这为构建复杂的协作型 AI 系统提供了新的可能性。

专业办公能力:从文档编辑到复杂交付
在专业办公领域,M2.7 展现出了显著提升的专业知识和任务交付能力。在 GDPval-AA 评测中,M2.7 获得了 ELO 1495 分,这是开源模型中的最高分,甚至超越了 GPT 5.3。
M2.7 对 Office 三件套(Word、Excel、PPT)的处理能力尤为突出。它能够进行高保真的多轮编辑,生成可直接使用的可编辑文档。在金融文档分析场景中,M2.7 可以读取年报和业绩会纪要,交叉对比多篇研报,自动建立营收预测模型,并输出包含图表的 PPT、Word 和 Excel 文档。据参与评估的金融从业者反馈,这些产出物可以直接用作工作初稿。
在 Toolathon 测试中,M2.7 达到了 46.3% 的准确率,位居全球顶级水平。在 40 多个复杂技能(每个超过 2000 Token)的测试中,M2.7 仍然保持 97% 的技能遵循率。在 MM Claw 端到端基准测试中,M2.7 取得了 62.7% 的成绩,接近 Sonnet 4.6 的水平。
OpenRoom:重新定义人机交互
除了核心能力的提升,MiniMax 还推出了一个令人兴趣的配套项目——OpenRoom。这是一个将 AI 交互置于 Web GUI 空间的交互式演示系统,提供实时视觉反馈和场景交互。
在 OpenRoom 中,对话不再局限于文字往来,而是成为驱动整个交互空间的力量。AI 角色可以主动与环境交互,产生实时的视觉反馈。这个框架具有高度的可扩展性,能够随着模型 Agentic 能力的提升和社区的共建持续进化,探索人与 Agent 之间全新的交互方式。
更有趣的是,OpenRoom 项目的大部分代码都是由 AI 编写的,这本身就是 M2.7 编程能力的最佳证明。MiniMax 已经将这个原型项目开源,开发者可以在 GitHub 上找到相关代码,也可以直接访问 openroom.ai 体验这种全新的交互方式。
成本与可用性:触手可及的先进能力
尽管 M2.7 在性能上已经接近甚至超越许多顶级闭源模型,但它的定价依然保持在极具竞争力的水平。输入价格为每百万 token 0.30 美元,输出价格为 1.20 美元,与 M2.5 保持一致,比 Claude Opus 便宜约 50 倍。这种性价比使得更多开发者和企业能够将先进的 AI 能力集成到自己的产品中。
M2.7 已经在 MiniMax Agent 和开放平台上全量上线,同时也在 Hugging Face、ModelScope 等平台开源。开发者可以选择使用 SGLang、vLLM、Transformers 等主流推理框架进行本地部署,也可以通过 NVIDIA NIM Endpoint 直接调用。
官方推荐的推理参数为:temperature=1.0,top_p=0.95,top_k=40。默认系统提示词为:“You are a helpful assistant. Your name is MiniMax-M2.7 and is built by MiniMax.”
自我进化的意义:AI 发展的新范式
M2.7 的自我进化机制虽然还处于早期阶段,但它代表了 AI 发展的一个重要方向。目前这种自主优化主要集中在 Agent 脚手架层面,尚未触及模型权重本身,但这已经足以带来显著的性能提升。
这种“模型训练模型”的闭环机制,本质上是在加速 AI 的迭代效率。当模型能够参与到自己的训练和优化过程中,人类研究员可以将精力集中在更高层次的方向引导上,而将具体的构建和优化工作交给模型完成。这不仅提高了开发效率,也为探索更复杂的 AI 系统提供了新的可能性。
MiniMax 在 M2 系列模型发布后收到了大量用户反馈和建议,这促使团队思考如何进一步加速模型迭代。除了更加认真工作之外,他们找到的答案就是开启模型和组织的自我进化。M2.7 正是这一理念的首次实践,而从目前的表现来看,这个方向充满了潜力。
对于开发者和企业用户来说,M2.7 不仅提供了强大的编程、推理和办公能力,更重要的是它展示了一种新的可能性:AI 不再只是工具,而是可以成为持续进化、自我优化的智能系统。随着这种自我进化能力的不断完善,我们或许正在见证 AI 发展史上的一个重要转折点。
社区地址
OpenCSG社区:https://opencsg.com/models/MiniMaxAI/MiniMax-M2.7
hf社区:https://huggingface.co/MiniMaxAI/MiniMax-M2.7
关于 OpenCSG
OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps是人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)