MiniMax M3 技术全解析:1M 上下文 + 原生多模态 + 前沿 Coding,国内首个“三合一“开源旗舰
目录
博主智算菩萨,专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术,从零基础入门到高阶实战,陪伴开发者共同成长。目前已开设五大技术专栏,累计发布多篇原创技术文章,深受读者好评。
📌 专栏导航
- 人工智能前沿知识(已更179篇):深度剖析Transformer架构、生成式AI、强化学习、具身智能、神经符号系统、大模型及智能体(Agent)技术,系统性解析AI核心技术体系与前沿趋势。
- Python基础小白编程(已更232篇):从零开始,以保姆式教程讲解变量、数据类型、流程控制、函数等核心语法,配有大量实战代码与避坑指南,真正做到学以致用。
- 机器学习与深度学习(125篇):系统化拆解线性模型、决策树、随机森林、梯度提升树、神经网络等算法原理与工程实践,覆盖从公式推导到代码实现的全链路内容。
- 音频、图像与视频处理理论与实战(81篇):涵盖FFmpeg多媒体处理、audio_shop开源工具、ComfyUI-WanVideoWrapper视频生成等实用技术,从基础操作到高级应用一应俱全。
- UI窗体程序设计实战(78篇):深入讲解UI设计、动态窗体生成、游戏UI框架设计等实战技巧,提供从配置到编码的完整解决方案。
智算菩萨,以代码为经,以算法为纬,在人工智能的星辰大海中,做你前行路上最可靠的导航者。本人最常用AI工具为AIGCBAR。
📅 发布时间:2026-06-01
🏢 发布方:MiniMax(稀宇科技,0100.HK)
📦 模型形态:开源权重 + 云端 API 双线
🎯 定位:国内首个、全球唯一同时具备"前沿 Coding / 1M 上下文 / 原生多模态"三项能力的开源大模型

目录
- 一句话看懂 M3
- 为什么 M3 值得单独写一篇文章
- 三大核心能力详解
- 底层黑科技:MSA 稀疏注意力架构
- 性能基准测试:跑分不是全部
- 三个真实任务演示:M3 干活的"名场面"
- API 接入 & 双思考模式
- Token Plan 订阅定价
- MiniMax Code:与 M3 同步训练的 Agent 工具
- 横向对比:M3 vs 国际三大旗舰
- 争议与思考
- 总结:M3 到底值不值得用
- 参考资料
一、一句话看懂 M3
M3 = 一次能读完一本长篇小说(1M 上下文)+ 能看图看视频操作电脑(原生多模态)+ 代码直出可交付(前沿 Coding),并且是开源的。
在它之前,海外闭源旗舰(Claude Opus、GPT-5)才同时具备这三种能力;M3 是国内第一个把这"三件套"全部点满的模型,也是目前全球唯一开源的同档位选择。
二、为什么 M3 值得单独写一篇文章
把它放在 2026 年这个时间点看,M3 出现得恰逢其会:
| 行业背景 | 含义 |
|---|---|
| AI 编程应用次数 3 年涨 5 倍(黄仁勋 GTC 2026 数据:3 亿次 → 14 亿次) | Coding 能力是下一个商业化主战场 |
| 大模型价格战白热化 | "便宜"不再是优势,"能力 + 便宜"才是 |
| Agent 任务复杂度飙升 | 模型需要"更长上下文 + 更稳记忆 + 更低推理成本" |
| 国产模型从"拼参数"转向"拼架构" | MSA 这类底层创新开始成为分水岭 |
M3 的发布,刚好卡在所有这些趋势的交汇点上。
三、三大核心能力详解
3.1 能力矩阵总览
| 能力 | 量化指标 | 行业意义 |
|---|---|---|
| 前沿 Coding & Agentic | SWE-Bench Pro 59.0% | 超过 GPT-5.5、Gemini 3.1 Pro,逼近 Claude Opus 4.7 |
| 1M 超长上下文 | API 支持 1M tokens,保障 ≥512K 可用 | 整本长篇小说 + 完整代码仓库一次性入窗 |
| 原生多模态 | 图、视频输入 + Computer Use 桌面操作 | 从训练第零步开始多模态混合训练(不是后期缝合) |
3.2 上下文长度的直观对比
💡 1M tokens 实际能装下什么?一本 ~80 万字的中长篇小说 + 配套代码 + 实验日志 + 几百张图表 OCR 文本。
3.3 三能力的依赖关系
这三件事不是孤立卖点,而是底层架构 + 数据 + 训练范式共同作用的结果,缺一不可。
四、底层黑科技:MSA 稀疏注意力架构
4.1 传统注意力为什么搞不定 1M 上下文
Transformer 的标准自注意力复杂度是 O(n²):
- 4K 上下文 → 计算量 16M
- 32K 上下文 → 计算量 1G(增长 64 倍)
- 1M 上下文 → 计算量 1T(增长 6.4 万倍)💥
直接堆算力?显存爆炸、推理延迟上天、长文本性能还衰减。这条路走不通。
4.2 MSA 是什么
MSA(MiniMax Sparse Attention)是 MiniMax 自研的稀疏注意力机制,核心设计有四点:
| 设计点 | 做法 | 效果 |
|---|---|---|
| KV 块精确分块 | 比 DSA、MoBA 更精细的 KV 分块 | 更高的有效上下文覆盖率 |
| KV outer gather Q 算子 | “KV 块为外层、聚合命中 query” | 每块只读一次、访存连续 |
| 计算访存比优化 | 直接在算子层重写数据流 | 比 Flash-Sparse-Attention、flash-moba 快 4 倍以上 |
| 双分支推理 | 索引分支快速扫描 + 稀疏计算分支精确处理 | 近似线性复杂度 |
4.3 关键加速指标(1M 上下文下)
| 维度 | 数据 |
|---|---|
| 每 token 计算量 | 仅为上代 M2 的 1/20 |
| Prefilling 加速 | >9×(媒体口径 9.7×) |
| Decoding 加速 | >15×(媒体口径 15.6×) |
| 算力成本 | 长文档场景降低 80% 以上 |
| 能力损失 | 在多数 Benchmark 上与全注意力打平 |
4.4 MSA 工作流程
五、性能基准测试:跑分不是全部
5.1 Coding & Agentic 能力
| 基准测试 | M3 得分 | 对比 |
|---|---|---|
| SWE-Bench Pro | 59.0% | 超越 GPT-5.5、Gemini 3.1 Pro,接近 Claude Opus 4.7 |
| Terminal Bench 2.1 | 66.0% | 终端执行类任务 |
| SWE-fficiency | 34.8% | 代码效率评测 |
| KernelBench Hard | 28.8% | GPU Kernel 优化(地狱级难度) |
| MCP Atlas | 74.2% | 工具调用与 MCP 协议 |
| BrowseComp | 83.5 | 超越 Claude Opus 4.7(79.3) |
| Claw-Eval(Agent 端到端) | 最高分 | 参测模型中第一 |
5.2 多模态能力
| 基准测试 | M3 结果 |
|---|---|
| SVG-Bench | 超越 Claude Opus 4.7 |
| OmniDocBench | 超越 Gemini 3.1 Pro |
5.3 自主训练(PostTrainBench)
| 模型 | PostTrainBench 得分 |
|---|---|
| Claude Opus 4.7 | 42.4 |
| GPT-5.5 | 39.3 |
| MiniMax M3 | 37.1 |
| 其他参测模型 | 显著低于 M3 |
全程 12 小时无人干预,自主完成"数据合成 → 训练 → 评测 → 迭代"全流程。
5.4 训练数据规模
| 项目 | 数据 |
|---|---|
| 训练 Token 总量 | 100 万亿(10T)量级 |
| 模态 | 文本 + 图片 + 视频从 Step 0 起混合训练 |
| 关键技术 | Interleaved data(交错数据)—— 文本与图像在序列中自然交替 |
六、三个真实任务演示:M3 干活的"名场面"
光看跑分容易"上头",官方放出的三个真实任务演示更能说明 M3 到底能干嘛。
6.1 任务一:独立复现 ICLR 2025 顶会论文
📄 论文:《Learning Dynamics of LLM Finetuning》(ICLR 2025 Outstanding Paper)
| 指标 | 数据 |
|---|---|
| 自主运行时长 | 接近 12 小时 |
| 代码提交 | 18 次 commit |
| 实验图表 | 23 张 |
| 核心结论 | 成功复现 SFT 概率变化、DPO squeezing 效应、Extend 缓解方法 |
| 触发能力组合 | 多模态读论文 + 1M 上下文 + Coding + Agent |
6.2 任务二:手写 CUDA 算子,把 GPU 性能榨到极致
🎯 目标:在 NVIDIA Hopper GPU 上优化 FP8 矩阵乘(GEMM)
| 指标 | 数据 |
|---|---|
| 起点 | 一份任务描述 + 评估脚本 + 一个跑不起来的 Triton 骨架 |
| 自主运行时长 | 约 24 小时 |
| Benchmark 提交 | 147 次 |
| 工具调用 | 1959 次 |
| 硬件利用率 | 7.6% → 71.3% |
| 加速比 | 9.4× |
| 最优解出现位置 | 第 145 次提交(中间多次平台期没放弃) |
6.3 任务三:让 M3 自主训练模型
🎯 目标:在 12 小时内自主完成 4 个 Base 模型的完整 Post-Training 流程
| 指标 | 数据 |
|---|---|
| 流程 | 数据合成 → 训练 → 评测 → 迭代 |
| 任务类型 | 数学、工具调用、科学推理、代码生成 |
| M3 得分 | 37.1(位列所有参测模型第三) |
| 排名 | 1st Opus 4.7(42.4)→ 2nd GPT-5.5(39.3)→ 3rd M3(37.1) |
| 人工介入 | 零 |
6.4 三个任务的能力分布雷达
七、API 接入 & 双思考模式
7.1 最简接入示例
import requests
url = "https://api.minimaxi.com/v1/text/chatcompletion_v2"
payload = {
"model": "MiniMax-M3",
"messages": [
{"role": "user", "content": "帮我分析这段代码的性能瓶颈"}
]
}
headers = {
"Authorization": "Bearer <your-token>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
7.2 双思考模式
| 模式 | 适用场景 | 延迟 | Token 消耗 | 共享定价 |
|---|---|---|---|---|
| Thinking 模式 | 复杂推理、Agentic 任务、长程协作、复杂代码重构 | 高(10s+) | 高 | ✅ |
| Non-thinking 模式 | 对话、代码补全、文档摘要等延迟敏感场景 | 低(<2s) | 低 | ✅ |
💡 两种模式定价相同,按请求切换。
7.3 高级特性
| 特性 | 说明 |
|---|---|
service_tier=priority |
高并发下获得调度优先级 + 更稳定时延,适合 SLA 敏感场景 |
| 自动 Cache | 无需任何配置,重复请求自动命中,不重复计费 |
| OpenAI 兼容 | 端点与 OpenAI Chat Completions 格式一致,现有工具可直接切换 |
| 兼容框架 | Claude Code / Codex CLI / Cline / Cursor / Roo Code / Kilo Code / OpenCode / TRAE / Grok CLI / Droid 等 |
7.4 接入架构示意
八、Token Plan 订阅定价
8.1 套餐档位
| 套餐 | 月付价 | 月度 Token 用量 | Agent 并发 | 视频生成 |
|---|---|---|---|---|
| Plus | ¥49/月 | 约 6 亿 token | 3-4 个 | — |
| Max | ¥119/月 | 约 18 亿 token | 4-5 个 | 3 条/日 |
| Ultra | ¥469/月 | 约 55 亿 token | 6-7 个 | 5 条/日 |
📌 文本 / 图像 / 语音 / 音乐共享同一额度池。订阅后获得
sk-cp格式 API Key,可接入所有支持 OpenAI 兼容格式的 AI 编程工具。
8.2 与 Claude 订阅的对比
| 套餐 | M3 | 对应 Claude 订阅 | 容量倍数 |
|---|---|---|---|
| Plus ¥49 | 6 亿 token | Claude Pro $20(~¥145) | 5× |
| Max ¥119 | 18 亿 token | Claude Max 5× $100(~¥725) | 2× |
| Ultra ¥469 | 55 亿 token | Claude Max 20× $200(~¥1450) | 3× |
相同价格下,M3 Token Plan 约为 Claude 订阅用量的 15 倍。
8.3 API 阶梯定价(按 token 计费)
| 等级 | 输入价格 | 输出价格 |
|---|---|---|
| 默认等级 | ¥2 / M tokens | ¥8 / M tokens |
| 优先等级 | ¥4 / M tokens | ¥16 / M tokens |
摩根士丹利研报口径:M3 API 价格较 M2.7 翻倍,但仍处于国内前沿大模型中高端区间,输入未缓存 token 价格约 ¥6.3 / M,输出约 ¥25.2 / M。
8.4 成本计算示例
按 M3 单次约 50K token 估算,**Plus 套餐(6 亿 token)**约可调用 12,000 次/月。Token Plan 支持 M3 和 M2.7 系列共用配额。
九、MiniMax Code:与 M3 同步训练的 Agent 工具
9.1 它是什么
MiniMax Code 是与 M3 协同训练的 Agent 编程产品,能 100% 发挥 M3 的三项核心能力。
9.2 三个核心特性
| 特性 | 说明 |
|---|---|
| Agent Team 协作 | 大任务拆成多阶段、可并发、可动态调整的 Workflow,由 Agent 集群协作 |
| Producer + Verifier 循环 | 一个 Agent 写代码,另一个 Agent 找茬,对抗式 Harness 循环纠错,可自主运行数天 |
| Computer Use | 得益于 M3 原生多模态,可操作本地 GUI 应用(如根据 Excel 批量录入发票到 ERP) |
9.3 底层栈
OpenCode(开源) + Pi Agent(开源)+ M3 协同训练
↓
MiniMax Code
↓
计划后续开源本项目回馈社区
9.4 工作流示意
十、横向对比:M3 vs 国际三大旗舰
10.1 综合能力对比
| 维度 | MiniMax M3 | Claude Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro | 59.0% ✅ | ≈59-60% | <59% | <59% |
| BrowseComp | 83.5 ✅ | 79.3 | — | — |
| 上下文窗口 | 1M ✅ | 500K | 500K | 1M |
| 多模态 | 图+视频+GUI ✅ | 图+文档 | 图+视频 | 图+视频+音频 |
| 桌面操作 | ✅ | ✅ | ✅ | ❌ |
| 开源 | ✅ | ❌ | ❌ | ❌ |
| API 输入价 | ~¥6.3/M | ~¥108/M | ~¥108/M | ~¥50/M |
10.2 性价比维度
| 维度 | M3 优势 |
|---|---|
| 价格 | Token Plan ¥49 ≈ Claude Pro $20 容量的 5 倍 |
| 开源 | 计划 10 天内发布权重,可本地部署 |
| 国产合规 | 数据不出境,适合金融/政府/医疗 |
| 生态兼容 | OpenAI 兼容 + 主流 Agent 框架全支持 |
10.3 与国内主流模型对比
| 维度 | M3 | DeepSeek V4 Pro | 智谱 GLM-5 | Qwen3.7-Max | Kimi K2.5 |
|---|---|---|---|---|---|
| 1M 上下文 | ✅ | ✅ | 部分 | ❌ | 部分 |
| 原生多模态 | ✅ | ❌ | ✅ | ✅ | ❌ |
| 开源 | ✅ | ✅ | ✅ | 部分开源 | ✅ |
| SWE-Bench Pro | 59.0% | 待更新 | 待更新 | Code Arena 第四 | — |
十一、争议与思考
任何一个大模型的发布都不是"一边倒"的赞誉,M3 也有几个值得关注的争议点:
11.1 评测合规性质疑
开发者社区对 M3 在 SWE-Bench Pro 上的 59% 得分有质疑,主要集中在:
- 测试集是否存在数据污染
- 评测时的 prompting 与推理配置是否对外公开
- 是否对"自家训练目标"做了针对性优化
🤔 建议:跑分可以参考,但实际业务场景的 A/B 测试才是硬指标。
11.2 稀疏注意力的潜在风险
| 风险点 | 说明 |
|---|---|
| 长序列信息丢失 | 学术研究指出,序列维度的稀疏压缩可能丢失关键信息 |
| 泛化能力 | 现有稀疏方案大多免训练,跨架构泛化待验证 |
| 平台期陷阱 | 如 CUDA 任务所示,部分模型在 30 次提交后即放弃,M3 能坚持到 145 次但不是所有场景都能 |
11.3 M2 系列的"前车之鉴"
M2.7 用户反映的三个老问题,在 M3 上的改善程度需要观察:
| M2 痛点 | M3 是否解决 |
|---|---|
| 指令遵循不够稳定 | 引入交互式用户模拟器框架,有改善但需实测 |
| 幻觉问题 | 暂未公布专项数据 |
| 多步推理易出错 | PostTrainBench 37.1 vs Opus 4.7 42.4,还有差距 |
11.4 价格上调的信号
M3 API 价格较 M2.7 翻倍,在国内打价格战的背景下属于"另类动作"。
- ✅ 正向解读:模型能力跃升,官方有底气溢价
- ⚠️ 风险解读:开发者成本上升,部分场景可能回流开源小模型
十二、总结:M3 到底值不值得用
12.1 适合用 M3 的人群
| 角色 | 用法 |
|---|---|
| 个人开发者 | 订阅 Token Plan Plus(¥49/月)写代码、做 Agent |
| 小型团队 | Max 套餐,团队 4-5 个 Agent 并发 |
| 企业研发 | 本地部署开源权重,数据不出境 |
| 研究机构 | 复现顶会论文、跑 12h+ 长程任务 |
| 金融/法律 | 1M 上下文一次性载入完整尽调文档 |
12.2 暂时可以观望的人群
- 强多语言(尤其小语种)需求:M3 多模态能力以中英文为主
- 实时语音对话:需要 M2 Voice 或专门 ASR/TTS 方案
- 已经重度绑定 Claude/GPT 工具链:迁移成本需要评估
12.3 一句话结论
🎯 M3 不是"又一个 M2 升级",而是国内大模型首次在架构层(CSA 稀疏注意力)+ 能力组合(1M 上下文 + 原生多模态 + 前沿 Coding)+ 开源策略三个维度同时拿到了国际一线的话语权。Claude Pro 1/5 的价格 + 等效甚至更强的能力 + 可本地部署,这是 2026 年上半年国内开发者最值得优先评估的选项。
十三、参考资料
| 来源 | 内容 |
|---|---|
| MiniMax 官方公告 | M3 模型发布、MSA 架构、Token Plan 定价 |
| MiniMax 技术报告(2026-05-31) | SWE-Bench Pro、Terminal Bench 等评测数据 |
| 财联社 / 证券日报 | M3 商业化与上市公司信息 |
| 摩根士丹利研报 | M3 API 定价对比与"增持"评级 |
| 高盛研报 | M3 评价与 2027 年"A+H"上市预期 |
| 摩尔线程公告 | 2026-06-12 完成 M3 Day-0 适配(MTT S5000) |
| 七牛云 AI 模型广场 | 多模型同屏对比工具 |
📌 后续关注
- ⏰ 2026-06-12(已开源):M3 模型权重正式开源
- ⏰ 发布后 10 天内:完整技术报告更新
- 🔄 持续关注:开源生态适配进展(OpenClaw、GodeX 等)
如果觉得这篇对你有帮助,欢迎 点赞、收藏、转发 三连 💪
有问题评论区见,我会尽量回复 👇
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)