MiniMax M3 技术全解析：1M 上下文 + 原生多模态 + 前沿 Coding，国内首个“三合一“开源旗舰

小清河505

398人浏览 · 2026-06-15 16:10:27

小清河505 · 2026-06-15 16:10:27 发布

目录
一、一句话看懂 M3
二、为什么 M3 值得单独写一篇文章
三、三大核心能力详解
- 3.1 能力矩阵总览
- 3.2 上下文长度的直观对比
- 3.3 三能力的依赖关系
四、底层黑科技：MSA 稀疏注意力架构
- 4.1 传统注意力为什么搞不定 1M 上下文
- 4.2 MSA 是什么
- 4.3 关键加速指标（1M 上下文下）
- 4.4 MSA 工作流程
五、性能基准测试：跑分不是全部
- 5.1 Coding & Agentic 能力
- 5.2 多模态能力
- 5.3 自主训练（PostTrainBench）
- 5.4 训练数据规模
六、三个真实任务演示：M3 干活的"名场面"
- 6.1 任务一：独立复现 ICLR 2025 顶会论文
- 6.2 任务二：手写 CUDA 算子，把 GPU 性能榨到极致
- 6.3 任务三：让 M3 自主训练模型
- 6.4 三个任务的能力分布雷达
七、API 接入 & 双思考模式
- 7.1 最简接入示例
- 7.2 双思考模式
- 7.3 高级特性
- 7.4 接入架构示意
八、Token Plan 订阅定价
- 8.1 套餐档位
- 8.2 与 Claude 订阅的对比
- 8.3 API 阶梯定价（按 token 计费）
- 8.4 成本计算示例
九、MiniMax Code：与 M3 同步训练的 Agent 工具
- 9.1 它是什么
- 9.2 三个核心特性
- 9.3 底层栈
- 9.4 工作流示意
十、横向对比：M3 vs 国际三大旗舰
- 10.1 综合能力对比
- 10.2 性价比维度
- 10.3 与国内主流模型对比
十一、争议与思考
- 11.1 评测合规性质疑
- 11.2 稀疏注意力的潜在风险
- 11.3 M2 系列的"前车之鉴"
- 11.4 价格上调的信号
十二、总结：M3 到底值不值得用
- 12.1 适合用 M3 的人群
- 12.2 暂时可以观望的人群
- 12.3 一句话结论
十三、参考资料
- 📌 后续关注

博主智算菩萨，专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术，从零基础入门到高阶实战，陪伴开发者共同成长。目前已开设五大技术专栏，累计发布多篇原创技术文章，深受读者好评。

📌 专栏导航

人工智能前沿知识（已更179篇）：深度剖析Transformer架构、生成式AI、强化学习、具身智能、神经符号系统、大模型及智能体（Agent）技术，系统性解析AI核心技术体系与前沿趋势。

Python基础小白编程（已更232篇）：从零开始，以保姆式教程讲解变量、数据类型、流程控制、函数等核心语法，配有大量实战代码与避坑指南，真正做到学以致用。

机器学习与深度学习（125篇）：系统化拆解线性模型、决策树、随机森林、梯度提升树、神经网络等算法原理与工程实践，覆盖从公式推导到代码实现的全链路内容。

音频、图像与视频处理理论与实战（81篇）：涵盖FFmpeg多媒体处理、audio_shop开源工具、ComfyUI-WanVideoWrapper视频生成等实用技术，从基础操作到高级应用一应俱全。

UI窗体程序设计实战（78篇）：深入讲解UI设计、动态窗体生成、游戏UI框架设计等实战技巧，提供从配置到编码的完整解决方案。
智算菩萨，以代码为经，以算法为纬，在人工智能的星辰大海中，做你前行路上最可靠的导航者。本人最常用AI工具为AIGCBAR。

📅 发布时间：2026-06-01
🏢 发布方：MiniMax（稀宇科技，0100.HK）
📦 模型形态：开源权重 + 云端 API 双线
🎯 定位：国内首个、全球唯一同时具备"前沿 Coding / 1M 上下文 / 原生多模态"三项能力的开源大模型

在这里插入图片描述

一句话看懂 M3
为什么 M3 值得单独写一篇文章
三大核心能力详解
底层黑科技：MSA 稀疏注意力架构
性能基准测试：跑分不是全部
三个真实任务演示：M3 干活的"名场面"
API 接入 & 双思考模式
Token Plan 订阅定价
MiniMax Code：与 M3 同步训练的 Agent 工具
横向对比：M3 vs 国际三大旗舰
争议与思考
总结：M3 到底值不值得用
参考资料

一、一句话看懂 M3

M3 = 一次能读完一本长篇小说（1M 上下文）+ 能看图看视频操作电脑（原生多模态）+ 代码直出可交付（前沿 Coding），并且是开源的。

在它之前，海外闭源旗舰（Claude Opus、GPT-5）才同时具备这三种能力；M3 是国内第一个把这"三件套"全部点满的模型，也是目前全球唯一开源的同档位选择。

二、为什么 M3 值得单独写一篇文章

把它放在 2026 年这个时间点看，M3 出现得恰逢其会：

行业背景	含义
AI 编程应用次数 3 年涨 5 倍（黄仁勋 GTC 2026 数据：3 亿次 → 14 亿次）	Coding 能力是下一个商业化主战场
大模型价格战白热化	"便宜"不再是优势，"能力 + 便宜"才是
Agent 任务复杂度飙升	模型需要"更长上下文 + 更稳记忆 + 更低推理成本"
国产模型从"拼参数"转向"拼架构"	MSA 这类底层创新开始成为分水岭

M3 的发布，刚好卡在所有这些趋势的交汇点上。

三、三大核心能力详解

3.1 能力矩阵总览

能力	量化指标	行业意义
前沿 Coding & Agentic	SWE-Bench Pro 59.0%	超过 GPT-5.5、Gemini 3.1 Pro，逼近 Claude Opus 4.7
1M 超长上下文	API 支持 1M tokens，保障 ≥512K 可用	整本长篇小说 + 完整代码仓库一次性入窗
原生多模态	图、视频输入 + Computer Use 桌面操作	从训练第零步开始多模态混合训练（不是后期缝合）

3.2 上下文长度的直观对比

💡 1M tokens 实际能装下什么？一本 ~80 万字的中长篇小说 + 配套代码 + 实验日志 + 几百张图表 OCR 文本。

3.3 三能力的依赖关系

这三件事不是孤立卖点，而是底层架构 + 数据 + 训练范式共同作用的结果，缺一不可。

四、底层黑科技：MSA 稀疏注意力架构

4.1 传统注意力为什么搞不定 1M 上下文

Transformer 的标准自注意力复杂度是 O(n²)：

4K 上下文 → 计算量 16M
32K 上下文 → 计算量 1G（增长 64 倍）
1M 上下文 → 计算量 1T（增长 6.4 万倍）💥

直接堆算力？显存爆炸、推理延迟上天、长文本性能还衰减。这条路走不通。

4.2 MSA 是什么

MSA（MiniMax Sparse Attention）是 MiniMax 自研的稀疏注意力机制，核心设计有四点：

设计点	做法	效果
KV 块精确分块	比 DSA、MoBA 更精细的 KV 分块	更高的有效上下文覆盖率
KV outer gather Q 算子	“KV 块为外层、聚合命中 query”	每块只读一次、访存连续
计算访存比优化	直接在算子层重写数据流	比 Flash-Sparse-Attention、flash-moba 快 4 倍以上
双分支推理	索引分支快速扫描 + 稀疏计算分支精确处理	近似线性复杂度

4.3 关键加速指标（1M 上下文下）

维度	数据
每 token 计算量	仅为上代 M2 的 1/20
Prefilling 加速	>9×（媒体口径 9.7×）
Decoding 加速	>15×（媒体口径 15.6×）
算力成本	长文档场景降低 80% 以上
能力损失	在多数 Benchmark 上与全注意力打平

4.4 MSA 工作流程

五、性能基准测试：跑分不是全部

5.1 Coding & Agentic 能力

基准测试	M3 得分	对比
SWE-Bench Pro	59.0%	超越 GPT-5.5、Gemini 3.1 Pro，接近 Claude Opus 4.7
Terminal Bench 2.1	66.0%	终端执行类任务
SWE-fficiency	34.8%	代码效率评测
KernelBench Hard	28.8%	GPU Kernel 优化（地狱级难度）
MCP Atlas	74.2%	工具调用与 MCP 协议
BrowseComp	83.5	超越 Claude Opus 4.7（79.3）
Claw-Eval（Agent 端到端）	最高分	参测模型中第一

5.2 多模态能力

基准测试	M3 结果
SVG-Bench	超越 Claude Opus 4.7
OmniDocBench	超越 Gemini 3.1 Pro

5.3 自主训练（PostTrainBench）

模型	PostTrainBench 得分
Claude Opus 4.7	42.4
GPT-5.5	39.3
MiniMax M3	37.1
其他参测模型	显著低于 M3

全程 12 小时无人干预，自主完成"数据合成 → 训练 → 评测 → 迭代"全流程。

5.4 训练数据规模

项目	数据
训练 Token 总量	100 万亿（10T）量级
模态	文本 + 图片 + 视频从 Step 0 起混合训练
关键技术	Interleaved data（交错数据）—— 文本与图像在序列中自然交替

六、三个真实任务演示：M3 干活的"名场面"

光看跑分容易"上头"，官方放出的三个真实任务演示更能说明 M3 到底能干嘛。

6.1 任务一：独立复现 ICLR 2025 顶会论文

📄 论文：《Learning Dynamics of LLM Finetuning》（ICLR 2025 Outstanding Paper）

指标	数据
自主运行时长	接近 12 小时
代码提交	18 次 commit
实验图表	23 张
核心结论	成功复现 SFT 概率变化、DPO squeezing 效应、Extend 缓解方法
触发能力组合	多模态读论文 + 1M 上下文 + Coding + Agent

6.2 任务二：手写 CUDA 算子，把 GPU 性能榨到极致

🎯 目标：在 NVIDIA Hopper GPU 上优化 FP8 矩阵乘（GEMM）

指标	数据
起点	一份任务描述 + 评估脚本 + 一个跑不起来的 Triton 骨架
自主运行时长	约 24 小时
Benchmark 提交	147 次
工具调用	1959 次
硬件利用率	7.6% → 71.3%
加速比	9.4×
最优解出现位置	第 145 次提交（中间多次平台期没放弃）

6.3 任务三：让 M3 自主训练模型

🎯 目标：在 12 小时内自主完成 4 个 Base 模型的完整 Post-Training 流程

指标	数据
流程	数据合成 → 训练 → 评测 → 迭代
任务类型	数学、工具调用、科学推理、代码生成
M3 得分	37.1（位列所有参测模型第三）
排名	1st Opus 4.7（42.4）→ 2nd GPT-5.5（39.3）→ 3rd M3（37.1）
人工介入	零

6.4 三个任务的能力分布雷达

七、API 接入 & 双思考模式

7.1 最简接入示例

import requests

url = "https://api.minimaxi.com/v1/text/chatcompletion_v2"

payload = {
    "model": "MiniMax-M3",
    "messages": [
        {"role": "user", "content": "帮我分析这段代码的性能瓶颈"}
    ]
}

headers = {
    "Authorization": "Bearer <your-token>"
}

response = requests.post(url, json=payload, headers=headers)
print(response.json())

7.2 双思考模式

模式	适用场景	延迟	Token 消耗	共享定价
Thinking 模式	复杂推理、Agentic 任务、长程协作、复杂代码重构	高（10s+）	高	✅
Non-thinking 模式	对话、代码补全、文档摘要等延迟敏感场景	低（<2s）	低	✅

💡 两种模式定价相同，按请求切换。

7.3 高级特性

特性	说明
`service_tier=priority`	高并发下获得调度优先级 + 更稳定时延，适合 SLA 敏感场景
自动 Cache	无需任何配置，重复请求自动命中，不重复计费
OpenAI 兼容	端点与 OpenAI Chat Completions 格式一致，现有工具可直接切换
兼容框架	Claude Code / Codex CLI / Cline / Cursor / Roo Code / Kilo Code / OpenCode / TRAE / Grok CLI / Droid 等

7.4 接入架构示意

八、Token Plan 订阅定价

8.1 套餐档位

套餐	月付价	月度 Token 用量	Agent 并发	视频生成
Plus	¥49/月	约 6 亿 token	3-4 个	—
Max	¥119/月	约 18 亿 token	4-5 个	3 条/日
Ultra	¥469/月	约 55 亿 token	6-7 个	5 条/日

📌 文本 / 图像 / 语音 / 音乐共享同一额度池。订阅后获得 sk-cp 格式 API Key，可接入所有支持 OpenAI 兼容格式的 AI 编程工具。

8.2 与 Claude 订阅的对比

套餐	M3	对应 Claude 订阅	容量倍数
Plus ¥49	6 亿 token	Claude Pro $20（~¥145）	5×
Max ¥119	18 亿 token	Claude Max 5× $100（~¥725）	2×
Ultra ¥469	55 亿 token	Claude Max 20× $200（~¥1450）	3×

相同价格下，M3 Token Plan 约为 Claude 订阅用量的 15 倍。

8.3 API 阶梯定价（按 token 计费）

等级	输入价格	输出价格
默认等级	¥2 / M tokens	¥8 / M tokens
优先等级	¥4 / M tokens	¥16 / M tokens

摩根士丹利研报口径：M3 API 价格较 M2.7 翻倍，但仍处于国内前沿大模型中高端区间，输入未缓存 token 价格约 ¥6.3 / M，输出约 ¥25.2 / M。

8.4 成本计算示例

按 M3 单次约 50K token 估算，**Plus 套餐（6 亿 token）**约可调用 12,000 次/月。Token Plan 支持 M3 和 M2.7 系列共用配额。

九、MiniMax Code：与 M3 同步训练的 Agent 工具

9.1 它是什么

MiniMax Code 是与 M3 协同训练的 Agent 编程产品，能 100% 发挥 M3 的三项核心能力。

9.2 三个核心特性

特性	说明
Agent Team 协作	大任务拆成多阶段、可并发、可动态调整的 Workflow，由 Agent 集群协作
Producer + Verifier 循环	一个 Agent 写代码，另一个 Agent 找茬，对抗式 Harness 循环纠错，可自主运行数天
Computer Use	得益于 M3 原生多模态，可操作本地 GUI 应用（如根据 Excel 批量录入发票到 ERP）

9.3 底层栈

OpenCode（开源） + Pi Agent（开源）+ M3 协同训练
                                ↓
                         MiniMax Code
                                ↓
                  计划后续开源本项目回馈社区

9.4 工作流示意

十、横向对比：M3 vs 国际三大旗舰

10.1 综合能力对比

维度	MiniMax M3	Claude Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-Bench Pro	59.0% ✅	≈59-60%	<59%	<59%
BrowseComp	83.5 ✅	79.3	—	—
上下文窗口	1M ✅	500K	500K	1M
多模态	图+视频+GUI ✅	图+文档	图+视频	图+视频+音频
桌面操作	✅	✅	✅	❌
开源	✅	❌	❌	❌
API 输入价	~¥6.3/M	~¥108/M	~¥108/M	~¥50/M

10.2 性价比维度

维度	M3 优势
价格	Token Plan ¥49 ≈ Claude Pro $20 容量的 5 倍
开源	计划 10 天内发布权重，可本地部署
国产合规	数据不出境，适合金融/政府/医疗
生态兼容	OpenAI 兼容 + 主流 Agent 框架全支持

10.3 与国内主流模型对比

维度	M3	DeepSeek V4 Pro	智谱 GLM-5	Qwen3.7-Max	Kimi K2.5
1M 上下文	✅	✅	部分	❌	部分
原生多模态	✅	❌	✅	✅	❌
开源	✅	✅	✅	部分开源	✅
SWE-Bench Pro	59.0%	待更新	待更新	Code Arena 第四	—

十一、争议与思考

任何一个大模型的发布都不是"一边倒"的赞誉，M3 也有几个值得关注的争议点：

11.1 评测合规性质疑

开发者社区对 M3 在 SWE-Bench Pro 上的 59% 得分有质疑，主要集中在：

测试集是否存在数据污染
评测时的 prompting 与推理配置是否对外公开
是否对"自家训练目标"做了针对性优化

🤔 建议：跑分可以参考，但实际业务场景的 A/B 测试才是硬指标。

11.2 稀疏注意力的潜在风险

风险点	说明
长序列信息丢失	学术研究指出，序列维度的稀疏压缩可能丢失关键信息
泛化能力	现有稀疏方案大多免训练，跨架构泛化待验证
平台期陷阱	如 CUDA 任务所示，部分模型在 30 次提交后即放弃，M3 能坚持到 145 次但不是所有场景都能

11.3 M2 系列的"前车之鉴"

M2.7 用户反映的三个老问题，在 M3 上的改善程度需要观察：

M2 痛点	M3 是否解决
指令遵循不够稳定	引入交互式用户模拟器框架，有改善但需实测
幻觉问题	暂未公布专项数据
多步推理易出错	PostTrainBench 37.1 vs Opus 4.7 42.4，还有差距

11.4 价格上调的信号

M3 API 价格较 M2.7 翻倍，在国内打价格战的背景下属于"另类动作"。

✅ 正向解读：模型能力跃升，官方有底气溢价
⚠️ 风险解读：开发者成本上升，部分场景可能回流开源小模型

十二、总结：M3 到底值不值得用

12.1 适合用 M3 的人群

角色	用法
个人开发者	订阅 Token Plan Plus（¥49/月）写代码、做 Agent
小型团队	Max 套餐，团队 4-5 个 Agent 并发
企业研发	本地部署开源权重，数据不出境
研究机构	复现顶会论文、跑 12h+ 长程任务
金融/法律	1M 上下文一次性载入完整尽调文档

12.2 暂时可以观望的人群

强多语言（尤其小语种）需求：M3 多模态能力以中英文为主
实时语音对话：需要 M2 Voice 或专门 ASR/TTS 方案
已经重度绑定 Claude/GPT 工具链：迁移成本需要评估

12.3 一句话结论

🎯 M3 不是"又一个 M2 升级"，而是国内大模型首次在架构层（CSA 稀疏注意力）+ 能力组合（1M 上下文 + 原生多模态 + 前沿 Coding）+ 开源策略三个维度同时拿到了国际一线的话语权。Claude Pro 1/5 的价格 + 等效甚至更强的能力 + 可本地部署，这是 2026 年上半年国内开发者最值得优先评估的选项。

十三、参考资料

来源	内容
MiniMax 官方公告	M3 模型发布、MSA 架构、Token Plan 定价
MiniMax 技术报告（2026-05-31）	SWE-Bench Pro、Terminal Bench 等评测数据
财联社 / 证券日报	M3 商业化与上市公司信息
摩根士丹利研报	M3 API 定价对比与"增持"评级
高盛研报	M3 评价与 2027 年"A+H"上市预期
摩尔线程公告	2026-06-12 完成 M3 Day-0 适配（MTT S5000）
七牛云 AI 模型广场	多模型同屏对比工具

📌 后续关注

⏰ 2026-06-12（已开源）：M3 模型权重正式开源
⏰ 发布后 10 天内：完整技术报告更新
🔄 持续关注：开源生态适配进展（OpenClaw、GodeX 等）

如果觉得这篇对你有帮助，欢迎 点赞、收藏、转发 三连 💪
有问题评论区见，我会尽量回复 👇

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Step3-VL 多模态模型主干代码九章排错与重写

Step3-VL多模态模型代码优化摘要原1074行代码经九章编程法重构为385行，修复20个核心缺陷（含6个致命崩溃级问题）。主要改进：缺陷修复：解决未初始化变量、维度硬编码、参数边界缺失等致命问题架构分层：拆分配置池(C)、数据池(B)、操作池(A)，实现物理隔离边界强化：新增参数校验、异常兜底机制，覆盖输入维度、索引范围等风险点代码精简：清理死代码冗余逻辑，函数职责单一化典型问题示

AtomGit开源社区

Claude 长文档实战：需求文档、代码审查和重构建议怎么做

Claude 更适合长文档、写作润色、代码解释和结构化整理。它不一定适合所有问题，但在需要“读懂大量上下文再输出清晰结构”的任务里很有价值。实际使用时，重点不是追求某个单一工具，而是把 Claude、ChatGPT、Gemini、DeepSeek 等模型组合成稳定工作流。

AtomGit开源社区

从Copilot到Autopilot：AI Agent演进路径

术语简明定义Copilot人机协同模式的AI辅助工具，核心能力是上下文补全、生成建议，人类全程掌握控制权，人在回路中AI Agent具备自主感知、决策、执行能力的AI系统，核心是可以不依赖人类指令自主完成目标任务半自主Agent介于Copilot和Autopilot之间的过渡形态，核心是可以自主完成大部分流程，仅在关键节点需要人类确认Autopilot完全自主级AI Agent，核心是人类只需要给

AtomGit开源社区

所有评论(0)

查看更多评论

小清河505

@nmdbbzcl

已为社区贡献180条内容

MiniMax M3 技术全解析：1M 上下文 + 原生多模态 + 前沿 Coding，国内首个“三合一“开源旗舰

小清河505

目录

目录

一、一句话看懂 M3

二、为什么 M3 值得单独写一篇文章

三、三大核心能力详解

3.1 能力矩阵总览

3.2 上下文长度的直观对比

3.3 三能力的依赖关系

四、底层黑科技：MSA 稀疏注意力架构

4.1 传统注意力为什么搞不定 1M 上下文

4.2 MSA 是什么

4.3 关键加速指标（1M 上下文下）

4.4 MSA 工作流程

五、性能基准测试：跑分不是全部

5.1 Coding & Agentic 能力

5.2 多模态能力

5.3 自主训练（PostTrainBench）

5.4 训练数据规模

六、三个真实任务演示：M3 干活的"名场面"

6.1 任务一：独立复现 ICLR 2025 顶会论文

6.2 任务二：手写 CUDA 算子，把 GPU 性能榨到极致

6.3 任务三：让 M3 自主训练模型

6.4 三个任务的能力分布雷达

七、API 接入 & 双思考模式

7.1 最简接入示例

7.2 双思考模式

7.3 高级特性

7.4 接入架构示意

八、Token Plan 订阅定价

8.1 套餐档位

8.2 与 Claude 订阅的对比

8.3 API 阶梯定价（按 token 计费）

8.4 成本计算示例

九、MiniMax Code：与 M3 同步训练的 Agent 工具

9.1 它是什么

9.2 三个核心特性

9.3 底层栈

9.4 工作流示意

十、横向对比：M3 vs 国际三大旗舰

10.1 综合能力对比

10.2 性价比维度

10.3 与国内主流模型对比

十一、争议与思考

11.1 评测合规性质疑

11.2 稀疏注意力的潜在风险

11.3 M2 系列的"前车之鉴"

11.4 价格上调的信号

十二、总结：M3 到底值不值得用

12.1 适合用 M3 的人群

12.2 暂时可以观望的人群

12.3 一句话结论

十三、参考资料

📌 后续关注

所有评论(0)

温馨提示：您尚未绑定手机号

小清河505