目录

博主智算菩萨,专注于人工智能、Python编程、音视频处理及UI窗体程序设计等方向。致力于以通俗易懂的方式拆解前沿技术,从零基础入门到高阶实战,陪伴开发者共同成长。目前已开设五大技术专栏,累计发布多篇原创技术文章,深受读者好评。

📌 专栏导航

  • 人工智能前沿知识(已更179篇):深度剖析Transformer架构、生成式AI、强化学习、具身智能、神经符号系统、大模型及智能体(Agent)技术,系统性解析AI核心技术体系与前沿趋势。
  • Python基础小白编程(已更232篇):从零开始,以保姆式教程讲解变量、数据类型、流程控制、函数等核心语法,配有大量实战代码与避坑指南,真正做到学以致用。
  • 机器学习与深度学习(125篇):系统化拆解线性模型、决策树、随机森林、梯度提升树、神经网络等算法原理与工程实践,覆盖从公式推导到代码实现的全链路内容。
  • 音频、图像与视频处理理论与实战(81篇):涵盖FFmpeg多媒体处理、audio_shop开源工具、ComfyUI-WanVideoWrapper视频生成等实用技术,从基础操作到高级应用一应俱全。
  • UI窗体程序设计实战(78篇):深入讲解UI设计、动态窗体生成、游戏UI框架设计等实战技巧,提供从配置到编码的完整解决方案。
    智算菩萨,以代码为经,以算法为纬,在人工智能的星辰大海中,做你前行路上最可靠的导航者。本人最常用AI工具为AIGCBAR

📅 发布时间:2026-06-01
🏢 发布方:MiniMax(稀宇科技,0100.HK)
📦 模型形态:开源权重 + 云端 API 双线
🎯 定位:国内首个、全球唯一同时具备"前沿 Coding / 1M 上下文 / 原生多模态"三项能力的开源大模型


在这里插入图片描述

目录

  1. 一句话看懂 M3
  2. 为什么 M3 值得单独写一篇文章
  3. 三大核心能力详解
  4. 底层黑科技:MSA 稀疏注意力架构
  5. 性能基准测试:跑分不是全部
  6. 三个真实任务演示:M3 干活的"名场面"
  7. API 接入 & 双思考模式
  8. Token Plan 订阅定价
  9. MiniMax Code:与 M3 同步训练的 Agent 工具
  10. 横向对比:M3 vs 国际三大旗舰
  11. 争议与思考
  12. 总结:M3 到底值不值得用
  13. 参考资料

一、一句话看懂 M3

M3 = 一次能读完一本长篇小说(1M 上下文)+ 能看图看视频操作电脑(原生多模态)+ 代码直出可交付(前沿 Coding),并且是开源的。

在它之前,海外闭源旗舰(Claude Opus、GPT-5)才同时具备这三种能力;M3 是国内第一个把这"三件套"全部点满的模型,也是目前全球唯一开源的同档位选择。


二、为什么 M3 值得单独写一篇文章

把它放在 2026 年这个时间点看,M3 出现得恰逢其会:

行业背景 含义
AI 编程应用次数 3 年涨 5 倍(黄仁勋 GTC 2026 数据:3 亿次 → 14 亿次) Coding 能力是下一个商业化主战场
大模型价格战白热化 "便宜"不再是优势,"能力 + 便宜"才是
Agent 任务复杂度飙升 模型需要"更长上下文 + 更稳记忆 + 更低推理成本"
国产模型从"拼参数"转向"拼架构" MSA 这类底层创新开始成为分水岭

M3 的发布,刚好卡在所有这些趋势的交汇点上。


三、三大核心能力详解

3.1 能力矩阵总览

能力 量化指标 行业意义
前沿 Coding & Agentic SWE-Bench Pro 59.0% 超过 GPT-5.5、Gemini 3.1 Pro,逼近 Claude Opus 4.7
1M 超长上下文 API 支持 1M tokens,保障 ≥512K 可用 整本长篇小说 + 完整代码仓库一次性入窗
原生多模态 图、视频输入 + Computer Use 桌面操作 从训练第零步开始多模态混合训练(不是后期缝合)

3.2 上下文长度的直观对比

约 3 页 A4

约 24 页

约 150 页

约 370 页

GPT-3.5
4K

GPT-4
32K

Claude 3
200K

GPT-5 / Opus
500K

MiniMax M3
1M

💡 1M tokens 实际能装下什么?一本 ~80 万字的中长篇小说 + 配套代码 + 实验日志 + 几百张图表 OCR 文本。

3.3 三能力的依赖关系

MSA 稀疏注意力架构

1M 实用上下文

原生多模态训练

复杂代码库分析

长程 Agent 任务

看懂论文图表

Computer Use
桌面操作

前沿 Coding 能力

这三件事不是孤立卖点,而是底层架构 + 数据 + 训练范式共同作用的结果,缺一不可。


四、底层黑科技:MSA 稀疏注意力架构

4.1 传统注意力为什么搞不定 1M 上下文

Transformer 的标准自注意力复杂度是 O(n²)

  • 4K 上下文 → 计算量 16M
  • 32K 上下文 → 计算量 1G(增长 64 倍)
  • 1M 上下文 → 计算量 1T(增长 6.4 万倍)💥

直接堆算力?显存爆炸、推理延迟上天、长文本性能还衰减。这条路走不通

4.2 MSA 是什么

MSA(MiniMax Sparse Attention)是 MiniMax 自研的稀疏注意力机制,核心设计有四点:

设计点 做法 效果
KV 块精确分块 比 DSA、MoBA 更精细的 KV 分块 更高的有效上下文覆盖率
KV outer gather Q 算子 “KV 块为外层、聚合命中 query” 每块只读一次、访存连续
计算访存比优化 直接在算子层重写数据流 比 Flash-Sparse-Attention、flash-moba 快 4 倍以上
双分支推理 索引分支快速扫描 + 稀疏计算分支精确处理 近似线性复杂度

4.3 关键加速指标(1M 上下文下)

维度 数据
每 token 计算量 仅为上代 M2 的 1/20
Prefilling 加速 >9×(媒体口径 9.7×)
Decoding 加速 >15×(媒体口径 15.6×)
算力成本 长文档场景降低 80% 以上
能力损失 在多数 Benchmark 上与全注意力打平

4.4 MSA 工作流程

输出 稀疏计算分支 (Sparse Branch) 索引分支 (Index Branch) 用户输入 输出 稀疏计算分支 (Sparse Branch) 索引分支 (Index Branch) 用户输入 相比全注意力, 只算 5% 左右的 token 对 1M tokens 输入 快速扫描,定位关键 Token 关键 Token 位置 + 路由表 仅对关键 KV 块做精确注意力 输出结果

五、性能基准测试:跑分不是全部

5.1 Coding & Agentic 能力

基准测试 M3 得分 对比
SWE-Bench Pro 59.0% 超越 GPT-5.5、Gemini 3.1 Pro,接近 Claude Opus 4.7
Terminal Bench 2.1 66.0% 终端执行类任务
SWE-fficiency 34.8% 代码效率评测
KernelBench Hard 28.8% GPU Kernel 优化(地狱级难度)
MCP Atlas 74.2% 工具调用与 MCP 协议
BrowseComp 83.5 超越 Claude Opus 4.7(79.3)
Claw-Eval(Agent 端到端) 最高分 参测模型中第一

5.2 多模态能力

基准测试 M3 结果
SVG-Bench 超越 Claude Opus 4.7
OmniDocBench 超越 Gemini 3.1 Pro

5.3 自主训练(PostTrainBench)

模型 PostTrainBench 得分
Claude Opus 4.7 42.4
GPT-5.5 39.3
MiniMax M3 37.1
其他参测模型 显著低于 M3

全程 12 小时无人干预,自主完成"数据合成 → 训练 → 评测 → 迭代"全流程。

5.4 训练数据规模

项目 数据
训练 Token 总量 100 万亿(10T)量级
模态 文本 + 图片 + 视频从 Step 0 起混合训练
关键技术 Interleaved data(交错数据)—— 文本与图像在序列中自然交替

六、三个真实任务演示:M3 干活的"名场面"

光看跑分容易"上头",官方放出的三个真实任务演示更能说明 M3 到底能干嘛。

6.1 任务一:独立复现 ICLR 2025 顶会论文

📄 论文:《Learning Dynamics of LLM Finetuning》(ICLR 2025 Outstanding Paper)

指标 数据
自主运行时长 接近 12 小时
代码提交 18 次 commit
实验图表 23 张
核心结论 成功复现 SFT 概率变化、DPO squeezing 效应、Extend 缓解方法
触发能力组合 多模态读论文 + 1M 上下文 + Coding + Agent

6.2 任务二:手写 CUDA 算子,把 GPU 性能榨到极致

🎯 目标:在 NVIDIA Hopper GPU 上优化 FP8 矩阵乘(GEMM)

指标 数据
起点 一份任务描述 + 评估脚本 + 一个跑不起来的 Triton 骨架
自主运行时长 约 24 小时
Benchmark 提交 147 次
工具调用 1959 次
硬件利用率 7.6% → 71.3%
加速比 9.4×
最优解出现位置 第 145 次提交(中间多次平台期没放弃)

6.3 任务三:让 M3 自主训练模型

🎯 目标:在 12 小时内自主完成 4 个 Base 模型的完整 Post-Training 流程

指标 数据
流程 数据合成 → 训练 → 评测 → 迭代
任务类型 数学、工具调用、科学推理、代码生成
M3 得分 37.1(位列所有参测模型第三)
排名 1st Opus 4.7(42.4)→ 2nd GPT-5.5(39.3)→ 3rd M3(37.1)
人工介入

6.4 三个任务的能力分布雷达

多模态读图

1M 上下文

Agent 长线程

代码生成

24h 不放弃

数据合成

任务一
ICLR 论文复现

多模态

长上下文

Agent

Coding

任务二
CUDA 算子优化

稳定性

任务三
自主训练

推理


七、API 接入 & 双思考模式

7.1 最简接入示例

import requests

url = "https://api.minimaxi.com/v1/text/chatcompletion_v2"

payload = {
    "model": "MiniMax-M3",
    "messages": [
        {"role": "user", "content": "帮我分析这段代码的性能瓶颈"}
    ]
}

headers = {
    "Authorization": "Bearer <your-token>"
}

response = requests.post(url, json=payload, headers=headers)
print(response.json())

7.2 双思考模式

模式 适用场景 延迟 Token 消耗 共享定价
Thinking 模式 复杂推理、Agentic 任务、长程协作、复杂代码重构 高(10s+)
Non-thinking 模式 对话、代码补全、文档摘要等延迟敏感场景 低(<2s)

💡 两种模式定价相同,按请求切换。

7.3 高级特性

特性 说明
service_tier=priority 高并发下获得调度优先级 + 更稳定时延,适合 SLA 敏感场景
自动 Cache 无需任何配置,重复请求自动命中,不重复计费
OpenAI 兼容 端点与 OpenAI Chat Completions 格式一致,现有工具可直接切换
兼容框架 Claude Code / Codex CLI / Cline / Cursor / Roo Code / Kilo Code / OpenCode / TRAE / Grok CLI / Droid 等

7.4 接入架构示意

开发者应用

OpenAI 兼容网关

MiniMax API
api.minimaxi.com

MiniMax M3
196B 总参 / 11B 激活

Token Plan
自动 Cache

Priority Tier
优先通道


八、Token Plan 订阅定价

8.1 套餐档位

套餐 月付价 月度 Token 用量 Agent 并发 视频生成
Plus ¥49/月 6 亿 token 3-4 个
Max ¥119/月 18 亿 token 4-5 个 3 条/日
Ultra ¥469/月 55 亿 token 6-7 个 5 条/日

📌 文本 / 图像 / 语音 / 音乐共享同一额度池。订阅后获得 sk-cp 格式 API Key,可接入所有支持 OpenAI 兼容格式的 AI 编程工具。

8.2 与 Claude 订阅的对比

套餐 M3 对应 Claude 订阅 容量倍数
Plus ¥49 6 亿 token Claude Pro $20(~¥145)
Max ¥119 18 亿 token Claude Max 5× $100(~¥725)
Ultra ¥469 55 亿 token Claude Max 20× $200(~¥1450)

相同价格下,M3 Token Plan 约为 Claude 订阅用量的 15 倍

8.3 API 阶梯定价(按 token 计费)

等级 输入价格 输出价格
默认等级 ¥2 / M tokens ¥8 / M tokens
优先等级 ¥4 / M tokens ¥16 / M tokens

摩根士丹利研报口径:M3 API 价格较 M2.7 翻倍,但仍处于国内前沿大模型中高端区间,输入未缓存 token 价格约 ¥6.3 / M,输出约 ¥25.2 / M

8.4 成本计算示例

按 M3 单次约 50K token 估算,**Plus 套餐(6 亿 token)**约可调用 12,000 次/月。Token Plan 支持 M3 和 M2.7 系列共用配额。


九、MiniMax Code:与 M3 同步训练的 Agent 工具

9.1 它是什么

MiniMax Code 是与 M3 协同训练的 Agent 编程产品,能 100% 发挥 M3 的三项核心能力。

9.2 三个核心特性

特性 说明
Agent Team 协作 大任务拆成多阶段、可并发、可动态调整的 Workflow,由 Agent 集群协作
Producer + Verifier 循环 一个 Agent 写代码,另一个 Agent 找茬,对抗式 Harness 循环纠错,可自主运行数天
Computer Use 得益于 M3 原生多模态,可操作本地 GUI 应用(如根据 Excel 批量录入发票到 ERP)

9.3 底层栈

OpenCode(开源) + Pi Agent(开源)+ M3 协同训练
                                ↓
                         MiniMax Code
                                ↓
                  计划后续开源本项目回馈社区

9.4 工作流示意

通过

失败

用户任务

任务拆解
Task Planner

Agent Team
集群协作

Agent 1
编码

Agent 2
测试

Agent 3
审查

Producer + Verifier
对抗循环

交付

Computer Use
桌面操作


十、横向对比:M3 vs 国际三大旗舰

10.1 综合能力对比

维度 MiniMax M3 Claude Opus 4.7 GPT-5.5 Gemini 3.1 Pro
SWE-Bench Pro 59.0% ✅ ≈59-60% <59% <59%
BrowseComp 83.5 ✅ 79.3
上下文窗口 1M ✅ 500K 500K 1M
多模态 图+视频+GUI ✅ 图+文档 图+视频 图+视频+音频
桌面操作
开源
API 输入价 ~¥6.3/M ~¥108/M ~¥108/M ~¥50/M

10.2 性价比维度

维度 M3 优势
价格 Token Plan ¥49 ≈ Claude Pro $20 容量的 5 倍
开源 计划 10 天内发布权重,可本地部署
国产合规 数据不出境,适合金融/政府/医疗
生态兼容 OpenAI 兼容 + 主流 Agent 框架全支持

10.3 与国内主流模型对比

维度 M3 DeepSeek V4 Pro 智谱 GLM-5 Qwen3.7-Max Kimi K2.5
1M 上下文 部分 部分
原生多模态
开源 部分开源
SWE-Bench Pro 59.0% 待更新 待更新 Code Arena 第四

十一、争议与思考

任何一个大模型的发布都不是"一边倒"的赞誉,M3 也有几个值得关注的争议点:

11.1 评测合规性质疑

开发者社区对 M3 在 SWE-Bench Pro 上的 59% 得分有质疑,主要集中在:

  • 测试集是否存在数据污染
  • 评测时的 prompting 与推理配置是否对外公开
  • 是否对"自家训练目标"做了针对性优化

🤔 建议:跑分可以参考,但实际业务场景的 A/B 测试才是硬指标。

11.2 稀疏注意力的潜在风险

风险点 说明
长序列信息丢失 学术研究指出,序列维度的稀疏压缩可能丢失关键信息
泛化能力 现有稀疏方案大多免训练,跨架构泛化待验证
平台期陷阱 如 CUDA 任务所示,部分模型在 30 次提交后即放弃,M3 能坚持到 145 次但不是所有场景都能

11.3 M2 系列的"前车之鉴"

M2.7 用户反映的三个老问题,在 M3 上的改善程度需要观察:

M2 痛点 M3 是否解决
指令遵循不够稳定 引入交互式用户模拟器框架,有改善但需实测
幻觉问题 暂未公布专项数据
多步推理易出错 PostTrainBench 37.1 vs Opus 4.7 42.4,还有差距

11.4 价格上调的信号

M3 API 价格较 M2.7 翻倍,在国内打价格战的背景下属于"另类动作"。

  • ✅ 正向解读:模型能力跃升,官方有底气溢价
  • ⚠️ 风险解读:开发者成本上升,部分场景可能回流开源小模型

十二、总结:M3 到底值不值得用

12.1 适合用 M3 的人群

角色 用法
个人开发者 订阅 Token Plan Plus(¥49/月)写代码、做 Agent
小型团队 Max 套餐,团队 4-5 个 Agent 并发
企业研发 本地部署开源权重,数据不出境
研究机构 复现顶会论文、跑 12h+ 长程任务
金融/法律 1M 上下文一次性载入完整尽调文档

12.2 暂时可以观望的人群

  • 强多语言(尤其小语种)需求:M3 多模态能力以中英文为主
  • 实时语音对话:需要 M2 Voice 或专门 ASR/TTS 方案
  • 已经重度绑定 Claude/GPT 工具链:迁移成本需要评估

12.3 一句话结论

🎯 M3 不是"又一个 M2 升级",而是国内大模型首次在架构层(CSA 稀疏注意力)+ 能力组合(1M 上下文 + 原生多模态 + 前沿 Coding)+ 开源策略三个维度同时拿到了国际一线的话语权。Claude Pro 1/5 的价格 + 等效甚至更强的能力 + 可本地部署,这是 2026 年上半年国内开发者最值得优先评估的选项。


十三、参考资料

来源 内容
MiniMax 官方公告 M3 模型发布、MSA 架构、Token Plan 定价
MiniMax 技术报告(2026-05-31) SWE-Bench Pro、Terminal Bench 等评测数据
财联社 / 证券日报 M3 商业化与上市公司信息
摩根士丹利研报 M3 API 定价对比与"增持"评级
高盛研报 M3 评价与 2027 年"A+H"上市预期
摩尔线程公告 2026-06-12 完成 M3 Day-0 适配(MTT S5000)
七牛云 AI 模型广场 多模型同屏对比工具

📌 后续关注

  • ⏰ 2026-06-12(已开源):M3 模型权重正式开源
  • ⏰ 发布后 10 天内:完整技术报告更新
  • 🔄 持续关注:开源生态适配进展(OpenClaw、GodeX 等)

如果觉得这篇对你有帮助,欢迎 点赞、收藏、转发 三连 💪
有问题评论区见,我会尽量回复 👇

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐