MiMo\-V2 三件套：小米 Agent 全能底座——全面进军大模型全家桶

木头戏子

526人浏览 · 2026-03-21 10:15:24

木头戏子 · 2026-03-21 10:15:24 发布

MiMo-V2 三件套：小米 Agent 全能底座——全面进军大模型全家桶

Agent 时代真的来了，但大家有没有发现一个问题：我们至今还缺一个真正的全能 AI 大脑。

说到底，一个合格的 Agent，得能看、能听、能说、能思考，还得会动手解决问题。可现在市面上的情况是什么样呢？大多是东拼西凑——语音合成是一个模型，多模态理解是另一个，推理能力又靠第三个，Agent 专项推理还要再搭一个。这么拼出来的系统，不仅推理效率低，用起来体验很割裂，而且成本还不便宜。

这次小米直接一步到位，放出了 MiMo-V2 三件套，从底层底座到语音输出全覆盖，相当于把底牌直接摊开，给大家一套现成的、完整的 Agent 解决方案。

型号	定位
MiMo-V2-Pro	旗舰推理底座，相当于 Agent 的“大脑”，1万亿参数支持100万token上下文，能处理超长内容
MiMo-V2-Omni	全模态理解底座，负责“看、听、理解”，就连10小时以上的长音频都能轻松解析
MiMo-V2-TTS	情感语音合成，给 Agent 一个有温度、有灵魂的声音，不再是冷冰冰的机械音

简单说，这三个顶级模型拼在一起，就是一个完整的 Agent，从感知世界、思考决策到表达输出，小米直接把 Agent 该走的路，一次性铺好了。

MiMo-V2 三件套架构：各司其职，又融为一体

MiMo-V2 的设计思路特别清晰：Pro 底座负责核心推理，Omni 负责全模态感知，TTS 负责情感表达，三个模型环环相扣，构成一个完整的 Agent 闭环，流程其实很简单：

┌───────────┐
│ 用户输入  │
│ 图像/视频/音频/文本
└─────┬─────┘
      ↓
┌─────┴─────┐
│ MiMo-V2-Omni │ 全模态感知理解
│  支持 10 小时连续音频理解
└─────┬─────┘
      ↓
┌─────┴─────┐
│ MiMo-V2-Pro │ Agent 推理 & 工具调用 & 多步规划
│  1T 参数，1M 上下文，开源框架支持
└─────┬─────┘
      ↓
┌─────┴─────┐
│ MiMo-V2-TTS │ 情感语音输出
│  自然语言风格控制，会唱歌
└─────┬─────┘
      ↓
┌─────┴─────┘
  完整 Agent 闭环

1. MiMo-V2-Pro：万亿参数旗舰底座，专为 Agent 而生

核心规格:

总参数超过 1TB，其中 42B 为活跃参数，继承了前代的混合注意力机制，而且把混合比例从5:1提升到了7:1，这就意味着，虽然模型规模更大了，但推理效率反而更高，不会出现“反应慢”的问题。
支持 100 万个 token 的上下文窗口
轻量级的 MTP（多 token 预测）层实现了快速生成

Agent 原生优化：

通过 SFT 和 RL 在复杂多样的代理框架上进行了精细调优
工具调用稳定性和准确度大幅提升
原生支持 OpenClaw 等主流 Agent 框架，相当于天生就是为 Agent 打造的“大脑”，不用额外适配就能直接用

实际表现也很能打：编码能力超过了 Claude 4.6 Sonnet，接近 Opus 水平；在业内评测中，表现也和 Claude Opus 4.6 不相上下，社区里的实际测试也显示，多数场景下的体验比 Sonnet 更好。

人工智能分析指数显示MiMo-V2-Pro排名

最关键的是价格很亲民，对比同类顶级闭源模型，差价能达到一个数量级，我们可以看一组具体定价（单位：美元）：

Model	Input	Output	Cache Read	Cache Write
MiMo-V2-Pro (up to 256K)	$1	$3	$0.20	$0
MiMo-V2-Pro (256K-1M)	$2	$6	$0.40	$0
Claude Sonnet 4.6	$3	$15	$0.30	$3.75
Claude Opus 4.6	$5	$25	$0.50	$6.25

2. MiMo-V2-Omni：全能多模态，感知与行动一体化，能搞定10小时长音频

MiMo-V2-Omni 的核心设计很有亮点，它没有把图像、视频、音频的编码器分开，而是融合进了同一个共享骨干网络——不是事后拼接，而是从训练的第一步开始，就是一体化设计。

它的目标不只是“感知世界”，还要“会行动”：从一开始就训练模型学会“这里有什么→接下来会发生什么→我现在该做什么”，所以它天生就具备 Agent 能力，不用额外改造。

我们可以看看它在不同模态下的表现：

模态	评测基准	表现	结果
音频理解	MMAU-Pro, BigBench-Audio	超过 Gemini 3 Pro	目前最强音频理解底座之一
图像理解	MMMU-Pro, CharXiv RQ	超过 Claude Opus 4.6，接近 Gemini 3 水平	强大跨学科视觉推理能力
视频理解	VideoMME, FutureOmni	原生音视频联合理解，具备预测未来能力	不只是感知已发生的事，还能预判接下来的情况