0.1B、单卡可训、完整开源的多模态语音助手，MiniMind-O 把 Omni 模型拆成了图纸

m0_62603533

428人浏览 · 2026-05-15 10:20:23

m0_62603533 · 2026-05-15 10:20:23 发布

我今天点开 MiniMind-O 的 demo，第一反应不是「哇，又一个语音模型」。

而是有点愣住。

一个主干大概 0.1B 的小模型，居然把文本、语音、图像输入，文本和流式语音输出，实时打断，音色条件，电话模式 WebUI，这一整套 Omni 链路都摆出来了。

不是那种只给你看一个漂亮网页的 demo。

是代码、权重、训练数据、技术报告，全都开了。

这件事对我来说，真正有意思的地方不在于它现在能不能打 GPT-4o。

说真的，它当然打不了。

真正有意思的是，它把一个原本很像黑箱魔法的东西，压成了一个普通人真的可能拆开看的工程对象。

效果演示视频

原因很简单，读者刚看到「0.1B」「Omni」「端到端」这些词的时候，脑子里很容易飘。

先让他看到实际效果。

界面里有 live voice，有 bidirectional streaming，有图像输入，有文字和语音混合交互，也有 Call 模式。效果当然还不完美，声音和稳定性都能听出来还有距离，但你能明显感觉到，它不是在演示一个单点能力。

它在演示一条闭环。

MiniMind-O 是 MiniMind 系列的第三站。

前面 MiniMind 做语言模型，MiniMind-V 做视觉多模态，MiniMind-O 这次把目标推到了 Omni。

所谓 Omni，用大白话讲，就是模型不只是读文字，也能听声音、看图片，还能直接用语音回答你。

很多朋友可能会觉得，这不是早就有了吗？

GPT-4o、Qwen-Omni、Moshi，这些名字大家都不陌生。

对，产品形态早就有了。

但问题是，如果你不是想调 API，而是想从第一行代码开始，理解一个模型到底怎么听、怎么看、怎么说，事情一下就变难了。

大模型公司给你的，往往是一个完成度很高的结果。

你可以用。

但你很难拆。

开源社区里也有不少 Omni 项目，但很多项目不是规模太大，就是链路不够完整，或者数据和训练细节散得很开。对一个想动手学习的人来说，最尴尬的地方就在这里。

你不是不想学。

是入口太高了。

MiniMind-O 这次最打动我的点，就是它没有假装自己是一个产品级语音助手。

它更像一张被摊开的工程图纸。

你看它的项目介绍，核心信息其实很克制。

minimind-3o 主体大概 113M 参数，MoE 版本大概 315M，外部冻结模块另算。mini 数据集可以在单张 RTX 3090 上大约 2 小时跑通一条完整 SFT 链路。项目里还给了 full 数据、PyTorch 原生实现、推理 Demo、WebUI 和技术报告。

这几个数字放在一起，才是重点。

113M。

单卡 3090。

约 2 小时跑通 mini 链路。

完整开源。

不是说你今天晚上就能训出一个很好用的语音助手。

不是这个意思。

它的意思是，Omni 模型这件事终于可以被压到一个「能学习、能复现、能改造」的尺度里。

我觉得这比单纯刷榜更重要。

因为很多时候，技术真正进入社区，不是从最强模型开始的。

而是从第一个能被普通开发者拆明白的版本开始的。

回到 MiniMind-O 的结构，它没有走最直觉的那条路。

最直觉的做法是什么？

把 ASR、LLM、TTS 串起来。

语音先转文字，文字丢给语言模型，语言模型输出答案，再让 TTS 念出来。

这条链路非常工程友好，也非常好理解。很多实际产品早期就是这么做的。不是说它不行，它当然能跑，而且能跑得很稳。

但它的问题也很明显。

中间多了一次文字转写。

语气、停顿、音色、情绪、打断时机，很多东西在转成文字的那一下就被削平了。

你跟一个人说话的时候，不只是听他说了什么字。

你还在听他的犹豫、停顿、情绪和节奏。

这些东西，如果全部先压成文本，再重新合成语音，就会损失一层。

MiniMind-O 想做的是另一条路。

让语音和文本在 hidden state 层面连起来。

它把主体拆成 Thinker 和 Talker 两条路径。

Thinker 负责理解。

文本、语音、图像进来之后，最后都要落到同一个语义空间里，让模型知道你到底在问什么。

Talker 负责说话。

它拿到 Thinker 中间层给出的语义条件，再去预测 Mimi audio codes，最后由音频解码器还原成 24 kHz 的流式语音。

这里有一个细节我觉得挺漂亮。

Thinker 传给 Talker 的不是 embedding 层，也不是最后一层，而是中间层。

听着有点抽象对吧？

我还是用大白话说。

embedding 层太早，信息还没充分融合。

最后一层太晚，已经太贴近 next-token prediction 的目标了。

中间层刚好比较像一个半成品思维状态，它已经知道上下文，也还没有被最后的文本输出目标完全定型。拿它去做语音生成条件，逻辑上是顺的。

这就是 MiniMind-O 里所谓的 bridge。

不是把一句文字答案递给 TTS。

而是把模型思考过程中的某个中间状态，交给 Talker 去渲染成声音。

这一下就有意思了。

再往下看，它的音频生成也不是简单预测一路 token。

Mimi codec 有 8 层 codebook。

如果老老实实把每一层都拆成独立长链路，参数和训练难度都会上来。MiniMind-O 用 MTP，也就是 Multi-Token Prediction，让 Talker 一次预测多层 Mimi codes，再通过延迟调度补齐 8 路 audio-code stream。

这件事说起来很技术，但背后的取舍其实很朴素。

它要在小模型里塞下完整 Omni 链路。

所以每一个模块都不能太奢侈。

Talker 不能无限加宽。

视觉和语音编码器先冻结。

projector 尽量轻。

音频 head 要共享主体再加轻量 adapter。

这不是一个「我全都要」的系统。

它更像是在很小的预算里，尽可能把每个关键器官都装上去。

说到这里，我反而更喜欢它的诚实。

README 里没有把短板藏起来。

它直接说了，长语音自然度、复杂视觉推理、开放式英文中长回答、音色稳定性，现在都还不是它擅长的地方。

音色克隆也还只是 Beta。

同一个参考音色在不同问题上不一定稳定，长句里容易被发音和节奏带偏。

这话很重要。

因为一个 0.1B 级别的 Omni 模型，如果一上来就说自己全面超过大厂系统，我反而不信。

但它说自己是一个足够小、足够透明、可以从头复现和继续改造的基线，我是信的。

这才是它的位置。

我有时候觉得，现在 AI 开源社区有一个很大的问题，就是我们太容易被「最大」「最强」「最新」吸走注意力。

今天谁又发了万亿参数。

明天谁又刷了新榜单。

后天谁又在某个 benchmark 上超过谁。

这些当然重要。

但对很多真正想学习、想复现、想改的人来说，另一个问题更现实。

我到底从哪里下手？

你让我直接读一个巨大的生产级系统，我读不动。

你让我直接训练一个几十 B 的模型，我训不起。

你让我只调 API，我又永远摸不到里面发生了什么。

这中间缺的，就是 MiniMind-O 这种东西。

它不是终点。

它是训练场。

这个训练场里，能看到很多真实的工程取舍。

比如数据分 mini 和 full。

mini 不是为了复现发布模型的完整中文能力，而是为了快速跑通 Thinker、Talker、Mimi 编解码、序列布局和音色注入链路。

full 才对应发布权重，覆盖中英文 T2A、A2A 和图像 I2T。

比如训练顺序也很直白。

先做文本到语音，让 Talker 学会在语义条件下生成声音。

再接语音输入，让模型从 speech instruction 进入同一套回复链路。

最后对齐视觉路径，而且视觉投影层可以单独训练，避免图像数据过度改写语言和语音能力。

这些细节不炫。

但很有学习价值。

因为你能看到一个小型 Omni 系统到底是怎么被搭起来的。

不是只看到最终一句「我们支持多模态」。

而是看到它每一步怎么妥协，怎么连接，怎么把不稳定的地方先固定住。

当然，普通用户可能不会关心这些。

普通用户只关心它好不好用。

这也合理。

但 MiniMind-O 的目标用户，我觉得不是那种只想找一个成品助手的人。

它更适合三类人。

第一类，是想搞懂 Omni 模型的人。

你不满足于「语音进来语音出去」这个表象，你想知道文本 token、语音特征、图像特征、音色条件怎么放进同一条序列里。

第二类，是想从 0 改模型的人。

你想试一下换 projector、换 bridge layer、扫 Talker hidden size、改 MTP codebook interface，这种项目给你的不是一个黑箱，而是一堆可以动手拧的螺丝。

第三类，是想做教学和实验的人。

如果你要给学生或团队讲什么叫 speech-native omni，什么叫 Thinker-Talker 解耦，什么叫流式语音生成，拿一个小而完整的工程，比拿一个巨大的商业系统更适合。

说白了，它不是一个「替代 GPT-4o」的项目。

它是一个「拆解 GPT-4o 这类体验背后工程形态」的入口。

这两个定位差别很大。

最后我想说一个有点私人化的感受。

大模型这几年发展太快了，快到很多人已经默认，真正重要的东西只会发生在巨型算力集群里。

个人开发者、小团队、学生，似乎只能站在旁边看。

但 MiniMind-O 这种项目会提醒我一件事。

不是所有有价值的工作，都必须从「做到最强」开始。

有些工作最重要的价值，是把一件复杂的事重新变得可理解。

把黑箱拆成图纸。

把图纸变成代码。

把代码变成一个普通人能跑、能改、能失败、能再试一次的系统。

这其实非常珍贵。

因为技术真正属于社区的那一刻，不是它第一次超过某个榜单的时候。

而是有人可以坐在自己的机器前，一行一行读进去，然后说，哦，原来是这么回事。

MiniMind-O 现在肯定还有很多问题。

语音还不够自然，长回答还会飘，音色克隆还不稳定，视觉链路也还比较早期。

但我反而觉得，这些问题没有削弱它的价值。

它让这些问题都变成了可以被看见、被讨论、被修改的问题。

对一个开源项目来说，这已经很难得了。

如果你最近也在关注 Omni 模型，或者想找一个真正能动手拆的 speech-native 项目，我建议你可以看看 MiniMind-O。

不要带着「它能不能马上替代大厂助手」的期待去看。

带着「我能不能从这里学会一整条链路」的期待去看。

这两个问题，答案会完全不一样。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

OpenClaw实操指南42｜安全边界2：提示词注入与沙箱防护

AtomGit开源社区

如何在CV中使用transformer

AtomGit开源社区

穿透AI Agent五大范式：原理、源码与工程实践

AI Agent技术正在重塑人机交互的边界。与传统聊天机器人不同，Agent具备自主决策、工具调用和任务执行的闭环能力。本文将深入剖析五大核心范式，从原理到源码，从理论到实践，为读者提供系统化的技术指南。本文深入解析了AI Agent的五大核心范式，从理论原理到源代码实现，再到工程实践，为读者提供了完整的技术指南。关键要点总结范式选择原则：根据任务复杂度、准确度要求和成本预算动态选择工程实践建议：