AI音乐下半场：Mureka跨过生产可用门槛，让模型像作曲家一样思考，开发者又可以有哪些新可能？

夕小瑶

658人浏览 · 2026-05-23 00:17:15

夕小瑶 · 2026-05-23 00:17:15 发布

前几天大模型圈子有个很魔幻的场面，傅盛、孙宇晨、特朗普家族，三个八竿子打不着的人，开始扎堆做大模型中转站的生意。

说明了一个问题，现在AI模型的供给侧，依旧是没有看起来的那么成熟。

大多数人只关注到LLM，其实AI音乐的情况更野蛮，更荒谬。。

Suno，全球用户量最大的AI音乐产品，融了2.5亿美金，月活千万级别。但直到今天，它都没有开放官方API。Udio，也没有。

一条冷知识：

几乎所有头部AI音乐产品，都不卖API。

我也是最近调研这个选题才知道的。

这意味着什么？全球想在自己产品里接AI音乐能力的企业，只剩一条路：灰产中转。没有SLA（服务等级协议，不承诺服务质量）、没有售后、生成质量开盲盒，出了问题找不到人。

所以AI音乐在B端一直很尴尬。C端卷上天了，各种产品月活都在涨。但B端始终没真正跑起来。

最近这个局面出现了裂口。

北美一个增长很猛的AI音乐创作平台Sondo，之前也吃灰产，今年初却做了个反直觉的动作：接入Mureka，替换Suno。哪怕单价贵出一截，也要把灰产全砍了。

一家精打细算的增长期公司，却主动选更贵的方案。光是这个决定本身，已经能说明问题了。

据介绍，Sondo全量切换到Mureka后，双方的合作体量增长超过70%。Sondo的音乐核心业务翻倍增长。

快歌，国内头部AI音乐生成应用，也选择了Mureka，其海外版未来也会坚定接入Mureka。另有一家海外头部AI artist平台，接入后消耗规模翻了6倍。

三家企业，诉求各不相同—Sondo要质量，快歌要中文，海外平台要合规，都同时做了同一个动作，切换模型API。

所以，这里面有一个问题值得追问：凭什么是Mureka？

◽MusiCoT：从猜音符到读懂整首歌

CoT，Chain-of-Thought，思维链，是大模型领域这两年最重要的概念之一，核心就一句话，让AI先想再答，不要上来就蒙。加上“Let's think step by step”一句提示，模型的推理能力就能跳一个台阶，因为它强制把模型的思考过程摊开了。

这个思路在文本领域已经被验证得很充分了。Mureka做的事情是把它搬到了音乐创作里。

之前AI音乐的生成方式，本质上是猜下一个音符。模型写完第一个音，根据概率猜第二个，再猜第三个，一路猜到结尾。这个过程没有规划、没有全局观，运气差走到一半副歌直接崩掉。

MusiCoT做的事，是让AI在写第一个音符之前，先想清楚整首歌。

它在生成音乐前先进行宏观规划，深度融合了对音乐结构、歌词段落、表达意图与声音呈现之间关系的协同建模。

这使得模型超越了单纯的文字转音频工具属性，具备了类似人类的创作逻辑：不仅能决定唱什么，更能理解怎么唱以及为何这样推进。

这个范式的变化直接体现在了Mureka V9的五项升级上，而且每一项都精准对应企业生产中最头疼的问题：

段落级文本控制——歌词的情绪重心能准确落在你想让它爆发的位置。以前是歌词被唱出来了，现在是歌词在对的段落被准确表达了。
混音与音质——人声和伴奏的层次分开，接近母带级，不是糊成一团的廉价感。
人声表达——演唱变得克制，减少了莫名其妙的飙高音和杂音干扰。听起来像一个真人在唱，而不是AI在炫技。
生成效率——推理链路优化之后，试错成本下降。企业不用再花大量时间反复抽卡。
生成多样性——同一个方向下能探索更多可能性，不会生成五次出来五首差不多的歌。

这五项升级叠在一起的效果是：从生成之后人工二次处理，变成了生成即可发布。

所以Sondo对Mureka的评价是：

“人声效果更具真人感，可以直接对接产研团队。”

老版本V7.6的评价是“差强人意”，新版本V8的评价是“可以直接对接产研团队”。

转变是在今年1月份，Mureka V8上线之后。Sondo内部做了一轮覆盖多场景的A/B测试，Mureka稳定胜出，所以渐渐拿到了音乐模型调用量的绝对大头，现在是全量切换。

不是Sondo突然降低了标准，是Mureka的输出质量远超过了生产线的及格线。AI生成的素材不用人工再过一道了，已经是音乐创作工作流的一环。

榜单成绩也在验证这个结论。今年3月，搭载MusiCoT框架的Mureka V8在Artificial Analysis Music Arena上拿下人声和器乐双榜第一，综合超越Suno、Udio、Google Lyria等一众主流竞品。

随后，V9在外部音乐专家的主观盲评中，四个评测维度领先。

如果把Mureka从V1到V9的演进串起来看，有一条不太被注意到的技术复利曲线：

2024年2月，V1（SkyMusic）：中国首发端到端音乐生成模型，验证技术路线能跑通；
2025年3月，V6+O1：MusiCoT框架上线，首次达到SOTA；
2026年1月，V8：面向真实创作场景的整体跃迁——从「能生成」到「能发布」；
2026年3月，V9：从「能写出来」到「能按你想的方式写出来」。

从技术关键节点看，每一步都在推动同一件事情：让AI音乐变得可控、可信任、可量产。

◽生产力上手实测

为了验证这套作曲家大脑的能力，我盘了盘它！

首先，我试了下堪称“二创神器”的Remix功能，不仅能把已有歌曲混音成任意曲风，还支持改写歌词、切换风格和 AI 再创作。

我先用最近最洗脑的高难度歌曲《心愿便利贴》来试试，我传了歌词和原曲，让它remix成抒情钢琴为主的pop风格，真的很惊艳：

做测评这么久，我一直都是给所有带着AI流水线味的作品打低分，但这版Remix不一样，值得我的一个高分。

因为这首歌本身就很难改，但是这个remix版本既保留了原有的甜甜的少女感，又有很强的情绪起伏，副歌旋律还特别抓耳。

旋律走向和分词逻辑都很顺滑，完全没有那种廉价的生硬感，我循环听了好几遍。

趁热打铁，我又拿王心凌的《第一次爱的人》试了一把。

大家听听看，这改编能力确实有点东西：

该改的地方改，该保留的保留，特别是在副歌的节奏上的处理，给了我一种耳目一新的创新感。

如果说以前的AI只是在拙劣模仿，缺乏灵性和创作理解；而现在的 Mureka，则真正开始展现出创作能力—它不仅理解原曲结构，还能用自己的方式去重新编排、赋予歌曲新的生命，每一个版本都有惊喜。

Mureka V9 最让我上头的是它的Studio 模式。

以前 AI 生成的音乐像个一锅粥—人声、乐器全搅在一起，想后期修个音或者换个鼓太难了惹。

Studio 模式提供了一个可视化的多轨时间线，可以像专业制作人一样，控制 BPM、音量、音高，对音频进行分层叠加：

想加料：用 AI 单轨道生成，基于现有轨道一键补上人声或乐器，和谐叠加。
想拆解：用 Stem Extract，把成品智能拆成独立音轨（人声、贝斯、鼓等），随时导出 MIDI 接入你的主力 DAW。
想改词：用局部编辑，选中片段直接改，不用全盘重来，衔接自然得像没改过一样。

它把原本复杂的 DAW 操作，变成了一种自然语言驱动直觉式的创作体验。

以前是“生成”，现在是真的在“做音乐”。

为了测评，我假装了一回音乐总监，开始搞音乐了！

我先是扔给它一段最基础的 Base 音轨，想试试它的单轨生成功力：

结果它瞬间给我配上了一组严丝合缝的鼓点：

把两者叠在一起听，融合感很绝和默契—不是简单的叠加，而是和谐的你一拍我一拍地演奏这感觉太自由了。

接着，我玩了个更进阶的，给我的人声定制伴奏。

先让 Mureka 生成一段 Base 人声：

然后我下达指令：“我要 crisp dembow beat, congas, claps（清晰的 Dembow 节奏、康加鼓、掌声）。”

生成的结果能听到每一个元素—无论是康加鼓的律动还是掌声的颗粒感，都精准地包裹着人声，声量、节奏、音调控制得恰到好处，完全不是那种喧宾夺主的合成感。

既然能给伴奏配人声，那反过来呢？

我上传了一段我认为节拍快整体填词很难搞的伴奏，让它自己配人声。

然后他给我生成了人声歌曲，人声咬字、断句，甚至是情绪起伏，全都精准地踩在了节拍上：

它能基于某一轨道一键生成人声、伴奏或单一乐器，且与原始音频自然和谐地叠加，还支持外部样本上传，真正地达到了人机共创。

◽结语

说回开头的问题。

AI的供给侧为什么看起来成熟、实际上很脆弱。因为大部分AI产品的思路还停留在C端，做一个好玩的东西，让用户觉得好酷。

但是企业端要的是：稳定、可控、合规、有售后。

当 AI 不再是一个不可解释的黑盒，而是能够被拆解、被微调、被控制的工业单元时，它才算真正拿到了生产力的入场券。从 2024 年首发端到端模型，到 MusiCoT 框架，再到现在的 V9，Mureka 这一路其实只在做一件事跨越鸿沟。

这条鸿沟的一边是实验室里的随机奇观，另一边是工业界的确定性产能。

据报道，全球已经有8000多家企业接入Mureka ，包括短视频内容、AI创作工具、数字素材市场、视频制作等应用场景。

B端采购是最理性的决策。不存在冲动消费，不存在为信仰充值。一家企业愿意消费，只有一个原因，算过账，划算。

这才是AI音乐真正的分水岭—模型的输出质量能跨过「生成即可用」这条线。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

让AI推荐你，比让客户搜到你更高效

AtomGit开源社区

养老服务行业AI搜索优化服务商选型：4个技术评估标准

AtomGit开源社区

HoRain云--Python 命令模式

命令模式通过将操作封装成对象，实现了调用者与接收者的解耦，提供了强大的扩展能力。虽然会增加一些代码复杂度，但在需要撤销/重做、操作队列、日志记录等场景下，命令模式是不可或缺的设计模式。命令模式将"做什么"和"谁来做"分离支持撤销、重做、队列等高级功能易于扩展新的命令在 GUI 应用、事务系统、游戏开发中广泛应用❤️❤️❤️本人水平有限，如有纰漏，欢迎各位大佬评论批评指正！😄😄😄👍 👍 ?