AI音乐下半场:Mureka跨过生产可用门槛,让模型像作曲家一样思考,开发者又可以有哪些新可能?
前几天大模型圈子有个很魔幻的场面,傅盛、孙宇晨、特朗普家族,三个八竿子打不着的人,开始扎堆做大模型中转站的生意。
说明了一个问题,现在AI模型的供给侧,依旧是没有看起来的那么成熟。
大多数人只关注到LLM,其实AI音乐的情况更野蛮,更荒谬。。
Suno,全球用户量最大的AI音乐产品,融了2.5亿美金,月活千万级别。但直到今天,它都没有开放官方API。Udio,也没有。
一条冷知识:
几乎所有头部AI音乐产品,都不卖API。
我也是最近调研这个选题才知道的。
这意味着什么?全球想在自己产品里接AI音乐能力的企业,只剩一条路:灰产中转。没有SLA(服务等级协议,不承诺服务质量)、没有售后、生成质量开盲盒,出了问题找不到人。
所以AI音乐在B端一直很尴尬。C端卷上天了,各种产品月活都在涨。但B端始终没真正跑起来。
最近这个局面出现了裂口。
北美一个增长很猛的AI音乐创作平台Sondo,之前也吃灰产,今年初却做了个反直觉的动作:接入Mureka,替换Suno。哪怕单价贵出一截,也要把灰产全砍了。

一家精打细算的增长期公司,却主动选更贵的方案。光是这个决定本身,已经能说明问题了。
据介绍,Sondo全量切换到Mureka后,双方的合作体量增长超过70%。Sondo的音乐核心业务翻倍增长。
快歌,国内头部AI音乐生成应用,也选择了Mureka,其海外版未来也会坚定接入Mureka。另有一家海外头部AI artist平台,接入后消耗规模翻了6倍。
三家企业,诉求各不相同—Sondo要质量,快歌要中文,海外平台要合规,都同时做了同一个动作,切换模型API。
所以,这里面有一个问题值得追问:凭什么是Mureka?
◽MusiCoT:从猜音符到读懂整首歌
CoT,Chain-of-Thought,思维链,是大模型领域这两年最重要的概念之一,核心就一句话,让AI先想再答,不要上来就蒙。加上“Let's think step by step”一句提示,模型的推理能力就能跳一个台阶,因为它强制把模型的思考过程摊开了。
这个思路在文本领域已经被验证得很充分了。Mureka做的事情是把它搬到了音乐创作里。
之前AI音乐的生成方式,本质上是猜下一个音符。模型写完第一个音,根据概率猜第二个,再猜第三个,一路猜到结尾。这个过程没有规划、没有全局观,运气差走到一半副歌直接崩掉。
MusiCoT做的事,是让AI在写第一个音符之前,先想清楚整首歌。
它在生成音乐前先进行宏观规划,深度融合了对音乐结构、歌词段落、表达意图与声音呈现之间关系的协同建模。
这使得模型超越了单纯的文字转音频工具属性,具备了类似人类的创作逻辑:不仅能决定唱什么,更能理解怎么唱以及为何这样推进。
这个范式的变化直接体现在了Mureka V9的五项升级上,而且每一项都精准对应企业生产中最头疼的问题:
-
段落级文本控制——歌词的情绪重心能准确落在你想让它爆发的位置。以前是歌词被唱出来了,现在是歌词在对的段落被准确表达了。
-
混音与音质——人声和伴奏的层次分开,接近母带级,不是糊成一团的廉价感。
-
人声表达——演唱变得克制,减少了莫名其妙的飙高音和杂音干扰。听起来像一个真人在唱,而不是AI在炫技。
-
生成效率——推理链路优化之后,试错成本下降。企业不用再花大量时间反复抽卡。
-
生成多样性——同一个方向下能探索更多可能性,不会生成五次出来五首差不多的歌。
这五项升级叠在一起的效果是:从生成之后人工二次处理,变成了生成即可发布。
所以Sondo对Mureka的评价是:
“人声效果更具真人感,可以直接对接产研团队。”

老版本V7.6的评价是“差强人意”,新版本V8的评价是“可以直接对接产研团队”。
转变是在今年1月份,Mureka V8上线之后。Sondo内部做了一轮覆盖多场景的A/B测试,Mureka稳定胜出,所以渐渐拿到了音乐模型调用量的绝对大头,现在是全量切换。
不是Sondo突然降低了标准,是Mureka的输出质量远超过了生产线的及格线。AI生成的素材不用人工再过一道了,已经是音乐创作工作流的一环。
榜单成绩也在验证这个结论。今年3月,搭载MusiCoT框架的Mureka V8在Artificial Analysis Music Arena上拿下人声和器乐双榜第一,综合超越Suno、Udio、Google Lyria等一众主流竞品。


随后,V9在外部音乐专家的主观盲评中,四个评测维度领先。

如果把Mureka从V1到V9的演进串起来看,有一条不太被注意到的技术复利曲线:
-
2024年2月,V1(SkyMusic):中国首发端到端音乐生成模型,验证技术路线能跑通;
-
2025年3月,V6+O1:MusiCoT框架上线,首次达到SOTA;
-
2026年1月,V8:面向真实创作场景的整体跃迁——从「能生成」到「能发布」;
-
2026年3月,V9:从「能写出来」到「能按你想的方式写出来」。
从技术关键节点看,每一步都在推动同一件事情:让AI音乐变得可控、可信任、可量产。
◽生产力上手实测
为了验证这套作曲家大脑的能力,我盘了盘它!
首先,我试了下堪称“二创神器”的Remix功能,不仅能把已有歌曲混音成任意曲风,还支持改写歌词、切换风格和 AI 再创作。
我先用最近最洗脑的高难度歌曲《心愿便利贴》来试试,我传了歌词和原曲,让它remix成抒情钢琴为主的pop风格,真的很惊艳:

做测评这么久,我一直都是给所有带着AI流水线味的作品打低分,但这版Remix不一样,值得我的一个高分。
因为这首歌本身就很难改,但是这个remix版本既保留了原有的甜甜的少女感,又有很强的情绪起伏,副歌旋律还特别抓耳。

旋律走向和分词逻辑都很顺滑,完全没有那种廉价的生硬感,我循环听了好几遍。
趁热打铁,我又拿王心凌的《第一次爱的人》试了一把。
大家听听看,这改编能力确实有点东西:
该改的地方改,该保留的保留,特别是在副歌的节奏上的处理,给了我一种耳目一新的创新感。
如果说以前的AI只是在拙劣模仿,缺乏灵性和创作理解;而现在的 Mureka,则真正开始展现出创作能力—它不仅理解原曲结构,还能用自己的方式去重新编排、赋予歌曲新的生命,每一个版本都有惊喜。
Mureka V9 最让我上头的是它的Studio 模式。
以前 AI 生成的音乐像个一锅粥—人声、乐器全搅在一起,想后期修个音或者换个鼓太难了惹。
Studio 模式提供了一个可视化的多轨时间线,可以像专业制作人一样,控制 BPM、音量、音高,对音频进行分层叠加:
-
想加料: 用 AI 单轨道生成,基于现有轨道一键补上人声或乐器,和谐叠加。
-
想拆解:用 Stem Extract,把成品智能拆成独立音轨(人声、贝斯、鼓等),随时导出 MIDI 接入你的主力 DAW。
-
想改词: 用局部编辑,选中片段直接改,不用全盘重来,衔接自然得像没改过一样。
它把原本复杂的 DAW 操作,变成了一种自然语言驱动直觉式的创作体验。
以前是“生成”,现在是真的在“做音乐”。
为了测评,我假装了一回音乐总监,开始搞音乐了!

我先是扔给它一段最基础的 Base 音轨,想试试它的单轨生成功力:
结果它瞬间给我配上了一组严丝合缝的鼓点:
把两者叠在一起听,融合感很绝和默契—不是简单的叠加,而是和谐的你一拍我一拍地演奏这感觉太自由了。

接着,我玩了个更进阶的,给我的人声定制伴奏。
先让 Mureka 生成一段 Base 人声:
然后我下达指令:“我要 crisp dembow beat, congas, claps(清晰的 Dembow 节奏、康加鼓、掌声)。”
生成的结果能听到每一个元素—无论是康加鼓的律动还是掌声的颗粒感,都精准地包裹着人声,声量、节奏、音调控制得恰到好处,完全不是那种喧宾夺主的合成感。
既然能给伴奏配人声,那反过来呢?
我上传了一段我认为节拍快整体填词很难搞的伴奏,让它自己配人声。
然后他给我生成了人声歌曲,人声咬字、断句,甚至是情绪起伏,全都精准地踩在了节拍上:
它能基于某一轨道一键生成人声、伴奏或单一乐器,且与原始音频自然和谐地叠加,还支持外部样本上传,真正地达到了人机共创。
◽结语
说回开头的问题。
AI的供给侧为什么看起来成熟、实际上很脆弱。因为大部分AI产品的思路还停留在C端,做一个好玩的东西,让用户觉得好酷。
但是企业端要的是:稳定、可控、合规、有售后。
当 AI 不再是一个不可解释的黑盒,而是能够被拆解、被微调、被控制的工业单元时,它才算真正拿到了生产力的入场券。 从 2024 年首发端到端模型,到 MusiCoT 框架,再到现在的 V9,Mureka 这一路其实只在做一件事跨越鸿沟。
这条鸿沟的一边是实验室里的随机奇观,另一边是工业界的确定性产能。
据报道,全球已经有8000多家企业接入Mureka ,包括短视频内容、AI创作工具、数字素材市场、视频制作等应用场景。
B端采购是最理性的决策。不存在冲动消费,不存在为信仰充值。一家企业愿意消费,只有一个原因,算过账,划算。
这才是AI音乐真正的分水岭—模型的输出质量能跨过「生成即可用」这条线。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)