ACE-Step 从 5.0 升级至 1.5 XL 版本

支持根据需求生成多种风格的音乐

并可通过训练 LoRA 模型,精准复刻特定音乐风格与歌手音色

图片

本期视频将带你全面掌握:

一、ACE-Step1.5 XL 工作流的使用与安装方法

二、如何训练 LoRA 模型,实现音乐风格与歌手音色的复刻

看完之后,你就能根据自己的创作需求,

轻松生成专属风格的音乐

一、ACE step1.5XL工作流的使用和安装方法

1、ACE step1.5XL工作流使用方法

图片

1.输入音乐风格

风格描述:在指定区域输入想要生成的音乐风格描述

示例格式:如"trap-influenced beat, deep 803 bass, tight hi-hats"

详细程度:描述越详细,生成结果越接近预期效果

图片

图片

条件设置:可以设置曲风、歌词、拍号、调式等,用于精确控制生成方向

2.输入时长

时间单位:以秒为单位输入,60秒=1分钟

种子设置:用于采样过程的随机种子数

典型时长:可根据音乐类型设置不同时长,如流行歌曲通常3-4分钟

图片

图片

3.每分钟节拍数

图片

BPM作用:表示每分钟节拍数,决定音乐速度

速度范围:

慢速(60-80BPM):适合情歌、民谣等安静风格

中速(90-120BPM):接近自然心率,适合流行歌曲

快速(120-180BPM):适合舞曲、电子乐等动感风格

拍号设置:决定小节结构和律动,常见4/4拍

图片

实用意义:

音乐制作:帮助规划节奏和段落

运动配合:跑步健身可选择120-140BPM的音乐

4.点击运行

图片

操作步骤:所有参数设置完成后点击运行按钮

生成速度:模型运行速度很快,能快速生成音乐

效果试听:生成后可立即试听,注意调整合适音量

图片

2、ACE step1.5XL的安装方法

1.comfyui管理大师一键自动安装

图片

图片

准备整合包

整合包准备:需要准备一个纯净的整合包

找到工作流并安装

工作流广场:ACE step 1.5xl音乐生成工作流

一键安装:点击后自动下载工作流文件和插件依赖

重启步骤:安装完成后需重启以生效

运行验证:重启后可在comfyui管理大师中运行验证

本地运行:安装后支持本地直接运行音乐生成工作流

图片

2.comfyui搅拌站手动安装

图片

图片

点击模型广场并下载

模型下载方法:通过comfyui搅拌站进入模型广场

目标模型:ACE Step 1.5XL音乐生成模型及工作流

图片

下载步骤:点击模型→免费网盘下载→覆盖本地comfyui models

使用流程:启动comfyui→拖入下载的工作流文件

关键文件:需替换本地的models文件夹确保兼容性

二、训练LoRA模型:复刻音乐风格+歌手音色

1、训练步骤

第一步:收集素材

第二步:配置训练

图片

新建数据集

操作流程:

点击"新建数据集"按钮

为数据集命名(如"bigly")

图片

点击添加素材按钮

选择音乐素材文件(支持.mp3等格式)

自动打标

图片

关键参数:

打标类型:选择"音频(ACE Step)"

打标语言:中英文标签

随机程度:数值越高结果越自由

最大生成词数:控制标签长度

注意事项:

音频时长影响打标速度和显存占用

建议打标后人工校验标签质量

新建训练任务

图片

基础设置:

任务命名(如"xuwei_style")

选择基础模型:"ACE step1.5 XL base"

图片

设置训练轮数:默认200轮

优化器类型:adamw8bit

采样设置

图片

音频训练专用参数:

单条音频最大时长:默认240秒(4分钟)

最小音频时长:小于5秒不参与训练

过程采样:

可设置采样音频时长(如120秒)

可关闭采样以节省资源

模型训练

图片

训练监控:

自动完成初始化操作

实时显示训练进度

可随时终止训练

输出频率:

默认每100轮保存一次模型

每1000步保存检查点

查看采样音频

图片

图片

采样效果评估:

按时间倒序排列采样结果

最新采样显示在顶部

支持播放120秒采样音频

典型输出:

包含训练风格的音乐片段

保留歌手音色特征

loss曲线查看

图片

曲线类型:

按训练步数统计的loss曲线

按训练轮数统计的loss曲线

模型输出

图片

输出管理:

按步数保存的模型文件(如20000步)

按轮数保存的模型版本

支持打开/删除操作

文件格式:

.safetensors格式

2、工作流配置

图片

图片

3、运行音乐生成工作流

图片

图片

输入要素:

音乐风格描述

歌词文本(按特定格式)

生成时长(秒)

BPM和拍号

典型输出:

保留训练风格的完整歌曲

时长匹配设置值

4、禁用LoRA节点运行

图片

效果对比:

启用LoRA:输出训练风格音乐

禁用LoRA:随机生成普通音乐

验证方法:

同一提示词不同设置

对比生成结果差异

三、知识小结

分类维度

核心内容

技术参数

操作流程

产品功能

ACE step 1.5XL音乐生成模型

- 支持风格/歌词/时长自定义

1. 输入音乐风格描述2. 填写歌词3. 设置时长(秒)4. 配置节拍(120-180BPM)

安装方法

comfyui管理大师一键安装

- 含工作流/插件/依赖库自动配置

1. 下载整合包2. 工作流广场搜索3. 点击一键安装并重启

关键控制项

- 种子数(采样质量)- 拍号(节奏型)- 调式(音乐色彩)

参数联动影响生成效果

通过comfyui界面实时调整

输出特性

- 支持说唱类高速生成(180BPM)- 自动降噪处理

生成速度: <30秒/分钟音频

点击运行后自动保存MP3文件

进阶功能

- 节奏拉伸- 音高修正- 多轨混合

需加载额外插件包

在comfyui搅拌站模型广场下载扩展组件

步骤

操作要点

关键参数

技术亮点

数据准备

新建数据集/添加音频素材

音频时长限制

自动打标技术

模型训练

选择ACE step 1.5XL Lora模型

最大训练轮数/音频切片时长

动态显存优化

参数配置

设置音乐风格描述/歌词格式

BPM/拍号/调式

多模态参数控制

训练监控

查看loss曲线/音频采样

模型保存频率(每100轮)

实时效果预览

模型应用

加载到comfyui工作流

风格描述/歌词/时长种子

音色复刻功能

效果对比

Lora启用与禁用测试

生成时长120秒

风格控制精度

可点击下方原文链接观看视频教程👇

https://comfyit.cn/blog/252/?invite_code=TSH

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐