7.8 第八阶段:音频生成与处理(30个节点)

序号

节点类型

功能说明

131

Load Audio Model

加载音频生成模型

132

MusicGen Loader

加载MusicGen

133

MusicGen Generate

生成音乐

134

MusicGen Melody

MusicGen旋律条件

135

AudioLDM Loader

加载AudioLDM

136

AudioLDM Generate

生成音效

137

Load RVC Model

加载RVC模型

138

RVC Convert

RVC声音转换

139

RVC Batch

RVC批量转换

140

Load XTTS Model

加载XTTS

141

XTTS Synthesize

XTTS文本转语音

142

XTTS Clone

XTTS音色克隆

143

Load Bark Model

加载Bark

144

Bark Synthesize

Bark语音合成

145

Load VoiceFixer

加载VoiceFixer

146

VoiceFixer Enhance

语音增强

147

Load Demucs Model

加载Demucs

148

Demucs Separate

音源分离

149

Load Whisper Model

加载Whisper

150

Whisper Transcribe

语音转文字

151

Whisper Translate

语音翻译

152

Load Audio

加载音频

153

Save Audio

保存音频

154

Audio Mix

音频混合

155

Audio Volume

音频音量调整

156

Audio Fade

音频淡入淡出

157

Audio Trim

音频裁剪

158

Audio Speed

音频速度调整

159

Audio Loop

音频循环

160

Audio Spectrogram

音频频谱图

我来为您整理这30个音频生成与处理节点的详细文档,保持与原文档一致的格式风格:

7.8.122  Load Audio Model

节点外观

节点介绍

属性

说明

核心作用

加载音频生成专用模型(MusicGen、AudioLDM等)

模型类型

MusicGen(文本/旋律生成音乐)/AudioLDM(文本生成音效)/AudioLDM2(音乐+音效)

device

推理设备:cuda(GPU加速)/cpu(CPU兼容)

输出

AUDIO_MODEL(音频生成模型实例)

显存需求

small(4GB)/medium(8GB)/large(16GB+)

使用场景

音乐生成、音效合成、音频创作、背景音乐制作

7.8.123  MusicGen Loader

节点外观

节点介绍

属性

说明

核心作用

专门加载Meta MusicGen音乐生成模型

model_id

模型版本:small(300M)/medium(1.5B)/large(3.3B)/melody(支持旋律条件)/stereo(立体声)

use_fp16

开启FP16半精度,显存占用减半,速度提升

输出

MUSICGEN_MODEL(MusicGen专用模型实例)

与Load Audio Model的区别

MusicGen Loader专精MusicGen系列,提供更多版本选项和优化

使用场景

文本描述生成音乐、旋律条件生成、背景音乐创作、音乐风格迁移

7.8.124  MusicGen Generate

节点外观

节点介绍

属性

说明

核心作用

根据文本描述生成指定时长的音乐片段

text

音乐描述文本(风格、乐器、BPM、情绪等)

duration

生成时长(秒),通常3-30秒,受显存限制

temperature

采样温度(0.1-2.0),低值更稳定,高值更多样

输出

AUDIO(音频数据,采样率32kHz)

使用场景

文本到音乐生成、背景音乐创作、音效设计、音乐灵感探索

7.8.125  MusicGen Melody

节点外观

节点介绍

属性

说明

核心作用

以参考旋律为条件,生成风格化的完整音乐

melody

参考旋律音频(哼唱、乐器演奏、MIDI渲染音频)

text

对生成音乐的额外风格描述

输出

AUDIO(基于参考旋律生成的音乐)

与MusicGen Generate的区别

Melody版以旋律为条件,Generate版纯文本驱动

使用场景

旋律扩展、风格迁移、哼唱生成编曲、音乐续写

7.8.126  AudioLDM Loader

节点外观

节点介绍

属性

说明

核心作用

加载AudioLDM系列文本到音频生成模型

model_name

模型版本:audioldm-s(小)/audioldm-l(大)/audioldm2(二代)/audioldm2-music(音乐专用)/audioldm2-large(大版)

输出

AUDIOLDM_MODEL(AudioLDM专用模型实例)

与MusicGen的区别

AudioLDM擅长音效/环境音生成,MusicGen专注音乐结构

使用场景

音效生成、环境音合成、非音乐音频创作、声音设计

7.8.127  AudioLDM Generate

节点外观

节点介绍

属性

说明

核心作用

根据文本描述生成音效或环境音频

text

音效描述(场景、物体、动作、环境等)

duration

生成时长,AudioLDM支持更长片段(最高可达分钟级)

guidance_scale

文本条件强度(1-10),越高越遵循文本描述

输出

AUDIO(生成的音效/环境音)

使用场景

电影音效、游戏音频、环境音合成、拟音设计、ASMR素材

7.8.128  Load RVC Model

节点外观

节点介绍

属性

说明

核心作用

加载RVC(Retrieval-based Voice Conversion)声音转换模型

model_path

RVC模型权重文件(.pth),包含目标说话人特征

config_path

模型配置文件(.json),定义采样率、网络结构等

device

推理设备:cuda(实时)/cpu(兼容)

输出

RVC_MODEL(RVC声音转换模型实例)

模型来源

基于目标说话人音频训练的个人声音模型

使用场景

声音克隆、角色配音、歌声转换、语音风格迁移、匿名化处理

7.8.129   RVC Convert

节点外观

节点介绍

属性

说明

核心作用

将源音频的声音特征转换为目标RVC模型的说话人声音

audio

输入音频(说话或歌声)

f0_up_key

音高偏移(半音单位),正值升高,负值降低,用于歌声适配

protect

清音保护系数,保护非周期性声音(呼吸、气声、齿音)

输出

AUDIO(转换后的音频,保留内容,改变音色)

使用场景

AI翻唱、角色配音、声音模仿、语音匿名化、实时变声

7.8.130  RVC Batch

节点外观

节点介绍

属性

说明

核心作用

批量对多个音频文件进行RVC声音转换

audio_list

输入音频列表(如歌曲列表、配音脚本分段)

输出

AUDIO_LIST(批量转换后的音频列表)

与RVC Convert的区别

Batch支持多文件批量处理,Convert单文件处理

使用场景

批量歌曲翻唱、长音频分段处理、多角色配音、数据集生成

7.8.131  Load XTTS Model

节点外观

节点介绍

属性

说明

核心作用

加载Coqui XTTS文本到语音模型,支持多语言和声音克隆

model_name

XTTS模型版本:v2(最新,质量最佳)/v1.1(旧版)

language

默认语言:zh(中文)/en(英文)/ja(日文)/ko(韩文)等16种语言

输出

XTTS_MODEL(XTTS语音合成模型实例)

特点

仅需6秒参考音频即可克隆任意声音,支持跨语言合成

使用场景

声音克隆TTS、多语言配音、个性化语音助手、有声书制作

7.8.132  XTTS Synthesize

节点外观

节点介绍

属性

说明

核心作用

将文本合成为自然语音,可克隆参考音频的声音特征

text

待合成的文本内容

speaker_wav

参考音频(6-10秒),克隆该音频的音色和语调(留空使用默认声音)

language

合成语言(需与文本语言匹配)

输出

AUDIO(合成的语音音频,24kHz)

使用场景

有声书、视频配音、语音助手、个性化TTS、跨语言声音克隆

7.8.133  XTTS Clone

节点外观

节点介绍

属性

说明

核心作用

克隆源音频的声音,并用该声音说目标语言的内容

source_audio

源音频(任意语言),提取音色特征

target_text

目标文本(可与源音频语言不同)

target_language

目标合成语言,实现跨语言声音克隆

输出

AUDIO(克隆声音说目标语言)

与XTTS Synthesize的区别

Clone更强调跨语言克隆,Synthesize更通用

使用场景

跨语言配音、保留原声特色的翻译、多语言内容本地化

7.8.134   Load Bark Model

节点外观

节点介绍

属性

说明

核心作用

加载Suno Bark文本到语音模型,支持高度表现力的语音合成

model_id

bark-small(轻量)/bark(完整版)

text_use_gpu/coarse_use_gpu

分别控制文本编码和粗粒度音频生成的GPU使用

输出

BARK_MODEL(Bark语音合成模型实例)

特点

支持笑声、叹息、哭泣等非语言声音,表现力极强

使用场景

情感丰富的配音、有声剧、播客、创意语音内容

7.8.135  Bark Synthesize

节点外观

节点介绍

属性

说明

核心作用

使用Bark生成富有表现力和情感的语音

text

支持特殊标记:laughs/sighs/gasps/clears throat等

voice_preset

预置声音:v2/en_speaker_0-9(英文)/zh_speaker_0-9(中文)/ja_speaker_0-9(日文)等

输出

AUDIO(表现力丰富的语音音频)

与XTTS的区别

Bark表现力更强(支持非语言声音),XTTS克隆精度更高

使用场景

情感配音、播客制作、有声剧、游戏NPC语音、创意内容

7.8.136  Load VoiceFixer

节点外观

节点介绍

属性

说明

核心作用

加载VoiceFixer模型,用于修复和增强低质量语音

model_type

voicefixer(标准版)/voicefixer_fe(快速版)

mode

0=仅处理人声/1=处理全部/2=新版人声处理

输出

VOICEFIXER_MODEL(语音修复模型实例)

技术原理

基于神经音频编解码器,恢复压缩/噪声语音的原始质量

使用场景

电话录音修复、压缩音频恢复、噪声抑制、语音质量提升

7.8.137  VoiceFixer Enhance

节点外观

节点介绍

属性

说明

核心作用

对低质量音频进行修复和增强,恢复清晰自然的语音

audio

输入音频(压缩、噪声、失真、低采样率等)

cuda

GPU加速开关,显著提升处理速度

输出

AUDIO(修复后的高质量音频)

使用场景

电话录音修复、网络会议音频增强、老录音翻新、播客音质提升

7.8.138  Load Demucs Model

节点外观

节点介绍

属性

说明

核心作用

加载Demucs音乐源分离模型,将混音分解为独立音轨

model_name

htdemucs_ft(微调版,4轨)/htdemucs(标准4轨)/htdemucs_6s(6轨,含钢琴/吉他)/mdx_extra(扩展)/mdx_extra_q(快速)

输出

DEMUCS_MODEL(Demucs源分离模型实例)

分离音轨

drums(鼓)/bass(贝斯)/vocals(人声)/other(其他)/guitar(吉他)/piano(钢琴)

使用场景

伴奏提取、人声分离、乐器分离、混音分析、卡拉OK制作、采样提取

7.8.139  Demucs Separate

节点外观

节点介绍

属性

说明

核心作用

将混音音频分离为指定的独立音轨

audio

输入混音音频(歌曲、音乐片段)

stem

选择输出的音轨类型

输出

AUDIO(分离后的单音轨音频)

使用场景

提取伴奏、提取纯人声、乐器独奏提取、混音重制、采样制作

7.8.140  Load Whisper Model

节点外观

节点介绍

属性

说明

核心作用

加载OpenAI Whisper语音识别模型

model_size

tiny(39M)/base(74M)/small(244M)/medium(769M)/large-v2(1550M)/large-v3(1550M)

compute_type

float16(平衡)/int8(省显存)/float32(高精度)

输出

WHISPER_MODEL(Whisper语音识别模型实例)

支持语言

99种语言自动识别,包括中文、英文、日文等

使用场景

语音转文字、字幕生成、会议记录、音频内容分析、多语言识别

7.8.141  Whisper Transcribe

节点外观

节点介绍

属性

说明

核心作用

将语音音频转录为带时间戳的文本

audio

输入音频(语音、对话、演讲等)

language

指定语言或auto自动检测

task

transcribe(转录为同语言文本)/translate(翻译为英文)

输出

TRANSCRIPTION(结构化转录数据:text/segments/timestamps)

使用场景

字幕生成、会议记录、播客转录、语音内容索引、采访整理

7.8.142  Whisper Translate

节点外观

节点介绍

属性

说明

核心作用

将语音音频直接翻译为目标语言的文本

source_language

源语言(auto自动检测)

target_language

目标语言(Whisper支持多语言互译)

输出

TRANSLATION(翻译后的文本,含时间戳)

与Whisper Transcribe的区别

Translate直接输出目标语言,Transcribe输出源语言

使用场景

实时翻译字幕、多语言会议记录、外语视频本地化、跨语言内容理解

7.8.143  Load Audio

节点外观

节点介绍

属性

说明

核心作用

从磁盘加载音频文件到工作流

支持格式

WAV、MP3、FLAC、OGG、M4A、AAC

存放路径

ComfyUI/input/

输出

AUDIO(音频数据)、SAMPLE_RATE(采样率)、DURATION(时长)、CHANNELS(通道数)

使用场景

音频输入、参考音频加载、待处理音频导入、语音素材读取

7.8.144  Save Audio

节点外观

节点介绍

属性

说明

核心作用

将音频数据保存为文件

format

输出格式:wav(无损)/mp3(压缩)/flac(无损压缩)/ogg(开源)

sample_rate

输出采样率(44100/48000/22050等)

输出路径

ComfyUI/output/

使用场景

音频导出、生成结果保存、处理链路终点、音频交付

7.8.145  Audio Mix

节点外观

节点介绍

属性

说明

核心作用

将两个音频轨道按指定模式混合

mix_mode

add(叠加)/multiply(相乘)/subtract(相减)/average(平均)

输出

AUDIO(混合后的音频)

使用场景

人声+伴奏混合、音效叠加、音频合成、混音制作

7.8.146  Audio Volume

节点外观

节点介绍

属性

说明

核心作用

调整音频的音量大小或进行归一化

volume_db

音量调整量(dB):+6dB≈音量翻倍,-6dB≈音量减半,0=不变

normalize

True=将音频峰值归一化到0dB,自动调整整体音量

输出

AUDIO(音量调整后的音频)

使用场景

音量平衡、响度匹配、音频标准化、动态范围调整

7.8.147  Audio Fade

节点外观

节点介绍

属性

说明

核心作用

为音频添加淡入淡出效果,平滑首尾过渡

fade_in/fade_out

淡入/淡出时长(秒),0=无效果

fade_type

淡变曲线:linear(线性)/logarithmic(对数,更自然)/exponential(指数,更剧烈)

输出

AUDIO(淡入淡出处理后的音频)

使用场景

音频过渡、消除爆音/咔嗒声、专业混音、背景音乐衔接

7.8.148  Audio Trim

节点外观

节点介绍

属性

说明

核心作用

裁剪音频的指定时间片段

start_time

裁剪起始时间(秒)

end_time

裁剪结束时间(秒),-1表示到音频结尾

输出

AUDIO(裁剪后的音频片段)

使用场景

音频切片、去除静音段、提取精华片段、精确剪辑

7.8.149  Audio Speed

节点外观

节点介绍

属性

说明

核心作用

调整音频播放速度,可选保持音高

speed_factor

速度倍数(0.25-4.0):<1减速,>1加速

preserve_pitch

True=使用相位声码器保持音高不变(仅变速不变调);False=音高随速度变化(类似磁带变速)

输出

AUDIO(变速后的音频)

使用场景

语速调整、音乐变速、节奏匹配、慢动作/快进音频

7.8.150   Audio Loop

节点外观

节点介绍

属性

说明

核心作用

将音频重复播放指定次数,支持无缝循环

loop_count

循环次数(2=播放两遍,总时长翻倍)

crossfade

循环衔接处的交叉淡化时长(秒),0=硬切,>0=平滑过渡

输出

AUDIO(循环后的音频)

使用场景

BGM循环、音效延长、采样循环、背景音乐制作

7.8.151  Audio Spectrogram

节点外观

节点介绍

属性

说明

核心作用

将音频转换为频谱图可视化图像

n_fft

FFT窗口大小(512/2048/4096),越大频率分辨率越高

hop_length

帧移长度,控制时间分辨率

output_type

magnitude(幅度谱)/mel_spectrogram(Mel频谱,人耳感知)/chromagram(色度图,音高类)

输出

IMAGE(频谱图可视化图像,可用于AI图像生成条件)

使用场景

音频可视化、频谱分析、AI音频到图像生成、音乐风格分析、声纹展示

完整串联:AI音乐生成工作流

完整串联:AI翻唱+RVC声音转换工作流

完整串联:语音克隆+字幕生成工作流

完整串联:音频分离+频谱可视化工作流

一句话总结

这30个节点是ComfyUI的"声音引擎"——从MusicGen/AudioLDM音乐音效生成、XTTS/Bark语音克隆合成、RVC声音转换,到Demucs音轨分离、Whisper语音识别、VoiceFixer音频修复,再到完整的音频剪辑处理(混音/音量/淡变/裁剪/变速/循环)和频谱可视化,覆盖了AI音频生成、转换、分析、处理的完整管线。掌握它们,你就能实现AI作曲、AI翻唱、数字人配音、智能字幕、专业混音等全链路音频AI应用。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐