Comfyui 教程-24

放大的EZ

238人浏览 · 2026-06-12 10:23:21

放大的EZ · 2026-06-12 10:23:21 发布

7.8 第八阶段：音频生成与处理（30个节点）

序号	节点类型	功能说明
131	Load Audio Model	加载音频生成模型
132	MusicGen Loader	加载MusicGen
133	MusicGen Generate	生成音乐
134	MusicGen Melody	MusicGen旋律条件
135	AudioLDM Loader	加载AudioLDM
136	AudioLDM Generate	生成音效
137	Load RVC Model	加载RVC模型
138	RVC Convert	RVC声音转换
139	RVC Batch	RVC批量转换
140	Load XTTS Model	加载XTTS
141	XTTS Synthesize	XTTS文本转语音
142	XTTS Clone	XTTS音色克隆
143	Load Bark Model	加载Bark
144	Bark Synthesize	Bark语音合成
145	Load VoiceFixer	加载VoiceFixer
146	VoiceFixer Enhance	语音增强
147	Load Demucs Model	加载Demucs
148	Demucs Separate	音源分离
149	Load Whisper Model	加载Whisper
150	Whisper Transcribe	语音转文字
151	Whisper Translate	语音翻译
152	Load Audio	加载音频
153	Save Audio	保存音频
154	Audio Mix	音频混合
155	Audio Volume	音频音量调整
156	Audio Fade	音频淡入淡出
157	Audio Trim	音频裁剪
158	Audio Speed	音频速度调整
159	Audio Loop	音频循环
160	Audio Spectrogram	音频频谱图

我来为您整理这30个音频生成与处理节点的详细文档，保持与原文档一致的格式风格：

7.8.122 Load Audio Model

节点外观

节点介绍

属性	说明
核心作用	加载音频生成专用模型（MusicGen、AudioLDM等）
模型类型	MusicGen(文本/旋律生成音乐)/AudioLDM(文本生成音效)/AudioLDM2(音乐+音效)
device	推理设备：cuda(GPU加速)/cpu(CPU兼容)
输出	AUDIO_MODEL（音频生成模型实例）
显存需求	small(4GB)/medium(8GB)/large(16GB+)
使用场景	音乐生成、音效合成、音频创作、背景音乐制作

7.8.123 MusicGen Loader

节点外观

节点介绍

属性	说明
核心作用	专门加载Meta MusicGen音乐生成模型
model_id	模型版本：small(300M)/medium(1.5B)/large(3.3B)/melody(支持旋律条件)/stereo(立体声)
use_fp16	开启FP16半精度，显存占用减半，速度提升
输出	MUSICGEN_MODEL（MusicGen专用模型实例）
与Load Audio Model的区别	MusicGen Loader专精MusicGen系列，提供更多版本选项和优化
使用场景	文本描述生成音乐、旋律条件生成、背景音乐创作、音乐风格迁移

7.8.124 MusicGen Generate

节点外观

节点介绍

属性	说明
核心作用	根据文本描述生成指定时长的音乐片段
text	音乐描述文本（风格、乐器、BPM、情绪等）
duration	生成时长（秒），通常3-30秒，受显存限制
temperature	采样温度（0.1-2.0），低值更稳定，高值更多样
输出	AUDIO（音频数据，采样率32kHz）
使用场景	文本到音乐生成、背景音乐创作、音效设计、音乐灵感探索

7.8.125 MusicGen Melody

节点外观

节点介绍

属性	说明
核心作用	以参考旋律为条件，生成风格化的完整音乐
melody	参考旋律音频（哼唱、乐器演奏、MIDI渲染音频）
text	对生成音乐的额外风格描述
输出	AUDIO（基于参考旋律生成的音乐）
与MusicGen Generate的区别	Melody版以旋律为条件，Generate版纯文本驱动
使用场景	旋律扩展、风格迁移、哼唱生成编曲、音乐续写

7.8.126 AudioLDM Loader

节点外观

节点介绍

属性	说明
核心作用	加载AudioLDM系列文本到音频生成模型
model_name	模型版本：audioldm-s(小)/audioldm-l(大)/audioldm2(二代)/audioldm2-music(音乐专用)/audioldm2-large(大版)
输出	AUDIOLDM_MODEL（AudioLDM专用模型实例）
与MusicGen的区别	AudioLDM擅长音效/环境音生成，MusicGen专注音乐结构
使用场景	音效生成、环境音合成、非音乐音频创作、声音设计

7.8.127 AudioLDM Generate

节点外观

节点介绍

属性	说明
核心作用	根据文本描述生成音效或环境音频
text	音效描述（场景、物体、动作、环境等）
duration	生成时长，AudioLDM支持更长片段（最高可达分钟级）
guidance_scale	文本条件强度（1-10），越高越遵循文本描述
输出	AUDIO（生成的音效/环境音）
使用场景	电影音效、游戏音频、环境音合成、拟音设计、ASMR素材

7.8.128 Load RVC Model

节点外观

节点介绍

属性	说明
核心作用	加载RVC(Retrieval-based Voice Conversion)声音转换模型
model_path	RVC模型权重文件（.pth），包含目标说话人特征
config_path	模型配置文件（.json），定义采样率、网络结构等
device	推理设备：cuda(实时)/cpu(兼容)
输出	RVC_MODEL（RVC声音转换模型实例）
模型来源	基于目标说话人音频训练的个人声音模型
使用场景	声音克隆、角色配音、歌声转换、语音风格迁移、匿名化处理

7.8.129 RVC Convert

节点外观

节点介绍

属性	说明
核心作用	将源音频的声音特征转换为目标RVC模型的说话人声音
audio	输入音频（说话或歌声）
f0_up_key	音高偏移（半音单位），正值升高，负值降低，用于歌声适配
protect	清音保护系数，保护非周期性声音（呼吸、气声、齿音）
输出	AUDIO（转换后的音频，保留内容，改变音色）
使用场景	AI翻唱、角色配音、声音模仿、语音匿名化、实时变声

7.8.130 RVC Batch

节点外观

节点介绍

属性	说明
核心作用	批量对多个音频文件进行RVC声音转换
audio_list	输入音频列表（如歌曲列表、配音脚本分段）
输出	AUDIO_LIST（批量转换后的音频列表）
与RVC Convert的区别	Batch支持多文件批量处理，Convert单文件处理
使用场景	批量歌曲翻唱、长音频分段处理、多角色配音、数据集生成

7.8.131 Load XTTS Model

节点外观

节点介绍

属性	说明
核心作用	加载Coqui XTTS文本到语音模型，支持多语言和声音克隆
model_name	XTTS模型版本：v2(最新，质量最佳)/v1.1(旧版)
language	默认语言：zh(中文)/en(英文)/ja(日文)/ko(韩文)等16种语言
输出	XTTS_MODEL（XTTS语音合成模型实例）
特点	仅需6秒参考音频即可克隆任意声音，支持跨语言合成
使用场景	声音克隆TTS、多语言配音、个性化语音助手、有声书制作

7.8.132 XTTS Synthesize

节点外观

节点介绍

属性	说明
核心作用	将文本合成为自然语音，可克隆参考音频的声音特征
text	待合成的文本内容
speaker_wav	参考音频（6-10秒），克隆该音频的音色和语调（留空使用默认声音）
language	合成语言（需与文本语言匹配）
输出	AUDIO（合成的语音音频，24kHz）
使用场景	有声书、视频配音、语音助手、个性化TTS、跨语言声音克隆

7.8.133 XTTS Clone

节点外观

节点介绍

属性	说明
核心作用	克隆源音频的声音，并用该声音说目标语言的内容
source_audio	源音频（任意语言），提取音色特征
target_text	目标文本（可与源音频语言不同）
target_language	目标合成语言，实现跨语言声音克隆
输出	AUDIO（克隆声音说目标语言）
与XTTS Synthesize的区别	Clone更强调跨语言克隆，Synthesize更通用
使用场景	跨语言配音、保留原声特色的翻译、多语言内容本地化

7.8.134 Load Bark Model

节点外观

节点介绍

属性	说明
核心作用	加载Suno Bark文本到语音模型，支持高度表现力的语音合成
model_id	bark-small(轻量)/bark(完整版)
text_use_gpu/coarse_use_gpu	分别控制文本编码和粗粒度音频生成的GPU使用
输出	BARK_MODEL（Bark语音合成模型实例）
特点	支持笑声、叹息、哭泣等非语言声音，表现力极强
使用场景	情感丰富的配音、有声剧、播客、创意语音内容

7.8.135 Bark Synthesize

节点外观

节点介绍

属性	说明
核心作用	使用Bark生成富有表现力和情感的语音
text	支持特殊标记：laughs/sighs/gasps/clears throat等
voice_preset	预置声音：v2/en_speaker_0-9(英文)/zh_speaker_0-9(中文)/ja_speaker_0-9(日文)等
输出	AUDIO（表现力丰富的语音音频）
与XTTS的区别	Bark表现力更强（支持非语言声音），XTTS克隆精度更高
使用场景	情感配音、播客制作、有声剧、游戏NPC语音、创意内容

7.8.136 Load VoiceFixer

节点外观

节点介绍

属性	说明
核心作用	加载VoiceFixer模型，用于修复和增强低质量语音
model_type	voicefixer(标准版)/voicefixer_fe(快速版)
mode	0=仅处理人声/1=处理全部/2=新版人声处理
输出	VOICEFIXER_MODEL（语音修复模型实例）
技术原理	基于神经音频编解码器，恢复压缩/噪声语音的原始质量
使用场景	电话录音修复、压缩音频恢复、噪声抑制、语音质量提升

7.8.137 VoiceFixer Enhance

节点外观

节点介绍

属性	说明
核心作用	对低质量音频进行修复和增强，恢复清晰自然的语音
audio	输入音频（压缩、噪声、失真、低采样率等）
cuda	GPU加速开关，显著提升处理速度
输出	AUDIO（修复后的高质量音频）
使用场景	电话录音修复、网络会议音频增强、老录音翻新、播客音质提升

7.8.138 Load Demucs Model

节点外观

节点介绍

属性	说明
核心作用	加载Demucs音乐源分离模型，将混音分解为独立音轨
model_name	htdemucs_ft(微调版，4轨)/htdemucs(标准4轨)/htdemucs_6s(6轨，含钢琴/吉他)/mdx_extra(扩展)/mdx_extra_q(快速)
输出	DEMUCS_MODEL（Demucs源分离模型实例）
分离音轨	drums(鼓)/bass(贝斯)/vocals(人声)/other(其他)/guitar(吉他)/piano(钢琴)
使用场景	伴奏提取、人声分离、乐器分离、混音分析、卡拉OK制作、采样提取

7.8.139 Demucs Separate

节点外观

节点介绍

属性	说明
核心作用	将混音音频分离为指定的独立音轨
audio	输入混音音频（歌曲、音乐片段）
stem	选择输出的音轨类型
输出	AUDIO（分离后的单音轨音频）
使用场景	提取伴奏、提取纯人声、乐器独奏提取、混音重制、采样制作

7.8.140 Load Whisper Model

节点外观

节点介绍

属性	说明
核心作用	加载OpenAI Whisper语音识别模型
model_size	tiny(39M)/base(74M)/small(244M)/medium(769M)/large-v2(1550M)/large-v3(1550M)
compute_type	float16(平衡)/int8(省显存)/float32(高精度)
输出	WHISPER_MODEL（Whisper语音识别模型实例）
支持语言	99种语言自动识别，包括中文、英文、日文等
使用场景	语音转文字、字幕生成、会议记录、音频内容分析、多语言识别

7.8.141 Whisper Transcribe

节点外观

节点介绍

属性	说明
核心作用	将语音音频转录为带时间戳的文本
audio	输入音频（语音、对话、演讲等）
language	指定语言或auto自动检测
task	transcribe(转录为同语言文本)/translate(翻译为英文)
输出	TRANSCRIPTION（结构化转录数据：text/segments/timestamps）
使用场景	字幕生成、会议记录、播客转录、语音内容索引、采访整理

7.8.142 Whisper Translate

节点外观

节点介绍

属性	说明
核心作用	将语音音频直接翻译为目标语言的文本
source_language	源语言（auto自动检测）
target_language	目标语言（Whisper支持多语言互译）
输出	TRANSLATION（翻译后的文本，含时间戳）
与Whisper Transcribe的区别	Translate直接输出目标语言，Transcribe输出源语言
使用场景	实时翻译字幕、多语言会议记录、外语视频本地化、跨语言内容理解

7.8.143 Load Audio

节点外观

节点介绍

属性	说明
核心作用	从磁盘加载音频文件到工作流
支持格式	WAV、MP3、FLAC、OGG、M4A、AAC
存放路径	ComfyUI/input/
输出	AUDIO（音频数据）、SAMPLE_RATE(采样率)、DURATION(时长)、CHANNELS(通道数)
使用场景	音频输入、参考音频加载、待处理音频导入、语音素材读取

7.8.144 Save Audio

节点外观

节点介绍

属性	说明
核心作用	将音频数据保存为文件
format	输出格式：wav(无损)/mp3(压缩)/flac(无损压缩)/ogg(开源)
sample_rate	输出采样率（44100/48000/22050等）
输出路径	ComfyUI/output/
使用场景	音频导出、生成结果保存、处理链路终点、音频交付

7.8.145 Audio Mix

节点外观

节点介绍

属性	说明
核心作用	将两个音频轨道按指定模式混合
mix_mode	add(叠加)/multiply(相乘)/subtract(相减)/average(平均)
输出	AUDIO（混合后的音频）
使用场景	人声+伴奏混合、音效叠加、音频合成、混音制作

7.8.146 Audio Volume

节点外观

节点介绍

属性	说明
核心作用	调整音频的音量大小或进行归一化
volume_db	音量调整量（dB）：+6dB≈音量翻倍，-6dB≈音量减半，0=不变
normalize	True=将音频峰值归一化到0dB，自动调整整体音量
输出	AUDIO（音量调整后的音频）
使用场景	音量平衡、响度匹配、音频标准化、动态范围调整

7.8.147 Audio Fade

节点外观

节点介绍

属性	说明
核心作用	为音频添加淡入淡出效果，平滑首尾过渡
fade_in/fade_out	淡入/淡出时长（秒），0=无效果
fade_type	淡变曲线：linear(线性)/logarithmic(对数，更自然)/exponential(指数，更剧烈)
输出	AUDIO（淡入淡出处理后的音频）
使用场景	音频过渡、消除爆音/咔嗒声、专业混音、背景音乐衔接

7.8.148 Audio Trim

节点外观

节点介绍

属性	说明
核心作用	裁剪音频的指定时间片段
start_time	裁剪起始时间（秒）
end_time	裁剪结束时间（秒），-1表示到音频结尾
输出	AUDIO（裁剪后的音频片段）
使用场景	音频切片、去除静音段、提取精华片段、精确剪辑

7.8.149 Audio Speed

节点外观

节点介绍

属性	说明
核心作用	调整音频播放速度，可选保持音高
speed_factor	速度倍数（0.25-4.0）：<1减速，>1加速
preserve_pitch	True=使用相位声码器保持音高不变（仅变速不变调）；False=音高随速度变化（类似磁带变速）
输出	AUDIO（变速后的音频）
使用场景	语速调整、音乐变速、节奏匹配、慢动作/快进音频

7.8.150 Audio Loop

节点外观

节点介绍

属性	说明
核心作用	将音频重复播放指定次数，支持无缝循环
loop_count	循环次数（2=播放两遍，总时长翻倍）
crossfade	循环衔接处的交叉淡化时长（秒），0=硬切，>0=平滑过渡
输出	AUDIO（循环后的音频）
使用场景	BGM循环、音效延长、采样循环、背景音乐制作

7.8.151 Audio Spectrogram

节点外观

节点介绍

属性	说明
核心作用	将音频转换为频谱图可视化图像
n_fft	FFT窗口大小（512/2048/4096），越大频率分辨率越高
hop_length	帧移长度，控制时间分辨率
output_type	magnitude(幅度谱)/mel_spectrogram(Mel频谱，人耳感知)/chromagram(色度图，音高类)
输出	IMAGE（频谱图可视化图像，可用于AI图像生成条件）
使用场景	音频可视化、频谱分析、AI音频到图像生成、音乐风格分析、声纹展示

完整串联：AI音乐生成工作流

完整串联：AI翻唱+RVC声音转换工作流

完整串联：语音克隆+字幕生成工作流

完整串联：音频分离+频谱可视化工作流

一句话总结

这30个节点是ComfyUI的"声音引擎"——从MusicGen/AudioLDM音乐音效生成、XTTS/Bark语音克隆合成、RVC声音转换，到Demucs音轨分离、Whisper语音识别、VoiceFixer音频修复，再到完整的音频剪辑处理（混音/音量/淡变/裁剪/变速/循环）和频谱可视化，覆盖了AI音频生成、转换、分析、处理的完整管线。掌握它们，你就能实现AI作曲、AI翻唱、数字人配音、智能字幕、专业混音等全链路音频AI应用。