Comfyui 教程-24
7.8 第八阶段:音频生成与处理(30个节点)
|
序号 |
节点类型 |
功能说明 |
|
131 |
Load Audio Model |
加载音频生成模型 |
|
132 |
MusicGen Loader |
加载MusicGen |
|
133 |
MusicGen Generate |
生成音乐 |
|
134 |
MusicGen Melody |
MusicGen旋律条件 |
|
135 |
AudioLDM Loader |
加载AudioLDM |
|
136 |
AudioLDM Generate |
生成音效 |
|
137 |
Load RVC Model |
加载RVC模型 |
|
138 |
RVC Convert |
RVC声音转换 |
|
139 |
RVC Batch |
RVC批量转换 |
|
140 |
Load XTTS Model |
加载XTTS |
|
141 |
XTTS Synthesize |
XTTS文本转语音 |
|
142 |
XTTS Clone |
XTTS音色克隆 |
|
143 |
Load Bark Model |
加载Bark |
|
144 |
Bark Synthesize |
Bark语音合成 |
|
145 |
Load VoiceFixer |
加载VoiceFixer |
|
146 |
VoiceFixer Enhance |
语音增强 |
|
147 |
Load Demucs Model |
加载Demucs |
|
148 |
Demucs Separate |
音源分离 |
|
149 |
Load Whisper Model |
加载Whisper |
|
150 |
Whisper Transcribe |
语音转文字 |
|
151 |
Whisper Translate |
语音翻译 |
|
152 |
Load Audio |
加载音频 |
|
153 |
Save Audio |
保存音频 |
|
154 |
Audio Mix |
音频混合 |
|
155 |
Audio Volume |
音频音量调整 |
|
156 |
Audio Fade |
音频淡入淡出 |
|
157 |
Audio Trim |
音频裁剪 |
|
158 |
Audio Speed |
音频速度调整 |
|
159 |
Audio Loop |
音频循环 |
|
160 |
Audio Spectrogram |
音频频谱图 |
我来为您整理这30个音频生成与处理节点的详细文档,保持与原文档一致的格式风格:
7.8.122 Load Audio Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载音频生成专用模型(MusicGen、AudioLDM等) |
|
模型类型 |
MusicGen(文本/旋律生成音乐)/AudioLDM(文本生成音效)/AudioLDM2(音乐+音效) |
|
device |
推理设备:cuda(GPU加速)/cpu(CPU兼容) |
|
输出 |
AUDIO_MODEL(音频生成模型实例) |
|
显存需求 |
small(4GB)/medium(8GB)/large(16GB+) |
|
使用场景 |
音乐生成、音效合成、音频创作、背景音乐制作 |
7.8.123 MusicGen Loader
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
专门加载Meta MusicGen音乐生成模型 |
|
model_id |
模型版本:small(300M)/medium(1.5B)/large(3.3B)/melody(支持旋律条件)/stereo(立体声) |
|
use_fp16 |
开启FP16半精度,显存占用减半,速度提升 |
|
输出 |
MUSICGEN_MODEL(MusicGen专用模型实例) |
|
与Load Audio Model的区别 |
MusicGen Loader专精MusicGen系列,提供更多版本选项和优化 |
|
使用场景 |
文本描述生成音乐、旋律条件生成、背景音乐创作、音乐风格迁移 |
7.8.124 MusicGen Generate
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
根据文本描述生成指定时长的音乐片段 |
|
text |
音乐描述文本(风格、乐器、BPM、情绪等) |
|
duration |
生成时长(秒),通常3-30秒,受显存限制 |
|
temperature |
采样温度(0.1-2.0),低值更稳定,高值更多样 |
|
输出 |
AUDIO(音频数据,采样率32kHz) |
|
使用场景 |
文本到音乐生成、背景音乐创作、音效设计、音乐灵感探索 |
7.8.125 MusicGen Melody
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
以参考旋律为条件,生成风格化的完整音乐 |
|
melody |
参考旋律音频(哼唱、乐器演奏、MIDI渲染音频) |
|
text |
对生成音乐的额外风格描述 |
|
输出 |
AUDIO(基于参考旋律生成的音乐) |
|
与MusicGen Generate的区别 |
Melody版以旋律为条件,Generate版纯文本驱动 |
|
使用场景 |
旋律扩展、风格迁移、哼唱生成编曲、音乐续写 |
7.8.126 AudioLDM Loader
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载AudioLDM系列文本到音频生成模型 |
|
model_name |
模型版本:audioldm-s(小)/audioldm-l(大)/audioldm2(二代)/audioldm2-music(音乐专用)/audioldm2-large(大版) |
|
输出 |
AUDIOLDM_MODEL(AudioLDM专用模型实例) |
|
与MusicGen的区别 |
AudioLDM擅长音效/环境音生成,MusicGen专注音乐结构 |
|
使用场景 |
音效生成、环境音合成、非音乐音频创作、声音设计 |
7.8.127 AudioLDM Generate
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
根据文本描述生成音效或环境音频 |
|
text |
音效描述(场景、物体、动作、环境等) |
|
duration |
生成时长,AudioLDM支持更长片段(最高可达分钟级) |
|
guidance_scale |
文本条件强度(1-10),越高越遵循文本描述 |
|
输出 |
AUDIO(生成的音效/环境音) |
|
使用场景 |
电影音效、游戏音频、环境音合成、拟音设计、ASMR素材 |
7.8.128 Load RVC Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载RVC(Retrieval-based Voice Conversion)声音转换模型 |
|
model_path |
RVC模型权重文件(.pth),包含目标说话人特征 |
|
config_path |
模型配置文件(.json),定义采样率、网络结构等 |
|
device |
推理设备:cuda(实时)/cpu(兼容) |
|
输出 |
RVC_MODEL(RVC声音转换模型实例) |
|
模型来源 |
基于目标说话人音频训练的个人声音模型 |
|
使用场景 |
声音克隆、角色配音、歌声转换、语音风格迁移、匿名化处理 |
7.8.129 RVC Convert
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
将源音频的声音特征转换为目标RVC模型的说话人声音 |
|
audio |
输入音频(说话或歌声) |
|
f0_up_key |
音高偏移(半音单位),正值升高,负值降低,用于歌声适配 |
|
protect |
清音保护系数,保护非周期性声音(呼吸、气声、齿音) |
|
输出 |
AUDIO(转换后的音频,保留内容,改变音色) |
|
使用场景 |
AI翻唱、角色配音、声音模仿、语音匿名化、实时变声 |
7.8.130 RVC Batch
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
批量对多个音频文件进行RVC声音转换 |
|
audio_list |
输入音频列表(如歌曲列表、配音脚本分段) |
|
输出 |
AUDIO_LIST(批量转换后的音频列表) |
|
与RVC Convert的区别 |
Batch支持多文件批量处理,Convert单文件处理 |
|
使用场景 |
批量歌曲翻唱、长音频分段处理、多角色配音、数据集生成 |
7.8.131 Load XTTS Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载Coqui XTTS文本到语音模型,支持多语言和声音克隆 |
|
model_name |
XTTS模型版本:v2(最新,质量最佳)/v1.1(旧版) |
|
language |
默认语言:zh(中文)/en(英文)/ja(日文)/ko(韩文)等16种语言 |
|
输出 |
XTTS_MODEL(XTTS语音合成模型实例) |
|
特点 |
仅需6秒参考音频即可克隆任意声音,支持跨语言合成 |
|
使用场景 |
声音克隆TTS、多语言配音、个性化语音助手、有声书制作 |
7.8.132 XTTS Synthesize
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
将文本合成为自然语音,可克隆参考音频的声音特征 |
|
text |
待合成的文本内容 |
|
speaker_wav |
参考音频(6-10秒),克隆该音频的音色和语调(留空使用默认声音) |
|
language |
合成语言(需与文本语言匹配) |
|
输出 |
AUDIO(合成的语音音频,24kHz) |
|
使用场景 |
有声书、视频配音、语音助手、个性化TTS、跨语言声音克隆 |
7.8.133 XTTS Clone
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
克隆源音频的声音,并用该声音说目标语言的内容 |
|
source_audio |
源音频(任意语言),提取音色特征 |
|
target_text |
目标文本(可与源音频语言不同) |
|
target_language |
目标合成语言,实现跨语言声音克隆 |
|
输出 |
AUDIO(克隆声音说目标语言) |
|
与XTTS Synthesize的区别 |
Clone更强调跨语言克隆,Synthesize更通用 |
|
使用场景 |
跨语言配音、保留原声特色的翻译、多语言内容本地化 |
7.8.134 Load Bark Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载Suno Bark文本到语音模型,支持高度表现力的语音合成 |
|
model_id |
bark-small(轻量)/bark(完整版) |
|
text_use_gpu/coarse_use_gpu |
分别控制文本编码和粗粒度音频生成的GPU使用 |
|
输出 |
BARK_MODEL(Bark语音合成模型实例) |
|
特点 |
支持笑声、叹息、哭泣等非语言声音,表现力极强 |
|
使用场景 |
情感丰富的配音、有声剧、播客、创意语音内容 |
7.8.135 Bark Synthesize
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
使用Bark生成富有表现力和情感的语音 |
|
text |
支持特殊标记:laughs/sighs/gasps/clears throat等 |
|
voice_preset |
预置声音:v2/en_speaker_0-9(英文)/zh_speaker_0-9(中文)/ja_speaker_0-9(日文)等 |
|
输出 |
AUDIO(表现力丰富的语音音频) |
|
与XTTS的区别 |
Bark表现力更强(支持非语言声音),XTTS克隆精度更高 |
|
使用场景 |
情感配音、播客制作、有声剧、游戏NPC语音、创意内容 |
7.8.136 Load VoiceFixer
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载VoiceFixer模型,用于修复和增强低质量语音 |
|
model_type |
voicefixer(标准版)/voicefixer_fe(快速版) |
|
mode |
0=仅处理人声/1=处理全部/2=新版人声处理 |
|
输出 |
VOICEFIXER_MODEL(语音修复模型实例) |
|
技术原理 |
基于神经音频编解码器,恢复压缩/噪声语音的原始质量 |
|
使用场景 |
电话录音修复、压缩音频恢复、噪声抑制、语音质量提升 |
7.8.137 VoiceFixer Enhance
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
对低质量音频进行修复和增强,恢复清晰自然的语音 |
|
audio |
输入音频(压缩、噪声、失真、低采样率等) |
|
cuda |
GPU加速开关,显著提升处理速度 |
|
输出 |
AUDIO(修复后的高质量音频) |
|
使用场景 |
电话录音修复、网络会议音频增强、老录音翻新、播客音质提升 |
7.8.138 Load Demucs Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载Demucs音乐源分离模型,将混音分解为独立音轨 |
|
model_name |
htdemucs_ft(微调版,4轨)/htdemucs(标准4轨)/htdemucs_6s(6轨,含钢琴/吉他)/mdx_extra(扩展)/mdx_extra_q(快速) |
|
输出 |
DEMUCS_MODEL(Demucs源分离模型实例) |
|
分离音轨 |
drums(鼓)/bass(贝斯)/vocals(人声)/other(其他)/guitar(吉他)/piano(钢琴) |
|
使用场景 |
伴奏提取、人声分离、乐器分离、混音分析、卡拉OK制作、采样提取 |
7.8.139 Demucs Separate
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
将混音音频分离为指定的独立音轨 |
|
audio |
输入混音音频(歌曲、音乐片段) |
|
stem |
选择输出的音轨类型 |
|
输出 |
AUDIO(分离后的单音轨音频) |
|
使用场景 |
提取伴奏、提取纯人声、乐器独奏提取、混音重制、采样制作 |
7.8.140 Load Whisper Model
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
加载OpenAI Whisper语音识别模型 |
|
model_size |
tiny(39M)/base(74M)/small(244M)/medium(769M)/large-v2(1550M)/large-v3(1550M) |
|
compute_type |
float16(平衡)/int8(省显存)/float32(高精度) |
|
输出 |
WHISPER_MODEL(Whisper语音识别模型实例) |
|
支持语言 |
99种语言自动识别,包括中文、英文、日文等 |
|
使用场景 |
语音转文字、字幕生成、会议记录、音频内容分析、多语言识别 |
7.8.141 Whisper Transcribe
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
将语音音频转录为带时间戳的文本 |
|
audio |
输入音频(语音、对话、演讲等) |
|
language |
指定语言或auto自动检测 |
|
task |
transcribe(转录为同语言文本)/translate(翻译为英文) |
|
输出 |
TRANSCRIPTION(结构化转录数据:text/segments/timestamps) |
|
使用场景 |
字幕生成、会议记录、播客转录、语音内容索引、采访整理 |
7.8.142 Whisper Translate
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
将语音音频直接翻译为目标语言的文本 |
|
source_language |
源语言(auto自动检测) |
|
target_language |
目标语言(Whisper支持多语言互译) |
|
输出 |
TRANSLATION(翻译后的文本,含时间戳) |
|
与Whisper Transcribe的区别 |
Translate直接输出目标语言,Transcribe输出源语言 |
|
使用场景 |
实时翻译字幕、多语言会议记录、外语视频本地化、跨语言内容理解 |
7.8.143 Load Audio
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
从磁盘加载音频文件到工作流 |
|
支持格式 |
WAV、MP3、FLAC、OGG、M4A、AAC |
|
存放路径 |
ComfyUI/input/ |
|
输出 |
AUDIO(音频数据)、SAMPLE_RATE(采样率)、DURATION(时长)、CHANNELS(通道数) |
|
使用场景 |
音频输入、参考音频加载、待处理音频导入、语音素材读取 |
7.8.144 Save Audio
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
将音频数据保存为文件 |
|
format |
输出格式:wav(无损)/mp3(压缩)/flac(无损压缩)/ogg(开源) |
|
sample_rate |
输出采样率(44100/48000/22050等) |
|
输出路径 |
ComfyUI/output/ |
|
使用场景 |
音频导出、生成结果保存、处理链路终点、音频交付 |
7.8.145 Audio Mix
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
将两个音频轨道按指定模式混合 |
|
mix_mode |
add(叠加)/multiply(相乘)/subtract(相减)/average(平均) |
|
输出 |
AUDIO(混合后的音频) |
|
使用场景 |
人声+伴奏混合、音效叠加、音频合成、混音制作 |
7.8.146 Audio Volume
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
调整音频的音量大小或进行归一化 |
|
volume_db |
音量调整量(dB):+6dB≈音量翻倍,-6dB≈音量减半,0=不变 |
|
normalize |
True=将音频峰值归一化到0dB,自动调整整体音量 |
|
输出 |
AUDIO(音量调整后的音频) |
|
使用场景 |
音量平衡、响度匹配、音频标准化、动态范围调整 |
7.8.147 Audio Fade
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
为音频添加淡入淡出效果,平滑首尾过渡 |
|
fade_in/fade_out |
淡入/淡出时长(秒),0=无效果 |
|
fade_type |
淡变曲线:linear(线性)/logarithmic(对数,更自然)/exponential(指数,更剧烈) |
|
输出 |
AUDIO(淡入淡出处理后的音频) |
|
使用场景 |
音频过渡、消除爆音/咔嗒声、专业混音、背景音乐衔接 |
7.8.148 Audio Trim
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
裁剪音频的指定时间片段 |
|
start_time |
裁剪起始时间(秒) |
|
end_time |
裁剪结束时间(秒),-1表示到音频结尾 |
|
输出 |
AUDIO(裁剪后的音频片段) |
|
使用场景 |
音频切片、去除静音段、提取精华片段、精确剪辑 |
7.8.149 Audio Speed
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
调整音频播放速度,可选保持音高 |
|
speed_factor |
速度倍数(0.25-4.0):<1减速,>1加速 |
|
preserve_pitch |
True=使用相位声码器保持音高不变(仅变速不变调);False=音高随速度变化(类似磁带变速) |
|
输出 |
AUDIO(变速后的音频) |
|
使用场景 |
语速调整、音乐变速、节奏匹配、慢动作/快进音频 |
7.8.150 Audio Loop
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
将音频重复播放指定次数,支持无缝循环 |
|
loop_count |
循环次数(2=播放两遍,总时长翻倍) |
|
crossfade |
循环衔接处的交叉淡化时长(秒),0=硬切,>0=平滑过渡 |
|
输出 |
AUDIO(循环后的音频) |
|
使用场景 |
BGM循环、音效延长、采样循环、背景音乐制作 |
7.8.151 Audio Spectrogram
节点外观

节点介绍
|
属性 |
说明 |
|
核心作用 |
将音频转换为频谱图可视化图像 |
|
n_fft |
FFT窗口大小(512/2048/4096),越大频率分辨率越高 |
|
hop_length |
帧移长度,控制时间分辨率 |
|
output_type |
magnitude(幅度谱)/mel_spectrogram(Mel频谱,人耳感知)/chromagram(色度图,音高类) |
|
输出 |
IMAGE(频谱图可视化图像,可用于AI图像生成条件) |
|
使用场景 |
音频可视化、频谱分析、AI音频到图像生成、音乐风格分析、声纹展示 |
完整串联:AI音乐生成工作流

完整串联:AI翻唱+RVC声音转换工作流

完整串联:语音克隆+字幕生成工作流

完整串联:音频分离+频谱可视化工作流

一句话总结
这30个节点是ComfyUI的"声音引擎"——从MusicGen/AudioLDM音乐音效生成、XTTS/Bark语音克隆合成、RVC声音转换,到Demucs音轨分离、Whisper语音识别、VoiceFixer音频修复,再到完整的音频剪辑处理(混音/音量/淡变/裁剪/变速/循环)和频谱可视化,覆盖了AI音频生成、转换、分析、处理的完整管线。掌握它们,你就能实现AI作曲、AI翻唱、数字人配音、智能字幕、专业混音等全链路音频AI应用。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)