【多模态实战系列·第 07 篇】音频理解:语音·声音·音乐——从 Whisper 到音频 LLM,全模态 AI 的最后一块拼图

系列回顾:第 01-03 篇我们掌握了 CLIP/BLIP-2/LLaVA——视觉+语言的多模态基础。第 04 篇梳理了对齐粒度演进,第 05 篇实现了多模态 RAG,第 06 篇进入视频理解——在空间基础上增加了时间维度。本篇进入多模态的听觉维度音频理解。人类感知世界有三大通道:视觉(看)、听觉(听)、语言(读/说)。前六篇我们覆盖了视觉和语言,本篇补上听觉——音频是全模态 AI 的最后一块拼图。音频理解不只是"语音识别"——它包含三个独立维度:语音(Speech,语言性音频,有语义)、声音(Sound,非语言性音频,无语义)、音乐(Music,艺术性音频,节奏+旋律+和声)。语音识别(ASR)把语音转文字,但丢失了情感、语气、说话人信息;声音理解需要识别环境声、事件声,没有语言语义可依赖;音乐理解需要理解节奏、旋律、和声的多层结构,主观性极强。从 Whisper 到 CLAP 到 Qwen-Audio/SALMONN,音频大模型经历了从"语音识别"到"音频-语言对齐"到"音频对话推理"的演进。今天,我们从音频信号基础、模型演进到多模态融合与未来,彻底掌握音频理解。


📑 文章目录


🔊 一、音频信号基础:语音·声音·音乐三维度

在这里插入图片描述

1.1 音频 ≠ 语音:三个独立维度

很多人把"音频理解"等同于"语音识别",这是一个误解。音频理解包含三个独立维度,每个维度有不同的特征和挑战:

语音(Speech):语言性音频,有明确的语义。语音的核心任务是 ASR(自动语音识别)——把语音转成文字。但 ASR 只提取了语义信息,丢失了情感(开心/悲伤)、语气(疑问/命令)、说话人(谁在说话)、语速/停顿(犹豫/自信)等副语言信息。

声音(Sound):非语言性音频,没有语言语义。声音包括环境声(雨声、风声、交通声)、事件声(玻璃碎裂、狗叫、门铃)、人声非语言(笑声、叹气、咳嗽)。声音理解的核心是音频事件检测(Audio Event Detection)和声景分类(Acoustic Scene Classification)。

音乐(Music):艺术性音频,有节奏、旋律、和声的多层结构。音乐理解包括音乐分类(流派/情绪/乐器)、音乐生成(作曲/编曲)、音乐信息检索(哼唱搜索/相似推荐)。音乐的主观性极强——同一首曲子,不同人有不同感受。

1.2 音频信号表示:从波形到频谱

音频信号是一维时序信号——随时间变化的振幅。但直接处理波形效果不好,通常转换为频域表示:

波形(Waveform):时域表示,横轴时间、纵轴振幅。直接处理波形需要极高的采样率(16kHz-48kHz),计算成本高。

频谱图(Spectrogram):频域表示,通过短时傅里叶变换(STFT)将波形转换为时频图——横轴时间、纵轴频率、颜色深浅表示能量。频谱图是音频处理的"图像"——可以用 2D CNN 或 ViT 处理。

Mel 频谱图(Mel-Spectrogram):模拟人耳感知的频谱图。人耳对低频敏感、高频不敏感,Mel 刻度对频率进行非线性变换,使得低频分辨率高、高频分辨率低。Mel 频谱图是音频深度学习最常用的输入表示。

import torchaudio
import torchaudio.transforms as T

# 加载音频
waveform, sample_rate = torchaudio.load("audio.wav")

# Mel频谱图
mel_transform = T.MelSpectrogram(
    sample_rate=sample_rate,
    n_fft=1024,
    hop_length=512,
    n_mels=80
)
mel_spec = mel_transform(waveform)  # [1, 80, T]

1.3 语音 vs 声音 vs 音乐:特征对比

维度 语音 声音 音乐
语义性 强(语言) 弱(无语言) 中(歌词有语义)
离散性 词/音素 连续频谱 音符离散
时序依赖 极强
多源混合 说话人分离 鸡尾酒会 多乐器
主观性
代表模型 Whisper CLAP MusicGen

语音的语义性最强——ASR 转文字后可以直接用 LLM 处理。声音没有语言语义——不能转文字,必须用专门的音频编码器。音乐介于两者之间——歌词有语义,但旋律/和声没有。


🤖 二、模型演进:从 Whisper 到音频 LLM

在这里插入图片描述

2.1 Whisper:语音识别的基石

Whisper 是 OpenAI 2022 年发布的通用语音识别模型,用 68 万小时多语言音频训练,覆盖 99 种语言。Whisper 的架构是 Encoder-Decoder Transformer——Encoder 编码音频 Mel 频谱图,Decoder 自回归生成文本。

Whisper 的核心能力

  • 多语言 ASR:99 种语言的语音识别,WER(词错率)在英语上低至 5%
  • 语音翻译:直接从非英语语音翻译为英语文本,无需先 ASR 再翻译
  • 语言识别:自动检测音频中的语言
  • 语音活动检测:检测音频中是否有人说话

Whisper 的局限

  • 只处理语音:不能理解环境声、音乐等非语音音频
  • 无对话能力:Whisper 是 ASR 模型,不是对话模型——只能转录,不能回答问题
  • 实时性:大模型(large)推理速度慢,需要蒸馏或加速
import whisper

# 加载模型
model = whisper.load_model("base")

# 语音识别
result = model.transcribe("audio.mp3")
print(result["text"])  # 转录文本
print(result["language"])  # 检测到的语言

# 语音翻译(非英语→英语)
result = model.transcribe("chinese_audio.mp3", task="translate")
print(result["text"])  # 英文翻译

2.2 CLAP:音频版 CLIP

CLAP(Contrastive Language-Audio Pre-training)是音频版的 CLIP——用对比学习实现音频-语言对齐。CLAP 的架构与 CLIP 完全对称:Audio Encoder + Text Encoder + 对比学习。

Audio Encoder:HTSAT(Hierarchical Token-Semantic Audio Transformer)或 PANNs(Pre-trained Audio Neural Networks)。HTSAT 将 Mel 频谱图切分为 Patch,用 Transformer 编码,输出音频向量。PANNs 用 CNN 处理频谱图,在 AudioSet 上预训练。

Text Encoder:与 CLIP 相同的 Transformer 架构,编码文本描述。

对比学习:与 CLIP 完全相同的 InfoNCE 损失——匹配的音频-文本对拉近,不匹配的推远。训练数据是大规模音频-文本对(如 AudioSet 的类别描述、LAION-Audio 的网络音频-文本对)。

CLAP 的核心能力

  • 零样本音频分类:与 CLIP 的零样本图像分类完全对称——"the sound of a dog barking"就是分类器
  • 音频-文本检索:以文搜音、以音搜文
  • 音频描述生成:结合 LLM,可以生成音频的自然语言描述
from laion_clap import CLAP_Module

# 加载模型
model = CLAP_Module()

# 零样本音频分类
audio_embeddings = model.get_audio_embedding(["audio.wav"])
text_embeddings = model.get_text_embedding([
    "the sound of a dog barking",
    "the sound of rain falling",
    "the sound of a car engine"
])
similarities = audio_embeddings @ text_embeddings.T

2.3 Qwen-Audio:音频对话 LLM

Qwen-Audio 是阿里云的音频大模型,将 Whisper Encoder 与 Qwen LLM 连接,实现音频对话。Qwen-Audio 的架构与 LLaVA 完全对称:Whisper Encoder + 投影层 + Qwen LLM

音频编码器:Whisper-large-v3 的 Encoder,冻结。输入 Mel 频谱图,输出音频特征序列。

投影层:将 Whisper Encoder 的音频特征映射到 Qwen LLM 的嵌入空间。Qwen-Audio 使用多层感知机(MLP)作为投影层。

LLM:Qwen-7B/72B,微调。音频 Token 和文本 Token 拼接后一起输入 LLM,LLM 生成文本回答。

Qwen-Audio 的核心能力

  • 语音识别+翻译:继承 Whisper 的 ASR 能力
  • 音频问答:对音频内容进行问答——“这段音频里说了什么?”“背景有什么声音?”
  • 音频描述:生成音频的自然语言描述
  • 情感分析:识别语音中的情感——说话人是开心还是悲伤?
  • 声音事件检测:识别环境声——“这段音频中有狗叫和汽车声”

2.4 SALMONN:音频推理 LLM

SALMONN(Speech Audio Language Music Open Neural Network)是清华大学的音频大模型,用 Whisper Encoder + BEATs(音频事件编码器)双编码器连接 Vicuna LLM,实现语音+声音的统一理解。

双音频编码器:Whisper Encoder 处理语音,BEATs 处理声音事件。两个编码器的输出通过 Q-Former 聚合后输入 LLM。这种双编码器设计让 SALMONN 同时理解语音和声音。

SALMONN 的核心能力

  • 语音+声音联合理解:同时处理语音和环境声——“背景有雨声,说话人在讨论天气”
  • 音频推理:基于音频内容进行推理——“为什么说话人语气焦虑?因为背景有警报声”
  • 跨模态推理:结合音频和文本进行推理

2.5 模型演进总结

模型 核心能力 音频类型 生成能力 LLM
Whisper 语音识别 语音 文本生成 无(自研Decoder)
CLAP 音频检索 语音+声音+音乐
Qwen-Audio 音频对话 语音+声音+音乐 对话生成 Qwen-LLM
SALMONN 音频推理 语音+声音 对话生成 Vicuna

演进路径:语音识别(Whisper) → 音频-语言对齐(CLAP) → 音频对话(Qwen-Audio) → 音频推理(SALMONN)。与视觉 LLM 的演进路径完全对称:图像分类(ViT) → 图文对齐(CLIP) → 视觉对话(LLaVA) → 视觉推理。


🔗 三、多模态融合与未来方向

在这里插入图片描述

3.1 音频+视觉+文本:三模态融合

音频理解的最大价值不在于单独处理音频,而在于与视觉和文本的多模态融合。现实世界的感知是多模态的——我们看视频时同时看画面和听声音,我们对话时同时听语音和看表情。

音视频融合:视频 = 图像 + 音频 + 时间。音视频融合的核心是音画同步——画面和声音在时间上对齐。例如,看到嘴型变化的同时听到语音,看到爆炸画面的同时听到爆炸声。音视频融合的应用包括:视频理解(画面+声音互补)、视听定位(听声辨位)、唇语识别(嘴型+语音)。

音频+文本融合:语音识别(ASR) + LLM 的组合是最常见的音频+文本融合。ASR 把语音转文字,LLM 处理文字生成回答。但这种"级联"方式丢失了副语言信息——更好的方式是端到端融合,让 LLM 直接处理音频特征。

三模态融合:文本+图像+音频的统一模型。GPT-4o 和 Gemini 已经实现了三模态融合——用户可以同时发送图片、音频和文本,模型统一理解并生成回答。开源模型方面,Qwen-VL-Audio 正在向这个方向努力。

3.2 应用场景

会议助手:语音识别 + 说话人分离 + 摘要生成。Whisper 做 ASR,LLM 做摘要和问答。关键挑战是说话人分离(谁说了什么)和长音频处理。

客服质检:语音识别 + 情感分析 + 合规检查。自动检测客服对话中的情绪波动和违规用语。关键挑战是领域适配和实时性。

音乐推荐:音频特征提取 + 用户偏好建模。CLAP 做音频-文本对齐,LLM 做推荐解释。关键挑战是主观性和多样性。

环境监测:声音事件检测 + 异常报警。PANNs/BEATs 做音频事件分类,LLM 做异常推理。关键挑战是低信噪比和罕见事件。

无障碍辅助:实时语音识别 + 手语翻译 + 语音合成。为听障人士提供实时字幕,为视障人士提供环境声描述。

3.3 挑战与未来

音频编码统一:当前语音(Whisper)、声音(CLAP/PANNs)、音乐(MusicGen)使用不同的编码器——未来需要一个统一音频编码器,像 ViT 统一视觉编码一样统一音频编码。

实时音频理解:流式处理 + 低延迟——会议/客服/同传场景需要实时理解。Whisper 的 streaming 模式和 Qwen-Audio 的流式推理正在解决这个问题。

音频+视觉深度对齐:当前音视频融合大多是"各自编码后拼接"——未来需要更深度的对齐,如音画同步、视听定位、跨模态注意力。

全模态大模型:文本+图像+音频+视频+3D 的统一模型。GPT-4o/Gemini 已经开始,开源模型正在追赶。

情感计算:语音情感 + 面部表情 + 文本情感的联合理解。情感是跨模态的——同一个人说"我没事",语音可能透露悲伤,面部可能显示勉强微笑。

音频 Agent:听声音 → 推理 → 行动。例如,听到火灾警报 → 识别警报类型 → 查询应急预案 → 通知相关人员。


多模态实战系列进度

篇号 主题 核心内容 状态
01 CLIP原理 对比学习/双编码器/零样本迁移
02 BLIP-2 Q-Former/视觉-语言桥接/高效预训练
03 LLaVA 视觉指令微调/多模态对话/视觉LLM
04 图文对齐 全局→区域→像素对齐演进
05 多模态RAG 图文混合检索/知识增强
06 视频理解 时序建模/长视频/视频QA
07 音频理解(本文) 语音/声音/音乐/音频LLM
08 工业应用 落地实战/端侧部署/业务集成 ⏳ 下一篇

一句话总结

音频理解三大维度:音频信号基础(音频≠语音三个独立维度——语音有语义ASR转文字但丢失情感语气/声音无语义需专门音频编码器/音乐有节奏旋律和声主观性强。音频信号表示——波形→STFT频谱图→Mel频谱图模拟人耳感知。语音vs声音vs音乐=语义性强/弱/中离散性强/弱/中时序依赖强/中/极强。音频理解的核心=语音是入口声音和音乐是完整音频理解的必要补充)、模型演进(Whisper——68万小时多语言训练99种语言ASR+翻译+语言识别/局限=只处理语音无对话能力。CLAP——音频版CLIP对比学习实现音频-语言对齐/零样本音频分类+音频-文本检索。Qwen-Audio——Whisper Encoder+投影+Qwen LLM音频对话/语音识别+音频问答+情感分析+声音事件检测。SALMONN——Whisper+BEATs双编码器+Vicuna LLM/语音+声音联合理解+音频推理。演进=语音识别→音频-语言对齐→音频对话→音频推理与视觉LLM演进完全对称)、多模态融合与未来(音视频融合——音画同步视听定位唇语识别。音频+文本融合——ASR+LLM级联vs端到端。三模态融合——文本+图像+音频统一GPT-4o/Gemini已开始。应用=会议助手/客服质检/音乐推荐/环境监测/无障碍辅助。挑战=音频编码统一/实时理解/音视深度对齐/全模态大模型/情感计算/音频Agent。音频理解的终极目标=让AI不仅能看能读还能听全模态理解)。


参考链接

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐