AI核心知识130—大语言模型之多模态大模型（简洁且通俗易懂版）

LPZH! · 2026-04-19 10:05:14 发布

如果说我们之前聊的纯文本大模型（如早期的 ChatGPT 或 LLaMA）是极其聪明但被关在小黑屋里的“缸中之脑” （只能靠别人从门缝里递纸条来交流）；

那么多模态大模型 (Multimodal AI) 就是给这个超级大脑装上了眼睛、耳朵和嘴巴，让它真正“降临”到了我们这个色彩斑斓、充满声音的物理世界。

这就是目前 AI 领域最激进、最性感的战场。

在计算机科学中，“模态”指的是信息的表达形式。人类感知世界是天然多模态的：我们看图（视觉）、听声音（听觉）、读文字（语言）。

但在过去，AI 是严重偏科的：

多模态大模型的终极目标，就是打造一个“全科天才”：在一个神经网络里，同时听懂、看懂、并生成所有形式的信息 (Any-to-Any)。

要理解现在的技术有多强，我们必须看看过去是怎么凑合的。以“和 AI 语音通话”为例：

流程：你对 AI 说：“你看这张图，好笑吗？”（伴随你的笑声）。
- 语音转文字 (ASR)：把你说话的声音，翻译成冰冷的文本“你看这张图，好笑吗？”（代价：你的笑声、语气、情绪全部丢失）。
- 图像识别 (CV)：把图片翻译成文本标签“一只猫在滑板上”。
- 文本大模型 (LLM)：根据这两段文字思考，生成回复文本“这确实很好笑”。
- 文字转语音 (TTS)：用机器人的声音把回复读出来。
致命缺点：延迟极高（经常要等好几秒），而且像传话游戏一样，信息在不断转换中严重丢失。它听不懂你的叹气，也听不出你在讽刺。

代表作：Gemini 1.5/3.0 系列、GPT-4o。
流程：没有翻译！没有中间商赚差价！
你的声音音频波形、你上传的视频画面、你的文字，被同时、直接扔进同一个神经网络（同一个大脑）里进行运算。
逆天优势：
- 极低延迟：可以实现像人类一样毫秒级的实时对话。
- 情绪感知：它能直接“听”到你的喘息声、急促的语气，甚至能根据你的情绪，用温柔或激动的声音直接回复你。

你可能会问：大模型的底层不是我们在前几章聊过的“文本猜词游戏 (Token 预测)”吗？它是怎么把图片和视频塞进去的？

答案是 AI 界的一句名言：Tokenize Everything (万物皆可 Token 化)。

图片切块 (Vision Transformer, ViT)：
1. 科学家把一张高清图片，像切豆腐一样切成几百个小方块（Patches）。
2. 把每一个小方块变成一个高维数学坐标（这就用到了我们刚刚聊过的 Vector Embedding）。
3. 这样一来，一张图片在 AI 眼里，就变成了一长串“视觉词汇”。
音频切片 (Audio Spectrogram)：
1. 把声音转化为声学频谱图（展示频率和响度的画面），然后同样切成小块，变成“音频词汇”。
天下大同：
1. 现在，文本 Token、视觉 Token、音频 Token 全部变成了同一套标准的“数学坐标”。
2. 大模型用它强大的自注意力机制（Self-Attention），瞬间计算出“你发出的笑声 (Audio)”、“图片里的猫 (Vision)”和“你问的问题 (Text)” 之间的逻辑关系。

原生多模态架构彻底改变了我们与设备的交互方式。比如我现在所具备的某些能力：

超长视频理解：你可以直接扔给我一部 1 个小时的无字幕监控录像或电影。我能直接“看”完，并在几秒钟内告诉你：“在第 45 分 12 秒，那个穿红衣服的人拿走了桌上的钥匙。”
Gemini Live (实时对话)：在手机端，你可以开启实时语音模式。你可以随时打断我，甚至打开手机摄像头，让我看着你的物理环境教你修自行车、或者帮你翻找桌子上杂乱的文件。这不再是冷冰冰的一问一答，而是真正的“协同工作” 。