【AIGC面试面经第八期】AI多模态理论基础高频考点

骑着拖拉机去旅行

396人浏览 · 2026-06-07 18:21:26

骑着拖拉机去旅行 · 2026-06-07 18:21:26 发布

1.介绍一下多模态与语言大模型的区别

面试问题-多模态大模型与LLM在架构上有哪些关键差异？
面试问题-多模态模型的训练数据与LLM有什么本质不同？
面试问题-多模态模型与LLM在应用能力边界上有何差异？

2.介绍一下多模态词嵌入的定义

面试问题-多模态词嵌入相比传统词嵌入的本质区别是什么？
面试问题-多模态词嵌入需要满足哪些核心条件？如何形式化描述？

3.介绍一下多模态中预训练和微调的区别

面试问题-多模态预训练阶段的核心目标与训练任务是什么？
面试问题-多模态微调阶段的核心目标与常用方法是什么？
面试问题-预训练与微调在通用性、成本、能力保持上有何关键权衡？

4.介绍一下多模态解决的代表性任务

面试问题-多模态任务可以如何整体分类？分类依据是什么？
面试问题-四类代表性任务各自的典型落地场景与技术特征是什么？

1.介绍一下多模态与语言大模型的区别

面试问题-多模态大模型与LLM在架构上有哪些关键差异？

难度评分：⭐⭐ (2/5) | 考察频率：⭐⭐⭐⭐ (4/5)

从本质上看，多模态大模型（MLLM）并非独立于语言大模型（LLM）的全新体系，而是在 LLM 基础上扩展了视觉、听觉等多模态感知能力。架构差异集中体现在两个层面。

模态边界不同。 LLM 仅接受文本输入并生成文本输出，GPT-3.5、LLaMA 3 均属此类；整体是一个纯粹的 Decoder-only Transformer，以 token 序列作为输入和输出。MLLM 则能够同时处理文本、图像、音频甚至视频——例如 LLaVA、Qwen-VL、BLIP-2 可以输入一张图并回答"这是什么"。

架构新增两个关键模块。 相比 LLM 的单一 Transformer 主干，MLLM 在输入端引入了两层额外组件：

模态编码器：例如 CLIP-ViT-L 将图像编码为 256 或 576 个 1024 维的视觉 token，Whisper 编码器将音频编码为 1500 个语音 token。
投影器（Projector）：负责将非文本模态的向量映射到 LLM 的文本嵌入空间。例如 LLaVA-1.5 采用两层 GELU-MLP，将 CLIP-ViT-L 的 1024 维输出投射到 LLaMA-7B 的 4096 维隐藏空间。

LLM 基座在训练时可以冻结（LLaVA 1.0 阶段一即冻结）、也可以参与联合微调（LLaVA 1.5 阶段二解冻 LLM）。三段式"编码器 → 投影器 → LLM"已成为当前 VLM 的事实标准架构。

LLM 与 MLLM 架构对照：

维度	LLM	MLLM
输入模态	仅文本	文本 + 图像 + 视频 + 音频
输出模态	文本	文本（部分支持图/音/视频生成）
主干结构	Decoder-only Transformer	模态编码器 + 投影器 + LLM 主干
关键新增模块	无	视觉编码器（CLIP-ViT、SigLIP）+ 音频编码器（Whisper、Mimi）+ 投影器（MLP、Q-Former、Pixel Shuffle）
输入 token 形式	文本 token	文本 token + 模态 token（拼接为统一序列）
代表模型	GPT-5、DeepSeek-V3、LLaMA 3、Qwen3.6	Qwen3-VL-235B-A22B-Thinking、InternVL3.5-241B-A28B、Gemini 3.5 Flash、LLaVA

面试问题-多模态模型的训练数据与LLM有什么本质不同？

难度评分：⭐⭐⭐ (3/5) | 考察频率：⭐⭐⭐⭐ (4/5)

LLM 与 MLLM 的数据差异不仅体现在"多了一种模态"，而是体现在"数据形态"与"训练组合比例"两个层面。

LLM 的数据形态是纯文本序列。 预训练依赖书籍、网页、论文等海量纯文本语料，规模通常达万亿 token 级别——例如 LLaMA 2 使用 2 万亿 token、Common Crawl + C4 + RedPajama 等是典型组合，数据本身即标签（next-token prediction）。

MLLM 的数据形态是跨模态配对数据。 核心训练数据是"模态 A + 模态 B"的配对，典型例子：

图文对：LAION-5B 包含约 58 亿组图文配对、LAION-COCO 6 亿组、CC12M 1200 万组，主要通过互联网爬取 alt-text 获得，标注质量参差不齐但规模庞大。
视频-字幕对：WebVid-10M 等。
指令微调数据：LLaVA-Instruct-150K、ShareGPT4V、ALLaVA-4V 等 GPT-4V 蒸馏生成的高质量对话数据，规模在 15万~500万条之间。

关键工程细节是数据配比。 多模态训练通常不会只用图文对，而是以一定比例（常见 10%~30%）混入纯文本数据，以防止 LLM 基座的语言能力在多模态训练过程中发生退化——这一现象在 LLaVA 1.0 的早期实验中被明确观察到，Qwen-VL 训练配方中也专门保留了纯文本比例。数据质量与配比的权衡，是多模态训练最关键的工程点之一。

面试问题-多模态模型与LLM在应用能力边界上有何差异？

难度评分：⭐⭐ (2/5) | 考察频率：⭐⭐⭐ (3/5)

两者在应用能力上的差异可以用一句话概括：LLM 覆盖"语言相关任务"，MLLM 覆盖"需要跨模态信息整合的任务"，但后者的覆盖是"上界扩展"，并不代表单点性能全面超越专家模型。

LLM 的能力核心是语言任务。 文本生成、代码编写、文本摘要、翻译、对话等，代表模型包括 GPT-4、Claude、DeepSeek-V3。这些任务的共性是"输入与输出都是文本序列"。

MLLM 的能力扩展到跨模态场景。 典型落地包括：

以图搜物：电商平台的"拍照搜商品"，需要同时理解图像语义和商品库文本描述。
医学影像辅助诊断：结合 CT/MRI 图像与病历文本生成诊断建议，代表如 Med-PaLM M。
短视频内容合规审核：综合画面、配文、语音进行多模态违规判断。
文档/OCR 理解：解析财报表格、流程图、发票等富结构文档，代表如 GPT-5、InternVL3.5、Qwen3-VL。

值得澄清的两个常见误解：

"MLLM 一定比 LLM 强"是错的。 在纯文本任务上，MLLM 通常会比同规模 LLM 稍弱，因为一部分模型容量被视觉对齐占用。这也是为何 GPT-4o 在纯文本榜单上与 GPT-4 Turbo 相近而非显著超越。
"MLLM 能替代所有视觉专家模型"也是错的。 在 OCR、细粒度分类、目标检测等单点任务上，通用 MLLM 通常比不过专用模型（如 PaddleOCR、EVA-CLIP 下游微调模型）。MLLM 的真正价值在于综合推理能力——需要"看懂图像 + 理解问题 + 结合常识生成答案"时才不可替代。

答案链接： https://github.com/WeThinkIn/AIGC-Interview-Book
在这里插入图片描述