1.介绍一下多模态与语言大模型的区别

面试问题-多模态大模型与LLM在架构上有哪些关键差异?
面试问题-多模态模型的训练数据与LLM有什么本质不同?
面试问题-多模态模型与LLM在应用能力边界上有何差异?

2.介绍一下多模态词嵌入的定义

面试问题-多模态词嵌入相比传统词嵌入的本质区别是什么?
面试问题-多模态词嵌入需要满足哪些核心条件?如何形式化描述?

3.介绍一下多模态中预训练和微调的区别

面试问题-多模态预训练阶段的核心目标与训练任务是什么?
面试问题-多模态微调阶段的核心目标与常用方法是什么?
面试问题-预训练与微调在通用性、成本、能力保持上有何关键权衡?

4.介绍一下多模态解决的代表性任务

面试问题-多模态任务可以如何整体分类?分类依据是什么?
面试问题-四类代表性任务各自的典型落地场景与技术特征是什么?

1.介绍一下多模态与语言大模型的区别

面试问题-多模态大模型与LLM在架构上有哪些关键差异?

难度评分:⭐⭐ (2/5) | 考察频率:⭐⭐⭐⭐ (4/5)

从本质上看,多模态大模型(MLLM)并非独立于语言大模型(LLM)的全新体系,而是在 LLM 基础上扩展了视觉、听觉等多模态感知能力。架构差异集中体现在两个层面。

模态边界不同。 LLM 仅接受文本输入并生成文本输出,GPT-3.5、LLaMA 3 均属此类;整体是一个纯粹的 Decoder-only Transformer,以 token 序列作为输入和输出。MLLM 则能够同时处理文本、图像、音频甚至视频——例如 LLaVA、Qwen-VL、BLIP-2 可以输入一张图并回答"这是什么"。

架构新增两个关键模块。 相比 LLM 的单一 Transformer 主干,MLLM 在输入端引入了两层额外组件:

  • 模态编码器:例如 CLIP-ViT-L 将图像编码为 256 或 576 个 1024 维的视觉 token,Whisper 编码器将音频编码为 1500 个语音 token。
  • 投影器(Projector):负责将非文本模态的向量映射到 LLM 的文本嵌入空间。例如 LLaVA-1.5 采用两层 GELU-MLP,将 CLIP-ViT-L 的 1024 维输出投射到 LLaMA-7B 的 4096 维隐藏空间。

LLM 基座在训练时可以冻结(LLaVA 1.0 阶段一即冻结)、也可以参与联合微调(LLaVA 1.5 阶段二解冻 LLM)。三段式"编码器 → 投影器 → LLM"已成为当前 VLM 的事实标准架构。

LLM 与 MLLM 架构对照:

维度 LLM MLLM
输入模态 仅文本 文本 + 图像 + 视频 + 音频
输出模态 文本 文本(部分支持图/音/视频生成)
主干结构 Decoder-only Transformer 模态编码器 + 投影器 + LLM 主干
关键新增模块 视觉编码器(CLIP-ViT、SigLIP)+ 音频编码器(Whisper、Mimi)+ 投影器(MLP、Q-Former、Pixel Shuffle)
输入 token 形式 文本 token 文本 token + 模态 token(拼接为统一序列)
代表模型 GPT-5、DeepSeek-V3、LLaMA 3、Qwen3.6 Qwen3-VL-235B-A22B-Thinking、InternVL3.5-241B-A28B、Gemini 3.5 Flash、LLaVA

面试问题-多模态模型的训练数据与LLM有什么本质不同?

难度评分:⭐⭐⭐ (3/5) | 考察频率:⭐⭐⭐⭐ (4/5)

LLM 与 MLLM 的数据差异不仅体现在"多了一种模态",而是体现在"数据形态"与"训练组合比例"两个层面。

LLM 的数据形态是纯文本序列。 预训练依赖书籍、网页、论文等海量纯文本语料,规模通常达万亿 token 级别——例如 LLaMA 2 使用 2 万亿 token、Common Crawl + C4 + RedPajama 等是典型组合,数据本身即标签(next-token prediction)。

MLLM 的数据形态是跨模态配对数据。 核心训练数据是"模态 A + 模态 B"的配对,典型例子:

  • 图文对:LAION-5B 包含约 58 亿组图文配对、LAION-COCO 6 亿组、CC12M 1200 万组,主要通过互联网爬取 alt-text 获得,标注质量参差不齐但规模庞大
  • 视频-字幕对:WebVid-10M 等。
  • 指令微调数据:LLaVA-Instruct-150K、ShareGPT4V、ALLaVA-4V 等 GPT-4V 蒸馏生成的高质量对话数据,规模在 15万~500万条之间。

关键工程细节是数据配比。 多模态训练通常不会只用图文对,而是以一定比例(常见 10%~30%)混入纯文本数据,以防止 LLM 基座的语言能力在多模态训练过程中发生退化——这一现象在 LLaVA 1.0 的早期实验中被明确观察到,Qwen-VL 训练配方中也专门保留了纯文本比例。数据质量与配比的权衡,是多模态训练最关键的工程点之一。


面试问题-多模态模型与LLM在应用能力边界上有何差异?

难度评分:⭐⭐ (2/5) | 考察频率:⭐⭐⭐ (3/5)

两者在应用能力上的差异可以用一句话概括:LLM 覆盖"语言相关任务",MLLM 覆盖"需要跨模态信息整合的任务",但后者的覆盖是"上界扩展",并不代表单点性能全面超越专家模型

LLM 的能力核心是语言任务。 文本生成、代码编写、文本摘要、翻译、对话等,代表模型包括 GPT-4、Claude、DeepSeek-V3。这些任务的共性是"输入与输出都是文本序列"。

MLLM 的能力扩展到跨模态场景。 典型落地包括:

  • 以图搜物:电商平台的"拍照搜商品",需要同时理解图像语义和商品库文本描述。
  • 医学影像辅助诊断:结合 CT/MRI 图像与病历文本生成诊断建议,代表如 Med-PaLM M。
  • 短视频内容合规审核:综合画面、配文、语音进行多模态违规判断。
  • 文档/OCR 理解:解析财报表格、流程图、发票等富结构文档,代表如 GPT-5、InternVL3.5、Qwen3-VL。

值得澄清的两个常见误解:

  • "MLLM 一定比 LLM 强"是错的。 在纯文本任务上,MLLM 通常会比同规模 LLM 稍弱,因为一部分模型容量被视觉对齐占用。这也是为何 GPT-4o 在纯文本榜单上与 GPT-4 Turbo 相近而非显著超越。
  • "MLLM 能替代所有视觉专家模型"也是错的。 在 OCR、细粒度分类、目标检测等单点任务上,通用 MLLM 通常比不过专用模型(如 PaddleOCR、EVA-CLIP 下游微调模型)。MLLM 的真正价值在于综合推理能力——需要"看懂图像 + 理解问题 + 结合常识生成答案"时才不可替代。

答案链接: https://github.com/WeThinkIn/AIGC-Interview-Book
在这里插入图片描述
在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐