【多模态大模型系列·第 01 篇】全景图：从 CLIP 到 GPT-5——多模态大模型的前世今生

拾-光

98人浏览 · 2026-05-25 16:00:00

拾-光 · 2026-05-25 16:00:00 发布

【多模态大模型系列·第 01 篇】全景图：从 CLIP 到 GPT-5——多模态大模型的前世今生

系列前言：2023 年 GPT-4V 发布，AI 第一次真正"看见"了世界——它能读懂图表、识别细节、理解幽默、解释梗图。2025 年 GPT-5 发布，AI 不仅能看，还能听、能说、能画——文本+图像+音频+视频全模态统一理解与生成。多模态大模型（Multimodal Large Language Model, MLLM）正在重新定义 AI 的能力边界：从"只能读文字的盲人学者"到"能看能听能说的全知学者"。但多模态不是简单地把图像"喂"给 LLM——它需要解决视觉编码（怎么把图像变成 Token）、跨模态对齐（怎么让视觉和语言在同一个空间"对话"）、多模态融合（怎么让 LLM 理解视觉信息）三大核心问题。本系列将从全景图出发，用六篇文章覆盖多模态大模型的演进历史、核心架构、训练对齐、推理部署、应用 Agent、未来挑战。这是第一篇：全景图——从 CLIP 到 GPT-5，多模态大模型的前世今生。

📜 一、四代演进：从双塔对齐到全模态统一

在这里插入图片描述

1.1 第一代：双塔对齐时代（2021-2022）——“让视觉和语言在同一个空间对话”

多模态大模型的起点是 CLIP（Contrastive Language-Image Pre-training），OpenAI 2021 年发布的模型。CLIP 的核心思想：对比学习——用 4 亿个图文对训练，让图像编码器和文本编码器在同一个向量空间中对齐。一张猫的图片和"一只橘猫"的文本在向量空间中距离很近，和"一辆红色汽车"距离很远。

CLIP 的架构是"双塔"——图像塔（ViT）提取视觉特征，文本塔（Transformer）提取文本特征，对比损失让两者对齐。这种架构简单高效，但有一个根本局限：只能做检索和分类，不能做生成和理解。CLIP 能判断"这张图是猫还是狗"，但不能回答"这只猫在做什么"。

CLIP 的历史意义：它证明了视觉和语言可以在同一个空间对齐——这是多模态大模型的理论基础。没有 CLIP 的对齐，就没有后来 LLaVA 的融合、GPT-4V 的理解。

同期重要模型：ALIGN（Google，10 亿图文对）、Florence（Microsoft，统一视觉基础模型）、ViLT（无需卷积的视觉语言 Transformer）。这些模型都在探索视觉-语言对齐，但都受限于"双塔"架构——只能对齐，不能深度融合。

1.2 第二代：桥接融合时代（2023）——“把视觉翻译给 LLM”

2023 年是多模态大模型的爆发年。核心突破：把预训练的视觉编码器和预训练的 LLM 连接起来，让 LLM 能"看懂"图像。

LLaVA（Large Language-and-Vision Assistant）是这一代的标志性模型。它的架构极其简洁：CLIP ViT 编码器 + MLP 投影层 + LLaMA LLM。图像经过 ViT 编码后，通过 MLP 投影层"翻译"成 LLM 能理解的视觉 Token，和文本 Token 一起输入 LLM。LLaVA 的核心创新：用 GPT-4 生成多模态指令数据（图像+问题+回答），然后微调投影层和 LLM，让模型学会视觉问答。

LLaVA 证明了：不需要从头训练，只需要把视觉"翻译"给 LLM，就能实现强大的多模态理解。这种"桥接"范式迅速成为主流——BLIP-2 的 Q-Former、Flamingo 的 Perceiver Resampler、MiniGPT-4 的线性投影，都是这个思路的变体。

BLIP-2 的创新：Q-Former（Querying Transformer）——用一组可学习的 Query 向量从冻结的视觉编码器中提取信息，比简单的 MLP 投影更灵活。Q-Former 可以控制提取多少视觉信息、提取哪些层面的信息。

Flamingo（DeepMind）的创新：Perceiver Resampler——将任意数量的视觉特征压缩为固定数量的视觉 Token，支持多图像输入和交错图文。Flamingo 还引入了交错注意力——LLM 的每一层都可以关注视觉 Token，实现更深的视觉-语言融合。

1.3 第三代：原生多模态时代（2024-2025）——“从训练开始就是多模态”

桥接融合的局限：视觉编码器和 LLM 是分开预训练的，对齐不够深——模型能识别图像中的物体，但难以理解空间关系、因果关系、时序关系。就像一个翻译官在帮你翻译——翻译再好，也不如母语者理解深刻。

GPT-4V（2023.9）开启了原生多模态时代——OpenAI 没有透露架构细节，但从能力表现看，GPT-4V 不是简单的"视觉编码器+LLM"，而是从训练开始就同时处理文本和图像。GPT-4V 能理解空间关系（“左边的球比右边的大”）、因果关系（“因为下雨所以地湿”）、时序关系（“先发生A再发生B”），这些是桥接融合模型难以做到的。

Gemini（Google，2023.12）是第一个明确宣称"原生多模态"的模型——从预训练开始就同时处理文本、图像、音频、视频、代码。Gemini 的架构不是"视觉编码器+LLM"，而是统一的 Transformer 同时处理所有模态。这种架构的优势：模态之间的对齐更深，理解更自然。

LLaVA-NeXT / LLaVA-OneVision（2024）在开源社区持续进化——动态分辨率支持高分辨率图像、视频理解、多图像推理。LLaVA 系列证明了开源社区也能做出接近闭源水平的多模态模型。

InternVL 2.5（上海 AI Lab，2024-2025）——开源多模态模型的新标杆，InternViT 视觉编码器 + Qwen2 LLM，在多个基准测试上接近 GPT-4V 水平。

1.4 第四代：全模态统一时代（2025-至今）——“文本+图像+音频+视频统一理解与生成”

GPT-5（OpenAI，2025.8）标志着全模态统一时代的到来——不仅能理解文本、图像、音频、视频，还能生成所有模态。GPT-5 的核心突破：统一理解与生成——同一个模型既能看图说话，也能根据描述画图；既能听音乐分析，也能根据描述作曲。

Gemini 2.5（Google，2025）——深度集成 Google 生态（搜索/地图/YouTube/Gmail），原生支持超长视频理解（1 小时+）、实时语音交互、代码执行。

Claude 4（Anthropic，2025）——在视觉理解+代码生成+安全对齐方面持续领先，特别擅长理解 UI 界面、图表、文档。

全模态统一的核心思想：不再区分"理解"和"生成"，不再区分"输入"和"输出"——所有模态在同一个模型中统一处理。这是多模态大模型的终极形态。

四代演进对比

维度	双塔对齐	桥接融合	原生多模态	全模态
模态	图+文	图+文	图+文+文档	全模态
理解	分类	VQA	深度理解	全理解
生成	无	仅文本	文本+图	全生成
代表	CLIP	LLaVA	GPT-4V	GPT-5
核心突破	图文对齐	LLM融合	原生理解	全模态统一

🏗️ 二、核心架构：感知→对齐→推理

在这里插入图片描述

2.1 三大组件

多模态大模型的核心架构可以抽象为三个组件：视觉编码器（感知——把图像变成特征）、投影层（对齐——把视觉特征翻译成 LLM 能理解的 Token）、LLM（推理——理解视觉+文本，生成回答）。

视觉编码器——“眼睛”。负责把图像变成视觉特征向量。主流选择：CLIP ViT（Vision Transformer）——在数十亿图文对上预训练的视觉编码器，能提取丰富的语义特征。ViT 的工作方式：把图像切成 16×16 的 Patch，每个 Patch 经过线性投影变成一个 Token，然后通过多层 Transformer 提取特征。LLaVA 使用 ViT-L/14（336×336 输入），InternVL 使用 InternViT-6B（448×448 输入），分辨率越高能看到的细节越多。

投影层——“翻译官”。负责把视觉特征翻译成 LLM 能理解的 Token。主流方案：MLP（LLaVA，最简单）、Q-Former（BLIP-2，更灵活）、Perceiver Resampler（Flamingo，支持变长输入）。投影层的核心挑战：维度对齐——视觉编码器输出 1024 维向量，LLM 期望 4096 维输入，投影层需要把 1024→4096。语义对齐——视觉特征是"像素级"的，LLM 期望"概念级"的，投影层需要把"像素"翻译成"概念"。

LLM——“大脑”。负责理解视觉 Token + 文本 Token，生成回答。主流选择：LLaMA 系列（开源）、Qwen 系列（中文优化）、GPT 系列（闭源最强）。LLM 的核心能力：推理——根据视觉信息进行逻辑推理、因果分析、时序理解。

2.2 数据流：图像→视觉Token→LLM→文本

多模态大模型的数据流：图像 → ViT 编码 → 视觉特征 → 投影层 → 视觉 Token → LLM（和文本 Token 一起）→ 文本输出。

以 LLaVA 为例：用户输入一张猫的图片和问题"这只猫在做什么？“——图像经过 CLIP ViT 编码为 576 个视觉特征向量（24×24 个 Patch），经过 MLP 投影层变成 576 个视觉 Token，和文本 Token 拼接后输入 LLaMA，LLaMA 输出"这只橘猫正趴在窗台上晒太阳，看起来很惬意。”

2.3 四种架构对比

架构	视觉编码器	投影层	LLM	代表模型
LLaVA架构	CLIP ViT-L	MLP	LLaMA	LLaVA-1.5/NeXT
BLIP-2架构	ViT-L/E	Q-Former	任意LLM	InstructBLIP
Flamingo架构	ViT-L	Perceiver Resampler	Chinchilla	OpenFlamingo
原生多模态	内置	无需	统一架构	GPT-4V/Gemini

🗺️ 三、模型版图与系列路线图

在这里插入图片描述

3.1 三大阵营

开源阵营——可本地部署，社区驱动。LLaVA-NeXT（学术界标杆）、InternVL 2.5（开源最强）、Qwen2-VL（阿里开源，中文最强）、CogVLM（智谱 AI，视觉专家模块）、Idefics3（HuggingFace，Flamingo 风格）。开源模型的优势：可定制、可本地部署、可研究；劣势：性能略逊闭源。

API 阵营——最强性能，API 调用。GPT-5（OpenAI，全模态理解+生成）、Gemini 2.5（Google，原生多模态+深度集成）、Claude 4（Anthropic，视觉+代码+安全）。API 模型的优势：性能最强、功能最全；劣势：不可本地部署、成本高、数据隐私。

国产阵营——中文优化，本地化部署。Qwen2.5-VL（阿里，中文最强开源）、InternVL 2.5（上海 AI Lab，学术最强）、CogVLM2（智谱 AI）、DeepSeek-VL（深度求索，MoE 架构）、Step-1V（阶跃星辰）。国产模型的优势：中文优化、合规、可本地部署；劣势：英文/多语言略弱。

3.2 系列路线图

篇号	核心问题	核心洞察	关键概念
01	多模态从哪来？	从对齐到融合到原生到统一	四代演进/三大组件
02	多模态怎么工作？	感知→对齐→推理	ViT/投影层/融合策略
03	怎么训练？	对齐是核心难题	预训练/微调/RLHF
04	怎么部署？	视觉Token是瓶颈	量化/缓存/服务
05	怎么用？	多模态=AI的眼睛	VQA/OCR/Agent
06	去哪？	世界模型是终局	具身智能/AGI

一句话总结

多模态大模型全景图：四代演进——双塔对齐时代（2021-2022，CLIP/ALIGN/Florence，对比学习让视觉和语言在同一个向量空间对齐，双塔架构只能检索分类不能生成理解，CLIP的历史意义=证明视觉和语言可以对齐这是多模态的理论基础）→ 桥接融合时代（2023，LLaVA/BLIP-2/Flamingo/MiniGPT-4，把预训练视觉编码器和LLM连接起来MLP/Q-Former/Perceiver Resampler投影层，LLaVA核心创新=用GPT-4生成多模态指令数据微调投影层+LLM，证明了不需要从头训练只需把视觉翻译给LLM）→ 原生多模态时代（2024-2025，GPT-4V/Gemini/LLaVA-NeXT/InternVL，从训练开始就同时处理文本和图像，统一Transformer同时处理所有模态对齐更深理解更自然）→ 全模态统一时代（2025-至今，GPT-5/Gemini2.5/Claude4，文本+图像+音频+视频统一理解与生成，不再区分理解和生成不再区分输入和输出）。核心架构三大组件——视觉编码器（CLIP ViT把图像切成Patch提取语义特征）、投影层（MLP/Q-Former/Perceiver Resampler把视觉特征翻译成LLM能理解的Token维度对齐+语义对齐）、LLM（LLaMA/Qwen/GPT理解视觉+文本Token生成回答）。三大阵营——开源（LLaVA/InternVL/Qwen-VL可定制可本地）/API（GPT-5/Gemini/Claude性能最强）/国产（Qwen/InternVL/CogVLM中文优化合规）。多模态的终极目标=让AI像人一样感知和理解世界。

参考链接：

系列预告：第 02 篇将深入核心架构——视觉编码器·投影层·多模态融合策略，多模态怎么工作。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从Prompt到Skill：AI软件工程的范式跃迁

AtomGit开源社区

质性研究导论与方法论（二）：质性研究设计不再迷茫，结构、互动与方法论协同性

质性研究设计常被认为缺乏量化研究的标准化流程，但其核心在于灵活性与内在逻辑的协同性。文章指出质性研究并非"无结构"，而是由研究问题、哲学假设、方法取向等要素相互关联构成动态框架。关键特征包括：1）互动式设计允许研究问题随数据收集演进；2）方法论协同性确保研究目的、方法与分析策略高度一致；3）研究者反思性贯穿全程。文章还提出AI工具可辅助检查设计逻辑、优化访谈提纲及同步数据分析。