【多模态大模型系列·第 01 篇】全景图:从 CLIP 到 GPT-5——多模态大模型的前世今生

系列前言:2023 年 GPT-4V 发布,AI 第一次真正"看见"了世界——它能读懂图表、识别细节、理解幽默、解释梗图。2025 年 GPT-5 发布,AI 不仅能看,还能听、能说、能画——文本+图像+音频+视频全模态统一理解与生成。多模态大模型(Multimodal Large Language Model, MLLM)正在重新定义 AI 的能力边界:从"只能读文字的盲人学者"到"能看能听能说的全知学者"。但多模态不是简单地把图像"喂"给 LLM——它需要解决视觉编码(怎么把图像变成 Token)、跨模态对齐(怎么让视觉和语言在同一个空间"对话")、多模态融合(怎么让 LLM 理解视觉信息)三大核心问题。本系列将从全景图出发,用六篇文章覆盖多模态大模型的演进历史、核心架构、训练对齐、推理部署、应用 Agent、未来挑战。这是第一篇:全景图——从 CLIP 到 GPT-5,多模态大模型的前世今生。


📑 文章目录


📜 一、四代演进:从双塔对齐到全模态统一

在这里插入图片描述

1.1 第一代:双塔对齐时代(2021-2022)——“让视觉和语言在同一个空间对话”

多模态大模型的起点是 CLIP(Contrastive Language-Image Pre-training),OpenAI 2021 年发布的模型。CLIP 的核心思想:对比学习——用 4 亿个图文对训练,让图像编码器和文本编码器在同一个向量空间中对齐。一张猫的图片和"一只橘猫"的文本在向量空间中距离很近,和"一辆红色汽车"距离很远。

CLIP 的架构是"双塔"——图像塔(ViT)提取视觉特征,文本塔(Transformer)提取文本特征,对比损失让两者对齐。这种架构简单高效,但有一个根本局限:只能做检索和分类,不能做生成和理解。CLIP 能判断"这张图是猫还是狗",但不能回答"这只猫在做什么"。

CLIP 的历史意义:它证明了视觉和语言可以在同一个空间对齐——这是多模态大模型的理论基础。没有 CLIP 的对齐,就没有后来 LLaVA 的融合、GPT-4V 的理解。

同期重要模型:ALIGN(Google,10 亿图文对)、Florence(Microsoft,统一视觉基础模型)、ViLT(无需卷积的视觉语言 Transformer)。这些模型都在探索视觉-语言对齐,但都受限于"双塔"架构——只能对齐,不能深度融合。

1.2 第二代:桥接融合时代(2023)——“把视觉翻译给 LLM”

2023 年是多模态大模型的爆发年。核心突破:把预训练的视觉编码器和预训练的 LLM 连接起来,让 LLM 能"看懂"图像。

LLaVA(Large Language-and-Vision Assistant)是这一代的标志性模型。它的架构极其简洁:CLIP ViT 编码器 + MLP 投影层 + LLaMA LLM。图像经过 ViT 编码后,通过 MLP 投影层"翻译"成 LLM 能理解的视觉 Token,和文本 Token 一起输入 LLM。LLaVA 的核心创新:用 GPT-4 生成多模态指令数据(图像+问题+回答),然后微调投影层和 LLM,让模型学会视觉问答。

LLaVA 证明了:不需要从头训练,只需要把视觉"翻译"给 LLM,就能实现强大的多模态理解。这种"桥接"范式迅速成为主流——BLIP-2 的 Q-Former、Flamingo 的 Perceiver Resampler、MiniGPT-4 的线性投影,都是这个思路的变体。

BLIP-2 的创新:Q-Former(Querying Transformer)——用一组可学习的 Query 向量从冻结的视觉编码器中提取信息,比简单的 MLP 投影更灵活。Q-Former 可以控制提取多少视觉信息、提取哪些层面的信息。

Flamingo(DeepMind)的创新:Perceiver Resampler——将任意数量的视觉特征压缩为固定数量的视觉 Token,支持多图像输入和交错图文。Flamingo 还引入了交错注意力——LLM 的每一层都可以关注视觉 Token,实现更深的视觉-语言融合。

1.3 第三代:原生多模态时代(2024-2025)——“从训练开始就是多模态”

桥接融合的局限:视觉编码器和 LLM 是分开预训练的,对齐不够深——模型能识别图像中的物体,但难以理解空间关系、因果关系、时序关系。就像一个翻译官在帮你翻译——翻译再好,也不如母语者理解深刻。

GPT-4V(2023.9)开启了原生多模态时代——OpenAI 没有透露架构细节,但从能力表现看,GPT-4V 不是简单的"视觉编码器+LLM",而是从训练开始就同时处理文本和图像。GPT-4V 能理解空间关系(“左边的球比右边的大”)、因果关系(“因为下雨所以地湿”)、时序关系(“先发生A再发生B”),这些是桥接融合模型难以做到的。

Gemini(Google,2023.12)是第一个明确宣称"原生多模态"的模型——从预训练开始就同时处理文本、图像、音频、视频、代码。Gemini 的架构不是"视觉编码器+LLM",而是统一的 Transformer 同时处理所有模态。这种架构的优势:模态之间的对齐更深,理解更自然。

LLaVA-NeXT / LLaVA-OneVision(2024)在开源社区持续进化——动态分辨率支持高分辨率图像、视频理解、多图像推理。LLaVA 系列证明了开源社区也能做出接近闭源水平的多模态模型。

InternVL 2.5(上海 AI Lab,2024-2025)——开源多模态模型的新标杆,InternViT 视觉编码器 + Qwen2 LLM,在多个基准测试上接近 GPT-4V 水平。

1.4 第四代:全模态统一时代(2025-至今)——“文本+图像+音频+视频统一理解与生成”

GPT-5(OpenAI,2025.8)标志着全模态统一时代的到来——不仅能理解文本、图像、音频、视频,还能生成所有模态。GPT-5 的核心突破:统一理解与生成——同一个模型既能看图说话,也能根据描述画图;既能听音乐分析,也能根据描述作曲。

Gemini 2.5(Google,2025)——深度集成 Google 生态(搜索/地图/YouTube/Gmail),原生支持超长视频理解(1 小时+)、实时语音交互、代码执行。

Claude 4(Anthropic,2025)——在视觉理解+代码生成+安全对齐方面持续领先,特别擅长理解 UI 界面、图表、文档。

全模态统一的核心思想:不再区分"理解"和"生成",不再区分"输入"和"输出"——所有模态在同一个模型中统一处理。这是多模态大模型的终极形态。

四代演进对比

维度 双塔对齐 桥接融合 原生多模态 全模态
模态 图+文 图+文 图+文+文档 全模态
理解 分类 VQA 深度理解 全理解
生成 仅文本 文本+图 全生成
代表 CLIP LLaVA GPT-4V GPT-5
核心突破 图文对齐 LLM融合 原生理解 全模态统一

🏗️ 二、核心架构:感知→对齐→推理

在这里插入图片描述

2.1 三大组件

多模态大模型的核心架构可以抽象为三个组件:视觉编码器(感知——把图像变成特征)、投影层(对齐——把视觉特征翻译成 LLM 能理解的 Token)、LLM(推理——理解视觉+文本,生成回答)。

视觉编码器——“眼睛”。负责把图像变成视觉特征向量。主流选择:CLIP ViT(Vision Transformer)——在数十亿图文对上预训练的视觉编码器,能提取丰富的语义特征。ViT 的工作方式:把图像切成 16×16 的 Patch,每个 Patch 经过线性投影变成一个 Token,然后通过多层 Transformer 提取特征。LLaVA 使用 ViT-L/14(336×336 输入),InternVL 使用 InternViT-6B(448×448 输入),分辨率越高能看到的细节越多。

投影层——“翻译官”。负责把视觉特征翻译成 LLM 能理解的 Token。主流方案:MLP(LLaVA,最简单)、Q-Former(BLIP-2,更灵活)、Perceiver Resampler(Flamingo,支持变长输入)。投影层的核心挑战:维度对齐——视觉编码器输出 1024 维向量,LLM 期望 4096 维输入,投影层需要把 1024→4096。语义对齐——视觉特征是"像素级"的,LLM 期望"概念级"的,投影层需要把"像素"翻译成"概念"。

LLM——“大脑”。负责理解视觉 Token + 文本 Token,生成回答。主流选择:LLaMA 系列(开源)、Qwen 系列(中文优化)、GPT 系列(闭源最强)。LLM 的核心能力:推理——根据视觉信息进行逻辑推理、因果分析、时序理解。

2.2 数据流:图像→视觉Token→LLM→文本

多模态大模型的数据流:图像 → ViT 编码 → 视觉特征 → 投影层 → 视觉 Token → LLM(和文本 Token 一起)→ 文本输出

以 LLaVA 为例:用户输入一张猫的图片和问题"这只猫在做什么?“——图像经过 CLIP ViT 编码为 576 个视觉特征向量(24×24 个 Patch),经过 MLP 投影层变成 576 个视觉 Token,和文本 Token 拼接后输入 LLaMA,LLaMA 输出"这只橘猫正趴在窗台上晒太阳,看起来很惬意。”

2.3 四种架构对比

架构 视觉编码器 投影层 LLM 代表模型
LLaVA架构 CLIP ViT-L MLP LLaMA LLaVA-1.5/NeXT
BLIP-2架构 ViT-L/E Q-Former 任意LLM InstructBLIP
Flamingo架构 ViT-L Perceiver Resampler Chinchilla OpenFlamingo
原生多模态 内置 无需 统一架构 GPT-4V/Gemini

🗺️ 三、模型版图与系列路线图

在这里插入图片描述

3.1 三大阵营

开源阵营——可本地部署,社区驱动。LLaVA-NeXT(学术界标杆)、InternVL 2.5(开源最强)、Qwen2-VL(阿里开源,中文最强)、CogVLM(智谱 AI,视觉专家模块)、Idefics3(HuggingFace,Flamingo 风格)。开源模型的优势:可定制、可本地部署、可研究;劣势:性能略逊闭源。

API 阵营——最强性能,API 调用。GPT-5(OpenAI,全模态理解+生成)、Gemini 2.5(Google,原生多模态+深度集成)、Claude 4(Anthropic,视觉+代码+安全)。API 模型的优势:性能最强、功能最全;劣势:不可本地部署、成本高、数据隐私。

国产阵营——中文优化,本地化部署。Qwen2.5-VL(阿里,中文最强开源)、InternVL 2.5(上海 AI Lab,学术最强)、CogVLM2(智谱 AI)、DeepSeek-VL(深度求索,MoE 架构)、Step-1V(阶跃星辰)。国产模型的优势:中文优化、合规、可本地部署;劣势:英文/多语言略弱。

3.2 系列路线图

篇号 核心问题 核心洞察 关键概念
01 多模态从哪来? 从对齐到融合到原生到统一 四代演进/三大组件
02 多模态怎么工作? 感知→对齐→推理 ViT/投影层/融合策略
03 怎么训练? 对齐是核心难题 预训练/微调/RLHF
04 怎么部署? 视觉Token是瓶颈 量化/缓存/服务
05 怎么用? 多模态=AI的眼睛 VQA/OCR/Agent
06 去哪? 世界模型是终局 具身智能/AGI

一句话总结

多模态大模型全景图:四代演进——双塔对齐时代(2021-2022,CLIP/ALIGN/Florence,对比学习让视觉和语言在同一个向量空间对齐,双塔架构只能检索分类不能生成理解,CLIP的历史意义=证明视觉和语言可以对齐这是多模态的理论基础)→ 桥接融合时代(2023,LLaVA/BLIP-2/Flamingo/MiniGPT-4,把预训练视觉编码器和LLM连接起来MLP/Q-Former/Perceiver Resampler投影层,LLaVA核心创新=用GPT-4生成多模态指令数据微调投影层+LLM,证明了不需要从头训练只需把视觉翻译给LLM)→ 原生多模态时代(2024-2025,GPT-4V/Gemini/LLaVA-NeXT/InternVL,从训练开始就同时处理文本和图像,统一Transformer同时处理所有模态对齐更深理解更自然)→ 全模态统一时代(2025-至今,GPT-5/Gemini2.5/Claude4,文本+图像+音频+视频统一理解与生成,不再区分理解和生成不再区分输入和输出)。核心架构三大组件——视觉编码器(CLIP ViT把图像切成Patch提取语义特征)、投影层(MLP/Q-Former/Perceiver Resampler把视觉特征翻译成LLM能理解的Token维度对齐+语义对齐)、LLM(LLaMA/Qwen/GPT理解视觉+文本Token生成回答)。三大阵营——开源(LLaVA/InternVL/Qwen-VL可定制可本地)/API(GPT-5/Gemini/Claude性能最强)/国产(Qwen/InternVL/CogVLM中文优化合规)。多模态的终极目标=让AI像人一样感知和理解世界。


参考链接

系列预告:第 02 篇将深入核心架构——视觉编码器·投影层·多模态融合策略,多模态怎么工作。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐