前言

今天我们在使用不同的模型,为我们工作或日常提供便利,DeepSeek去做逻辑推理,豆包模型去做中文理解历史人物解析背后故事生成,通义千问模型帮我们做文书撰写、合同审查、PPT 生成…

这些产品的定位功能各不相同,仿佛是用完全不同的技术实现的。但如果剥开它们的外壳,我们会发现一个惊人的事实:99% 能用到的现代大模型,本质上都共享着同一个核心 —— 一个强大的大语言模型 (LLM)。【另外 1% 几乎全是纯单模态生成模型,它们只擅长特定类型的内容生成,不具备通用的复杂逻辑处理能力】

这篇文章学习目标:

  1. 分清大模型、LLM、多模态模型之间的关系
  2. 结合GPT-4o、Claude 3、豆包4.0、DeepSeek等国内外最常使用及具代表性的模型,一步步拆解大模型的实现本质,
  3. 底搞懂为什么LLM会成为所有AI的"大脑"。

一、先把概念搞清楚:大模型≠LLM

很多人会把"大模型"和"大语言模型"混为一谈,这是最常见的认知误区。我们先从定义上把它们分清楚:

1. 什么是大模型?

大模型的标准全称是大型预训练模型(Large Pre-trained Model, LPM),它有三个不可缺少的特征:

  • 规模大:参数量通常在数十亿到万亿级别,训练数据量达到PB级
  • 预训练+微调:先在海量通用数据上进行一次性预训练,再通过少量数据微调就能适配各种下游任务
  • 涌现能力:当规模达到一定阈值后,会突然具备很多预训练时没有教过的能力,比如逻辑推理、数学计算

简单来说,大模型是一个通用的人工智能底座,它可以处理各种类型的数据,完成各种不同的任务。

2. 什么是大语言模型(LLM)?

大语言模型(LLM)是大模型家族中最重要、最成熟的一个子集。它的定义非常明确:

  • 专门以纯文本数据(书籍、网页、代码、论文等)为训练素材
  • 基于Transformer解码器架构构建
  • 核心能力是理解和生成人类自然语言

国内用户最熟悉的纯LLM典型代表

  • DeepSeek V2.5:国内推理能力最强的开源纯文本大模型之一
  • 豆包3.5:字节跳动自研的纯文本大模型,中文能力出色
  • 通义千问2.5:阿里开源的中文能力标杆纯文本模型
  • 文心一言3.5:百度推出的纯文本大语言模型

3. 大模型的完整家族树

大模型是一个庞大的家族,LLM只是其中一员:

大模型(大型预训练模型)
├─ 单模态大模型
│  ├─ 大语言模型(LLM):DeepSeek V2.5、豆包3.5、通义千问2.5
│  ├─ 大视觉模型(LVM):Stable Diffusion、文心一格
│  ├─ 大语音模型(LAM):豆包语音、通义语音
│  └─ 大视频模型:可灵、即梦、Sora
└─ 多模态大模型
   ├─ 图文多模态:DeepSeek-VL、通义千问VL
   ├─ 图文音多模态:GPT-4o、豆包4.0、Claude 3
   └─ 全模态大模型:Gemini Advanced

看到这里我们可能会问:既然LLM只是大模型的一个分支,为什么说它是所有大模型的核心?这就要从LLM的本质说起了。

二、为什么偏偏是LLM,成为了大模型的大脑?

LLM的本质其实非常简单:它是一个被训练来"预测下一个词"的神经网络

1. 一个简单任务,催生了通用智能

我们可能觉得难以置信:这么一个看起来极其简单的任务,怎么会诞生出接近人类的智能?

举个例子,当LLM看到"北京是中国的"这句话时,它会预测下一个词最可能是"首都";当它看到"1+1=“时,会预测下一个词是"2”;当它看到"请证明勾股定理"时,会一步步预测出接下来的每一个字,直到完成整个证明过程。

在PB级人类文本数据上进行万亿次这样的预测训练后,LLM不仅学会了语法和拼写,还意外地掌握了:

  • 人类的常识和知识
  • 逻辑推理和数学计算能力
  • 复杂指令的理解和执行能力
  • 甚至一定程度的创造力

这就是大模型最神奇的涌现能力——量变引起质变。而目前为止,只有LLM通过"预测下一个词"这个任务,成功涌现出了通用的逻辑推理能力

2. 语言是人类智能的载体

LLM能成为核心的另一个根本原因是:语言是人类知识和思维的载体

人类所有的文明成果、科学知识、逻辑思维,最终都可以用语言来表达。一个掌握了人类语言的模型,本质上就掌握了人类的思维方式

而其他模态(图像、声音、视频)虽然也能传递信息,但它们无法承载复杂的逻辑推理和抽象知识。一张图片可以告诉你"猫长什么样",但无法告诉你"为什么猫会抓老鼠";一段视频可以展示"苹果落地",但无法推导出"万有引力定律"。

这就是为什么其他所有模态的大模型,最终都需要接入一个LLM作为大脑——只有LLM能进行思考和推理

三、多模态大模型的本质:LLM大脑+感官器官

这是本文最核心的部分,也是90%的人都不知道的大模型实现真相。

所有现代主流多模态大模型,都采用完全相同的架构:一个强大的LLM作为大脑,加上若干个负责输入输出的"感官器官"。

1. 标准架构公式

多模态大模型 = 强大的LLM大脑 + 各模态编码器 + 各模态解码器

2. 工作流程详解(以豆包4.0看图为例)

当你给豆包4.0发一张猫的图片,并问"这是什么动物?"时,整个过程分为三步:

  1. 输入转换(眼睛看)

    • 图片输入专门的视觉编码器,被转换成一串和文本token格式相同的向量
    • 这个过程就像人的眼睛把光信号转换成神经信号传给大脑
  2. 大脑处理(LLM思考)

    • 转换后的图像向量和你的文本指令"这是什么动物?"拼接在一起,输入豆包自研的纯文本LLM
    • LLM根据自己学到的知识进行推理,输出文本回答"这是一只猫"
  3. 输出转换(嘴巴说)

    • 如果你开启了语音模式,LLM输出的文本会再输入语音解码器,转换成自然的人类语音

整个过程中,视觉编码器只负责"翻译",不负责"思考"。所有的理解、推理和决策,100%由LLM完成

3. 最无可辩驳的证据:国内开源多模态模型

如果说商用模型的架构是黑箱,那么开源多模态模型的代码和权重完全公开,是"LLM为核心"最直接的证明。

例子1:DeepSeek-VL(国内最优秀的开源多模态模型之一)

DeepSeek-VL的架构清晰地展示了"LLM为核心"的设计理念:

DeepSeek-VL = SigLIP视觉编码器 + 轻量级投影层 + DeepSeek纯文本LLM
  • 整个模型90%以上的参数都是DeepSeek纯文本LLM的参数
  • 视觉编码器只占不到10%的参数
  • 投影层更是只有几百万参数,几乎可以忽略不计

训练DeepSeek-VL的时候,核心的LLM权重是完全冻结的,只需要训练视觉编码器和投影层。也就是说,你只需要用一张消费级显卡(如 RTX 3090/4090),训练几天,就能把一个纯文本的 DeepSeek 变成一个能看图说话的多模态模型。

例子2:豆包多模态模型的架构原理

豆包4.0虽然不是完全开源的,但字节跳动官方在技术分享中明确披露了其架构:

豆包4.0 = 字节自研视觉编码器 + 字节自研语音编码器 + 豆包3.5纯文本LLM + 语音解码器

豆包4.0的核心推理引擎,就是在纯文本的豆包3.5基础上优化而来的。所有的逻辑思考、指令理解和知识问答,都由这个纯文本LLM完成。视觉和语音模块只是负责将非文本数据转换成LLM能理解的格式。

例子3:通义千问VL(阿里开源多模态模型)

通义千问VL作为国内另一个主流开源多模态模型,同样遵循这个架构:

通义千问VL = SigLIP视觉编码器 + 特征融合层 + 通义千问纯文本LLM

阿里只是在视觉编码器和特征融合方式上做了一些优化,核心仍然是通义千问纯文本大语言模型。

4. 国内外主流商用多模态模型验证

所有我们能叫出名字的商用多模态模型,都遵循这个架构:

  • GPT-4o(OpenAI):核心是GPT-4纯文本LLM,添加了视觉编码器、语音编码器和语音解码器
  • Claude 3 Opus(Anthropic):核心是Claude 3纯文本LLM,添加了视觉编码器
  • 豆包4.0(字节跳动):核心是豆包3.5纯文本LLM,扩展了图像理解、语音交互和视频生成能力
  • 文心一言4.0(百度):核心是文心纯文本LLM,添加了多模态能力

这些模型在纯文本任务上的表现,和它们对应的纯文本版本完全一致,这就直接证明了它们的核心没有改变。

四、单模态大模型:没有大脑的专业器官

看到这里我们可能会问:那Stable Diffusion、可灵这些纯图像和视频生成模型,也以LLM为核心吗

答案是:它们的核心生成引擎不是LLM,但它们正在快速集成LLM作为辅助大脑

1. 纯单模态大模型的本质

纯单模态大模型是没有通用推理能力的"专业器官":

  • Stable Diffusion/文心一格:核心是扩散模型,只能从随机噪声中生成图像,无法理解复杂的逻辑指令
  • 可灵/即梦:核心是扩散Transformer(DiT),只能生成视频,无法进行思考和推理
  • 豆包语音:核心是Transformer编码器-解码器,只能进行语音和文本的转换

它们就像一个没有大脑的画家,只会机械地画画,但不知道自己画的是什么,也无法理解"画一只戴着眼镜、正在看书的猫"这样复杂的指令。

2. 单模态模型正在拥抱LLM

为了解决指令理解能力差的问题,所有新一代单模态生成模型都开始集成LLM:

  • Midjourney v6:集成了专门训练的LLM来解析复杂的自然语言提示词,相比v5版本,指令理解能力提升了数倍
  • DALL-E 3:深度集成了GPT-4,会先让GPT-4把用户的简单提示词扩展成详细的描述,再交给扩散模型生成图像
  • 可灵AI视频:集成了通义千问LLM来理解用户的视频生成指令,能够生成更符合逻辑的视频内容

未来的趋势很明显:所有单模态大模型都会接入一个强大的LLM作为大脑,否则就会被淘汰

五、唯一的反例与技术路线之争

看到这里,细心的读者可能会发现:我一直用的是"几乎所有"而不是"所有"。这是因为确实存在一个例外。

1. 唯一的反例:Google Gemini 1.0 Ultra

Google在发布初代Gemini的时候,宣称它是一个**“原生多模态统一模型”**。【Gemini 模型的使用,在全球市场是绝对的第二大玩家,但是国内用户少】

和"LLM+适配器"的架构不同,Gemini 1.0 Ultra从预训练阶段就同时用文本、图像、音频、视频数据训练,所有模态共享同一个Transformer解码器主干。理论上,它没有一个单独的"纯文本LLM模块",不存在谁是核心的问题。【所以感叹还是Google牛皮,有钱烧啊不走寻常路】

2. 反例的局限性

虽然Gemini 1.0 Ultra走了一条不同的技术路线,但它并不影响我们的核心结论:

  1. 这是全世界唯一的例外,其他所有多模态大模型都采用LLM中心架构
  2. 即使是Gemini,语言仍然是其推理能力的主要来源,纯文本任务的表现仍然是衡量其能力的核心标准
  3. 最新的Gemini 2.0系列实际上已经大幅强化了语言能力,向LLM中心架构靠拢

3. 行业共识

经过两年多的技术验证,"LLM为中心"已经成为行业公认的最高效、最成熟的技术路线。原生统一架构虽然听起来很美好,但在可预见的未来,还无法取代LLM中心架构。

所以,单纯对于中国大陆用户来说,这个结论可以进一步强化为:100% 我们能正常使用的大模型,全部都以 LLM 为核心。因为 Gemini 在中国大陆没有官方服务(除非你翻墙),而所有国产大模型,无论是多模态还是单模态生成模型,都采用了成熟的 LLM 中心架构。

六、未来趋势:LLM的核心地位只会越来越巩固

  • 更多的模态会被接入LLM,比如3D模型、传感器数据、基因序列等
  • LLM的上下文窗口会越来越大,能够处理更长的文本和更多的模态信息
  • 小参数LLM的能力会快速提升,让更多设备能够本地运行多模态AI

结语

大模型的本质,就是一个会说话的大脑加上各种感官器官

无论AI的功能多么丰富,无论它能生成多么逼真的图像和视频,背后支撑它思考和推理的,永远是那个强大的大语言模型。理解了这一点,我们就不再是大模型的被动使用者,而是能够站在更高的维度,看清AI技术的发展方向,更好地驾驭它为我们服务。

大模型的未来,本质上就是大语言模型的未来。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐