01 - LLM 大语言模型：人工智能的核心引擎

2301_82070640

424人浏览 · 2026-05-25 08:37:39

2301_82070640 · 2026-05-25 08:37:39 发布

这是"从 LLM 到 Agent Skill"系列的第一篇。我们从最底层开始——大语言模型到底是什么，它是怎么运作的。

一、什么是 LLM？

LLM（Large Language Model，大语言模型），是当前这场 AI 浪潮当之无愧的"C 位"。

你可能听过 ChatGPT、Claude、Gemini、文心一言、通义千问……这些产品的背后，都站着一个大语言模型。它们形态各异，但骨子里遵循同一套底层逻辑。

几乎所有现代大语言模型，都基于 Google 在 2017 年提出的 Transformer 架构。这个架构在当时只是一篇论文——《Attention Is All You Need》，如今回头看，说是改变了世界也不为过。

二、LLM 的本质：一个"文字接龙"游戏

如果你只能记住关于 LLM 的一件事，记住这个：

LLM 的本质，是一个基于概率预测的"文字接龙"游戏。

什么叫"文字接龙"？

你给模型一段文字，比如：

"今天天气真"

模型会在它学过的海量语料中，计算出下一个最可能出现的字是什么。它可能会算出：

"好"——概率 60%
"热"——概率 25%
"冷"——概率 10%
其他——概率 5%

于是它输出"好"。然后把"好"拼接到输入末尾，继续预测下一个字：

"今天天气真好，"

继续：

"今天天气真好，适合"

继续：

"今天天气真好，适合出去走走。"

就这样一个词一个词地接下去，直到生成一个完整的回答。

三、Transformer 做了什么？

"文字接龙"这个比喻很直观，但底层显然不是真的在翻字典。LLM 内部运作的核心是 Transformer 架构。

简单来说，Transformer 做了三件关键的事：

3.1 把文字变成数字（嵌入）

计算机不认识汉字，只认识数字。所以第一步是把每个词映射成一个高维向量——也就是一串数字。这叫 Embedding（嵌入）。

3.2 理解上下文关系（注意力机制）

"Attention（注意力机制）"是 Transformer 的灵魂。

回到"今天天气真"这个例子。模型不是孤立地看最后一个字，而是会"关注"这句话里所有其他词之间的关系。比如它知道"今天"和"天气"是关联的，"真"后面通常接一个形容词。

这种让每个词都能"看见"句子中其他所有词的能力，就是"自注意力（Self-Attention）"。

3.3 层层堆叠，越来越"懂"

一个 Transformer 不是只有一层。GPT-4 据说有上百层。每一层都会重新计算词与词之间的关系，层层抽象，最终在最后一层输出每一个位置上最可能的下一个词的概率分布。

四、一个关键认知：模型只会输出文本

这里有一个贯穿整个系列的核心认知，现在就要建立：

大语言模型唯一的能力，就是输出文本。

它不会"思考"，没有"意识"，不能"调用"任何外部工具，也无法"感知"外部世界。

后面我们会讲到的工具调用（Tool）、智能体（Agent）等等，本质上都是围绕这个只会"文字接龙"的核心引擎，在外部搭建的一套脚手架。

明白这一点，你就抓住了理解一切 AI 应用的钥匙。

五、LLM 是怎么训练出来的？

虽然这不是本文的重点，但简要提及三个核心阶段有助于建立完整的认知：

阶段	做什么	目的
预训练（Pre-training）	在海量文本上做"文字接龙"练习	让模型学会语言规律、世界知识
监督微调（SFT）	用高质量的"问题-回答"对训练	让模型学会"对话"，知道什么是好答案
人类反馈强化学习（RLHF）	人类对回答打分，模型据此调整	让回答更符合人类偏好（有帮助、安全、无害）

六、主流模型一览

目前（2025～2026年），市面上的主流大模型可以分为几大阵营：

海外

模型	开发方	特点
GPT-4o / GPT-4.5	OpenAI	多模态、生态成熟、ChatGPT 加持
Claude 4 系列（Opus / Sonnet / Haiku）	Anthropic	安全性强、代码能力突出、Context Window 大
Gemini 2.5	Google	原生多模态、与 Google 生态深度整合

国内

模型	开发方	特点
DeepSeek	深度求索	开源、推理能力强、性价比高
Qwen（通义千问）	阿里	开源生态活跃、中文能力强
文心一言	百度	中文理解细腻、本土化做得好
Kimi	月之暗面	超长上下文、RAG 能力强

七、总结

LLM 这个第一块积木，记住三句话就够了：

LLM 基于 Transformer 架构，本质是"文字接龙"——逐词预测下一个最可能的输出。
LLM 唯一的能力是输出文本，它不会思考、不能调用工具、无法感知世界。
所有更上层的 AI 能力（工具、Agent 等），都是围绕这个核心引擎搭建的外部系统。

下一篇，我们来聊聊 LLM 是怎么"读"文字的——Tokenizer 与 Token，也就是模型处理文本的最小单元。

本系列文章：

LLM 大语言模型 ← 你在这里
Token 与 Tokenizer（待发布）
Context 与 Context Window（待发布）
Prompt 提示词（待发布）
Tool 工具调用（待发布）
MCP 模型上下文协议（待发布）
Agent 智能体（待发布）
Agent Skill（待发布）

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

C++内存管理终极指南：从智能指针到RAII

AtomGit开源社区

预训练全流程：数据、算力、Scaling Law 实战拆解

AtomGit开源社区

LlamaFactory v0.9.5 发布：Qwen3.5/Qwen3.6/Gemma4 全面支持，Transformers v5 兼容性正式到位

代码地址：github.com/hiyouga/LlamaFactory总体来看，LlamaFactory v0.9.5 是一个覆盖面极广、工程含量很高的版本。它的重点并不只是“新增几个模型”，而是围绕这个核心目标，把模型支持、训练框架、分布式能力、多模态处理、模板配置、CI 环境、文档说明一起往前推进了一大步。Qwen3.5Qwen3.6Gemma4FSDP2DeepSpeed量化多模态v1 训