【AI核心概念讲解】一口气搞懂 LLM 大语言模型：AI 最重要的基石

1104.北光c° · 2026-04-03 17:04:20 发布

大语言模型（英语：Large Language Model，简称LLM）

几乎所有人都有和 DeepSeek、Kimi 这类大语言模型（LLM）对话，却很少有人真正想明白：当你敲下一行文字，点击发送，到模型一字一句吐出回复，这中间到底发生了什么？

其实，抛开那些动辄千亿参数的复杂模型不谈，LLM 的本质非常简单：它就是一个永不停歇的 “文字接龙” 大师，通过一次又一次预测 “下一个字是什么”，最终拼出一整段完整的回复。

整个过程可以拆解为一个清晰的循环流水线，我们用一张图先看懂全貌：在这里插入图片描述

接下来，我们一步步把这个过程拆解开，讲透每一个环节。

你输入的是一串人类能看懂的字符串，比如："你好,大模型"，但计算机和大模型根本看不懂文字，它们只认识数字。

所以第一步，模型要先把你的文本，拆成一个个最小的、标准化的 “文本积木”，我们称之为Token（词元）。这个过程就叫做分词（Tokenization）。

注：这里我使用到了openai的分词网站：https://platform.openai.com/tokenizer

你可能会问，为什么不直接按字或者按词拆分？

这是因为现代 LLM 普遍采用了子词（Subword）分词算法（比如 BPE），它的好处是：

举个例子：

在这里插入图片描述

简单来说，Token 就是模型处理文本的最小单位，1 个 Token 大概对应 0.75 个英文单词，或者 1.5 至 2 个左右的中文字符。

拆完 Token 之后，模型还是不能直接处理这些字符串，它需要把每一个 Token，转换成一个唯一的整数，这个整数就是Token ID。

这个过程其实就是查表：模型自带了一个预训练好的词汇表（Vocabulary），里面记录了每一个 Token 对应的唯一 ID。比如：

经过这一步，你输入的整段文字，就从一串字符串，变成了一串纯数字的数组：[177519, 11, 1640, 184232]。

在这里插入图片描述

到这里，文本的预处理就完成了，这串数字数组，就是大模型真正的输入。

现在，这串 Token ID 数组被送入了大模型的核心，开始了模型的Transformer “思考” 过程。

首先，这些 ID 会被转换成向量：

词嵌入（Token Embedding）：把每个 ID 转换成一个高维的向量，这个向量里藏着这个 Token 的语义信息 —— 比如 “国王” 和 “女王” 的向量会很接近，“猫” 和 “狗” 的向量也会很接近。
位置编码（Positional Encoding）：因为 Transformer 模型本身是不认识顺序的，为了让模型知道 “你爱我” 和 “我爱你” 是不一样的，我们还要给每个 Token 加上一个位置向量，告诉模型这个 Token 在句子里的位置。

然后，这些带着语义和位置信息的向量，会送入多层的 Transformer 网络，通过自注意力机制（Self-Attention） 来处理整个上下文：

模型会通读你输入的所有内容，理解每个词之间的关系，比如当它看到 “它” 的时候，会知道这个代词指代的是前面的 “球” 还是 “机器人”。
这个阶段我们称之为预填充（Prefill），模型会一次性处理完你所有的输入，并且把中间计算的 Key、Value 缓存下来（也就是 KV Cache），这样后面循环的时候就不用重复计算了，大大提升了速度。

经过这一步，模型已经完全理解了你输入的内容，接下来就要开始生成回复了。