第三章大模型语言基础

番茄去哪了

640人浏览 · 2026-03-17 11:30:46

番茄去哪了 · 2026-03-17 11:30:46 发布

随着大语言模型（LLM）的普及，越来越多开发者和技术爱好者开始接触模型相关的核心概念，但Token、采样参数、Embedding等术语常常让人望而却步。本文将以“严谨不晦涩、科普不浅薄”的风格，逐一拆解8个LLM核心概念，结合通俗类比，帮你快速建立对大语言模型的基础认知，适合新手入门参考。

一、Token：大语言模型的“最小语言单元”

我们人类交流时，最小的语义单位是汉字、词语，而大语言模型“阅读”和“表达”时，最小的处理单元就是Token（令牌）。简单来说，Token是模型对自然语言进行拆分后的“积木”，模型通过组合这些“积木”来理解语义、生成文本。

具体来说，Token的拆分并非简单的“一个字对应一个Token”，而是结合语义进行的智能拆分：比如英文中，“apple”会被拆分为1个Token，“unhappiness”可能被拆分为“un-”“happiness”两个Token；中文中，常用词语（如“人工智能”）可能被拆分为1个Token，生僻字或长句则会拆分为多个Token。

为什么Token很重要？因为大语言模型的上下文窗口、计算成本都与Token数量直接相关——模型处理的Token越多，需要的计算资源越多，响应速度也可能越慢。比如我们常说的“GPT-4 128k上下文”，这里的128k指的就是128000个Token的处理上限。

二、采样参数：决定模型生成文本的“随机性与多样性”

当模型需要生成文本（比如续写句子、回答问题）时，并非只有唯一的答案，采样参数就是用来控制生成结果的“调节旋钮”，核心作用是平衡文本的“准确性”和“多样性”，常用的有3个关键参数：Temprature、Top-p、Top-k。

1. Temprature（温度）：控制生成的“冒险程度”

Temprature（温度）是最常用的采样参数，取值范围通常为0~1（部分场景可大于1），核心作用是调节模型生成文本的随机性：

- 当Temprature=0时：模型生成的文本最“保守”，会优先选择概率最高的Token，生成结果最稳定、最确定，但可能过于刻板、缺乏多样性（比如重复回答同一内容）；

- 当Temprature=1时：模型生成的随机性适中，既能保证语义连贯，又能产生一定的多样性；

- 当Temprature>1时：模型生成的随机性增强，会尝试选择概率较低的Token，可能会产生更有创意的内容，但也容易出现逻辑混乱、语义不通的情况。

类比理解：就像考试时，Temprature=0的模型是“死记硬背”，只写最确定的答案；Temprature=1的模型是“正常发挥”，兼顾准确与灵活；Temprature>1的模型则是“冒险答题”，可能答对难题，也可能答非所问。

2. Top-p（核采样）：控制生成的“范围边界”

Top-p也叫“nucleus sampling”（核采样），取值范围为0~1，核心作用是通过“概率累积”来限定模型选择Token的范围，避免生成过于离谱的内容。

具体逻辑：模型生成下一个Token时，会先将所有可能的Token按概率从高到低排序，然后累积这些Token的概率，当累积概率达到Top-p的数值时，就只从这个范围内选择下一个Token。比如Top-p=0.9，模型会只从概率累积达到90%的Token中选择，忽略剩下10%概率极低的Token。

与Temprature的区别：Temprature是“缩放所有Token的概率”，而Top-p是“限定Token的选择范围”。实际使用中，通常会固定Top-p（如0.9），再通过调节Temprature来控制随机性，避免单独使用Temprature过高导致的逻辑混乱。

3. Top-k：控制生成的“候选数量”

Top-k是最直观的采样参数，取值为正整数，核心作用是限定模型选择下一个Token时的“候选列表长度”。比如Top-k=50，模型会先将所有可能的Token按概率从高到低排序，只保留前50个Token作为候选，再从这50个中选择下一个Token。

Top-p与Top-k的区别：Top-k是“固定候选数量”，无论概率累积多少，只选前k个；Top-p是“固定概率累积阈值”，候选数量不固定（概率分布集中时，候选少；分布分散时，候选多）。实际应用中，Top-k常与Temprature配合使用，适合对生成结果的“可控性”要求较高的场景。

三、提示工程：让模型“听懂你的需求”的艺术

提示工程（Prompt Engineering）是指通过设计和优化“提示语”（Prompt），引导大语言模型生成符合预期的结果。简单来说，提示语就是你对模型说的“指令”，而提示工程就是“把指令说清楚、说准确”的技巧。

为什么需要提示工程？因为大语言模型虽然强大，但并不能“读懂人心”——如果你的提示语模糊、不具体，模型可能会生成偏离需求的结果。比如同样问“如何学习Python”，模糊提示“教我学Python”和具体提示“请给出Python入门30天学习计划，包含基础语法、实战案例，适合零基础新手”，生成的结果会天差地别。

提示工程的核心技巧：明确任务目标、补充背景信息、设定输出格式、加入示例（少样本提示）。好的提示语能让模型事半功倍，甚至能让普通模型发挥出接近高端模型的效果，是LLM应用中最基础也最关键的技能。

四、上下文窗口：模型的“短期记忆容量”

上下文窗口（Context Window）是指大语言模型能够“记住”的上下文Token数量上限，相当于模型的“短期记忆”——模型在生成文本时，只能基于上下文窗口内的内容进行理解和推理，超出窗口的内容会被“遗忘”。

举个例子：如果一个模型的上下文窗口是4k Token（约3000个中文字符），你给它输入一篇5000字的文章，让它总结全文，模型只能基于前3000字的内容进行总结，后面2000字的内容会被忽略。

上下文窗口的大小是模型的重要指标：窗口越大，模型能处理的长文本越多（比如长文档总结、多轮对话、代码调试），但对计算资源的要求也越高。目前主流模型的上下文窗口已从早期的1k、4k，发展到128k甚至更大（如GPT-4 Turbo、Claude 3 Opus）。

五、幻觉：模型“一本正经地说假话”的现象

幻觉（Hallucination）是大语言模型的一个常见问题，指模型生成的内容看似连贯、合理，但实际上与事实不符、凭空捏造（比如编造不存在的知识点、虚假的数据、错误的逻辑）。

为什么会出现幻觉？核心原因有两个：一是模型的训练数据存在噪声（比如错误信息、矛盾内容），模型学习时会将这些错误信息记下来；二是模型的“推理逻辑”存在缺陷——模型生成文本时，优先保证语义连贯，而非事实准确，有时会为了“圆话”而捏造信息。

如何减少幻觉？常用方法包括：优化提示语（加入“要求内容真实，引用可靠来源”）、补充背景知识、使用有事实依据的训练数据、对生成结果进行校验。需要注意的是，目前没有任何模型能完全避免幻觉，尤其是在处理生僻领域、冷门知识时，一定要对模型生成的内容进行核实。

六、Decoder-Only（纯解码器架构）：主流大语言模型的“核心骨架”

大语言模型的架构主要分为三类：Encoder-Only（纯编码器）、Decoder-Only（纯解码器）、Encoder-Decoder（编解码器），其中Decoder-Only是目前主流大语言模型（如GPT系列、LLaMA系列）的核心架构。

简单理解三种架构的区别：

- Encoder-Only：主要用于“理解类任务”，比如文本分类、情感分析、关键词提取，核心是将输入文本转化为语义表示，不擅长生成文本；

- Encoder-Decoder：用于“序列到序列任务”，比如机器翻译、文本摘要（输入一段文本，输出另一段文本），需要先编码输入，再解码输出；

- Decoder-Only：核心擅长“生成类任务”，通过“自回归”的方式生成文本（逐字逐句生成，每一步都基于上一步的Token），同时也能完成理解类任务（如问答）。

Decoder-Only架构的优势：结构相对简单，训练和推理效率高，适合大规模扩展，能够生成连贯、流畅的长文本，这也是它成为主流LLM架构的核心原因。

七、Embedding（词嵌入/向量化）：模型“理解语义”的核心手段

人类通过文字的含义理解语言，而大语言模型无法直接“理解”文字，只能通过“数值”来表示语义——这就是Embedding（词嵌入/向量化）的作用：将文本（Token、词语、句子）转化为计算机可处理的向量（一串数字），让模型通过向量之间的关系来理解语义。

举个通俗的例子：“猫”和“狗”都是宠物，它们的Embedding向量会比较接近；“猫”和“汽车”语义差异大，它们的向量会距离很远。模型通过计算向量之间的相似度，就能判断两个文本的语义关联度。

Embedding的核心特点：每个文本对应一个固定长度的向量（无论文本长短），向量的维度越高，能表示的语义越精细，但计算成本也越高。Embedding不仅用于大语言模型，还广泛应用于推荐系统、文本检索、语义匹配等场景。

八、Scaling Laws（缩放法则）& 涌现能力：模型“越做越大”的底层逻辑

随着大语言模型的规模不断扩大（参数数量、训练数据量增加），人们发现了两个关键现象：Scaling Laws（缩放法则）和涌现能力，这也是大语言模型能不断突破的核心底层逻辑。

1. Scaling Laws（缩放法则）：模型规模与性能的“线性关系”

Scaling Laws（缩放法则）是指：在一定范围内，大语言模型的性能（如语言理解、生成质量、推理能力）会随着三个因素的增加而单调提升：模型参数数量、训练数据量、计算量。

简单来说，就是“模型越大、训练数据越多、计算资源越充足，模型性能越好”。比如GPT-3（1750亿参数）比GPT-2（1.5亿参数）性能提升巨大，就是缩放法则的体现。但需要注意的是，缩放法则并非无限适用——当模型规模达到一定程度后，性能提升会逐渐放缓，同时训练成本会呈指数级增加。

2. 涌现能力：模型“突然拥有”的高阶能力

涌现能力（Emergent Abilities）是指：当大语言模型的规模达到某个“临界值”后，会突然拥有一些它在小规模时不具备的高阶能力，比如复杂推理、代码生成、多语言翻译、逻辑演绎等。

举个例子：小规模模型可能只能完成简单的文本续写，而当模型参数达到百亿级以上时，会突然具备“解数学题”“写复杂代码”的能力——这种“量变引发质变”的现象，就是涌现能力。

目前，涌现能力的具体机制还没有被完全研究清楚，但可以确定的是：它与模型规模、训练数据的多样性、训练方法密切相关，是大语言模型从“能说话”到“能思考”的关键标志。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

KV Cache 到底是什么？一文讲透大模型推理加速原理

AtomGit开源社区

CANN AMCT模型压缩工具链全貌解析：从训练后量化到稀疏剪枝的昇腾NPU部署管线——INT8/INT4混合精度量化策略与精度损耗诊断实录详解报告

AtomGit开源社区

【Agentic RL / 强化学习框架】Miles 项目技术分析---（2）--- 关键技术

的本质是一个适配器模式——它将"Agent 多轮交互"（业务关注点）与"RL 训练数据生产"（基础设施关注点）完全解耦。这条解耦线画在了generate()函数上。线以上是 Agent 开发者的世界——OpenAI API、工具调用、业务逻辑。线以下是 RL 基础设施的世界——Session Server、TITO、token 对齐、loss mask、异常降级。Agent 开发者不需要知道线以下