第三章 大模型语言基础
随着大语言模型(LLM)的普及,越来越多开发者和技术爱好者开始接触模型相关的核心概念,但Token、采样参数、Embedding等术语常常让人望而却步。本文将以“严谨不晦涩、科普不浅薄”的风格,逐一拆解8个LLM核心概念,结合通俗类比,帮你快速建立对大语言模型的基础认知,适合新手入门参考。
一、Token:大语言模型的“最小语言单元”
我们人类交流时,最小的语义单位是汉字、词语,而大语言模型“阅读”和“表达”时,最小的处理单元就是Token(令牌)。简单来说,Token是模型对自然语言进行拆分后的“积木”,模型通过组合这些“积木”来理解语义、生成文本。
具体来说,Token的拆分并非简单的“一个字对应一个Token”,而是结合语义进行的智能拆分:比如英文中,“apple”会被拆分为1个Token,“unhappiness”可能被拆分为“un-”“happiness”两个Token;中文中,常用词语(如“人工智能”)可能被拆分为1个Token,生僻字或长句则会拆分为多个Token。
为什么Token很重要?因为大语言模型的上下文窗口、计算成本都与Token数量直接相关——模型处理的Token越多,需要的计算资源越多,响应速度也可能越慢。比如我们常说的“GPT-4 128k上下文”,这里的128k指的就是128000个Token的处理上限。
二、采样参数:决定模型生成文本的“随机性与多样性”
当模型需要生成文本(比如续写句子、回答问题)时,并非只有唯一的答案,采样参数就是用来控制生成结果的“调节旋钮”,核心作用是平衡文本的“准确性”和“多样性”,常用的有3个关键参数:Temprature、Top-p、Top-k。
1. Temprature(温度):控制生成的“冒险程度”
Temprature(温度)是最常用的采样参数,取值范围通常为0~1(部分场景可大于1),核心作用是调节模型生成文本的随机性:
- 当Temprature=0时:模型生成的文本最“保守”,会优先选择概率最高的Token,生成结果最稳定、最确定,但可能过于刻板、缺乏多样性(比如重复回答同一内容);
- 当Temprature=1时:模型生成的随机性适中,既能保证语义连贯,又能产生一定的多样性;
- 当Temprature>1时:模型生成的随机性增强,会尝试选择概率较低的Token,可能会产生更有创意的内容,但也容易出现逻辑混乱、语义不通的情况。
类比理解:就像考试时,Temprature=0的模型是“死记硬背”,只写最确定的答案;Temprature=1的模型是“正常发挥”,兼顾准确与灵活;Temprature>1的模型则是“冒险答题”,可能答对难题,也可能答非所问。
2. Top-p(核采样):控制生成的“范围边界”
Top-p也叫“nucleus sampling”(核采样),取值范围为0~1,核心作用是通过“概率累积”来限定模型选择Token的范围,避免生成过于离谱的内容。
具体逻辑:模型生成下一个Token时,会先将所有可能的Token按概率从高到低排序,然后累积这些Token的概率,当累积概率达到Top-p的数值时,就只从这个范围内选择下一个Token。比如Top-p=0.9,模型会只从概率累积达到90%的Token中选择,忽略剩下10%概率极低的Token。
与Temprature的区别:Temprature是“缩放所有Token的概率”,而Top-p是“限定Token的选择范围”。实际使用中,通常会固定Top-p(如0.9),再通过调节Temprature来控制随机性,避免单独使用Temprature过高导致的逻辑混乱。
3. Top-k:控制生成的“候选数量”
Top-k是最直观的采样参数,取值为正整数,核心作用是限定模型选择下一个Token时的“候选列表长度”。比如Top-k=50,模型会先将所有可能的Token按概率从高到低排序,只保留前50个Token作为候选,再从这50个中选择下一个Token。
Top-p与Top-k的区别:Top-k是“固定候选数量”,无论概率累积多少,只选前k个;Top-p是“固定概率累积阈值”,候选数量不固定(概率分布集中时,候选少;分布分散时,候选多)。实际应用中,Top-k常与Temprature配合使用,适合对生成结果的“可控性”要求较高的场景。
三、提示工程:让模型“听懂你的需求”的艺术
提示工程(Prompt Engineering)是指通过设计和优化“提示语”(Prompt),引导大语言模型生成符合预期的结果。简单来说,提示语就是你对模型说的“指令”,而提示工程就是“把指令说清楚、说准确”的技巧。
为什么需要提示工程?因为大语言模型虽然强大,但并不能“读懂人心”——如果你的提示语模糊、不具体,模型可能会生成偏离需求的结果。比如同样问“如何学习Python”,模糊提示“教我学Python”和具体提示“请给出Python入门30天学习计划,包含基础语法、实战案例,适合零基础新手”,生成的结果会天差地别。
提示工程的核心技巧:明确任务目标、补充背景信息、设定输出格式、加入示例(少样本提示)。好的提示语能让模型事半功倍,甚至能让普通模型发挥出接近高端模型的效果,是LLM应用中最基础也最关键的技能。
四、上下文窗口:模型的“短期记忆容量”
上下文窗口(Context Window)是指大语言模型能够“记住”的上下文Token数量上限,相当于模型的“短期记忆”——模型在生成文本时,只能基于上下文窗口内的内容进行理解和推理,超出窗口的内容会被“遗忘”。
举个例子:如果一个模型的上下文窗口是4k Token(约3000个中文字符),你给它输入一篇5000字的文章,让它总结全文,模型只能基于前3000字的内容进行总结,后面2000字的内容会被忽略。
上下文窗口的大小是模型的重要指标:窗口越大,模型能处理的长文本越多(比如长文档总结、多轮对话、代码调试),但对计算资源的要求也越高。目前主流模型的上下文窗口已从早期的1k、4k,发展到128k甚至更大(如GPT-4 Turbo、Claude 3 Opus)。
五、幻觉:模型“一本正经地说假话”的现象
幻觉(Hallucination)是大语言模型的一个常见问题,指模型生成的内容看似连贯、合理,但实际上与事实不符、凭空捏造(比如编造不存在的知识点、虚假的数据、错误的逻辑)。
为什么会出现幻觉?核心原因有两个:一是模型的训练数据存在噪声(比如错误信息、矛盾内容),模型学习时会将这些错误信息记下来;二是模型的“推理逻辑”存在缺陷——模型生成文本时,优先保证语义连贯,而非事实准确,有时会为了“圆话”而捏造信息。
如何减少幻觉?常用方法包括:优化提示语(加入“要求内容真实,引用可靠来源”)、补充背景知识、使用有事实依据的训练数据、对生成结果进行校验。需要注意的是,目前没有任何模型能完全避免幻觉,尤其是在处理生僻领域、冷门知识时,一定要对模型生成的内容进行核实。
六、Decoder-Only(纯解码器架构):主流大语言模型的“核心骨架”
大语言模型的架构主要分为三类:Encoder-Only(纯编码器)、Decoder-Only(纯解码器)、Encoder-Decoder(编解码器),其中Decoder-Only是目前主流大语言模型(如GPT系列、LLaMA系列)的核心架构。
简单理解三种架构的区别:
- Encoder-Only:主要用于“理解类任务”,比如文本分类、情感分析、关键词提取,核心是将输入文本转化为语义表示,不擅长生成文本;
- Encoder-Decoder:用于“序列到序列任务”,比如机器翻译、文本摘要(输入一段文本,输出另一段文本),需要先编码输入,再解码输出;
- Decoder-Only:核心擅长“生成类任务”,通过“自回归”的方式生成文本(逐字逐句生成,每一步都基于上一步的Token),同时也能完成理解类任务(如问答)。
Decoder-Only架构的优势:结构相对简单,训练和推理效率高,适合大规模扩展,能够生成连贯、流畅的长文本,这也是它成为主流LLM架构的核心原因。
七、Embedding(词嵌入/向量化):模型“理解语义”的核心手段
人类通过文字的含义理解语言,而大语言模型无法直接“理解”文字,只能通过“数值”来表示语义——这就是Embedding(词嵌入/向量化)的作用:将文本(Token、词语、句子)转化为计算机可处理的向量(一串数字),让模型通过向量之间的关系来理解语义。
举个通俗的例子:“猫”和“狗”都是宠物,它们的Embedding向量会比较接近;“猫”和“汽车”语义差异大,它们的向量会距离很远。模型通过计算向量之间的相似度,就能判断两个文本的语义关联度。
Embedding的核心特点:每个文本对应一个固定长度的向量(无论文本长短),向量的维度越高,能表示的语义越精细,但计算成本也越高。Embedding不仅用于大语言模型,还广泛应用于推荐系统、文本检索、语义匹配等场景。
八、Scaling Laws(缩放法则)& 涌现能力:模型“越做越大”的底层逻辑
随着大语言模型的规模不断扩大(参数数量、训练数据量增加),人们发现了两个关键现象:Scaling Laws(缩放法则)和涌现能力,这也是大语言模型能不断突破的核心底层逻辑。
1. Scaling Laws(缩放法则):模型规模与性能的“线性关系”
Scaling Laws(缩放法则)是指:在一定范围内,大语言模型的性能(如语言理解、生成质量、推理能力)会随着三个因素的增加而单调提升:模型参数数量、训练数据量、计算量。
简单来说,就是“模型越大、训练数据越多、计算资源越充足,模型性能越好”。比如GPT-3(1750亿参数)比GPT-2(1.5亿参数)性能提升巨大,就是缩放法则的体现。但需要注意的是,缩放法则并非无限适用——当模型规模达到一定程度后,性能提升会逐渐放缓,同时训练成本会呈指数级增加。
2. 涌现能力:模型“突然拥有”的高阶能力
涌现能力(Emergent Abilities)是指:当大语言模型的规模达到某个“临界值”后,会突然拥有一些它在小规模时不具备的高阶能力,比如复杂推理、代码生成、多语言翻译、逻辑演绎等。
举个例子:小规模模型可能只能完成简单的文本续写,而当模型参数达到百亿级以上时,会突然具备“解数学题”“写复杂代码”的能力——这种“量变引发质变”的现象,就是涌现能力。
目前,涌现能力的具体机制还没有被完全研究清楚,但可以确定的是:它与模型规模、训练数据的多样性、训练方法密切相关,是大语言模型从“能说话”到“能思考”的关键标志。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)