LLM基础知识

老毛肚

417人浏览 · 2026-05-13 14:09:16

老毛肚 · 2026-05-13 14:09:16 发布

大语言模型 (LLM)

大语言模型 (英文：Large Language Model，缩写LLM) 是一种人工智能模型, 旨在理解和生成人类语言. 大语言模型可以处理多种自然语言任务，如文本分类、问答、翻译、对话等等.

通常, 大语言模型 (LLM) 是指包含数千亿 (或更多) 参数的语言模型(目前定义参数量超过10B的模型为大语言模型)，这些参数是在大量文本数据上训练的，例如模型 GPT-3、ChatGPT、GLM、BLOOM和 LLaMA等.

语言模型 (Language Model, LM)

语言模型（Language Model）旨在建模词汇序列的生成概率，提升机器的语言智能水平，使机器能够模拟人类说话、写作的模式进行自动文本输出。

用来计算一个句子的概率的模型，也就是判断一句话是否是人话的概率.

你可以把语言模型理解成一个 **“会猜下一个词” 的 AI**。

比如你说：

“黑马程序____”

语言模型会根据大量文本经验，算出后面接 “员” 的概率最高，接 “来”“学习” 的概率很低，所以它会帮你补全成 “黑马程序员”。

词典里只有这几个词：{黑马、程序、员、来、学习}
语言模型的目标：给任意一串词（比如W1,W2,...,Wn），算出它是一句合理中文的概率 P (S)

举个例子：

句子 A：黑马程序员 → 这是合理的，P (S) 高
句子 B：员来黑马 → 这是乱的，P (S) 低

语言模型的核心，就是给不同的词序列打分（算概率），以此判断哪个句子更通顺。

方法1

统计数据集中，某个句子出现的次数 n，除以总句子数 N，就是 P (S)=n/N

比如：

数据集里有 1000 个句子，黑马程序员出现了 10 次，那它的概率就是 10/1000=0.01
但如果有一个句子，数据集中从来没出现过，比如黑马来学习，那 n=0，P (S)=0

❌ 这个方法的致命问题：现实中，大部分通顺的句子，一辈子都不会在训练数据里重复出现。比如你说一句很普通的话，AI 之前没见过，按这个方法就会判它概率为 0，显然不合理。

方法2

概率论的链式法则

为了解决上面的问题，我们把整个句子的概率，拆成 **“一个词一个词猜” 的概率相乘 **，也就是图片里的公式：

\(P(S) = P(W_1,W_2,...,W_n) = P(W_1) \times P(W_2|W_1) \times ... \times P(W_n|W_1,...,W_{n-1})\)

用大白话解释：

\(P(W_1)\)：句子第一个词是黑马的概率（比如语料里 10% 的句子以 “黑马” 开头）
\(P(W_2|W_1)\)：在第一个词是黑马的前提下，第二个词是程序的概率（比如语料里，“黑马” 后面 90% 接的是 “程序”）
\(P(W_3|W_1,W_2)\)：在前面是黑马程序的前提下，第三个词是员的概率（几乎是 100%）

把这些概率乘起来，就得到了整个句子的概率。

这样就算是从没见过的新句子，也能通过 “前面的词猜后面的词” 算出概率，不会直接判为 0 了。

每一步都在根据前面的内容，算 “下一个词的概率分布”，选概率最高的词输出，再接着算下一个，以此类推生成整段话。

假设我们要算句子黑马程序员的概率：

第一步：选第一个词，P (黑马)=0.1
第二步：在 “黑马” 后面，选第二个词，P (程序 | 黑马)=0.9
第三步：在 “黑马程序” 后面，选第三个词，P (员 | 黑马，程序)=0.99
整个句子的概率 = 0.1 × 0.9 × 0.99 = 0.0891

这个值越高，说明句子越通顺合理。

语言模型技术发展四个阶段特点与进化特点
发展阶段	核心特点	进化特点
第一阶段：基于规则和统计的语言模型	1. 核心建模方法：基于n-gram概率统计模型，通过词序列频率预测下一个词，采用极大似然估计训练参数 2. 优势：参数易训练，可解释性强，实现了从人工规则到数据驱动的初步转变 3. 局限：受限于维度灾难，无法有效处理长距离依赖；数据稀疏问题严重，泛化能力差，存在明显的OOV（未登录词）问题	1. 奠定了语言模型的基础理论框架，首次实现了基于统计的序列概率建模，为后续语言模型发展提供了核心基础 2. 突破了早期纯人工规则语言模型的泛化能力瓶颈，实现了语言建模从人工设计到数据驱动的第一次范式升级
第二阶段：神经语言模型	1. 核心建模方法：基于深度学习神经网络，引入词嵌入（Word Embedding）技术，将词映射到连续向量空间，解决数据稀疏性问题 2. 核心结构：采用RNN/LSTM/ELMo等网络结构，实现了上下文感知的动态语义表征，能更好捕捉词语间的复杂语义关系 3. 局限：可解释性下降，训练成本提升，长距离依赖问题仍未完全解决，并行训练效率低	1. 实现了从离散统计建模到连续语义空间建模的关键跨越，彻底解决了统计语言模型的数据稀疏核心痛点 2. 首次实现了上下文相关的动态词向量表征，大幅提升了模型对自然语言语义的理解能力，为后续预训练模型的发展奠定了深度学习技术基础
第三阶段：预训练语言模型	1. 核心范式：采用"预训练+微调"的全新任务范式，在海量通用语料上完成预训练，再通过少量微调适配不同下游任务 2. 核心架构：基于Transformer架构，引入自注意力机制，彻底解决了长距离依赖问题，实现了高效的并行训练 3. 核心优势：模型迁移能力大幅增强，一个模型可服务多个NLP任务，无需人工构造特征，模型规模从亿级扩展到百亿级，涌现出初步的通用语言能力	1. 彻底颠覆了NLP领域的传统任务范式，实现了从"单任务单模型"到"通用预训练+下游微调"的革命性转变 2. Transformer架构的引入解决了长程依赖和并行训练的核心技术痛点，大幅提升了模型的训练效率和语义建模能力 3. 首次实现了通用语言能力的初步涌现，为大语言模型的爆发式发展提供了核心技术支撑和范式基础
第四阶段：大语言模型	1. 规模特征：模型规模实现指数级扩张，从百亿级参数扩展到万亿级参数，采用大规模自回归预训练模式 2. 能力特征：涌现出强大的涌现能力，包括少样本/零样本学习、指令跟随、逻辑推理、多模态理解、复杂任务规划等类人智能能力 3. 应用特征：无需微调即可适配大量下游任务，实现了通用人工智能的初步落地，可覆盖文本生成、知识问答、代码编写、逻辑推理等全场景应用 4. 局限：训练和推理成本极高，对算力和数据规模有极高要求，模型可解释性进一步下降，存在幻觉输出、安全合规等伦理与技术挑战	1. 实现了语言模型从"专用语言处理"到"通用人工智能"的根本性跨越，模型能力从单一的语言理解与生成，扩展到多领域的通用智能任务处理 2. 涌现能力的出现突破了传统语言模型的能力边界，首次实现了类人的逻辑推理和复杂开放任务的处理能力，重新定义了AI技术的能力上限 3. 推动了AI技术的全场景商业化落地，开启了通用人工智能的新时代，同时也带来了全新的技术研发、安全合规与伦理治理挑战

阶段	核心方法	代表模型	关键优势	主要局限
1️⃣ 规则 / 统计	人工规则 + 词频统计	N-gram	原理简单、计算快	参数爆炸、数据稀疏、无法处理长文本
2️⃣ 神经语言模型	神经网络 + 词向量	NNLM、RNN-LM	解决稀疏问题、能学词的语义	模型容量小、处理长文本能力差
3️⃣ 预训练语言模型	Transformer + 预训练 + 微调	BERT、GPT-1/2	通用知识迁移、适配多任务	模型规模不足、能力仍有限
4️⃣ 大语言模型	超大规模预训练 + 涌现能力	GPT-3/4、LLaMA、文心一言	通用智能、复杂推理、多轮对话	训练成本极高、推理成本高、有幻觉问题

语言模型的评估指标

指标分类	指标名称	测的是什么（大白话）	怎么看好坏	核心适用场景	关键注意事项 / 补充
基础分类指标（所有 AI 模型通用，LLM 分类任务可用）	Accuracy（准确率）	模型整体猜对的比例，也就是猜对的样本数占总样本数的多少	数值越高越好，最高 100%	各类分类任务的整体正确率评估	样本不均衡时会 “骗人”：比如 100 个样本里 99 个是 A 类，模型全猜 A 也能有 99% 准确率，但实际没学会分类能力
基础分类指标（所有 AI 模型通用，LLM 分类任务可用）	Precision（精确率 / 查准率）	模型说 “是正类” 的结果里，真正是正类的比例，也就是模型猜的正结果里，有多少是真的对的	数值越高越好，最高 100%	需要控制 “误报” 的场景，比如阳性检测、垃圾邮件识别	代表模型猜得准不准，数值越高，误报的情况越少
基础分类指标（所有 AI 模型通用，LLM 分类任务可用）	Recall（召回率 / 查全率）	所有真正的正类里，被模型成功找出来的比例，也就是真实的正样本里，有多少被模型抓到了	数值越高越好，最高 100%	需要控制 “漏报” 的场景，比如疾病筛查、违规内容识别	代表模型找得全不全，数值越高，漏报的情况越少
生成类任务专用指标（LLM 生成任务标配）	BLEU 分数	专门评估机器翻译的质量，把模型生成的译文和人工标准答案对比，看连续的词块（n-gram）重合度有多少	取值 0~1，越接近 1 越好，数值越高说明译文和人工翻译越一致，质量越好	机器翻译任务的质量评估	会同时看 1-4 个连续词的重合度，再加权计算总分，是翻译领域的通用核心指标
生成类任务专用指标（LLM 生成任务标配）	ROUGE 指标	主要评估文本摘要、问答生成的质量，看模型生成的内容，覆盖了多少参考答案里的关键信息	取值 0~1，越接近 1 越好，数值越高说明生成的内容越贴合参考答案，关键信息越完整	文本摘要、问答生成、文案创作等生成类任务	常见有 ROUGE-N（看连续词块重合度）、ROUGE-L（看最长公共子序列长度），是生成类任务的核心评估指标
语言模型特有指标	PPL（困惑度）	衡量语言模型对句子的预测能力，也就是模型觉得这句话有多通顺、多合理	数值越低越好，数值越小，说明模型越确定这句话是通顺合理的，模型的基础语言能力越好	语言模型基础能力的通用评估，是 LLM 预训练阶段的核心优化指标	本质是基于句子概率计算的，句子出现的概率越高，PPL 越低，模型表现越好；比如通顺的句子 PPL 低，混乱的句子 PPL 高

指标	主要用途	好坏标准
Accuracy	分类任务整体正确率	越高越好
Precision	看 “猜的准不准”，控制误报	越高越好
Recall	看 “找的全不全”，控制漏报	越高越好
BLEU	机器翻译质量评估	越高越好（越接近 1）
ROUGE	文本摘要 / 问答生成质量评估	越高越好（越接近 1）
PPL	语言模型基础能力评估	越低越好

python实现PPL指标的计算

LLm主要模型

自编码模型（Encoder-only）：理解文本的 “阅读理解大师”
自回归模型（Decoder-only）：生成文本的 “写作 / 聊天大师”
序列到序列模型（Encoder-Decoder）：先理解再生成的 “翻译 / 摘要大师”

1️⃣ 自编码模型（Encoder-only，代表：BERT）

核心玩法

它只有 Transformer 的 Encoder 部分，训练时玩的是「完形填空游戏」：

随机把句子里的一些词盖住（MASK）
让模型根据前后所有词，猜被盖住的词是什么
比如：“今天天气很 [MASK]，适合出门” → 模型猜 “好”

特点

它能同时看到整句话的上下文（前后文双向都能看）
重点是理解语义，不是生成新句子
训练目标：把句子的每一个词，都学到它在语境里的含义

适合任务

所有需要 “理解文本” 的任务：

文本分类（情感分析、新闻分类）
问答（比如从文章里找答案）
语义相似度判断（判断两句话是不是一个意思）

2️⃣ 自回归模型（Decoder-only，代表：GPT 系列）

核心玩法

它只有 Transformer 的 Decoder 部分，训练时玩的是「接龙游戏」：

给模型前面的词，让它预测下一个词
比如：“我今天去公园____” → 模型猜 “散步”
生成时一个词一个词往外蹦，前面的词会影响后面的预测

特点

只能从左往右看文本（单向的），永远看不到还没生成的词
重点是生成连贯文本，而不是做理解类任务
你平时用的 ChatGPT、GPT-4，都是这类模型

适合任务

所有需要 “生成文本” 的任务：

对话聊天、写文案、写代码
续写、翻译、创作
它也能做理解任务，但本质是靠 “生成式理解”，不是原生强项

3️⃣ 序列到序列模型（Encoder-Decoder，代表：T5、BART）

核心玩法

完整的 Transformer 架构，既有 Encoder 也有 Decoder：

Encoder（编码器）：先把输入文本 “读明白”，压缩成一个向量表示
Decoder（解码器）：再根据这个向量，生成目标文本

举个例子，机器翻译：

Encoder 读英文句子：I love cats
把它编码成向量
Decoder 根据向量，生成中文：我喜欢猫

特点

天生适合 “输入一段文本，输出另一段文本” 的任务
Encoder 负责理解，Decoder 负责生成，分工明确
比纯 Encoder 多了生成能力，比纯 Decoder 更擅长处理输入输出不同结构的文本

适合任务

机器翻译（最经典的场景）
文本摘要（输入长文章，输出短摘要）
问答生成（输入问题，输出完整答案）
改写、润色文本

模型类型	结构	核心能力	代表模型	最适合场景
自编码模型	Encoder-only	双向理解、语义编码	BERT、RoBERTa	文本分类、情感分析、问答
自回归模型	Decoder-only	单向生成、文本续写	GPT 系列、LLaMA	对话、创作、代码生成
序列到序列模型	Encoder-Decoder	先理解再生成	T5、BART	机器翻译、文本摘要

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

[Dify x EdgeOne] 论文猎手——用 Dify + EdgeOne Pages 给科研人造一个每日 arXiv 速读助手

AtomGit开源社区

消息跨端架构演进：基于 C++ 的多端一致性研发框架实践

跨端不是追求 100% 代码复用。核心是在"一致性"与"平台最优体验"之间找到平衡点。对于强交互场景（如键盘区域），保留 Native 实现往往是更好的选择。容器框架的抽象层级要足够精简。过度设计会导致理解成本反增。我们的 BizLogicProtocol 只有 7 个核心方法，足以覆盖所有业务场景。全链路质量监控是成功落地的关键保障。跨端方案最怕的不是技术问题，而是出了问题找不到原因。架构合理性