大模型入门必看：从零开始理解大语言模型（收藏版）

黑帽子唐哥

345人浏览 · 2026-04-08 14:28:29

黑帽子唐哥 · 2026-04-08 14:28:29 发布

本文从模型、函数、机器学习等基本概念入手，逐步深入到大模型的定义、工作原理和训练流程。重点介绍了大模型的核心架构——Transformer，以及自注意力机制、多头注意力等关键技术。同时，还详细解释了大模型的三个阶段：预训练、微调&对齐、推理，帮助初学者全面了解大模型的基本知识和应用场景。

模型：弄一个非常复杂的函数，然后根据计算出的预测值与真实值的误差，不断调整里面的未知参数，这个函数叫做模型，模型里的参数叫做权重，如果模型中的参数量特别大，就叫做大模型，用于自然语言处理的大模型就叫做大语言模型，调整参数的过程就是模型的训练。

函数：我们知道函数是这样的，我们输入一些符号，然后设置好运算规则，最后算出来结果。

x ——> f(x) ——> y

如果我们把现实世界抽象为符号，作为输入，把我们想要的东西作为输出，那么中间这个函数就是我们要找的一个能力。

机器学习：怎么理解呢，比如我们有一张图片，希望机器输出描述性的文字，那么这个时候就需要一个比较复杂的函数，这个函数我们人类很难写出来，所以让机器来找这个函数就最合理，那么这就是机器学习。

传统编程：人写规则 → 计算机执行

机器学习：计算机从数据中自动发现规则（数据 + 算法 → 模型 → 预测/决策）

人工智能 (AI)
    └── 机器学习 (ML)：通过数据学习
        └── 深度学习：使用多层神经网络
            └── 大语言模型：深度学习的应用，处理自然语言NLP

三大学习范式

范式	数据类型	典型场景
监督学习	有标签数据	分类、回归
无监督学习	无标签数据	聚类、降维
强化学习	奖励信号	游戏、机器人

常见算法

类别	算法
监督学习	线性回归、决策树、SVM、神经网络
无监督学习	K-Means、PCA、自编码器
强化学习	Q-Learning、Policy Gradient、PPO

什么是大模型

包含数十亿个以上的参数的模型，Large Language Model。

LLM 是 NLP 和深度学习结合的产物，通常基于 Transformer 架构，拥有大规模参数和数据训练，能够进行复杂的语言任务。LLM 可以说是 NLP 的一个发展阶段，但现在通常不把 LLM 当作是传统 NLP 的范畴。

人工智能（AI）[Artificial Intelligence]
├── 机器学习（ML）[Machine Learning]
│   ├── 传统 ML（决策树、SVM 等）
│   └── 深度学习（DL）[Deep Learning]
│       ├── 神经网络（NN）
│       ├── 卷积神经网络（CNN）【用于计算机视觉】
│       ├── 循环神经网络（RNN）【早期 NLP 用】
│       └── Transformer【现代 NLP 用，基于自注意力机制】
│           ├── 预训练语言模型（PLM）
│           │   ├── BERT（双向）
│           │   ├── GPT-2（自回归）
│           │   └── T5（编码-解码）
│           └── 大语言模型（LLM）
│               ├── GPT-3 / GPT-4
│               ├── Claude / Gemini / LLaMA
│               └── Mistral / Falcon 等
└── 自然语言处理（NLP）
    ├── 语法分析
    ├── 机器翻译
    └── 情感分析

LLM 工作模式——自回归（Autoregressive）

大型语言模型（LLM）主要基于自回归（Autoregressive）的方式进行文本生成，其核心机制是根据已有的文本上下文预测下一个最可能出现的词，然后不断重复这一过程，最终生成完整的文本。

大模型在学习了大量训练数据后，就能够根据「上文」来计算出下一个词的概率分布。

比如下列句子，一旦预测出了 “learning”，它就会被追加到输入序列中：

“I like machine learning”

然后模型会基于新的输入再次预测下一个词：

“I like machine learning because”

不断重复这一过程，直到达到最大长度，或模型预测到结束符（EOS）。

LLM 基础原理

一个大模型的诞生分为三个阶段：预训练、微调&对齐、推理

预训练：通常采用无监督学习的方式，让模型基于大量的知识库去进行自主学习，最终得到一个基座模型（但是这个基座模型只能预测下一个词，不擅长对话怎么办，这时就需要微调&对齐）。

微调&对齐：主要会去改变模型内部的一些参数，让它更适合某个特定的任务。在这个过程中，模型不需要再从海量数据里学习，而是从某些人工标注/指定的高质量数据中学习，使其在某一专业中得到提升；同时还会对模型进行强化学习，让模型根据环境采取某一行动并获得结果反馈，从反馈中优化策略选择。

阶段	目标	数据
预训练	学习通用语言知识	海量无标注文本
SFT（监督微调）	学习遵循指令	高质量指令-回答对
RLHF（强化学习）	对齐人类偏好	人类偏好排序数据

训练全流程：从预训练到高效微调

大模型的训练是一个分阶段的系统工程，从通用知识学习到特定任务适配，每个阶段都有明确的目标和技术要求。

预训练

无监督学习

核心定义：无监督学习是机器学习的一种重要方法。它指的是模型直接从未标注数据中学习模式、规律和结构，而不依赖于事先准备好的标签或目标输出。

通俗解释：

• 无需人工干预：不需要人工为每个数据样本分配标签（例如：不需要告诉机器这张图是"猫"还是"狗"）。
• 自我探索：模型通过挖掘数据本身的内在特征，自动寻找数据中隐藏的结构或分布模式。

Tokenization

核心定义：Tokenization 是大语言模型（LLM）或者说自然语言处理（NLP）处理文本的第一步。它将人类可读的自然语言（句子、段落）切割成模型能够理解和处理的最小单元，这些单元被称为 Token。

通俗比喻：如果把一篇文章比作一堵墙，Tokenization 就是把这堵墙拆成一块块标准的"砖头"（Token）。模型不直接看"墙"，而是通过排列组合这些"砖头"来理解意思。

为什么要做 Tokenization？

计算机本质上只认识数字（0和1），不认识汉字或英文单词。

• 输入端：把文字变成 Token，再转化为数字 ID，喂给模型。
• 输出端：模型生成数字 ID，再反向转换回 Token，拼成人类能读的文字。

但如果仅仅是把文本转换为了数字，单纯的数值是不能被模型直接消费的，这就要用到 Embedding 技术了。

Embedding 不只是把文本转数字，而是转成"带语义的数字向量"，让模型能真正读懂和使用文本。

Embedding Vector

嵌入向量（Embedding Vector）是一种将离散的符号（如单词、句子、文档或其他对象）映射到一个连续的、高维的实数向量空间中的过程。这种向量能够捕捉到单词之间的语义关系，这使得模型能够有效地处理和理解这些对象。

还是以 OpenAI 提供的 Ada Embedding Model 为例，我们将文本数据输入到 Ada 模型中，能够得到其向量表示：

在相似的上下文中经常一起出现的单词由在 Embedding 空间中位置更接近的向量表示。这种接近反映了它们的语义相似性。

通常，向量的度量方式有两种：欧式距离与余弦相似度。在 LLM 领域，余弦相似度更常用来计算嵌入向量之间的相似度，因为它专注于向量的方向（即语义相似度），而不受长度的影响。

例如：给每一个单词一个 N 维编码向量，我们期望这种编码满足这样的特性：两个向量之间的"距离"越小，代表这两个单词含义越接近。比如利用 Word2vec 这个模型把单词映射到了高维空间中，从 king 到 queen 的向量和从 man 到 woman 的向量，无论从方向还是尺度来说它们都异常接近。

至此，我们知道了大模型通过 Embedding 将每个分词转化为更高维度的词向量表示，从而能够更好地明白文本中各词的语义关系；那么接下来我们就来看看大模型是如何使用这些词向量来进行训练的。

模型训练的本质

Loss Function

理论上世界中任何现象都能用客观存在的真实函数来描述，模型训练的本质就是面对想解决的问题提出假设函数，并通过回放样本的手段不断的调整假设函数的参数，让假设函数的计算结果与真实结果值无限接近。

训练过程中如何调整假设函数的权重参数呢？

用 Loss Function 去表示预测值和真实值之间的差距，然后用数学的方法让模型参数沿着损失越来越小的方向去变化，这就是熟知的梯度下降。

这里 Loss Function 通常并不是简单的预测值与真实值的差值，但我们只需要知道存在这样的 Loss Function 去描述预测值与真实值的差距即可，面对不同模型 Loss Function 选择不一样，这并不影响理解模型训练的本质。

通用逼近性定理

问题来了，事先怎么知道用什么函数去当作解决问题的假设函数呢？

深度神经网络登场了，深度神经网络由输入层、隐藏层和输出层构成，这里隐藏层的神经元节点上是某种非线性函数，神经网络的边上是模型的权重参数。

通用一致逼近定理的核心思想是：只要中间的隐藏层有足够宽的结构（意味着足够多的权重）和足够多的神经元（意味着足够多的非线性函数），理论上神经网络能逼近任何函数。

因此如果说传统机器学习是在面对问题找最合适的假设函数，深度学习则希望用这种通用的神经网络结构去解决所有问题。这也是后来模型越来越大，参数越来越多的根本原因。

Transformer 架构介绍

Embedding（嵌入）是 Transformer 架构的基础输入层，是 Transformer 处理文本数据的第一道工序。

一、起源与核心思想

Transformer 是 2017 年由 Google 团队在论文《Attention Is All You Need》中提出的深度学习模型架构，由 Ashish Vaswani 和多伦多大学团队共同提出。它彻底改变了序列数据处理的方式，摒弃了传统 RNN（循环神经网络）的循环结构和 CNN（卷积神经网络）的局部连接，以自注意力机制（Self-Attention） 为核心，专门解决序列数据（文本、语音、时序信号）的建模问题。

简单类比：如果说 CNN 是"局部看世界"（适合图像局部特征提取），RNN 是"按顺序看世界"（逐字逐句处理文本），那 Transformer 就是"全局看世界"——能一次性捕捉序列中所有元素的关联（比如一句话中"他"、“小明”、"书包"的指代关系），效率和建模能力远超前者。

二、核心设计与工作原理

自注意力机制（Self-Attention）——Transformer 的"灵魂"

这是 Transformer 最核心的部分，作用是让序列中的每个元素都能"看到"序列中所有其他元素，并计算它们之间的关联强度（权重）。

工作原理（以文本"我喜欢吃苹果"为例）：

• 每个字（Token）转化为 3 个向量：
- • Query（查询向量，“我想找谁”）
- • Key（键向量，“我是谁，我是什么标签”）
- • Value（值向量，“我有什么信息”）
• 通过 Query 和所有 Key 的计算，得到每个字与其他字的"关联权重"（如"苹果"和"吃"的权重很高）
• 用权重加权求和所有 Value 向量，得到该字的"全局关联特征向量"

其数学公式为：

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

其中缩放因子 √d_k 的设计目的是防止点积结果过大导致 softmax 梯度消失。与 CNN 和 RNN 相比，自注意力机制具有全局建模能力和并行计算优势，但计算复杂度为 O(n²)，在处理超长序列时面临挑战。

关键优势：

• 无顺序依赖：可一次性计算所有元素的关联，支持并行训练（训练速度比 RNN 快 10 倍以上）
• 长距离捕捉：无论序列多长（如 1000 字的文章），都能直接捕捉首尾元素的关联

多头注意力（Multi-Head Attention）——强化特征捕捉

单一自注意力只能捕捉一种关联（如语法关联），多头注意力相当于"多个人同时看序列"，并行捕捉多种不同维度的关联（语法、语义、逻辑），再将结果拼接。

编码器（Encoder）与解码器（Decoder）

经典 Transformer 包含"编码器（6层）+ 解码器（6层）"，分层设计用于提取特征和生成输出：

组件	作用
编码器（Encoder）	读取输入序列，提取全局特征表示
解码器（Decoder）	基于编码器输出和已生成的内容，逐步生成目标序列

关键补充：解码器的"掩码机制"（Mask）是核心——生成文本时，只能"看到前面已经生成的字"，看不到后面的字（如写"我喜欢吃"时，看不到"苹果"），符合人类"逐字生成"的逻辑。

位置编码（Positional Encoding）

由于 Transformer 没有循环结构和卷积操作，无法自然地捕捉序列中的位置信息。位置编码通过向输入序列添加额外的位置信息，使 Transformer 能够区分不同位置的元素。

辅助模块：层归一化（LN）与残差连接

• 残差连接：解决深层网络的"梯度消失"问题，让模型能训练到上百层甚至上千层
• 层归一化：稳定模型训练过程，避免参数波动过大，提升训练效率和模型泛化能力

三、Transformer 的核心优势（对比 RNN/CNN）

特性	RNN	CNN	Transformer
并行训练	不支持	支持	支持
长距离依赖	困难	有限	优秀
全局建模	弱	局部	全局
训练效率	低	中	高

四微调与对齐

微调（Fine-tuning）：让模型更"会做事/懂业务"

目标：在预训练模型基础上，用你的数据继续训练，使其在特定任务、风格或领域上表现更好，例如客服话术、医疗问答、代码规范、企业知识写作等。

常见类型：

SFT（监督微调，Supervised Fine-Tuning）
- • 数据形态：指令/输入 → 标准答案
- • 效果：提升任务完成度、输出格式稳定性、风格一致性
Continued Pretraining（领域继续预训练）
- • 数据形态：大量无标注领域文本（如金融研报、法律条文）
- • 效果：补足领域语言与知识表征，但不一定"更听指令"
参数高效微调（PEFT）

LoRA/QLoRA、Prefix/Prompt Tuning、Adapter
- • 优点：训练成本低、易多版本管理、便于快速迭代
全参数微调（Full FT）
- • 优点：上限高
- • 风险/代价：算力与数据要求高，更容易"灾难性遗忘"（把通用能力冲掉）

对齐（Alignment）：让模型更"像人、守规矩、可控"

目标：让模型输出符合人类偏好与安全规范：更有帮助（helpful）、更诚实（honest）、更无害（harmless），并减少幻觉、毒性、越权行为等。

常见方法路径：

偏好对齐（Preference Alignment）
- • RLHF（人类反馈强化学习）：标注"哪个回答更好"，训练奖励模型，再用强化学习优化
- • DPO/IPO/KTO 等"无强化学习或弱强化学习"的偏好优化：工程更简单、稳定性更好
安全对齐/策略对齐
- • 加入安全策略数据（合规拒答、风险提示、可替代建议）
- • 红队数据（越狱、提示注入、敏感内容诱导）对抗训练
过程/推理对齐（可选）
- • 例如过程监督、工具使用规范、引用要求、可验证推理

微调 vs 对齐：怎么理解关系？

• 微调：主要解决"能力/知识/格式"——让它把任务做对、做稳
• 对齐：主要解决"行为/边界/偏好"——让它在对的前提下，按你希望的方式做

LLM 的 KV Cache 详解

Transformer 模型是自回归生成的——逐个 Token 预测下一个 Token。

没有 KV Cache 时的问题

生成过程示例：
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

第1轮: 输入 [A]           → 预测 B
第2轮: 输入 [A, B]        → 预测 C
第3轮: 输入 [A, B, C]     → 预测 D
第4轮: 输入 [A, B, C, D]  → 预测 E
        ↑
        问题：每轮都要重新计算 A、B、C...
        计算量呈 O(n²) 增长！

痛点：第 N 步生成时，前 N-1 个 Token 的计算是完全重复的，但没有保存结果，导致巨大的算力浪费。

有 KV Cache 后的优化

生成过程示例（带 Cache）：
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

第1轮: 输入 [A]                    → 预测 B，缓存 K₁,V₁
第2轮: 输入 [B] + Cache [K₁,V₁]    → 预测 C，缓存 K₂,V₂
第3轮: 输入 [C] + Cache [K₁,V₁, K₂,V₂] → 预测 D
       ↑
       只计算新 Token，复用历史 Cache
       计算量降至 O(n)！

关键点：

• Q 永远只来自当前 Token（因为只关心"当前要找什么"）
• K 和 V 来自所有历史 Token（因为要和所有历史做注意力计算）
• 缓存 K 和 V，就避免了重复计算历史 Token 的向量投影

五、总结

Transformer 通过"自注意力机制"实现了"全局看世界"的能力，解决了 RNN"无法并行训练"、"长序列梯度消失"和 CNN"难以捕捉长距离关联"的痛点。其架构设计围绕自注意力机制、多头注意力、编码器-解码器结构和辅助模块展开，成为当今大模型的核心架构。

如今，几乎所有主流大模型都基于 Transformer 架构，它已成为人工智能领域的"底层基石"，持续推动着 AI 技术的发展和应用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

以上全套大模型资料如何领取？

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

A股股票数据 MCP Server 接入 Claude、Cursor、OpenClaw、Hermes 实践

本文介绍如何通过悟道数据 Wudao Data，把 A股行情、涨停板、资金流、龙虎榜、研报和基本面数据接入 Claude、Cursor、OpenClaw、Hermes 等 AI Agent。相比直接爬网页或手写 REST API 包装，MCP 更适合 Agent 进行工具发现、结构化调用和自动复盘。

AtomGit开源社区

AI核心概念详解_从Transformer到Agent

Token是大模型处理文本的最基本单位。用户输入的文字不会直接交给模型，而是需要经过Tokenizer（分词器）进行编码。从 Transformer 到 Agent，大语言模型的技术栈正在快速演进。理解这些核心概念，不仅能帮助你更好地使用 AI 工具，也能为深入学习 AI 技术打下坚实基础。记住这个核心逻辑LLM 是"大脑"，Token 是"语言"，Context 是"记忆"，RAG 是"知识库"