【大模型基础（1）】大模型概述

roman_日积跬步-终至千里

353人浏览 · 2026-03-14 11:55:27

roman_日积跬步-终至千里 · 2026-03-14 11:55:27 发布

文章目录

参考：《图解大模型》第1章
核心问题：LLM 从哪里来？它的本质是什么？有哪几种形态？

一、从"翻译问题"到大模型

把"I love llamas"翻译成荷兰语"Ik hou van lama’s"——这个具体问题，逼出了过去十年语言AI的所有核心突破。

RNN：把句子压缩成一个向量（2014年前后）

I → love → llamas
               ↓
         [一个向量]   ← 整个句子的摘要
               ↓
Ik → hou → van → lama's

问题：句子越长，信息丢失越多——用一张纸条摘要一本书，再从纸条复原书，必然失真。

RNN + 注意力：解码时动态"回头看"（2014年）

与其压缩成一个向量，不如让解码器生成每个词时，动态决定关注输入的哪些部分：

第一步：编码器保留每步隐藏状态
  I → h₁    I love → h₂    I love llamas → h₃
  hᵢ = f(当前词向量, hᵢ₋₁)   ← 信息滚雪球式累积

第二步：解码器状态 s 对每个 hᵢ 计算相似度，softmax 归一化后加权求和
  [s·h₁, s·h₂, s·h₃] = [0.2, 0.4, 2.1] → [0.05, 0.10, 0.85]
  c = 0.05×h₁ + 0.10×h₂ + 0.85×h₃   ← 主要关注 llamas → 生成 lama's ✓

但 RNN 的根本缺陷仍在：序列必须串行处理，无法并行训练。

Transformer：把 RNN 完全扔掉（2017年）

Google 论文 “Attention Is All You Need” 核心思路：只用注意力，不用 RNN。

两大收益：① 并行化 — 所有词同时处理，训练速度质变 ② 全局视野 — 每个词直接关注序列中任意位置

这一改变，开启了大模型时代。

二、三种架构：同样是 Transformer，用法各不同

Transformer 论文提出的是编码器-解码器架构，但研究者发现只用一半往往更好：

	仅编码器（BERT 类）	仅解码器（GPT 类）	编解码器（T5 类）
注意力方向	双向，看全句	单向，只看左边	编码双向，解码单向
擅长	理解、分类、语义搜索	生成、对话、代码	翻译、摘要、改写
代表模型	BERT, RoBERTa	GPT, LLaMA, Qwen	T5, BART
当前地位	特定任务	主流（★★★★★）	特定任务

为什么各用一半？ 任务决定结构：

做分类/语义理解 → 只需"读懂全句"，解码器多余；去掉它，编码器专心学双向语义
做文本生成 → 只需"预测下一个词"，编码器多余；去掉它，解码器专心学自回归生成
做翻译/摘要 → 输入输出是两条独立序列，才真正需要两套层

GPT 为什么不需要编码器？
翻译是两条序列（英 → 荷），必须分两套层。
续写是同一条序列（“The cat sat on the” → “mat”），解码器一套层同时完成理解和生成。

训练方式（以 GPT 为例）：给模型大量文本，让它一直预测下一个词：

输入: "The cat sat on the"
目标: "cat sat on the mat"   ← 给定前N个词，预测第N+1个词

任务看似简单，但为了"预测得准"，模型必须学会语法、语义、事实、推理——语言背后的一切规律。

三、训练范式：从"读书"到"能干活"

预训练                    SFT                      对齐（RLHF/DPO）
海量文本，预测下一词  →   指令+答案对，有监督   →   偏好数据，符合价值观
学会语言规律               学会"听指令"               学会"什么该说什么不该说"
→ Base Model               → Instruct Model            → ChatGPT

三步缺一不可：Base Model 知识渊博但不会做事，SFT 让它能干活，对齐让它适合面向公众。

四、嵌入：文本进入模型的第一步

LLM 只处理数字，嵌入把文本变成向量：

"Hello" → [0.23, -0.15, 0.88, ...]   (768维)
"Hi"    → [0.21, -0.13, 0.85, ...]   ← 向量很接近（同义词）
"Dog"   → [-0.8,  0.44, -0.12, ...]  ← 向量很远（无关词）

不只是词，句子、文档、图片都可以嵌入——这是语义搜索、RAG、多模态的共同底层。

五、思考题

BERT 为什么不能做文本生成？ 提示：双向注意力和自回归生成有什么矛盾？
为什么预训练用"预测下一个词"，而不是其他任务？ 提示：数据从哪来？需要标注吗？
GPT-3 没做 SFT，能用"写一首诗"的提示词让它写诗吗？ 提示：它的训练目标是"续写"。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【2026更新】Python基础学习指南（AI版）——安装

AtomGit开源社区

5 分钟上手 renderdoc-mcp：让 AI 帮你分析 GPU 抓帧

不用再手动翻事件列表了。配置好 renderdoc-mcp，直接用自然语言提问，AI 就能帮你查看 draw call、管线状态、shader 和资源。

AtomGit开源社区

剪映视频去水印+去字幕+去logo三合一操作流程（新手必备）

但在实际使用中，不少人会遇到一个共性问题：剪映导出的视频自带水印、素材中夹杂多余字幕，或搬运、引用的素材带有品牌Logo，尤其当下用即梦、豆包生成的视频素材，往往会附带平台水印或冗余字幕，这些元素不仅拉低视频质感，还可能影响作品传播效果。导入视频后用选框标记需要去除的区域，开启“AI跟踪”功能可自动追踪动态字幕、logo的轨迹，选择合适的AI去除模式，设置好分辨率和导出格式后点击导出即可，支持4K