01_LLM介绍

2501_91571672

303人浏览 · 2026-06-06 21:40:23

2501_91571672 · 2026-06-06 21:40:23 发布

LLM（大语言模型）通俗指南

零基础也能看懂的大模型入门

📖 = 该术语在 AI_terminology_explanations.md 中有独立词条，可对照阅读

一、什么是 LLM

LLM（Large Language Model），大语言模型——就是 ChatGPT、Claude、文心一言这些 AI 聊天工具背后的"大脑"。

通俗理解：它本质上是一个"文字接龙高手"。你给它一段话，它根据学过的所有文本规律，猜出下一个最可能出现的字是什么，一个一个猜下去，就变成了一篇完整的回答。

类比：就像一个读了互联网上几乎所有文章的人，你问他什么问题，他都能根据"读过的经验"给你组织一段像样的回答。

二、发展历程

LLM 不是突然冒出来的，而是一步步"升级"上来的。

1990s         2013        2017        2018        2020        2022        2024
  │             │           │           │           │           │           │
N-gram       词向量     Transformer   BERT       GPT-3     ChatGPT     GPT-4/Claude
统计猜词     词变数字     注意力机制    双向理解   1750亿参数   突然出圈     多模态+智能体
              ↑            ↑            ↑           ↑           ↑              ↑
           "猫"变成      一眼看完      同时从左     大到令人    大众第一次    能看图、
        [0.2, 0.8...]    整段话        读到右       震撼        体验聊天     能调用工具

关键节点速查

阶段	代表技术	一句话解释
N-gram 时代（1990s）	统计语言模型	根据前两个词猜第三个词——"今天天___“→"气”，规则简单、记不住长上下文
词向量时代（2013）	Word2Vec（即 Embedding）📖	把每个词变成一串数字，"猫"和"狗"的数字串很像，"猫"和"汽车"差很远
Transformer 时代（2017）	Transformer 📖	革命性架构：一眼看完整个句子并自动划重点——现在所有大模型的"祖宗"，出自论文《Attention Is All You Need》
预训练时代（2018）	BERT 📖 / GPT	先让模型"博览群书"学语言规律，再针对具体任务微调 📖，效果好到炸裂
大模型时代（2020）	GPT-3（1750 亿参数）	大到一定程度后"量变引发质变"——突然会做没专门教过的事
对话时代（2022）	ChatGPT	加上人类反馈训练后，聊天流畅自然，第一次让大众感受到 AI 的能力
多模态时代（2024+）	GPT-4o / Claude	不只会文字，还能看图、听语音、调用工具、自主完成复杂任务

💡 里程碑论文：《Attention Is All You Need》

作者：Vaswani 等（Google Brain & Google Research）
发表：2017 年，NeurIPS 会议

这篇论文提出了 Transformer 架构，彻底改变了整个 NLP（自然语言处理）领域。

之前的做法有什么问题？
以前的模型（如 RNN、LSTM）读句子时是"从左到右逐字读"的，就像你一个字一个字念文章——速度慢，而且读到句尾时，开头的内容已经记不太清了。

这篇论文的创新点：
论文的核心思想是 Self-Attention（自注意力机制） 📖——模型一眼看完整个句子，自动判断哪些字更重要、哪些字之间有联系。比如"猫坐在垫子上，因为它很软"，模型能自动判断"它"指的是"垫子"而不是"猫"，不需要逐字读。

架构概览：
Transformer 由 编码器（Encoder） 和 解码器（Decoder） 两部分组成——编码器负责"理解"输入，解码器负责"生成"输出。两者之间通过注意力机制传递信息，完全不需要逐字处理。

多头自注意力机制

为什么影响这么大？

速度快：可以并行处理（同时看所有字），而不是逐字等待，训练效率大幅提升
效果好：注意力机制让模型抓住了句子内部的深层关系
影响深远：后来的 BERT、GPT、Claude、Gemini……所有现代大模型都基于这个架构，只是做了各种改进

一句话总结：这篇论文用"注意力"代替了"逐字阅读"，是今天所有大语言模型诞生的起点。

三、LLM 是怎么炼成的

训练一个大模型分三步，像培养一个人的成长过程：

第 1 步：预训练（博览群书）

做什么：把互联网上能找到的书籍、网页、论文全部喂给模型，让它学习语言的规律——语法、常识、逻辑推理。

类比：就像一个人从小学到大学的读书过程，读了海量文章，虽然还没什么实际工作经验，但已经"什么都能聊两句"。

花费：动辄几百万美元、跑几个月，用上千块显卡。

第 2 步：监督微调（专业培训）

做什么：用精心编写的高质量问答数据教模型"怎么跟人聊天"——有礼貌、说人话、格式清晰。

类比：大学毕业进了公司，老员工手把手教"我们公司是这么跟客户沟通的"——从学术范变成职场人。

花费：比预训练便宜得多，几天就能完成。

第 3 步：人类反馈对齐（情商训练）📖

做什么：让模型生成多个回答，人类给每个回答打分，告诉它"这样说话好，那样说话不好"。（这就是术语手册中的 RLHF）

类比：情商培训——不是教知识，而是教它什么话该说、什么话不该说。比如被问敏感问题时，学会礼貌拒绝而不是乱答。

结果：最终得到一个有用、诚实、无害的 AI 助手。

四、核心概念拆解

Token（词元）

LLM 不认"字"，它认的是 Token——比字大、比词小的文本片段。

示例："人工智能"可能被拆成 2 个 Token，"hello"可能只有 1 个 Token。中文大概 1.5 个字 = 1 个 Token。

为什么重要：模型按 Token 收费，上下文长度也是按 Token 算的。

上下文窗口（Context Window）

模型一次能"记住"的最大文字量。

示例：上下文窗口 128,000 Token ≈ 一本 300 页的书。你一次可以把整本书扔给它，让它总结、找信息。窗口小的模型（如 4,000 Token）只能记住一小段对话。

温度（Temperature）

控制回答的"创造力"——从死板到放飞。

温度值	效果	适用场景
0.0	每次回答一模一样	代码生成、数据提取
0.3-0.5	稳定但略有变化	翻译、摘要
0.7-0.9	更有创意和变化	写作、头脑风暴
1.0+	天马行空，可能跑偏	写诗、编故事

类比：温度就是"想象力旋钮"——拧到 0 是最老实的回答，拧到最大就变成了脑洞大开的科幻作家。

幻觉（Hallucination）

模型一本正经地胡说八道——看起来有理有据，实际上信息是编造的。

示例：你问"某某科学家哪年获得了诺贝尔奖？"它可能编一个看起来很合理的年份，但查无此事。

原因：模型的本质是"猜下一个字"，不是"查数据库"，所以它不知道什么是真什么是假，只知道什么话"看起来像对的"。

应对：重要信息一定要自己核实，或者给模型配上知识库（RAG 📖）让它查资料再回答。

参数（Parameters）

可以简单理解为模型的"脑细胞数量"——参数量越大，模型能记住的规律越复杂。

示例：GPT-3 有 1750 亿参数，GPT-4 估计是万亿级别。参数量和智力不一定成正比，但大体上"越大越聪明"。

五、主流模型速览

第一梯队（闭源）

模型	公司	一句话介绍
GPT-4o	OpenAI	最出名的全能选手，文字、图片、语音都能处理
Claude（Sonnet/Opus）	Anthropic	长文本处理和代码能力强，回答风格温和自然
Gemini	Google	和 Google 生态深度整合，能处理超长文档和视频

开源代表

模型	公司	一句话介绍
LLaMA	Meta（Facebook）	开源大模型的"祖师爷"，任何人都能免费下载使用
Qwen（通义）	阿里巴巴	中文能力突出的开源模型，性价比极高
DeepSeek	深度求索	中国团队出品，训练成本低但效果接近一线水平
大模型排行榜

一句话选型建议

日常聊天、写作 → GPT-4o 或 Claude
代码开发 → Claude 或 GPT-4o
中文场景 → Qwen 或 DeepSeek
想免费自己部署 → LLaMA
长文档分析 → Claude（上下文窗口大）

六、能干什么

1. 文字工作

写：邮件、报告、方案、文案、论文大纲、简历

改：润色、改写、纠错、翻译、缩写

示例：你写一段潦草的笔记，让它"整理成正式的会议纪要，300 字以内"，立刻得到一份可以直接发给团队的文档。

2. 编程助手

写代码：从简单脚本到完整功能模块

解释代码：看不懂的代码扔进去，它会逐行解释

调试：把报错信息给它，它帮你定位问题

示例：你告诉它"用 Python 写一个脚本，批量把 Excel 文件转成 CSV"，它直接给你可运行的代码。

3. 知识问答

查概念：“什么是区块链？用初中生能听懂的方式解释”

做对比：“微服务和单体架构各有什么优缺点？”

学语言：“帮我练习英语口语，你当面试官”

示例：把一份陌生领域的报告喂给它，让它"用通俗语言总结核心观点，列出 3 个关键结论"。

4. 创意生成

头脑风暴、起名字、写故事、编剧本、写歌词

示例：“帮我想 10 个咖啡店的名字，风格要文艺清新，中英文各一半”

5. 数据分析

让模型写 SQL 查询、分析数据趋势、生成可视化代码

示例：你给它一张表格数据，说"帮我分析哪个地区销售额最高，用柱状图展示"，它会写出 Python 代码生成图表。

七、局限与挑战

幻觉（前面提过）

模型会编造信息，而且编得很像真的。解决方案：关键信息自己核实，或搭配知识库使用。

知识截止

模型的训练数据有截止日期，截止之后的事情它不知道。

示例：训练数据截止到 2024 年 6 月的模型，不知道 2025 年发生了什么。不过搭配联网搜索功能可以弥补。

知识隔离

模型训练完成后，知识就"冻结"在那个时间点了——它既不知道训练之后的新数据，也接触不到你公司内部的私有数据。

示例：2025 年发布的新政策，训练截止于 2024 年的模型一无所知；你的公司内部客户数据，模型也完全看不到。就像一场闭卷考试，考完试后教材换了新版，考生还是按旧教材答题。

应对：搭配 RAG（检索增强生成）📖 让模型先查资料再回答。

工具调用缺失

原生 LLM 只是一个"文字生成引擎"，不能直接操作外部工具——它不能帮你发邮件、查数据库、调 API。

示例：你问"今天北京天气怎么样？“原生 LLM 只能根据训练数据猜一个大概，无法实时查天气 API。你需要通过 Function Calling 📖 给它装上"手脚”，让它知道如何调用外部服务。

无状态（Stateless）

模型每次调用都是一张白纸——它不记得上一次跟你聊过什么，每次对话对它来说都是"第一次见面"。

示例：第一轮你说"我女朋友生日快到了"，第二轮你说"送什么好？“，模型并不知道这个"送什么"和女朋友有关，除非你把之前的对话内容作为上下文一起传给它。历史记录需要应用层（你的代码）来维护，模型自身不会"记住”。

应对：在应用层维护对话历史，每次调用时带上之前的上下文。

不擅长精确计算

模型是"猜字"而不是"计算"，复杂的数学题或精确计算可能出错。

示例：问它一个大数乘法题，它可能直接编一个看起来合理但错误的答案。解决方案：让它调用计算器工具。

缺乏真实理解

模型只是根据文本规律生成回答，并不真正"理解"它说的内容。

类比：就像一个背熟了所有菜谱但从没下过厨的人——理论上什么都知道，但实际做出来可能完全是另一回事。

成本

大模型的运行需要大量算力，高质量模型的 API 调用费用不低，大规模使用需要考虑成本。

八、快速上手

最简单的方式——打开浏览器直接用：

工具	网址	特点
ChatGPT	chat.openai.com	最知名，有免费版
Claude	claude.ai	长文本强，每天有一定免费额度
文心一言	yiyan.baidu.com	百度出品，中文友好
Kimi	kimi.moonshot.cn	月之暗面，支持超长文档
通义千问	tongyi.aliyun.com	阿里出品，可免费使用

随便注册一个，就能开始聊天了——不需要写任何代码。

一个好 Prompt 的公式 📖

角色 + 任务 + 背景信息 + 输出要求

示例：

“你是一个资深 HR（角色）。请帮我写一封面试拒信（任务）。候选人参加了三轮面试，表现不错但经验稍浅，我们选了另一位更资深的候选人（背景）。语气要委婉专业，200 字以内（输出要求）。”

总结一句话

LLM 就是一个"读了几乎整个互联网的文字接龙高手"——它不能替代你的思考，但能极大地放大你的能力。用好它的关键就是：会提问，会核实。

📖 术语对照索引

以下术语在 AI_terminology_explanations.md 中有独立详细解释：

本文出现位置	术语	术语手册中对应条目
发展历程	Embedding（Word2Vec）	术语手册 #2 · 嵌入
发展历程	Transformer	术语手册 #25 · Transformer
发展历程	Attention Is All You Need	术语手册 #26 · Transformer 论文
发展历程	BERT	术语手册 #27 · BERT
发展历程	Fine-tuning（微调）	术语手册 #3 · 微调
训练流程第 3 步	RLHF（人类反馈对齐）	术语手册 #18 · RLHF
核心概念·幻觉应对	RAG（检索增强生成）	术语手册 #5 · RAG
快速上手	Prompt Engineering（提示词工程）	术语手册 #1 · Prompt Engineering