01_LLM介绍
LLM(大语言模型)通俗指南
零基础也能看懂的大模型入门
📖 = 该术语在
AI_terminology_explanations.md中有独立词条,可对照阅读
一、什么是 LLM
LLM(Large Language Model),大语言模型——就是 ChatGPT、Claude、文心一言这些 AI 聊天工具背后的"大脑"。
通俗理解:它本质上是一个"文字接龙高手"。你给它一段话,它根据学过的所有文本规律,猜出下一个最可能出现的字是什么,一个一个猜下去,就变成了一篇完整的回答。
类比:就像一个读了互联网上几乎所有文章的人,你问他什么问题,他都能根据"读过的经验"给你组织一段像样的回答。
二、发展历程
LLM 不是突然冒出来的,而是一步步"升级"上来的。
1990s 2013 2017 2018 2020 2022 2024
│ │ │ │ │ │ │
N-gram 词向量 Transformer BERT GPT-3 ChatGPT GPT-4/Claude
统计猜词 词变数字 注意力机制 双向理解 1750亿参数 突然出圈 多模态+智能体
↑ ↑ ↑ ↑ ↑ ↑
"猫"变成 一眼看完 同时从左 大到令人 大众第一次 能看图、
[0.2, 0.8...] 整段话 读到右 震撼 体验聊天 能调用工具
关键节点速查
| 阶段 | 代表技术 | 一句话解释 |
|---|---|---|
| N-gram 时代(1990s) | 统计语言模型 | 根据前两个词猜第三个词——"今天天___“→"气”,规则简单、记不住长上下文 |
| 词向量时代(2013) | Word2Vec(即 Embedding)📖 | 把每个词变成一串数字,"猫"和"狗"的数字串很像,"猫"和"汽车"差很远 |
| Transformer 时代(2017) | Transformer 📖 | 革命性架构:一眼看完整个句子并自动划重点——现在所有大模型的"祖宗",出自论文 《Attention Is All You Need》 |
| 预训练时代(2018) | BERT 📖 / GPT | 先让模型"博览群书"学语言规律,再针对具体任务微调 📖,效果好到炸裂 |
| 大模型时代(2020) | GPT-3(1750 亿参数) | 大到一定程度后"量变引发质变"——突然会做没专门教过的事 |
| 对话时代(2022) | ChatGPT | 加上人类反馈训练后,聊天流畅自然,第一次让大众感受到 AI 的能力 |
| 多模态时代(2024+) | GPT-4o / Claude | 不只会文字,还能看图、听语音、调用工具、自主完成复杂任务 |
💡 里程碑论文:《Attention Is All You Need》
作者:Vaswani 等(Google Brain & Google Research)
发表:2017 年,NeurIPS 会议
这篇论文提出了 Transformer 架构,彻底改变了整个 NLP(自然语言处理)领域。
之前的做法有什么问题?
以前的模型(如 RNN、LSTM)读句子时是"从左到右逐字读"的,就像你一个字一个字念文章——速度慢,而且读到句尾时,开头的内容已经记不太清了。
这篇论文的创新点:
论文的核心思想是 Self-Attention(自注意力机制) 📖——模型一眼看完整个句子,自动判断哪些字更重要、哪些字之间有联系。比如"猫坐在垫子上,因为它很软",模型能自动判断"它"指的是"垫子"而不是"猫",不需要逐字读。
架构概览:
Transformer 由 编码器(Encoder) 和 解码器(Decoder) 两部分组成——编码器负责"理解"输入,解码器负责"生成"输出。两者之间通过注意力机制传递信息,完全不需要逐字处理。
多头自注意力机制
为什么影响这么大?
- 速度快:可以并行处理(同时看所有字),而不是逐字等待,训练效率大幅提升
- 效果好:注意力机制让模型抓住了句子内部的深层关系
- 影响深远:后来的 BERT、GPT、Claude、Gemini……所有现代大模型都基于这个架构,只是做了各种改进
一句话总结:这篇论文用"注意力"代替了"逐字阅读",是今天所有大语言模型诞生的起点。
三、LLM 是怎么炼成的
训练一个大模型分三步,像培养一个人的成长过程:
第 1 步:预训练(博览群书)
做什么:把互联网上能找到的书籍、网页、论文全部喂给模型,让它学习语言的规律——语法、常识、逻辑推理。
类比:就像一个人从小学到大学的读书过程,读了海量文章,虽然还没什么实际工作经验,但已经"什么都能聊两句"。
花费:动辄几百万美元、跑几个月,用上千块显卡。
第 2 步:监督微调(专业培训)
做什么:用精心编写的高质量问答数据教模型"怎么跟人聊天"——有礼貌、说人话、格式清晰。
类比:大学毕业进了公司,老员工手把手教"我们公司是这么跟客户沟通的"——从学术范变成职场人。
花费:比预训练便宜得多,几天就能完成。
第 3 步:人类反馈对齐(情商训练)📖
做什么:让模型生成多个回答,人类给每个回答打分,告诉它"这样说话好,那样说话不好"。(这就是术语手册中的 RLHF)
类比:情商培训——不是教知识,而是教它什么话该说、什么话不该说。比如被问敏感问题时,学会礼貌拒绝而不是乱答。
结果:最终得到一个有用、诚实、无害的 AI 助手。
四、核心概念拆解
Token(词元)
LLM 不认"字",它认的是 Token——比字大、比词小的文本片段。
示例:"人工智能"可能被拆成 2 个 Token,"hello"可能只有 1 个 Token。中文大概 1.5 个字 = 1 个 Token。
为什么重要:模型按 Token 收费,上下文长度也是按 Token 算的。
上下文窗口(Context Window)
模型一次能"记住"的最大文字量。
示例:上下文窗口 128,000 Token ≈ 一本 300 页的书。你一次可以把整本书扔给它,让它总结、找信息。窗口小的模型(如 4,000 Token)只能记住一小段对话。
温度(Temperature)
控制回答的"创造力"——从死板到放飞。
| 温度值 | 效果 | 适用场景 |
|---|---|---|
| 0.0 | 每次回答一模一样 | 代码生成、数据提取 |
| 0.3-0.5 | 稳定但略有变化 | 翻译、摘要 |
| 0.7-0.9 | 更有创意和变化 | 写作、头脑风暴 |
| 1.0+ | 天马行空,可能跑偏 | 写诗、编故事 |
类比:温度就是"想象力旋钮"——拧到 0 是最老实的回答,拧到最大就变成了脑洞大开的科幻作家。
幻觉(Hallucination)
模型一本正经地胡说八道——看起来有理有据,实际上信息是编造的。
示例:你问"某某科学家哪年获得了诺贝尔奖?"它可能编一个看起来很合理的年份,但查无此事。
原因:模型的本质是"猜下一个字",不是"查数据库",所以它不知道什么是真什么是假,只知道什么话"看起来像对的"。
应对:重要信息一定要自己核实,或者给模型配上知识库(RAG 📖)让它查资料再回答。
参数(Parameters)
可以简单理解为模型的"脑细胞数量"——参数量越大,模型能记住的规律越复杂。
示例:GPT-3 有 1750 亿参数,GPT-4 估计是万亿级别。参数量和智力不一定成正比,但大体上"越大越聪明"。
五、主流模型速览
第一梯队(闭源)
| 模型 | 公司 | 一句话介绍 |
|---|---|---|
| GPT-4o | OpenAI | 最出名的全能选手,文字、图片、语音都能处理 |
| Claude(Sonnet/Opus) | Anthropic | 长文本处理和代码能力强,回答风格温和自然 |
| Gemini | 和 Google 生态深度整合,能处理超长文档和视频 |
开源代表
| 模型 | 公司 | 一句话介绍 |
|---|---|---|
| LLaMA | Meta(Facebook) | 开源大模型的"祖师爷",任何人都能免费下载使用 |
| Qwen(通义) | 阿里巴巴 | 中文能力突出的开源模型,性价比极高 |
| DeepSeek | 深度求索 | 中国团队出品,训练成本低但效果接近一线水平 |
| 大模型排行榜 |

一句话选型建议
- 日常聊天、写作 → GPT-4o 或 Claude
- 代码开发 → Claude 或 GPT-4o
- 中文场景 → Qwen 或 DeepSeek
- 想免费自己部署 → LLaMA
- 长文档分析 → Claude(上下文窗口大)
六、能干什么
1. 文字工作
写:邮件、报告、方案、文案、论文大纲、简历
改:润色、改写、纠错、翻译、缩写
示例:你写一段潦草的笔记,让它"整理成正式的会议纪要,300 字以内",立刻得到一份可以直接发给团队的文档。
2. 编程助手
写代码:从简单脚本到完整功能模块
解释代码:看不懂的代码扔进去,它会逐行解释
调试:把报错信息给它,它帮你定位问题
示例:你告诉它"用 Python 写一个脚本,批量把 Excel 文件转成 CSV",它直接给你可运行的代码。
3. 知识问答
查概念:“什么是区块链?用初中生能听懂的方式解释”
做对比:“微服务和单体架构各有什么优缺点?”
学语言:“帮我练习英语口语,你当面试官”
示例:把一份陌生领域的报告喂给它,让它"用通俗语言总结核心观点,列出 3 个关键结论"。
4. 创意生成
头脑风暴、起名字、写故事、编剧本、写歌词
示例:“帮我想 10 个咖啡店的名字,风格要文艺清新,中英文各一半”
5. 数据分析
让模型写 SQL 查询、分析数据趋势、生成可视化代码
示例:你给它一张表格数据,说"帮我分析哪个地区销售额最高,用柱状图展示",它会写出 Python 代码生成图表。
七、局限与挑战
幻觉(前面提过)
模型会编造信息,而且编得很像真的。解决方案:关键信息自己核实,或搭配知识库使用。
知识截止
模型的训练数据有截止日期,截止之后的事情它不知道。
示例:训练数据截止到 2024 年 6 月的模型,不知道 2025 年发生了什么。不过搭配联网搜索功能可以弥补。
知识隔离
模型训练完成后,知识就"冻结"在那个时间点了——它既不知道训练之后的新数据,也接触不到你公司内部的私有数据。
示例:2025 年发布的新政策,训练截止于 2024 年的模型一无所知;你的公司内部客户数据,模型也完全看不到。就像一场闭卷考试,考完试后教材换了新版,考生还是按旧教材答题。
应对:搭配 RAG(检索增强生成)📖 让模型先查资料再回答。
工具调用缺失
原生 LLM 只是一个"文字生成引擎",不能直接操作外部工具——它不能帮你发邮件、查数据库、调 API。
示例:你问"今天北京天气怎么样?“原生 LLM 只能根据训练数据猜一个大概,无法实时查天气 API。你需要通过 Function Calling 📖 给它装上"手脚”,让它知道如何调用外部服务。
无状态(Stateless)
模型每次调用都是一张白纸——它不记得上一次跟你聊过什么,每次对话对它来说都是"第一次见面"。
示例:第一轮你说"我女朋友生日快到了",第二轮你说"送什么好?“,模型并不知道这个"送什么"和女朋友有关,除非你把之前的对话内容作为上下文一起传给它。历史记录需要应用层(你的代码)来维护,模型自身不会"记住”。
应对:在应用层维护对话历史,每次调用时带上之前的上下文。
不擅长精确计算
模型是"猜字"而不是"计算",复杂的数学题或精确计算可能出错。
示例:问它一个大数乘法题,它可能直接编一个看起来合理但错误的答案。解决方案:让它调用计算器工具。
缺乏真实理解
模型只是根据文本规律生成回答,并不真正"理解"它说的内容。
类比:就像一个背熟了所有菜谱但从没下过厨的人——理论上什么都知道,但实际做出来可能完全是另一回事。
成本
大模型的运行需要大量算力,高质量模型的 API 调用费用不低,大规模使用需要考虑成本。
八、快速上手
最简单的方式——打开浏览器直接用:
| 工具 | 网址 | 特点 |
|---|---|---|
| ChatGPT | chat.openai.com | 最知名,有免费版 |
| Claude | claude.ai | 长文本强,每天有一定免费额度 |
| 文心一言 | yiyan.baidu.com | 百度出品,中文友好 |
| Kimi | kimi.moonshot.cn | 月之暗面,支持超长文档 |
| 通义千问 | tongyi.aliyun.com | 阿里出品,可免费使用 |
随便注册一个,就能开始聊天了——不需要写任何代码。
一个好 Prompt 的公式 📖
角色 + 任务 + 背景信息 + 输出要求
示例:
“你是一个资深 HR(角色)。请帮我写一封面试拒信(任务)。候选人参加了三轮面试,表现不错但经验稍浅,我们选了另一位更资深的候选人(背景)。语气要委婉专业,200 字以内(输出要求)。”
总结一句话
LLM 就是一个"读了几乎整个互联网的文字接龙高手"——它不能替代你的思考,但能极大地放大你的能力。用好它的关键就是:会提问,会核实。
📖 术语对照索引
以下术语在 AI_terminology_explanations.md 中有独立详细解释:
| 本文出现位置 | 术语 | 术语手册中对应条目 |
|---|---|---|
| 发展历程 | Embedding(Word2Vec) | 术语手册 #2 · 嵌入 |
| 发展历程 | Transformer | 术语手册 #25 · Transformer |
| 发展历程 | Attention Is All You Need | 术语手册 #26 · Transformer 论文 |
| 发展历程 | BERT | 术语手册 #27 · BERT |
| 发展历程 | Fine-tuning(微调) | 术语手册 #3 · 微调 |
| 训练流程第 3 步 | RLHF(人类反馈对齐) | 术语手册 #18 · RLHF |
| 核心概念·幻觉应对 | RAG(检索增强生成) | 术语手册 #5 · RAG |
| 快速上手 | Prompt Engineering(提示词工程) | 术语手册 #1 · Prompt Engineering |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)