LLM(大语言模型)通俗指南

零基础也能看懂的大模型入门

📖 = 该术语在 AI_terminology_explanations.md 中有独立词条,可对照阅读


一、什么是 LLM

LLM(Large Language Model),大语言模型——就是 ChatGPT、Claude、文心一言这些 AI 聊天工具背后的"大脑"。

通俗理解:它本质上是一个"文字接龙高手"。你给它一段话,它根据学过的所有文本规律,猜出下一个最可能出现的字是什么,一个一个猜下去,就变成了一篇完整的回答。

类比:就像一个读了互联网上几乎所有文章的人,你问他什么问题,他都能根据"读过的经验"给你组织一段像样的回答。


二、发展历程

LLM 不是突然冒出来的,而是一步步"升级"上来的。

1990s         2013        2017        2018        2020        2022        2024
  │             │           │           │           │           │           │
N-gram       词向量     Transformer   BERT       GPT-3     ChatGPT     GPT-4/Claude
统计猜词     词变数字     注意力机制    双向理解   1750亿参数   突然出圈     多模态+智能体
              ↑            ↑            ↑           ↑           ↑              ↑
           "猫"变成      一眼看完      同时从左     大到令人    大众第一次    能看图、
        [0.2, 0.8...]    整段话        读到右       震撼        体验聊天     能调用工具

关键节点速查

阶段 代表技术 一句话解释
N-gram 时代(1990s) 统计语言模型 根据前两个词猜第三个词——"今天天___“→"气”,规则简单、记不住长上下文
词向量时代(2013) Word2Vec(即 Embedding)📖 把每个词变成一串数字,"猫"和"狗"的数字串很像,"猫"和"汽车"差很远
Transformer 时代(2017) Transformer 📖 革命性架构:一眼看完整个句子并自动划重点——现在所有大模型的"祖宗",出自论文 《Attention Is All You Need》
预训练时代(2018) BERT 📖 / GPT 先让模型"博览群书"学语言规律,再针对具体任务微调 📖,效果好到炸裂
大模型时代(2020) GPT-3(1750 亿参数) 大到一定程度后"量变引发质变"——突然会做没专门教过的事
对话时代(2022) ChatGPT 加上人类反馈训练后,聊天流畅自然,第一次让大众感受到 AI 的能力
多模态时代(2024+) GPT-4o / Claude 不只会文字,还能看图、听语音、调用工具、自主完成复杂任务

💡 里程碑论文:《Attention Is All You Need》

作者:Vaswani 等(Google Brain & Google Research)
发表:2017 年,NeurIPS 会议

这篇论文提出了 Transformer 架构,彻底改变了整个 NLP(自然语言处理)领域。

之前的做法有什么问题?
以前的模型(如 RNN、LSTM)读句子时是"从左到右逐字读"的,就像你一个字一个字念文章——速度慢,而且读到句尾时,开头的内容已经记不太清了。

这篇论文的创新点:
论文的核心思想是 Self-Attention(自注意力机制) 📖——模型一眼看完整个句子,自动判断哪些字更重要、哪些字之间有联系。比如"猫坐在垫子上,因为它很软",模型能自动判断"它"指的是"垫子"而不是"猫",不需要逐字读。

架构概览:
Transformer 由 编码器(Encoder)解码器(Decoder) 两部分组成——编码器负责"理解"输入,解码器负责"生成"输出。两者之间通过注意力机制传递信息,完全不需要逐字处理。

多头自注意力机制

为什么影响这么大?

  • 速度快:可以并行处理(同时看所有字),而不是逐字等待,训练效率大幅提升
  • 效果好:注意力机制让模型抓住了句子内部的深层关系
  • 影响深远:后来的 BERT、GPT、Claude、Gemini……所有现代大模型都基于这个架构,只是做了各种改进

一句话总结:这篇论文用"注意力"代替了"逐字阅读",是今天所有大语言模型诞生的起点。


三、LLM 是怎么炼成的

训练一个大模型分三步,像培养一个人的成长过程:

第 1 步:预训练(博览群书)

做什么:把互联网上能找到的书籍、网页、论文全部喂给模型,让它学习语言的规律——语法、常识、逻辑推理。

类比:就像一个人从小学到大学的读书过程,读了海量文章,虽然还没什么实际工作经验,但已经"什么都能聊两句"。

花费:动辄几百万美元、跑几个月,用上千块显卡。

第 2 步:监督微调(专业培训)

做什么:用精心编写的高质量问答数据教模型"怎么跟人聊天"——有礼貌、说人话、格式清晰。

类比:大学毕业进了公司,老员工手把手教"我们公司是这么跟客户沟通的"——从学术范变成职场人。

花费:比预训练便宜得多,几天就能完成。

第 3 步:人类反馈对齐(情商训练)📖

做什么:让模型生成多个回答,人类给每个回答打分,告诉它"这样说话好,那样说话不好"。(这就是术语手册中的 RLHF)

类比:情商培训——不是教知识,而是教它什么话该说、什么话不该说。比如被问敏感问题时,学会礼貌拒绝而不是乱答。

结果:最终得到一个有用、诚实、无害的 AI 助手。


四、核心概念拆解

Token(词元)

LLM 不认"字",它认的是 Token——比字大、比词小的文本片段。

示例:"人工智能"可能被拆成 2 个 Token,"hello"可能只有 1 个 Token。中文大概 1.5 个字 = 1 个 Token。

为什么重要:模型按 Token 收费,上下文长度也是按 Token 算的。

上下文窗口(Context Window)

模型一次能"记住"的最大文字量。

示例:上下文窗口 128,000 Token ≈ 一本 300 页的书。你一次可以把整本书扔给它,让它总结、找信息。窗口小的模型(如 4,000 Token)只能记住一小段对话。

温度(Temperature)

控制回答的"创造力"——从死板到放飞。

温度值 效果 适用场景
0.0 每次回答一模一样 代码生成、数据提取
0.3-0.5 稳定但略有变化 翻译、摘要
0.7-0.9 更有创意和变化 写作、头脑风暴
1.0+ 天马行空,可能跑偏 写诗、编故事

类比:温度就是"想象力旋钮"——拧到 0 是最老实的回答,拧到最大就变成了脑洞大开的科幻作家。

幻觉(Hallucination)

模型一本正经地胡说八道——看起来有理有据,实际上信息是编造的。

示例:你问"某某科学家哪年获得了诺贝尔奖?"它可能编一个看起来很合理的年份,但查无此事。

原因:模型的本质是"猜下一个字",不是"查数据库",所以它不知道什么是真什么是假,只知道什么话"看起来像对的"。

应对:重要信息一定要自己核实,或者给模型配上知识库(RAG 📖)让它查资料再回答。

参数(Parameters)

可以简单理解为模型的"脑细胞数量"——参数量越大,模型能记住的规律越复杂。

示例:GPT-3 有 1750 亿参数,GPT-4 估计是万亿级别。参数量和智力不一定成正比,但大体上"越大越聪明"。


五、主流模型速览

第一梯队(闭源)

模型 公司 一句话介绍
GPT-4o OpenAI 最出名的全能选手,文字、图片、语音都能处理
Claude(Sonnet/Opus) Anthropic 长文本处理和代码能力强,回答风格温和自然
Gemini Google 和 Google 生态深度整合,能处理超长文档和视频

开源代表

模型 公司 一句话介绍
LLaMA Meta(Facebook) 开源大模型的"祖师爷",任何人都能免费下载使用
Qwen(通义) 阿里巴巴 中文能力突出的开源模型,性价比极高
DeepSeek 深度求索 中国团队出品,训练成本低但效果接近一线水平
大模型排行榜




一句话选型建议

  • 日常聊天、写作 → GPT-4o 或 Claude
  • 代码开发 → Claude 或 GPT-4o
  • 中文场景 → Qwen 或 DeepSeek
  • 想免费自己部署 → LLaMA
  • 长文档分析 → Claude(上下文窗口大)

六、能干什么

1. 文字工作

:邮件、报告、方案、文案、论文大纲、简历

:润色、改写、纠错、翻译、缩写

示例:你写一段潦草的笔记,让它"整理成正式的会议纪要,300 字以内",立刻得到一份可以直接发给团队的文档。

2. 编程助手

写代码:从简单脚本到完整功能模块

解释代码:看不懂的代码扔进去,它会逐行解释

调试:把报错信息给它,它帮你定位问题

示例:你告诉它"用 Python 写一个脚本,批量把 Excel 文件转成 CSV",它直接给你可运行的代码。

3. 知识问答

查概念:“什么是区块链?用初中生能听懂的方式解释”

做对比:“微服务和单体架构各有什么优缺点?”

学语言:“帮我练习英语口语,你当面试官”

示例:把一份陌生领域的报告喂给它,让它"用通俗语言总结核心观点,列出 3 个关键结论"。

4. 创意生成

头脑风暴、起名字、写故事、编剧本、写歌词

示例:“帮我想 10 个咖啡店的名字,风格要文艺清新,中英文各一半”

5. 数据分析

让模型写 SQL 查询、分析数据趋势、生成可视化代码

示例:你给它一张表格数据,说"帮我分析哪个地区销售额最高,用柱状图展示",它会写出 Python 代码生成图表。


七、局限与挑战

幻觉(前面提过)

模型会编造信息,而且编得很像真的。解决方案:关键信息自己核实,或搭配知识库使用。

知识截止

模型的训练数据有截止日期,截止之后的事情它不知道。

示例:训练数据截止到 2024 年 6 月的模型,不知道 2025 年发生了什么。不过搭配联网搜索功能可以弥补。

知识隔离

模型训练完成后,知识就"冻结"在那个时间点了——它既不知道训练之后的新数据,也接触不到你公司内部的私有数据。

示例:2025 年发布的新政策,训练截止于 2024 年的模型一无所知;你的公司内部客户数据,模型也完全看不到。就像一场闭卷考试,考完试后教材换了新版,考生还是按旧教材答题。

应对:搭配 RAG(检索增强生成)📖 让模型先查资料再回答。

工具调用缺失

原生 LLM 只是一个"文字生成引擎",不能直接操作外部工具——它不能帮你发邮件、查数据库、调 API。

示例:你问"今天北京天气怎么样?“原生 LLM 只能根据训练数据猜一个大概,无法实时查天气 API。你需要通过 Function Calling 📖 给它装上"手脚”,让它知道如何调用外部服务。

无状态(Stateless)

模型每次调用都是一张白纸——它不记得上一次跟你聊过什么,每次对话对它来说都是"第一次见面"。

示例:第一轮你说"我女朋友生日快到了",第二轮你说"送什么好?“,模型并不知道这个"送什么"和女朋友有关,除非你把之前的对话内容作为上下文一起传给它。历史记录需要应用层(你的代码)来维护,模型自身不会"记住”。

应对:在应用层维护对话历史,每次调用时带上之前的上下文。

不擅长精确计算

模型是"猜字"而不是"计算",复杂的数学题或精确计算可能出错。

示例:问它一个大数乘法题,它可能直接编一个看起来合理但错误的答案。解决方案:让它调用计算器工具。

缺乏真实理解

模型只是根据文本规律生成回答,并不真正"理解"它说的内容。

类比:就像一个背熟了所有菜谱但从没下过厨的人——理论上什么都知道,但实际做出来可能完全是另一回事。

成本

大模型的运行需要大量算力,高质量模型的 API 调用费用不低,大规模使用需要考虑成本。


八、快速上手

最简单的方式——打开浏览器直接用:

工具 网址 特点
ChatGPT chat.openai.com 最知名,有免费版
Claude claude.ai 长文本强,每天有一定免费额度
文心一言 yiyan.baidu.com 百度出品,中文友好
Kimi kimi.moonshot.cn 月之暗面,支持超长文档
通义千问 tongyi.aliyun.com 阿里出品,可免费使用

随便注册一个,就能开始聊天了——不需要写任何代码。

一个好 Prompt 的公式 📖

角色 + 任务 + 背景信息 + 输出要求

示例

“你是一个资深 HR(角色)。请帮我写一封面试拒信(任务)。候选人参加了三轮面试,表现不错但经验稍浅,我们选了另一位更资深的候选人(背景)。语气要委婉专业,200 字以内(输出要求)。”


总结一句话

LLM 就是一个"读了几乎整个互联网的文字接龙高手"——它不能替代你的思考,但能极大地放大你的能力。用好它的关键就是:会提问,会核实


📖 术语对照索引

以下术语在 AI_terminology_explanations.md 中有独立详细解释:

本文出现位置 术语 术语手册中对应条目
发展历程 Embedding(Word2Vec) 术语手册 #2 · 嵌入
发展历程 Transformer 术语手册 #25 · Transformer
发展历程 Attention Is All You Need 术语手册 #26 · Transformer 论文
发展历程 BERT 术语手册 #27 · BERT
发展历程 Fine-tuning(微调) 术语手册 #3 · 微调
训练流程第 3 步 RLHF(人类反馈对齐) 术语手册 #18 · RLHF
核心概念·幻觉应对 RAG(检索增强生成) 术语手册 #5 · RAG
快速上手 Prompt Engineering(提示词工程) 术语手册 #1 · Prompt Engineering

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐