01. LLM 到底是什么 大模型学习(基础篇)
1. 最短但准确的定义
LLM,Large Language Model,大语言模型,本质上是一个在海量文本上训练出来的模型。它最核心的能力是:
根据前面的文本,预测下一个最可能出现的 token。
这句话非常重要,因为很多看起来很复杂的能力,本质上都是从这里长出来的:
- 聊天问答
- 文本改写
- 摘要总结
- 翻译
- 分类
- 信息抽取
- 代码生成
你可以把它理解成:
它不是一次性“想完一整段答案”,而是一个 token 一个 token 往后生成。
2. 为什么它看起来像“很聪明”
很多初学者会误以为:
- 模型脑子里存着一份完整答案库
- 你一问,它就把标准答案取出来
这不准确。
更接近真实情况的是:
- 模型从大量语言数据里学到了语言模式
- 学到了“任务长什么样”
- 学到了“什么样的回答更像是在回答这个问题”
所以它会表现出很多“像理解了一样”的能力,例如:
- 能续写
- 能模仿风格
- 能遵循格式要求
- 能把一种文本形式变成另一种文本形式
例子:
输入:
请用一句话总结下面这段话:
Spring Boot 通过自动配置、starter 依赖和内嵌服务器,简化了 Java Web 应用开发。
可能输出:
Spring Boot 通过减少配置工作,让 Java Web 开发更高效。
这不是它“数据库里正好存了这句话”,而是它根据你的任务和输入内容,生成了一个很像正确总结的文本延续。
3. 你最该建立的认知模型
初学阶段,最有用的认知模型是:
- 模型吃进去的是文本
- 模型吐出来的是文本
- 中间本质是“继续预测”
其他看起来很高级的东西,很多只是包装层:
- system prompt
- user prompt
- chat history
- model 参数
- streaming 传输
- tools
- retrieval
LangChain4j、Spring AI 这类框架的价值在于“帮你组织这些部件”,但底层机制并没有改变。
4. 一个很好用的类比
你可以暂时把 LLM 理解成“极其强大的自动补全”。
老式自动补全:
- 看到几个词
- 猜下一个词
- 很笨
LLM 式自动补全:
- 能看到更长的上下文
- 能理解你给的任务约束
- 能维持角色、格式、语气、目标
- 能连续很多步生成
这个类比不是完全准确,但足够帮助你快速抓住核心。
5. “Large” 到底大在哪
“Large” 一般不只是说参数多,还往往意味着几件事叠加:
- 训练数据量大
- 参数规模大
- 训练算力大
- 可泛化能力更强
但你不要只盯着参数量。实际效果还受这些因素影响:
- 训练数据质量
- 架构设计
- 指令微调
- 对齐方式
- 推理策略
6. LLM 擅长做什么
6.1 文本改写
例如:
把这封邮件改得更专业一点。
为什么擅长:
- 这是典型的文本到文本转换任务
- 输出目标明确
6.2 信息抽取
例如:
从这段用户投诉里抽取姓名、手机号和投诉内容。
为什么擅长:
- LLM 很擅长把非结构化文本转成结构化信息
6.3 分类
例如:
把这条工单分类为 billing、technical、account 三类之一。
为什么擅长:
- 输出空间被约束了
- 任务定义明确
6.4 基于给定材料回答问题
例如:
只根据下面文章回答问题。
这种任务通常会更稳,因为:
- 回答边界更清晰
- 模型有可参考材料
7. LLM 不擅长或容易出问题的地方
7.1 没有外部依据时的精确事实
如果你问一个很冷门、很新、很容易变化的事实,模型可能会编。
7.2 严格精确计算
它有时能算对,但并不是“计算器”。涉及高精度或高可靠性计算时,应该交给工具。
7.3 超长上下文里的细节一致性
即使上下文窗口很大,也不代表它一定能稳定抓住长文里的所有细节。
7.4 高风险场景
比如:
- 医疗
- 法律
- 金融
- 安全决策
这类任务通常需要:
- 检索
- 工具
- 验证
- 人工复核
8. 为什么会出现幻觉
幻觉,hallucination,指的是:
模型生成了一段很流畅、很像真的、但其实没有依据或者不正确的内容。
根本原因是:
模型追求的是“像一个合理回答”,而不是“保证真实”。
例子:
谁获得了我们公司 2025 年内部创新大奖?
如果这个信息根本没在 prompt 里,也不是模型可靠掌握的内容,它依然可能给你编出一个看似自然的答案。
9. 聊天其实就是“结构化 Prompt”
一个聊天应用在后端通常不是“神奇对话”,而是把很多消息组织后发给模型。
所以你一定要记住:
- 模型默认没有“永久记忆”
- 这一轮它能看到什么,取决于你这次请求发了什么
10. 从 Java 后端视角怎么理解
如果你是 Java 开发者,可以把一次 LLM 调用理解成下面这条链路:
- 组装 messages
- 选择 model 和参数
- 发 HTTP 请求
- 接收生成结果
- 选择一次性返回,或者流式返回
- 必要时在请求前或请求中引入 retrieval 或 tools
这也是为什么我建议你先学底层认知,再学框架。因为框架只是把这条链路包装得更好用。
11. 本章结论
- LLM 最核心的本质是“下一个 token 预测”。
- 它之所以显得聪明,是因为这个预测过程在海量训练后非常强。
- 它不是数据库,也不是真理机器。
- 聊天本质上是结构化 Prompt。
- LangChain4j 或 Spring AI 的高级能力,本质上仍然建立在同一个底层生成过程之上。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)