1. 最短但准确的定义

LLM,Large Language Model,大语言模型,本质上是一个在海量文本上训练出来的模型。它最核心的能力是:

根据前面的文本,预测下一个最可能出现的 token。

这句话非常重要,因为很多看起来很复杂的能力,本质上都是从这里长出来的:

  • 聊天问答
  • 文本改写
  • 摘要总结
  • 翻译
  • 分类
  • 信息抽取
  • 代码生成

你可以把它理解成:

它不是一次性“想完一整段答案”,而是一个 token 一个 token 往后生成。

2. 为什么它看起来像“很聪明”

很多初学者会误以为:

  • 模型脑子里存着一份完整答案库
  • 你一问,它就把标准答案取出来

这不准确。

更接近真实情况的是:

  • 模型从大量语言数据里学到了语言模式
  • 学到了“任务长什么样”
  • 学到了“什么样的回答更像是在回答这个问题”

所以它会表现出很多“像理解了一样”的能力,例如:

  • 能续写
  • 能模仿风格
  • 能遵循格式要求
  • 能把一种文本形式变成另一种文本形式

例子:

输入:

请用一句话总结下面这段话:
Spring Boot 通过自动配置、starter 依赖和内嵌服务器,简化了 Java Web 应用开发。

可能输出:

Spring Boot 通过减少配置工作,让 Java Web 开发更高效。

这不是它“数据库里正好存了这句话”,而是它根据你的任务和输入内容,生成了一个很像正确总结的文本延续。

3. 你最该建立的认知模型

初学阶段,最有用的认知模型是:

  • 模型吃进去的是文本
  • 模型吐出来的是文本
  • 中间本质是“继续预测”

其他看起来很高级的东西,很多只是包装层:

  • system prompt
  • user prompt
  • chat history
  • model 参数
  • streaming 传输
  • tools
  • retrieval

LangChain4j、Spring AI 这类框架的价值在于“帮你组织这些部件”,但底层机制并没有改变。

4. 一个很好用的类比

你可以暂时把 LLM 理解成“极其强大的自动补全”。

老式自动补全:

  • 看到几个词
  • 猜下一个词
  • 很笨

LLM 式自动补全:

  • 能看到更长的上下文
  • 能理解你给的任务约束
  • 能维持角色、格式、语气、目标
  • 能连续很多步生成

这个类比不是完全准确,但足够帮助你快速抓住核心。

5. “Large” 到底大在哪

“Large” 一般不只是说参数多,还往往意味着几件事叠加:

  • 训练数据量大
  • 参数规模大
  • 训练算力大
  • 可泛化能力更强

但你不要只盯着参数量。实际效果还受这些因素影响:

  • 训练数据质量
  • 架构设计
  • 指令微调
  • 对齐方式
  • 推理策略

6. LLM 擅长做什么

6.1 文本改写

例如:

把这封邮件改得更专业一点。

为什么擅长:

  • 这是典型的文本到文本转换任务
  • 输出目标明确

6.2 信息抽取

例如:

从这段用户投诉里抽取姓名、手机号和投诉内容。

为什么擅长:

  • LLM 很擅长把非结构化文本转成结构化信息

6.3 分类

例如:

把这条工单分类为 billing、technical、account 三类之一。

为什么擅长:

  • 输出空间被约束了
  • 任务定义明确

6.4 基于给定材料回答问题

例如:

只根据下面文章回答问题。

这种任务通常会更稳,因为:

  • 回答边界更清晰
  • 模型有可参考材料

7. LLM 不擅长或容易出问题的地方

7.1 没有外部依据时的精确事实

如果你问一个很冷门、很新、很容易变化的事实,模型可能会编。

7.2 严格精确计算

它有时能算对,但并不是“计算器”。涉及高精度或高可靠性计算时,应该交给工具。

7.3 超长上下文里的细节一致性

即使上下文窗口很大,也不代表它一定能稳定抓住长文里的所有细节。

7.4 高风险场景

比如:

  • 医疗
  • 法律
  • 金融
  • 安全决策

这类任务通常需要:

  • 检索
  • 工具
  • 验证
  • 人工复核

8. 为什么会出现幻觉

幻觉,hallucination,指的是:

模型生成了一段很流畅、很像真的、但其实没有依据或者不正确的内容。

根本原因是:

模型追求的是“像一个合理回答”,而不是“保证真实”。

例子:

谁获得了我们公司 2025 年内部创新大奖?

如果这个信息根本没在 prompt 里,也不是模型可靠掌握的内容,它依然可能给你编出一个看似自然的答案。

9. 聊天其实就是“结构化 Prompt”

一个聊天应用在后端通常不是“神奇对话”,而是把很多消息组织后发给模型。

System Prompt

模型输入

历史消息

当前用户问题

逐步生成 token

完整答案或流式分片

所以你一定要记住:

  • 模型默认没有“永久记忆”
  • 这一轮它能看到什么,取决于你这次请求发了什么

10. 从 Java 后端视角怎么理解

如果你是 Java 开发者,可以把一次 LLM 调用理解成下面这条链路:

  1. 组装 messages
  2. 选择 model 和参数
  3. 发 HTTP 请求
  4. 接收生成结果
  5. 选择一次性返回,或者流式返回
  6. 必要时在请求前或请求中引入 retrieval 或 tools

这也是为什么我建议你先学底层认知,再学框架。因为框架只是把这条链路包装得更好用。

11. 本章结论

  • LLM 最核心的本质是“下一个 token 预测”。
  • 它之所以显得聪明,是因为这个预测过程在海量训练后非常强。
  • 它不是数据库,也不是真理机器。
  • 聊天本质上是结构化 Prompt。
  • LangChain4j 或 Spring AI 的高级能力,本质上仍然建立在同一个底层生成过程之上。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐