一、大模型(LLM)是什么:本质与能力边界

1.1 定义

LLM(Large Language Model,大语言模型) 是基于深度学习(主流为 Transformer 架构)的模型,在海量文本上训练后,能够进行语言理解与生成。

1.2 两个关键点

  • 基于 Transformer 架构(2017 年论文 Attention Is All You Need 奠定基础)
  • 通过“预测下一个 Token”的概率分布来生成文本(本质是概率续写)

1.3 工作原理(直观理解)

大模型可以看作一个“概率预测系统”:

输入文本
(历史对话 + 当前问题)

计算下一个 Token 的概率分布

采样/选择一个 Token 输出

生成完成?

结束生成

例:输入“今天天气很”,模型可能对下一个词给出概率:
“好”:45%
“热”:30%
“冷”:20%
其他:5%
然后选择/采样得到“好”,输出“今天天气很好”。

二、发展历程与趋势

时间 重要事件 意义
2017 Transformer 提出 现代大模型的架构基础
2022 年底 GPT-3.5 通用对话能力引爆应用
2023 年 3 月 GPT-4 复杂推理与可靠性显著提升
2023 年底 Claude、Gemini 等 多模型竞争与生态成熟

总体趋势:

  • 模型能力:从对话到推理、代码、多模态
  • 上下文窗口:从几千 Token 到十万、百万 Token
  • 应用形态:从“聊天”走向“可执行的 Agent 系统”

三、核心组件:Token 与 Tokenizer

3.1 Token 是什么

Token 是模型处理文本的最小单位,同时也是:

  • 计费与速度的基本单位
  • 上下文长度的计量单位
  • 粗略经验(不同模型/词表会变化):

英文:1 Token ≈ 0.75 个英文单词
中文:1 个汉字 ≈ 1~2 Token(平均约 1.3 Token)(取决于分词方式)

3.2 关键澄清:Token ≠ Tokenizer

  • Token:文本被切分后的片段(词、子词、标点、特殊符号等)
  • Tokenizer(分词器):负责
    编码:自然语言 → Token/ID 序列(数字)
    解码:模型输出 ID → Token → 自然语言

3.3 Token 类型(常见)

  • 词汇单元:词、子词、标点
  • 特殊 Token:如 <|start|>, <|end|>, <|pad|>(用于边界、填充、控制等)
  • 中英文差异:英文常见子词切分(例如词根/前缀),中文可能按字或词片段切分

3.4 为什么 Token 很重要

  • 成本控制:调用费用常按输入/输出 Token 计费
  • 上下文限制:窗口固定,超出会截断历史
  • 性能体验:Token 越多推理越慢,响应时间越长

四、模型结构:Context Window(上下文窗口)

4.1 定义

Context Window 是模型一次推理能容纳的 Token 总量上限,通常包含:

  • System Prompt(系统提示)
  • 历史对话
  • 用户输入
  • 模型输出(生成中的内容也占窗口)

4.2 超限会怎样

超过上限通常会:

  • 截断最早的内容(不是“智能遗忘”,而是硬性裁剪)
  • 导致回答遗漏背景、前后矛盾或答非所问

4.3 为什么它决定“能做多复杂”

  • 文档/代码分析:窗口越大,越能一次性读完整材料
  • 对话连贯性:窗口越大,越能保持长对话一致性
  • 复杂任务:需要更多约束、上下文、例子时更依赖大窗口

五、提示工程:Prompt

5.1 Prompt 是什么

  • Prompt 是你提供给模型的所有指令与内容,直接影响输出质量与可控性。

5.2 常见 Prompt 类型

  • User Prompt:用户的直接提问/需求
  • System Prompt:定义角色、风格、边界与约束(更高优先级)
  • Zero-shot:不提供示例,直接要求输出
  • Few-shot:提供若干示例,让模型学习输出格式或规则

5.3 Prompt 最佳实践(可复用)

  • 明确具体:把“做什么、不要做什么、做到什么程度”写清楚
  • 补足上下文:受众、场景、目标、限制条件、输入数据说明
  • 指定输出格式:比如表格、JSON、分步骤、要点列表
  • 复杂任务分解:先计划再执行,或要求分步推理/检查
  • 设置角色与标准:如“你是资深后端工程师,输出包含边界条件与复杂度分析”

六、外部增强:Tool(工具)为什么必要、怎么协作

6.1 大模型的典型“先天短板”

  • 实时性不足:训练数据可能过期
  • 精确计算不可靠:长算式/高精度容易出错
  • 无法直接访问外部世界:不能天然联网、查库、读写文件、调用业务系统

6.2 Tool 能带来什么

  • Tool 用来补齐短板,让系统具备可执行能力

例如:
联网搜索 / 知识检索(RAG)
代码执行 / 计算器
数据库查询 / 数据分析
第三方 API(天气、地图、业务接口)
文件系统操作、自动化脚本等

6.3 Tool 的典型调用链

用户提问 → 模型判断需要工具 → 生成工具调用参数 → 系统执行工具 → 将结果回传给模型 → 模型整合输出给用户

用户提问

模型判断需要工具

生成工具调用参数

系统执行工具

将结果回传给模型

模型整合输出给用户

七、端到端工作流程:从输入到输出到底发生了什么

一个更贴近真实系统的顺序通常是:

不需要

需要

用户输入

构建上下文
(System Prompt + 历史对话 + 当前输入)

Tokenizer 编码
(文本 → Token/ID)

LLM 推理生成
(预测下一个 Token,循环)

是否需要调用 Tool?

生成最终回答
(整合结果、按格式输出)

Tool 执行并回灌结果

八、角色分工与分层架构:Model / Tool / Agent / Skill / MCP

8.1 角色定义(面向落地)

名称 说明
User 提出目标与约束
Context 历史对话、背景材料、系统状态(短期记忆核心载体)
Prompt 把目标变成模型可执行的指令(含系统提示 / 模板 / 示例)
LLM(Model) 理解与生成的核心引擎
Tool 外部能力的“原子操作”(搜索、执行、查询、调用 API)
Agent 具备自主规划、多步执行、反思纠错能力的系统层
Agent Skill 面向业务的“能力包 / 流程包”,通常会编排多个 Tool
MCP(Model Context Protocol) 用于规范模型与外部系统交互的协议 / 消息格式标准

8.2 MCP:它解决什么问题(概念层面)

  • 是什么:一种让“模型、工具、代理系统”之间能以统一方式交换信息的协议/规范
  • 为什么需要:避免“每接一个工具/换一个模型就要重写一套对接方式”,降低集成与迁移成本
  • 与 Tool 的关系:Tool 负责“做事”,MCP 更偏“怎么把请求与结果用统一结构表达并传递”

实际工程里,MCP 往往体现为标准化的消息结构、调用约定、上下文封装方式与工具描述方式。

九、技术栈与落地建议:框架、模式与体验设计

9.1 框架与常见组合

  • 框架:LangChain、LlamaIndex(常用于工具编排、RAG、Agent 工作流)
  • 模式:ReAct(Reasoning + Acting),将“推理”与“行动(工具调用)”结合
  • 工具链:搜索、代码执行器、数据库、向量库、业务 API
  • 应用形态:API 服务、Web/桌面应用、企业私有化部署

9.2 Skill 与 Tool 的区别(非常关键)

  • Tool:原子能力(一次调用完成一个具体动作)
  • Skill:业务流程能力(可多步、多工具编排,带状态与校验)

例如“订票 Skill”可能包含:收集信息 → 搜索 → 比价 → 确认 → 下单(每一步都可能调用不同 Tool)

9.3 渐进式披露(让交互更像真人助理)

  • 渐进式披露:在 Skill 执行过程中,按需分步向用户要信息、反馈进度,而不是一次性抛出一堆问题。

价值

  1. 降低用户负担
  2. 减少无效信息收集
  3. 让流程更自然、可控、可中途修正

例:用户说“帮我订票”
更好的策略:先问“出发地/目的地” → 再问“日期时间” → 再问“舱位/预算偏好” → 给方案 → 最后确认下单

十、总结

10.1 快速记忆清单

核心概念 一句话总结
LLM 的本质 Transformer 架构下的“下一个 Token 概率预测”系统
Token vs Tokenizer Token 是处理单位;Tokenizer 负责文本与 ID 的编码/解码
Context Window 模型短期记忆上限,超出后通常会截断最早的内容
Prompt 决定输出可控性与质量,系统提示用于定义角色与约束
Tool 补齐 LLM 短板,实现联网、计算、查库、调用业务系统等能力
Agent 具备自主规划、执行、反思能力,适用于复杂多步任务
Skill 面向业务的流程能力包,通常会编排多个 Tool
MCP 统一模型与外部系统的交互格式,降低集成与迁移成本
渐进式披露 提升 Skill 交互体验与任务成功率的关键产品设计方法

10.2 整体框架图

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐