【大模型组成详解】从 LLM 到 Agent 的一篇讲透
文章目录
一、大模型(LLM)是什么:本质与能力边界
1.1 定义
LLM(Large Language Model,大语言模型) 是基于深度学习(主流为 Transformer 架构)的模型,在海量文本上训练后,能够进行语言理解与生成。
1.2 两个关键点
- 基于 Transformer 架构(2017 年论文 Attention Is All You Need 奠定基础)
- 通过“预测下一个 Token”的概率分布来生成文本(本质是概率续写)
1.3 工作原理(直观理解)
大模型可以看作一个“概率预测系统”:
例:输入“今天天气很”,模型可能对下一个词给出概率:
“好”:45%
“热”:30%
“冷”:20%
其他:5%
然后选择/采样得到“好”,输出“今天天气很好”。
二、发展历程与趋势
| 时间 | 重要事件 | 意义 |
|---|---|---|
| 2017 | Transformer 提出 | 现代大模型的架构基础 |
| 2022 年底 | GPT-3.5 | 通用对话能力引爆应用 |
| 2023 年 3 月 | GPT-4 | 复杂推理与可靠性显著提升 |
| 2023 年底 | Claude、Gemini 等 | 多模型竞争与生态成熟 |
总体趋势:
- 模型能力:从对话到推理、代码、多模态
- 上下文窗口:从几千 Token 到十万、百万 Token
- 应用形态:从“聊天”走向“可执行的 Agent 系统”
三、核心组件:Token 与 Tokenizer
3.1 Token 是什么
Token 是模型处理文本的最小单位,同时也是:
- 计费与速度的基本单位
- 上下文长度的计量单位
- 粗略经验(不同模型/词表会变化):
英文:1 Token ≈ 0.75 个英文单词
中文:1 个汉字 ≈ 1~2 Token(平均约 1.3 Token)(取决于分词方式)
3.2 关键澄清:Token ≠ Tokenizer
- Token:文本被切分后的片段(词、子词、标点、特殊符号等)
- Tokenizer(分词器):负责
编码:自然语言 → Token/ID 序列(数字)
解码:模型输出 ID → Token → 自然语言
3.3 Token 类型(常见)
- 词汇单元:词、子词、标点
- 特殊 Token:如 <|start|>, <|end|>, <|pad|>(用于边界、填充、控制等)
- 中英文差异:英文常见子词切分(例如词根/前缀),中文可能按字或词片段切分
3.4 为什么 Token 很重要
- 成本控制:调用费用常按输入/输出 Token 计费
- 上下文限制:窗口固定,超出会截断历史
- 性能体验:Token 越多推理越慢,响应时间越长
四、模型结构:Context Window(上下文窗口)
4.1 定义
Context Window 是模型一次推理能容纳的 Token 总量上限,通常包含:
- System Prompt(系统提示)
- 历史对话
- 用户输入
- 模型输出(生成中的内容也占窗口)
4.2 超限会怎样
超过上限通常会:
截断最早的内容(不是“智能遗忘”,而是硬性裁剪)- 导致回答
遗漏背景、前后矛盾或答非所问
4.3 为什么它决定“能做多复杂”
- 文档/代码分析:窗口越大,越能一次性读完整材料
- 对话连贯性:窗口越大,越能保持长对话一致性
- 复杂任务:需要更多约束、上下文、例子时更依赖大窗口
五、提示工程:Prompt
5.1 Prompt 是什么
- Prompt 是你提供给模型的所有指令与内容,直接影响输出质量与可控性。
5.2 常见 Prompt 类型
- User Prompt:用户的直接提问/需求
- System Prompt:定义角色、风格、边界与约束(更高优先级)
- Zero-shot:不提供示例,直接要求输出
- Few-shot:提供若干示例,让模型学习输出格式或规则
5.3 Prompt 最佳实践(可复用)
- 明确具体:把“做什么、不要做什么、做到什么程度”写清楚
- 补足上下文:受众、场景、目标、限制条件、输入数据说明
- 指定输出格式:比如表格、JSON、分步骤、要点列表
- 复杂任务分解:先计划再执行,或要求分步推理/检查
- 设置角色与标准:如“你是资深后端工程师,输出包含边界条件与复杂度分析”
六、外部增强:Tool(工具)为什么必要、怎么协作
6.1 大模型的典型“先天短板”
- 实时性不足:训练数据可能过期
- 精确计算不可靠:长算式/高精度容易出错
- 无法直接访问外部世界:不能天然联网、查库、读写文件、调用业务系统
6.2 Tool 能带来什么
- Tool 用来补齐短板,让系统具备可执行能力
例如:
联网搜索 / 知识检索(RAG)
代码执行 / 计算器
数据库查询 / 数据分析
第三方 API(天气、地图、业务接口)
文件系统操作、自动化脚本等
6.3 Tool 的典型调用链
用户提问 → 模型判断需要工具 → 生成工具调用参数 → 系统执行工具 → 将结果回传给模型 → 模型整合输出给用户
七、端到端工作流程:从输入到输出到底发生了什么
一个更贴近真实系统的顺序通常是:
八、角色分工与分层架构:Model / Tool / Agent / Skill / MCP
8.1 角色定义(面向落地)
| 名称 | 说明 |
|---|---|
| User | 提出目标与约束 |
| Context | 历史对话、背景材料、系统状态(短期记忆核心载体) |
| Prompt | 把目标变成模型可执行的指令(含系统提示 / 模板 / 示例) |
| LLM(Model) | 理解与生成的核心引擎 |
| Tool | 外部能力的“原子操作”(搜索、执行、查询、调用 API) |
| Agent | 具备自主规划、多步执行、反思纠错能力的系统层 |
| Agent Skill | 面向业务的“能力包 / 流程包”,通常会编排多个 Tool |
| MCP(Model Context Protocol) | 用于规范模型与外部系统交互的协议 / 消息格式标准 |
8.2 MCP:它解决什么问题(概念层面)
- 是什么:一种让“模型、工具、代理系统”之间能以统一方式交换信息的协议/规范
- 为什么需要:避免“每接一个工具/换一个模型就要重写一套对接方式”,降低集成与迁移成本
- 与 Tool 的关系:Tool 负责“做事”,MCP 更偏“怎么把请求与结果用统一结构表达并传递”
实际工程里,MCP 往往体现为标准化的消息结构、调用约定、上下文封装方式与工具描述方式。
九、技术栈与落地建议:框架、模式与体验设计
9.1 框架与常见组合
- 框架:LangChain、LlamaIndex(常用于工具编排、RAG、Agent 工作流)
- 模式:ReAct(Reasoning + Acting),将“推理”与“行动(工具调用)”结合
- 工具链:搜索、代码执行器、数据库、向量库、业务 API
- 应用形态:API 服务、Web/桌面应用、企业私有化部署
9.2 Skill 与 Tool 的区别(非常关键)
- Tool:原子能力(一次调用完成一个具体动作)
- Skill:业务流程能力(可多步、多工具编排,带状态与校验)
例如“订票 Skill”可能包含:收集信息 → 搜索 → 比价 → 确认 → 下单(每一步都可能调用不同 Tool)
9.3 渐进式披露(让交互更像真人助理)
- 渐进式披露:在 Skill 执行过程中,按需分步向用户要信息、反馈进度,而不是一次性抛出一堆问题。
价值:
- 降低用户负担
- 减少无效信息收集
- 让流程更自然、可控、可中途修正
例:用户说“帮我订票”
更好的策略:先问“出发地/目的地” → 再问“日期时间” → 再问“舱位/预算偏好” → 给方案 → 最后确认下单
十、总结
10.1 快速记忆清单
| 核心概念 | 一句话总结 |
|---|---|
| LLM 的本质 | Transformer 架构下的“下一个 Token 概率预测”系统 |
| Token vs Tokenizer | Token 是处理单位;Tokenizer 负责文本与 ID 的编码/解码 |
| Context Window | 模型短期记忆上限,超出后通常会截断最早的内容 |
| Prompt | 决定输出可控性与质量,系统提示用于定义角色与约束 |
| Tool | 补齐 LLM 短板,实现联网、计算、查库、调用业务系统等能力 |
| Agent | 具备自主规划、执行、反思能力,适用于复杂多步任务 |
| Skill | 面向业务的流程能力包,通常会编排多个 Tool |
| MCP | 统一模型与外部系统的交互格式,降低集成与迁移成本 |
| 渐进式披露 | 提升 Skill 交互体验与任务成功率的关键产品设计方法 |
10.2 整体框架图

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)