【大模型组成详解】从 LLM 到 Agent 的一篇讲透

前端百草阁

430人浏览 · 2026-03-30 15:00:05

前端百草阁 · 2026-03-30 15:00:05 发布

文章目录

一、大模型（LLM）是什么：本质与能力边界

1.1 定义

LLM（Large Language Model，大语言模型）是基于深度学习（主流为 Transformer 架构）的模型，在海量文本上训练后，能够进行语言理解与生成。

1.2 两个关键点

基于 Transformer 架构（2017 年论文 Attention Is All You Need 奠定基础）
通过“预测下一个 Token”的概率分布来生成文本（本质是概率续写）

1.3 工作原理（直观理解）

大模型可以看作一个“概率预测系统”：

例：输入“今天天气很”，模型可能对下一个词给出概率：
“好”：45%
“热”：30%
“冷”：20%
其他：5%
然后选择/采样得到“好”，输出“今天天气很好”。

二、发展历程与趋势

时间	重要事件	意义
2017	Transformer 提出	现代大模型的架构基础
2022 年底	GPT-3.5	通用对话能力引爆应用
2023 年 3 月	GPT-4	复杂推理与可靠性显著提升
2023 年底	Claude、Gemini 等	多模型竞争与生态成熟

总体趋势：

模型能力：从对话到推理、代码、多模态
上下文窗口：从几千 Token 到十万、百万 Token
应用形态：从“聊天”走向“可执行的 Agent 系统”

三、核心组件：Token 与 Tokenizer

3.1 Token 是什么

Token 是模型处理文本的最小单位，同时也是：

计费与速度的基本单位
上下文长度的计量单位
粗略经验（不同模型/词表会变化）：

英文：1 Token ≈ 0.75 个英文单词
中文：1 个汉字 ≈ 1～2 Token（平均约 1.3 Token）（取决于分词方式）

3.2 关键澄清：Token ≠ Tokenizer

Token：文本被切分后的片段（词、子词、标点、特殊符号等）
Tokenizer（分词器）：负责
编码：自然语言 → Token/ID 序列（数字）
解码：模型输出 ID → Token → 自然语言

3.3 Token 类型（常见）

词汇单元：词、子词、标点
特殊 Token：如 <|start|>, <|end|>, <|pad|>（用于边界、填充、控制等）
中英文差异：英文常见子词切分（例如词根/前缀），中文可能按字或词片段切分

3.4 为什么 Token 很重要

成本控制：调用费用常按输入/输出 Token 计费
上下文限制：窗口固定，超出会截断历史
性能体验：Token 越多推理越慢，响应时间越长

四、模型结构：Context Window（上下文窗口）

4.1 定义

Context Window 是模型一次推理能容纳的 Token 总量上限，通常包含：

System Prompt（系统提示）
历史对话
用户输入
模型输出（生成中的内容也占窗口）

4.2 超限会怎样

超过上限通常会：

截断最早的内容（不是“智能遗忘”，而是硬性裁剪）
导致回答遗漏背景、前后矛盾或答非所问

4.3 为什么它决定“能做多复杂”

文档/代码分析：窗口越大，越能一次性读完整材料
对话连贯性：窗口越大，越能保持长对话一致性
复杂任务：需要更多约束、上下文、例子时更依赖大窗口

五、提示工程：Prompt

5.1 Prompt 是什么

Prompt 是你提供给模型的所有指令与内容，直接影响输出质量与可控性。

5.2 常见 Prompt 类型

User Prompt：用户的直接提问/需求
System Prompt：定义角色、风格、边界与约束（更高优先级）
Zero-shot：不提供示例，直接要求输出
Few-shot：提供若干示例，让模型学习输出格式或规则

5.3 Prompt 最佳实践（可复用）

明确具体：把“做什么、不要做什么、做到什么程度”写清楚
补足上下文：受众、场景、目标、限制条件、输入数据说明
指定输出格式：比如表格、JSON、分步骤、要点列表
复杂任务分解：先计划再执行，或要求分步推理/检查
设置角色与标准：如“你是资深后端工程师，输出包含边界条件与复杂度分析”

六、外部增强：Tool（工具）为什么必要、怎么协作

6.1 大模型的典型“先天短板”

实时性不足：训练数据可能过期
精确计算不可靠：长算式/高精度容易出错
无法直接访问外部世界：不能天然联网、查库、读写文件、调用业务系统

6.2 Tool 能带来什么

Tool 用来补齐短板，让系统具备可执行能力

例如：
联网搜索 / 知识检索（RAG）
代码执行 / 计算器
数据库查询 / 数据分析
第三方 API（天气、地图、业务接口）
文件系统操作、自动化脚本等

6.3 Tool 的典型调用链

用户提问 → 模型判断需要工具 → 生成工具调用参数 → 系统执行工具 → 将结果回传给模型 → 模型整合输出给用户

七、端到端工作流程：从输入到输出到底发生了什么

一个更贴近真实系统的顺序通常是：

八、角色分工与分层架构：Model / Tool / Agent / Skill / MCP

8.1 角色定义（面向落地）

名称	说明
User	提出目标与约束
Context	历史对话、背景材料、系统状态（短期记忆核心载体）
Prompt	把目标变成模型可执行的指令（含系统提示 / 模板 / 示例）
LLM（Model）	理解与生成的核心引擎
Tool	外部能力的“原子操作”（搜索、执行、查询、调用 API）
Agent	具备自主规划、多步执行、反思纠错能力的系统层
Agent Skill	面向业务的“能力包 / 流程包”，通常会编排多个 Tool
MCP（Model Context Protocol）	用于规范模型与外部系统交互的协议 / 消息格式标准

8.2 MCP：它解决什么问题（概念层面）

是什么：一种让“模型、工具、代理系统”之间能以统一方式交换信息的协议/规范
为什么需要：避免“每接一个工具/换一个模型就要重写一套对接方式”，降低集成与迁移成本
与 Tool 的关系：Tool 负责“做事”，MCP 更偏“怎么把请求与结果用统一结构表达并传递”

实际工程里，MCP 往往体现为标准化的消息结构、调用约定、上下文封装方式与工具描述方式。

九、技术栈与落地建议：框架、模式与体验设计

9.1 框架与常见组合

框架：LangChain、LlamaIndex（常用于工具编排、RAG、Agent 工作流）
模式：ReAct（Reasoning + Acting），将“推理”与“行动（工具调用）”结合
工具链：搜索、代码执行器、数据库、向量库、业务 API
应用形态：API 服务、Web/桌面应用、企业私有化部署

9.2 Skill 与 Tool 的区别（非常关键）

Tool：原子能力（一次调用完成一个具体动作）
Skill：业务流程能力（可多步、多工具编排，带状态与校验）

例如“订票 Skill”可能包含：收集信息 → 搜索 → 比价 → 确认 → 下单（每一步都可能调用不同 Tool）

9.3 渐进式披露（让交互更像真人助理）

渐进式披露：在 Skill 执行过程中，按需分步向用户要信息、反馈进度，而不是一次性抛出一堆问题。

价值：

降低用户负担
减少无效信息收集
让流程更自然、可控、可中途修正

例：用户说“帮我订票”
更好的策略：先问“出发地/目的地” → 再问“日期时间” → 再问“舱位/预算偏好” → 给方案 → 最后确认下单

十、总结

10.1 快速记忆清单

核心概念	一句话总结
LLM 的本质	Transformer 架构下的“下一个 Token 概率预测”系统
Token vs Tokenizer	Token 是处理单位；Tokenizer 负责文本与 ID 的编码/解码
Context Window	模型短期记忆上限，超出后通常会截断最早的内容
Prompt	决定输出可控性与质量，系统提示用于定义角色与约束
Tool	补齐 LLM 短板，实现联网、计算、查库、调用业务系统等能力
Agent	具备自主规划、执行、反思能力，适用于复杂多步任务
Skill	面向业务的流程能力包，通常会编排多个 Tool
MCP	统一模型与外部系统的交互格式，降低集成与迁移成本
渐进式披露	提升 Skill 交互体验与任务成功率的关键产品设计方法

10.2 整体框架图

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

【无标题】

本次基于鸿蒙ArkTS开发一款宿舍信息展示综合页面，核心融合鸿蒙七大基础布局，同时搭配Tabs标签导航、Swiper轮播组件完成功能开发。通过一个完整项目，掌握鸿蒙所有主流布局的使用场景、核心特性，实现多页面切换、成员轮播、按钮弹性排列等效果，是鸿蒙布局学习的综合性实战案例。本次综合项目，系统学习并运用了鸿蒙七大核心布局，熟练掌握了Column、Row、Flex、Stack、Grid、List、R