从 LLM 到 Agent Skill
从 LLM 到 Agent Skill

前言
AI 圈子里每天都在冒新名词:LLM、Token、Context、Prompt、Tool、MCP、Agent、Agent Skill……
把这些概念一个一个拆开、讲清楚。
概念全景:从底层往上搭
LLM(大模型)
↓
Token → Context → Context Window
↓
Prompt(User / System)→ RAG
↓
Tool → MCP
↓
Agent → Agent Skill
1. LLM:一切的核心
LLM(Large Language Model,大语言模型)是所有 AI 技术的核心引擎。
- 现代大模型基本都基于 Transformer 架构
- 2017 年 Google 发表论文 Attention Is All You Need,发明了这套架构
- 2022 年底 GPT-3.5 是第一个真正达到可用级别的大模型
- 2023 年 3 月 GPT-4 把能力天花板拉到新高度
- 如今 Claude、Gemini 等也在各自领域与 GPT 同台竞技
大模型怎么工作?文字接龙
大模型本质上就是一个文字接龙游戏。
假设你问:「的视频怎么样?」
- 模型预测下一个词,比如「特别」
- 把「特别」追加到输入后面,再预测下一个词「得」
- 再把「得」塞回去,预测「棒」
- 直到输出结束符,完整回答:特别得棒
所以大模型会一个词一个词地输出——因为它就是这么运作的。
实际上,大模型是一个庞大的数学函数,输入输出都是数字。人类和大模型之间需要一个「中间人」:Tokenizer。
2. Token:大模型处理文本的最小单位
Tokenizer 负责两件事:
| 环节 | 作用 |
|---|---|
| 编码 | 文字 → 数字(Token ID) |
| 解码 | 数字 → 文字 |
编码分两步:
- 切分:把文本拆成最小片段,叫 Token
- 映射:每个 Token 对应一个 Token ID
例如「马克的视频怎么样」可能被切成 4 个 Token:马克 / 的 / 视频 / 怎么样。
Token ≠ 词
Token 和词没有一一对应关系:
- 「工作坊」可能被拆成「工作」+「坊」
- 「程序员」可能被拆成「程序」+「员」
- 英文
helpful可能被拆成help+ful - 某些特殊字符甚至需要 3 个 Token 表示
经验值:
- 1 Token ≈ 0.75 个英文单词
- 1 Token ≈ 1.5~2 个汉字
- 100 万 Token ≈ 150 万汉字(整套《哈利·波特》都能装下)
3. Context 与 Context Window:大模型的「临时记忆」
大模型本质上只是数学函数,并没有人类意义上的记忆。
那为什么聊天时它能记住你说过的话?
因为每次发消息,程序会把你之前的整段对话历史一起发过去。模型每次看到的都是完整对话,所以「记得住」。
Context(上下文)
Context = 大模型每次处理任务时接收到的信息总和,包括:
- 用户问题
- 对话历史
- 模型正在输出的 Token
- 工具列表
- System Prompt
- ……
可以把它看成大模型的临时记忆体。
Context Window(上下文窗口)
Context Window = Context 能容纳的最大 Token 数量。
| 模型 | Context Window |
|---|---|
| GPT-5.4 | 105 万 |
| Gemini 3.1 Pro | 100 万 |
| Claude Opus 4.6 | 100 万 |
RAG:上下文装不下怎么办?
假如你有上千页产品手册,不可能整本扔给大模型——成本高,也可能撑爆窗口。
RAG(Retrieval-Augmented Generation)的做法:
- 从手册中检索与用户问题最匹配的几个片段
- 只把这几个片段发给大模型
- 让模型基于片段回答
4. Prompt:给大模型的指令
Prompt(提示词)= 你给大模型的具体问题或指令。
- 「帮我写一首诗」→ 这就是 Prompt
- 别把它想得多神秘,就是问题或指令
写好 Prompt 很重要
模糊的 Prompt → 输出不可控(古诗、现代诗、打油诗都可能)。
清晰的 Prompt 示例:
请帮我写一首五言绝句,主题是秋天的落叶,风格要悲凉一点。
这就是 Prompt Engineering(提示词工程)——研究怎么把话说清楚。不过随着模型能力增强,对 Prompt 的依赖在降低。
两种 Prompt
| 类型 | 谁写的 | 作用 |
|---|---|---|
| User Prompt | 用户 | 具体任务 / 问题 |
| System Prompt | 开发者(后台) | 人设 + 做事规则,用户看不到 |
例子:数学辅导机器人
- System Prompt(后台):「你是耐心的数学老师,不要直接给答案,要引导学生思考。」
- User Prompt(用户输入):「3 加 5 等于几?」
有 System Prompt 约束,模型会引导思考;没有的话,可能直接回答「8」。
5. Tool:大模型的「外挂能力」
大模型的弱点:无法感知外界。
你问「今天上海天气怎么样?」,它只能说「抱歉,我无法获取实时信息」——因为它只是文字接龙,没法查天气网站。
Tool = 函数
Tool(工具)本质上就是一个函数:输入 → 处理 → 输出。
天气查询工具:输入城市和日期 → 调用气象局接口 → 返回天气信息。
完整调用流程
涉及四个角色:用户、大模型、工具、平台
| 角色 | 职责 |
|---|---|
| 用户 | 提问 |
| 大模型 | ① 选择工具并生成调用参数 ② 归纳工具返回结果 |
| 工具 | 执行具体动作(查天气等) |
| 平台 | 传话筒:转发消息、调用工具、串联流程 |
关键认知:模型不能自己调用工具。
它只能输出一段文本,告诉平台「我想调用某某工具,参数是……」。真正执行调用的是平台。
6. MCP:工具接入的统一标准
问题来了:ChatGPT、Claude、Gemini 各有一套工具接入规范,同一个工具要写 3 遍。
MCP(Model Context Protocol,模型上下文协议)就是为了解决这个问题——统一的工具接入标准。
类比:所有手机都用 Type-C,开发者按 MCP 规范写一次工具,所有支持 MCP 的平台都能用。
7. Agent:能自主规划的系统
有了 Tool + MCP,大模型能查天气了。但复杂任务需要多次工具调用。
例子:「今天天气怎么样?如果下雨,帮我查附近卖雨伞的店。」
Agent 的思考链:
- 调用定位工具 → 获取经纬度
- 调用天气工具 → 发现下雨
- 调用店铺工具 → 搜索雨伞店
- 综合信息,给出最终答案
这种能够自主规划、自主调用工具、持续工作直到完成任务的系统,就是 Agent。
代表产品:Claude Code、Codex、Gemini CLI 等。经典构建模式包括 ReAct、Plan and Execute 等。
8. Agent Skill:给 Agent 的说明文档
Agent 很强,但高频使用会遇到痛点:
每次出门前查天气、提醒带东西——你有自己的习惯(下雨带伞、风大穿外套、手机必带),还有输出格式要求。
如果每次都要在 Prompt 里塞一大段规则和示例,太反人类了。
Agent Skill 是什么?
Agent Skill = 提前写好、塞给 Agent 的一份说明文档(本质是 Markdown)。
以「出门清单」为例,结构分两层:
元数据层(封面)
| 字段 | 说明 |
|---|---|
| Name | 技能名称,如 go-out-checklist |
| Description | 技能描述 |
指令层(正文)
格式自由,把规则说清楚即可,包括:
- 目标
- 执行步骤(先定位 → 再查天气 → 按规则整理物品)
- 判断规则(下雨带伞、UV 高带帽子……)
- 输出格式
- 示例
存放规范(以 Claude Code 为例)
路径:~/.claude/skills/
- 新建文件夹,名称必须与 Skill 的 Name 一致(如
go-out-checklist) - 文件夹内新建
SKILL.md(必须大写 SKILL,不能随便起名)
启动时 Claude Code 读取元数据;只有当用户问题与 Skill 相关时,才读取完整指令层——这就是渐进式披露,节省 Token。
用户问「我要出门了,告诉我带什么」,Agent 自动匹配 Skill,按步骤调用工具,按指定格式输出。
9. 概念总结
| 概念 | 一句话 |
|---|---|
| LLM | 大语言模型,AI 的核心引擎 |
| Token | 大模型处理文本的最小单位 |
| Context | 每次任务接收的信息总和(临时记忆) |
| Context Window | Context 最多能装多少 Token |
| Prompt | 给模型的指令(User / System) |
| Tool | 模型可调用的外部函数 |
| MCP | 工具接入的统一协议 |
| Agent | 自主规划、调用工具直到完成任务的系统 |
| Agent Skill | 给 Agent 看的步骤与规则文档 |
写在最后
理解了这套体系,再看 Claude Code、Codex、Cowork、OpenClaw 等各种新产品,本质都在这个框架下运作。
AI 不是魔法,是一层一层搭起来的工程概念。从 LLM 到 Agent Skill,每一层解决一个具体问题:
- Token 解决「怎么表示文本」
- Context 解决「怎么记住对话」
- Tool 解决「怎么连接外界」
- MCP 解决「怎么统一接入」
- Agent 解决「怎么自主完成复杂任务」
- Agent Skill 解决「怎么复用个人规则和流程」
出门清单 Agent Skill 示例结构
---
name: go-out-checklist
description: 根据定位和天气,生成出门携带物品清单
---
## 目标
根据用户位置和天气,给出出门携带建议。
## 执行步骤
1. 调用定位工具获取经纬度
2. 调用天气工具获取天气信息
3. 按判断规则整理携带物品
4. 按输出格式返回结果
## 判断规则
- 下雨 → 带伞
- UV 高 → 带帽子
- 空气差 → 带口罩
- 风大 → 穿防风外套
- 无论如何 → 手机必带
## 输出格式
第一段:一句话总结
第二段:物品清单(列表)
## 示例
(用户问题 + 工具返回 + 期望输出)
本文由 [youtube_download_summary] 工具基于视频字幕 subtitle_cleaned.txt 整理生成。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)